Upaya untuk menanamkan kemampuan pada mesin untuk memahami dan menghasilkan informasi visual telah lama bergulat dengan tantangan mendasar: bagaimana cara merepresentasikan permadani piksel yang kaya yang membentuk sebuah gambar secara efisien. Selama bertahun-tahun, strategi dominan mencerminkan permainan dua babak. Pertama, kompres data visual yang luas menjadi bentuk yang lebih mudah dikelola dan ringkas – representasi laten. Kedua, bangun model canggih untuk mempelajari dan mereplikasi pola dalam ruang terkompresi ini. Namun, keterbatasan yang terus-menerus membayangi upaya ini: kecenderungan teknik tokenisasi konvensional untuk memperlakukan semua bagian gambar dengan kesetaraan demokratis, terlepas dari signifikansi informasionalnya.
Hambatan dalam Mesin Penglihatan: Kendala Keseragaman
Bayangkan menugaskan seorang seniman tetapi bersikeras agar mereka menggunakan ukuran sapuan kuas dan tingkat detail yang sama persis untuk setiap inci persegi kanvas. Ekspresi rumit pada wajah manusia tidak akan menerima perhatian lebih dari hamparan langit biru jernih yang seragam atau dinding tanpa fitur. Analogi ini menangkap esensi masalah yang menjangkiti banyak metode representasi visual tradisional. Teknik yang berasal dari Variational Autoencoders (VAEs), yang memelopori pemetaan gambar ke dalam ruang laten kontinu, dan penerusnya seperti VQVAE dan VQGAN, yang mendiskritisasi ruang-ruang ini menjadi urutan token, sering kali memaksakan rasio kompresi spasial yang seragam.
Ini berarti wilayah yang penuh dengan objek, tekstur, dan interaksi yang kompleks – latar depan pemandangan jalanan yang ramai, mungkin – dialokasikan ‘anggaran’ representasional yang sama dengan area latar belakang yang sederhana dan homogen. Inefisiensi inheren ini menyia-nyiakan kapasitas representasional pada wilayah yang kurang kritis sambil berpotensi membuat area yang lebih kompleks kekurangan detail yang dibutuhkan untuk rekonstruksi atau generasi fidelitas tinggi.
Kemajuan selanjutnya mencoba untuk mengurangi masalah ini, tetapi sering kali memperkenalkan kompleksitas mereka sendiri:
- Pendekatan Hierarkis: Model seperti VQVAE-2, RQVAE, dan MoVQ memperkenalkan representasi multi-level, mencoba menangkap informasi pada skala yang berbeda melalui kuantisasi residual. Meskipun menambahkan lapisan abstraksi, masalah mendasar perlakuan yang berpotensi seragam dalam lapisan dapat tetap ada.
- Tantangan Penskalaan Codebook: Upaya seperti FSQ, SimVQ, dan VQGAN-LC berfokus pada penanganan ‘keruntuhan representasi’ yang dapat terjadi ketika mencoba meningkatkan ukuran kosakata (codebook) token, langkah yang diperlukan untuk menangkap detail yang lebih halus. Namun, mengelola kosakata diskrit yang besar ini secara efisien tetap menjadi rintangan.
- Strategi Pooling: Beberapa metode mengandalkan operasi pooling untuk mengekstrak fitur berdimensi lebih rendah. Meskipun efektif untuk tugas-tugas tertentu seperti klasifikasi, pooling secara inheren mengagregasi informasi, sering kali kehilangan detail halus. Yang terpenting, pendekatan ini biasanya tidak memiliki sinyal pengawasan langsung pada elemen individual yang berkontribusi pada fitur yang di-pool, sehingga sulit untuk mengoptimalkan representasi untuk tugas generatif di mana detail sangat penting. Fitur yang dihasilkan bisa suboptimal untuk merekonstruksi atau menghasilkan konten visual yang kompleks secara akurat.
- Pencocokan Berbasis Korespondensi: Teknik yang mengambil inspirasi dari pemodelan set, berkembang dari konsep Bag-of-Words yang lebih sederhana, terkadang menggunakan algoritma pencocokan bipartit (seperti algoritma Hungarian yang digunakan dalam DETR atau TSPN) untuk membangun korespondensi antara elemen yang diprediksi dan ground truth. Namun, proses pencocokan ini sendiri dapat menimbulkan ketidakstabilan. Sinyal pengawasan yang ditugaskan ke elemen prediksi tertentu dapat berubah dari satu iterasi pelatihan ke iterasi berikutnya tergantung pada hasil pencocokan, yang mengarah ke gradien yang tidak konsisten dan berpotensi menghambat konvergensi yang efisien. Model mungkin kesulitan mempelajari representasi yang stabil ketika targetnya terus berubah.
Tema mendasar di berbagai pendekatan ini adalah perjuangan melawan kendala yang dipaksakan oleh representasi yang kaku, seringkali berbasis urutan, dan kesulitan mengalokasikan sumber daya representasional secara dinamis di tempat yang paling dibutuhkan – sesuai dengan makna semantik yang tertanam dalam wilayah gambar itu sendiri.
Memikirkan Ulang Piksel: Fajar Visi Berbasis Set
Frustrasi oleh keterbatasan representasi berurutan yang dikompresi secara seragam, para peneliti dari University of Science and Technology of China dan Tencent Hunyuan Research memulai jalur yang berbeda. Mereka mempertanyakan asumsi mendasar bahwa gambar harus diproses sebagai urutan token yang teratur, mirip dengan kata-kata dalam kalimat. Jawaban inovatif mereka adalah TokenSet, sebuah kerangka kerja yang mewakili pergeseran paradigma menuju pendekatan yang lebih fleksibel dan sadar semantik.
Pada intinya, TokenSet meninggalkan struktur kaku urutan token demi merepresentasikan gambar sebagai set token yang tidak berurutan. Perubahan yang tampaknya sederhana ini memiliki implikasi mendalam:
- Kapasitas Representasional Dinamis: Tidak seperti metode yang menerapkan rasio kompresi tetap di mana-mana, TokenSet dirancang untuk mengalokasikan kapasitas pengkodean secara dinamis. Secara intuitif ia memahami bahwa wilayah gambar yang berbeda membawa bobot semantik yang berbeda. Area kompleks, kaya detail dan makna, dapat memerintahkan bagian sumber daya representasional yang lebih besar, sementara wilayah latar belakang yang lebih sederhana membutuhkan lebih sedikit. Ini mencerminkan persepsi visual manusia, di mana kita secara alami memfokuskan lebih banyak sumber daya kognitif pada objek dan detail yang menonjol.
- Konteks Global yang Ditingkatkan: Dengan memperlakukan token sebagai anggota set daripada tautan dalam rantai, TokenSet secara inheren memisahkan hubungan posisi antar-token yang sering dipaksakan oleh model sekuensial (seperti transformer yang beroperasi pada urutan patch). Setiap token dalam set dapat, pada prinsipnya, memperhatikan atau mengintegrasikan informasi dari semua token lain tanpa bias oleh urutan spasial yang telah ditentukan sebelumnya. Ini memfasilitasi agregasi informasi kontekstual global yang unggul, memungkinkan representasi untuk menangkap dependensi jarak jauh dan komposisi pemandangan keseluruhan secara lebih efektif. Bidang reseptif teoretis untuk setiap token dapat mencakup seluruh ruang fitur gambar.
- Peningkatan Kekokohan: Sifat tidak berurutan dari representasi set membuatnya lebih kokoh terhadap perturbasi lokal atau variasi spasial kecil. Karena makna berasal dari kumpulan token daripada urutan tepatnya, sedikit pergeseran atau distorsi pada gambar input cenderung tidak mengubah representasi keseluruhan secara drastis.
Langkah dari urutan yang kaku secara spasial ke set yang fleksibel dan tidak berurutan memungkinkan representasi yang secara inheren lebih selaras dengan konten gambar, membuka jalan bagi pemahaman dan generasi visual yang lebih efisien dan bermakna.
Menangkap Esensi: Alokasi Dinamis dalam TokenSet
Janji untuk mengalokasikan kekuatan representasional secara dinamis berdasarkan kompleksitas semantik adalah inti dari daya tarik TokenSet. Bagaimana ia mencapai prestasi ini? Meskipun mekanisme spesifik melibatkan arsitektur jaringan saraf dan tujuan pelatihan yang canggih, prinsip dasarnya adalah penyimpangan dari grid tetap dan pemrosesan seragam.
Bayangkan gambar dianalisis bukan melalui pola papan catur tetap, tetapi melalui proses yang lebih adaptif. Wilayah yang diidentifikasi kaya secara semantik – mungkin berisi objek yang berbeda, tekstur yang rumit, atau area yang penting bagi narasi gambar – memicu alokasi token yang lebih deskriptif atau token dengan kapasitas informasi yang lebih tinggi. Sebaliknya, area yang dianggap jarang secara semantik, seperti latar belakang seragam atau gradien sederhana, direpresentasikan secara lebih ringkas.
Ini sangat kontras dengan metode tradisional di mana, misalnya, grid patch 16x16 diekstraksi, dan setiap patch diubah menjadi token, terlepas dari apakah itu berisi objek kompleks atau hanya ruang kosong. TokenSet, yang beroperasi pada prinsip representasi set, melepaskan diri dari kekakuan spasial ini.
Pertimbangkan contoh foto pantai:
- Pendekatan Tradisional: Langit, lautan, pasir, dan orang-orang di latar depan mungkin masing-masing dibagi menjadi patch, dan setiap patch mendapatkan bobot representasional yang kira-kira sama. Banyak kapasitas dihabiskan untuk menggambarkan langit biru yang homogen.
- Pendekatan TokenSet: Sistem idealnya akan mengalokasikan lebih banyak sumber daya representasional (mungkin lebih banyak token, atau token yang lebih kompleks) ke figur dan objek detail di latar depan, sambil menggunakan lebih sedikit atau token yang lebih sederhana untuk menangkap esensi wilayah langit dan laut yang luas dan relatif seragam.
Alokasi adaptif ini memastikan bahwa ‘perhatian’ dan fidelitas representasional model terkonsentrasi di tempat yang paling penting, yang mengarah pada pengkodean pemandangan visual yang lebih efisien dan efektif. Ini mirip dengan menyediakan anggaran yang lebih besar untuk menggambarkan karakter utama dalam sebuah cerita dibandingkan dengan pemandangan latar belakang.
Memodelkan yang Tak Berurutan: Terobosan Fixed-Sum Discrete Diffusion
Merepresentasikan gambar sebagai set token yang tidak berurutan hanyalah setengah dari perjuangan. Bagian penting lainnya adalah mencari cara untuk memodelkan distribusi set ini. Bagaimana model generatif dapat mempelajari pola dan probabilitas kompleks yang terkait dengan set token yang valid yang sesuai dengan gambar realistis, terutama ketika urutan tidak penting? Model berbasis urutan tradisional (seperti transformer autoregresif atau model difusi standar yang beroperasi pada urutan) tidak cocok untuk tugas ini.
Di sinilah inovasi besar kedua dari kerangka kerja TokenSet berperan: Fixed-Sum Discrete Diffusion (FSDD). Para peneliti mengembangkan FSDD sebagai kerangka kerja difusi pertama yang secara khusus dirancang untuk secara bersamaan menangani kendala unik yang dipaksakan oleh representasi berbasis set mereka:
- Nilai Diskrit: Token itu sendiri adalah entitas diskrit yang diambil dari codebook (kosakata) yang telah ditentukan sebelumnya, bukan nilai kontinu. FSDD beroperasi langsung di domain diskrit ini.
- Panjang Urutan Tetap (mendasari set): Meskipun set tidak berurutan, para peneliti dengan cerdik membangun pemetaan bijektif (korespondensi satu-ke-satu) antara set tak berurutan ini dan urutan integer terstruktur dengan panjang tetap. Pemetaan ini memungkinkan mereka memanfaatkan kekuatan model difusi, yang biasanya beroperasi pada input berukuran tetap. FSDD dirancang untuk bekerja dengan urutan terstruktur ini yang mewakili set tak berurutan.
- Invariansi Penjumlahan: Properti ini, spesifik pada cara set dipetakan ke urutan, kemungkinan terkait dengan memastikan bahwa properti atau kendala keseluruhan tertentu dari set token dipertahankan selama proses difusi (penambahan noise) dan pembalikan (generasi). FSDD secara unik direkayasa untuk menghormati invariansi ini, yang sangat penting untuk memodelkan distribusi set dengan benar.
Model difusi biasanya bekerja dengan secara bertahap menambahkan noise ke data hingga menjadi noise murni, dan kemudian melatih model untuk membalikkan proses ini, mulai dari noise dan secara bertahap menghilangkannya untuk menghasilkan data. FSDD mengadaptasi paradigma generatif yang kuat ini ke karakteristik spesifik dari urutan integer terstruktur yang mewakili set token tak berurutan.
Dengan berhasil mengatasi ketiga properti ini secara bersamaan, FSDD menyediakan mekanisme yang berprinsip dan efektif untuk mempelajari distribusi TokenSets. Ini memungkinkan model generatif untuk memahami apa yang merupakan set token yang valid dan mungkin untuk gambar realistis dan untuk menghasilkan set baru (dan dengan demikian gambar baru) dengan mengambil sampel dari distribusi yang dipelajari ini. Pendekatan pemodelan yang dipesan lebih dahulu ini sangat penting untuk membuka potensi representasi berbasis set.
Menerapkan Teori ke Praktik: Validasi dan Kinerja
Konsep terobosan membutuhkan validasi yang ketat. Kemanjuran TokenSet dan FSDD diuji pada dataset ImageNet yang menantang, tolok ukur standar untuk tugas pemahaman dan generasi gambar, menggunakan gambar yang diskalakan ke resolusi 256x256. Kinerja terutama diukur menggunakan skor Frechet Inception Distance (FID) pada set validasi 50.000 gambar. Skor FID yang lebih rendah menunjukkan bahwa gambar yang dihasilkan secara statistik lebih mirip dengan gambar nyata dalam hal fitur yang diekstraksi oleh jaringan Inception yang telah dilatih sebelumnya, menandakan kualitas dan realisme yang lebih tinggi.
Rejimen pelatihan mengikuti praktik terbaik yang sudah mapan, mengadaptasi strategi dari pekerjaan sebelumnya seperti TiTok dan MaskGIT. Aspek kunci meliputi:
- Augmentasi Data: Teknik standar seperti pemotongan acak dan pembalikan horizontal digunakan untuk meningkatkan kekokohan model.
- Pelatihan Ekstensif: Komponen tokenizer dilatih selama 1 juta langkah dengan ukuran batch yang besar, memastikan pembelajaran menyeluruh tentang pemetaan gambar-ke-token.
- Optimasi: Jadwal laju pembelajaran yang disetel dengan hati-hati (pemanasan diikuti oleh peluruhan kosinus), pemotongan gradien, dan Exponential Moving Average (EMA) digunakan untuk optimasi yang stabil dan efektif.
- Panduan Diskriminator: Jaringan diskriminator dimasukkan selama pelatihan, memberikan sinyal adversarial untuk lebih meningkatkan kualitas visual gambar yang dihasilkan dan menstabilkan proses pelatihan.
Hasil eksperimental menyoroti beberapa kekuatan utama dari pendekatan TokenSet:
- Invariansi Permutasi Terkonfirmasi: Ini adalah ujian kritis dari konsep berbasis set. Secara visual, gambar yang direkonstruksi dari set token yang sama tampak identik terlepas dari urutan pemrosesan token oleh dekoder. Secara kuantitatif, metrik tetap konsisten di berbagai permutasi. Ini memberikan bukti kuat bahwa jaringan berhasil belajar memperlakukan token sebagai set yang tidak berurutan, memenuhi prinsip desain inti, meskipun kemungkinan hanya dilatih pada subset dari semua permutasi yang mungkin selama proses pemetaan.
- Integrasi Konteks Global yang Unggul: Seperti yang diprediksi oleh teori, pemisahan dari urutan sekuensial yang ketat memungkinkan token individual untuk mengintegrasikan informasi secara lebih efektif di seluruh gambar. Tidak adanya bias spasial yang diinduksi urutan memungkinkan pemahaman dan representasi pemandangan yang lebih holistik, berkontribusi pada peningkatan kualitas generasi.
- Kinerja State-of-the-Art: Didukung oleh representasi sadar semantik dan pemodelan FSDD yang disesuaikan, kerangka kerja TokenSet menunjukkan metrik kinerja yang unggul dibandingkan dengan metode sebelumnya pada tolok ukur ImageNet, menunjukkan kemampuannya untuk menghasilkan gambar dengan fidelitas lebih tinggi dan lebih realistis. Kemampuan unik FSDD untuk memenuhi properti diskrit, panjang tetap, dan invarian penjumlahan secara bersamaan terbukti krusial untuk keberhasilannya.
Hasil ini secara kolektif memvalidasi TokenSet tidak hanya sebagai kebaruan teoretis, tetapi sebagai kerangka kerja praktis dan kuat untuk memajukan state-of-the-art dalam representasi dan generasi visual.
Implikasi dan Prospek Masa Depan
Pengenalan TokenSet dan filosofi berbasis setnya mewakili lebih dari sekadar peningkatan bertahap; ini menandakan potensi pergeseran dalam cara kita mengkonseptualisasikan dan merekayasa model generatif untuk data visual. Dengan beralih dari kendala token berseri dan merangkul representasi yang secara dinamis beradaptasi dengan konten semantik, karya ini membuka kemungkinan menarik:
- Pengeditan Gambar yang Lebih Intuitif: Jika gambar direpresentasikan oleh set token yang sesuai dengan elemen semantik, dapatkah antarmuka masa depan memungkinkan pengguna memanipulasi gambar dengan secara langsung menambahkan, menghapus, atau memodifikasi token yang terkait dengan objek atau wilayah tertentu? Ini dapat mengarah pada alat pengeditan yang lebih intuitif dan sadar konten.
- Generasi Komposisional: Sifat berbasis set mungkin lebih cocok untuk generalisasi komposisional – kemampuan untuk menghasilkan kombinasi baru objek dan pemandangan yang tidak pernah secara eksplisit terlihat selama pelatihan. Memahami gambar sebagai kumpulan elemen bisa menjadi kuncinya.
- Efisiensi dan Skalabilitas: Meskipun memerlukan pemodelan canggih seperti FSDD, alokasi sumber daya dinamis berdasarkan semantik berpotensi menghasilkan representasi yang lebih efisien secara keseluruhan, terutama untuk gambar beresolusi tinggi di mana area luas mungkin secara semantik sederhana.
- Menjembatani Visi dan Bahasa: Representasi set umum dalam pemrosesan bahasa alami (misalnya, bags of words). Menjelajahi pendekatan berbasis set dalam visi mungkin menawarkan jalan baru untuk model multi-modal yang menjembatani pemahaman visual dan tekstual.
Kerangka kerja TokenSet, yang didukung oleh teknik pemodelan FSDD yang baru, memberikan demonstrasi yang meyakinkan tentang kekuatan memikirkan kembali pilihan representasional mendasar. Ini menantang ketergantungan lama pada struktur sekuensial untuk data visual dan menyoroti manfaat representasi yang sadar akan makna yang tertanam dalam piksel. Meskipun penelitian ini menandai langkah signifikan, ini juga berfungsi sebagai titik awal. Eksplorasi lebih lanjut diperlukan untuk sepenuhnya memahami dan memanfaatkan potensi representasi visual berbasis set, yang berpotensi mengarah pada generasi berikutnya dari model generatif yang sangat mampu dan efisien yang melihat dunia kurang seperti urutan dan lebih seperti kumpulan elemen yang bermakna.