超越網格:TokenSet與視覺AI的語義革命

賦予機器理解和生成視覺資訊能力的探索,長期以來一直面臨一個根本性挑戰:如何有效地表示構成圖像的豐富像素織錦。多年來,主流策略如同上演一齣兩幕劇。首先,將龐雜的視覺數據壓縮成更易管理、更緊湊的形式——潛在表示(latent representation)。其次,建立複雜的模型來學習和複製這個壓縮空間內的模式。然而,一個持續存在的限制給這些努力蒙上陰影:傳統 Token 化技術傾向於平等對待圖像的所有部分,無論其資訊重要性如何。

視覺機器的瓶頸:一致性的束縛

想像一下,委託一位藝術家創作,卻堅持要求他們在畫布的每一平方英寸上都使用完全相同的筆觸大小和細節層級。人臉上複雜的表情所獲得的關注,將不會比晴朗藍天的均勻廣闊或毫無特色的牆壁更多。這個比喻抓住了困擾許多傳統視覺表示方法的問題核心。源自 Variational Autoencoders (VAEs) 的技術,開創了將圖像映射到連續潛在空間的先河,以及其後繼者如 VQVAE 和 VQGAN,將這些空間離散化為 Token 序列,通常都強加了統一的空間壓縮比。

這意味著一個充滿複雜物體、紋理和互動的區域——也許是一個熙攘街景的前景——被分配到的表示「預算」,與一個簡單、同質的背景區域相同。這種固有的低效率將表示能力浪費在較不重要的區域,同時可能剝奪了更複雜區域所需的高保真度重建或生成所需的細節。

隨後的進展試圖緩解這些問題,但往往引入了自身的複雜性:

  • 層級化方法 (Hierarchical Approaches): 像 VQVAE-2、RQVAE 和 MoVQ 這樣的模型引入了多層級表示,試圖通過殘差量化 (residual quantization) 在不同尺度上捕捉資訊。雖然增加了抽象層次,但在層內可能存在的統一處理的基本問題仍然存在。
  • 編碼簿擴展挑戰 (Codebook Scaling Challenges): 像 FSQ、SimVQ 和 VQGAN-LC 等努力,專注於解決在嘗試增加 Token 詞彙量(編碼簿)時可能發生的「表示崩潰」問題,這是捕捉更精細細節的必要步驟。然而,有效地管理這些大型離散詞彙表仍然是一個障礙。
  • 池化策略 (Pooling Strategies): 一些方法依賴池化操作來提取低維度特徵。雖然對於像分類這樣的某些任務有效,但池化本質上會聚合資訊,常常丟失細粒度的細節。關鍵的是,這些方法通常缺乏對構成池化特徵的單個元素的直接監督信號,使得為細節至關重要的生成任務優化表示變得困難。由此產生的特徵對於準確重建或生成複雜視覺內容可能並非最佳。
  • 基於對應的匹配 (Correspondence-Based Matching): 從集合建模 (set modeling) 中汲取靈感、從更簡單的 Bag-of-Words 概念演變而來的技術,有時會採用二分圖匹配算法(如 DETR 或 TSPN 中使用的匈牙利算法)來建立預測元素與真實標籤之間的對應關係。然而,這種匹配過程本身可能引入不穩定性。分配給特定預測元素的監督信號可能因匹配結果而在不同的訓練迭代之間發生變化,導致梯度不一致,並可能阻礙有效的收斂。當模型的目標不斷變化時,它可能難以學習穩定的表示。

貫穿這些不同方法的潛在主題是,與僵化的、通常基於序列的表示所施加的約束進行鬥爭,以及難以根據圖像區域本身嵌入的語義意義,在最需要的地方動態分配表示資源。

重新思考像素:基於集合的視覺黎明

由於對序列化、統一壓縮表示的局限性感到沮喪,來自中國科學技術大學 (University of Science and Technology of China) 和騰訊混元研究 (Tencent Hunyuan Research) 的研究人員走上了一條不同的道路。他們質疑了圖像必須像句子中的單詞一樣,作為有序 Token 序列來處理的基本假設。他們創新的答案是 TokenSet,一個代表著向更靈活、更具語義感知的方法範式轉變的框架。

在其核心,TokenSet 摒棄了 Token 序列的僵化結構,轉而將圖像表示為一個 Token 的無序集合 (unordered set of tokens)。這個看似簡單的改變具有深遠的影響:

  1. 動態表示能力 (Dynamic Representational Capacity): 與在各處應用固定壓縮比的方法不同,TokenSet 被設計為動態分配編碼容量。它直觀地理解圖像的不同區域承載著不同的語義權重。細節豐富、意義複雜的區域可以佔據更大份額的表示資源,而較簡單的背景區域則需要較少。這反映了人類的視覺感知,我們自然會將更多的認知資源集中在顯著的物體和細節上。
  2. 增強的全局上下文 (Enhanced Global Context): 通過將 Token 視為集合的成員而非鏈條中的環節,TokenSet 從本質上解耦了序列模型(如在補丁序列上操作的 transformers)通常強加的 Token 間位置關係。集合中的每個 Token 原則上可以關注或整合來自所有其他 Token 的資訊,而不受預定空間順序的偏見。這有助於更好地聚合全局上下文資訊,使表示能夠更有效地捕捉長距離依賴關係和整體場景構成。每個 Token 的理論感受野可以涵蓋整個圖像的特徵空間。
  3. 改進的穩健性 (Improved Robustness): 集合表示的無序性質使其對局部擾動或微小的空間變化具有更強的穩健性。由於意義來自於 Token 的集合而非其精確順序,輸入圖像中的輕微位移或失真不太可能大幅改變整體表示。

從空間僵化的序列轉向靈活、無序的集合,使得表示能夠內在地更貼合圖像的內容,為更高效、更有意義的視覺理解和生成鋪平了道路。

捕捉本質:TokenSet 中的動態分配

根據語義複雜性動態分配表示能力的承諾是 TokenSet 吸引力的核心。它是如何實現這一壯舉的?雖然具體機制涉及複雜的神經網絡架構和訓練目標,但其基本原理是擺脫固定的網格和統一的處理方式。

想像一下,圖像分析不是通過固定的棋盤格模式,而是通過更具適應性的過程。被識別為語義豐富的區域——也許包含獨特的物體、複雜的紋理或對圖像敘事至關重要的區域——會觸發分配更多描述性 Token 或具有更高資訊容量的 Token。相反,被認為語義稀疏的區域,如均勻的背景或簡單的漸變,則會被更簡潔地表示。

這與傳統方法形成鮮明對比,例如,提取一個 16x16 的補丁網格,每個補丁都被轉換為一個 Token,無論它包含的是複雜物體還是僅僅是空白空間。TokenSet 基於集合表示的原則運作,擺脫了這種空間僵化。

思考海灘照片的例子:

  • 傳統方法: 天空、海洋、沙灘以及前景中的人物可能都被劃分成補丁,每個補丁獲得大致相等的表示權重。大量容量被用於描述同質的藍色天空。
  • TokenSet 方法: 系統理想情況下會將更多的表示資源(也許是更多的 Token,或更複雜的 Token)分配給前景中細節豐富的人物和物體,同時使用更少或更簡單的 Token 來捕捉廣闊、相對均勻的天空和海洋區域的本質。

這種自適應分配確保了模型的「注意力」和表示保真度集中在最重要的地方,從而實現了對視覺場景更高效、更有效的編碼。這類似於為描述故事中的主要角色提供比背景佈景更大的預算。

建模無序:定和離散擴散的突破

將圖像表示為無序的 Token 集合只是成功的一半。另一個關鍵部分是弄清楚如何對這些集合的分佈進行建模。生成模型如何學習與對應於真實圖像的有效 Token 集合相關的複雜模式和概率,尤其是在順序無關緊要的情況下?傳統的基於序列的模型(如自回歸 transformers 或在序列上操作的標準擴散模型)不適合這項任務。

這就是 TokenSet 框架的第二個主要創新之處:定和離散擴散 (Fixed-Sum Discrete Diffusion, FSDD)。研究人員開發了 FSDD,作為第一個專門設計用於同時處理其基於集合的表示所施加的獨特約束的擴散框架:

  1. 離散值 (Discrete Values): Token 本身是從預定義的編碼簿(詞彙表)中提取的離散實體,而非連續值。FSDD 直接在這個離散域中操作。
  2. 固定序列長度(集合的基礎)(Fixed Sequence Length (underlying the set)): 雖然集合是無序的,但研究人員巧妙地在這些無序集合與固定長度的結構化整數序列之間建立了一個雙射映射(一對一對應)。這種映射使他們能夠利用通常在固定大小輸入上操作的擴散模型的強大能力。FSDD 經過定制,可以處理這些代表無序集合的結構化序列。
  3. 求和不變性 (Summation Invariance): 這個特性,特定於將集合映射到序列的方式,可能與確保 Token 集合的某些整體屬性或約束在擴散(加噪)和逆向(生成)過程中得以保持有關。FSDD 經過獨特設計,以尊重這種不變性,這對於正確建模集合分佈至關重要。

擴散模型通常通過逐漸向數據添加噪聲直至其變為純噪聲,然後訓練一個模型來逆轉這個過程,從噪聲開始逐漸去噪以生成數據。FSDD 將這種強大的生成範式應用於代表無序 Token 集合的結構化整數序列的特定特性。

通過成功地同時解決這三個屬性,FSDD 為學習 TokenSet 的分佈提供了一種有原則且有效的機制。它允許生成模型理解什麼構成了一個真實圖像的有效且可能的 Token 集合,並通過從這個學習到的分佈中採樣來生成新的集合(從而生成新的圖像)。這種定制的建模方法對於釋放基於集合的表示的潛力至關重要。

將理論付諸實踐:驗證與性能

一個開創性的概念需要嚴格的驗證。TokenSet 和 FSDD 的功效在具有挑戰性的 ImageNet 數據集上進行了測試,這是圖像理解和生成任務的標準基準,使用了縮放到 256x256 分辨率的圖像。性能主要通過在包含 50,000 張圖像的驗證集上的 Frechet Inception Distance (FID) 分數來衡量。較低的 FID 分數表明,就預訓練的 Inception 網絡提取的特徵而言,生成的圖像在統計上與真實圖像更相似,標誌著更高的質量和真實感。

訓練方案遵循了既定的最佳實踐,借鑒了先前工作如 TiTok 和 MaskGIT 的策略。關鍵方面包括:

  • 數據增強 (Data Augmentation): 使用了標準技術,如隨機裁剪和水平翻轉,以提高模型的穩健性。
  • 廣泛訓練 (Extensive Training): Tokenizer 組件進行了 100 萬步的訓練,並使用了大批量大小,確保了圖像到 Token 映射的充分學習。
  • 優化 (Optimization): 採用了精心調整的學習率計劃(預熱後跟隨餘弦衰減)、梯度裁剪和指數移動平均 (Exponential Moving Average, EMA),以實現穩定有效的優化。
  • 判別器引導 (Discriminator Guidance): 在訓練期間引入了一個判別器網絡,提供對抗性信號,以進一步提高生成圖像的視覺質量並穩定訓練過程。

實驗結果突顯了 TokenSet 方法的幾個關鍵優勢:

  • 確認的置換不變性 (Confirmed Permutation Invariance): 這是對基於集合概念的關鍵測試。視覺上,從同一組 Token 重建的圖像,無論解碼器處理 Token 的順序如何,看起來都是相同的。在量化指標上,不同置換下的結果保持一致。這提供了強有力的證據,表明網絡成功地學會了將 Token 視為一個無序集合,即使它在映射過程中可能只在所有可能置換的一個子集上進行了訓練,也實現了核心設計原則。
  • 卓越的全局上下文整合 (Superior Global Context Integration): 正如理論預測的那樣,與嚴格序列順序的解耦使得單個 Token 能夠更有效地整合整個圖像的資訊。序列引起的空間偏差的缺失使得對場景的理解和表示更加整體化,有助於提高生成質量。
  • 領先水平的性能 (State-of-the-Art Performance): 得益於語義感知的表示和定制的 FSDD 建模,TokenSet 框架在 ImageNet 基準測試中展現出優於先前方法的性能指標,表明其能夠生成更高保真度、更逼真的圖像。FSDD 同時滿足離散、固定長度和求和不變性屬性的獨特能力,被證明對其成功至關重要。

這些結果共同驗證了 TokenSet 不僅僅是一個理論上的新穎事物,而且是一個用於推進視覺表示和生成領域最新技術的實用且強大的框架。

影響與未來展望

TokenSet 及其基於集合的哲學的引入,不僅僅代表了一種漸進式的改進;它標誌著我們如何概念化和工程化視覺數據生成模型可能發生的轉變。通過擺脫序列化 Token 的束縛,擁抱一種能夠動態適應語義內容的表示,這項工作開闢了引人入勝的可能性:

  • 更直觀的圖像編輯: 如果圖像由對應於語義元素的 Token 集合表示,未來的界面是否能允許用戶通過直接添加、移除或修改與特定對象或區域相關的 Token 來操縱圖像?這可能導致更直觀、更具內容感知的編輯工具。
  • 組合式生成 (Compositional Generation): 基於集合的性質可能更適合組合泛化——即生成訓練期間從未明確見過的新穎物體和場景組合的能力。將圖像理解為元素的集合可能是關鍵。
  • 效率與可擴展性: 雖然需要像 FSDD 這樣複雜的建模,但基於語義的資源動態分配可能潛在地導致整體更高效的表示,特別是對於廣闊區域可能在語義上很簡單的高分辨率圖像。
  • 連接視覺與語言: 集合表示在自然語言處理中很常見(例如,詞袋模型)。在視覺領域探索基於集合的方法,可能為連接視覺和文本理解的多模態模型提供新的途徑。

TokenSet 框架,以新穎的 FSDD 建模技術為基礎,有力地證明了重新思考基本表示選擇的力量。它挑戰了長期以來對視覺數據序列結構的依賴,並突顯了能夠感知像素內嵌意義的表示的好處。雖然這項研究標誌著重要的一步,但它也僅僅是一個起點。需要進一步探索以充分理解和利用基於集合的視覺表示的潛力,這可能引領下一代功能強大且高效的生成模型,它們看待世界的方式不再像一個序列,而更像一個有意義的元素集合。