グリッドを超えて:TokenSetと視覚AIの意味論的革命

機械に視覚情報を理解し生成する能力を与える探求は、長年にわたり根本的な課題に取り組んできました。それは、画像を構成するピクセルの豊かなタペストリーをいかに効率的に表現するかという問題です。何年もの間、支配的な戦略は二幕構成の劇に似ていました。第一に、広大な視覚データをより管理しやすくコンパクトな形式、すなわち潜在表現に圧縮すること。第二に、この圧縮された空間内のパターンを学習し複製するための洗練されたモデルを構築すること。しかし、これらの努力には常に限界がつきまとっていました。それは、従来のトークン化技術が、情報の重要性に関わらず、画像のすべての部分を民主的に平等に扱う傾向があることです。

視覚機械のボトルネック:均一性の制約

アーティストに依頼する際に、キャンバスの隅々まで全く同じ筆致のサイズと詳細レベルを使うよう主張することを想像してみてください。人間の顔の複雑な表情は、澄んだ青空や特徴のない壁の均一な広がりと何ら変わらない注目しか受けないでしょう。この例えは、多くの伝統的な視覚表現方法を悩ませてきた問題の本質を捉えています。画像を連続的な潜在空間にマッピングする先駆けとなったVariational Autoencoders (VAEs) や、これらの空間をトークンのシーケンスに離散化する後継のVQVAEやVQGANのような技術は、しばしば均一な空間圧縮率を課します。

これは、複雑なオブジェクト、テクスチャ、相互作用で満ち溢れた領域(例えば、賑やかな街路シーンの前景)が、単純で均質な背景領域と同じ表現「予算」しか割り当てられないことを意味します。この固有の非効率性は、重要度の低い領域に表現能力を浪費する一方で、高忠実度の再構成や生成に必要な詳細を、より複雑な領域から奪う可能性があります。

その後の進歩はこれらの問題を軽減しようと試みましたが、しばしば独自の複雑さを導入しました:

  • 階層的アプローチ: VQVAE-2、RQVAE、MoVQのようなモデルは、多段階の表現を導入し、残差量子化を通じて異なるスケールで情報を捉えようとしました。抽象化の層を追加する一方で、層内で均一な扱いが行われる可能性という根本的な問題は残り得ました。
  • コードブックスケーリングの課題: FSQ、SimVQ、VQGAN-LCのような取り組みは、より細かい詳細を捉えるために必要なトークンの語彙サイズ(コードブック)を増やそうとするときに発生しうる「表現崩壊」に対処することに焦点を当てました。しかし、これらの大きな離散語彙を効率的に管理することは依然としてハードルです。
  • プーリング戦略: いくつかの手法は、低次元の特徴を抽出するためにプーリング操作に依存しています。分類のような特定のタスクには効果的ですが、プーリングは本質的に情報を集約し、しばしば微細な詳細を失います。重要なことに、これらのアプローチは通常、プールされた特徴に寄与する個々の要素に対する直接的な教師信号を欠いており、詳細が最重要である生成タスクのために表現を最適化することを困難にします。結果として得られる特徴は、複雑な視覚コンテンツを正確に再構成または生成するには最適でない可能性があります。
  • 対応ベースのマッチング: より単純なBag-of-Wordsの概念から発展し、セットモデリングから着想を得た技術は、予測された要素とグラウンドトゥルース間の対応を確立するために、二部マッチングアルゴリズム(DETRやTSPNで使用されるハンガリアンアルゴリズムなど)を採用することがあります。しかし、このマッチングプロセス自体が不安定さを引き起こす可能性があります。特定の予測要素に割り当てられる教師信号は、マッチの結果に応じてトレーニングのイテレーションごとに変化する可能性があり、一貫性のない勾配を引き起こし、効率的な収束を妨げる可能性があります。ターゲットが絶えず変化する場合、モデルは安定した表現を学習するのに苦労するかもしれません。

これらの様々なアプローチに共通する根底にあるテーマは、厳格でしばしばシーケンスベースの表現によって課される制約との闘いであり、画像領域自体に埋め込まれた意味論的な意味に応じて、最も必要とされる場所に表現リソースを動的に割り当てることの難しさです。

ピクセルの再考:セットベースビジョンの夜明け

シーケンシャルで均一に圧縮された表現の限界に不満を感じたUniversity of Science and Technology of ChinaとTencent Hunyuan Researchの研究者たちは、異なる道に乗り出しました。彼らは、画像が文中の単語のように、順序付けられたトークンのシーケンスとして処理されなければならないという基本的な仮定に疑問を呈しました。彼らの革新的な答えはTokenSetであり、これはより柔軟で意味論的に認識されたアプローチへのパラダイムシフトを表すフレームワークです。

その核心において、TokenSetはトークンシーケンスの厳格な構造を放棄し、画像を順序付けられていないトークンのセットとして表現することを支持します。この一見単純な変更は、深遠な意味を持ちます:

  1. 動的な表現能力: どこにでも固定の圧縮率を適用する方法とは異なり、TokenSetはコーディング能力を動的に割り当てるように設計されています。画像の異なる領域が異なる量の意味的重みを持つことを直感的に理解します。詳細と意味が豊富な複雑な領域は、表現リソースのより大きなシェアを要求でき、一方、単純な背景領域はより少なく必要とします。これは、私たちが自然に顕著なオブジェクトや詳細により多くの認知リソースを集中させる人間の視覚認識を反映しています。
  2. 強化されたグローバルコンテキスト: トークンを鎖のリンクではなくセットのメンバーとして扱うことにより、TokenSetは、シーケンシャルモデル(パッチシーケンス上で動作するトランスフォーマーなど)によってしばしば強制されるトークン間の位置関係を本質的に切り離します。セット内の各トークンは、原則として、事前に定められた空間的順序に偏ることなく、他のすべてのトークンからの情報に注意を向けたり、統合したりすることができます。これにより、グローバルな文脈情報の優れた集約が促進され、表現が長距離の依存関係やシーン全体の構成をより効果的に捉えることができます。各トークンの理論的な受容野は、画像全体の特徴空間を包含することができます。
  3. 改善されたロバスト性: セット表現の順序付けられていない性質は、局所的な摂動やわずかな空間的変動に対するより大きなロバスト性をもたらします。意味はトークンの正確なシーケンスではなくコレクションから導き出されるため、入力画像のわずかなずれや歪みが全体的な表現を劇的に変える可能性は低くなります。

空間的に厳格なシーケンスから柔軟で順序付けられていないセットへのこの移行は、画像の内容により本質的に適合した表現を可能にし、より効率的で意味のある視覚理解と生成への道を開きます。

本質の捉え方:TokenSetにおける動的割り当て

意味論的な複雑さに基づいて表現能力を動的に割り当てるという約束は、TokenSetの魅力の中心です。それはどのようにしてこの偉業を達成するのでしょうか?具体的なメカニズムには洗練されたニューラルネットワークアーキテクチャとトレーニング目標が含まれますが、根底にある原則は、固定グリッドと均一な処理からの脱却です。

画像が固定されたチェッカーボードパターンではなく、より適応的なプロセスを通じて分析されると想像してみてください。意味論的に豊かであると識別された領域(おそらく、明確なオブジェクト、複雑なテクスチャ、または画像の物語にとって重要な領域を含む)は、より記述的なトークンまたはより高い情報容量を持つトークンの割り当てをトリガーします。逆に、意味論的に希薄であると見なされる領域(均一な背景や単純なグラデーションなど)は、より簡潔に表現されます。

これは、例えば、16x16のパッチのグリッドが抽出され、各パッチが複雑なオブジェクトを含んでいるか、単なる空白スペースであるかに関わらず、トークンに変換される従来のメソッドとは対照的です。セット表現の原則に基づいて動作するTokenSetは、この空間的な厳格さから解放されます。

ビーチ写真の例を考えてみましょう:

  • 従来のアプローチ: 空、海、砂、前景の人々はそれぞれパッチに分割され、各パッチはほぼ等しい表現重みを得るかもしれません。均質な青空を記述するために多くの容量が費やされます。
  • TokenSetアプローチ: システムは理想的には、前景の詳細な人物やオブジェクトにより多くの表現リソース(おそらくより多くのトークン、またはより複雑なトークン)を割り当て、広大で比較的均一な空と海の領域の本質を捉えるためにはより少ない、またはより単純なトークンを使用します。

この適応的な割り当てにより、モデルの「注意」と表現の忠実度が最も重要な場所に集中され、視覚シーンのより効率的で効果的なエンコーディングにつながります。これは、物語の主要な登場人物を説明するためにより大きな予算を提供することに似ています。

順序付けられていないもののモデリング:Fixed-Sum Discrete Diffusionのブレークスルー

画像を順序付けられていないトークンのセットとして表現することは、戦いの半分にすぎません。もう一つの重要な要素は、これらのセットの分布をモデル化する方法を見つけ出すことです。生成モデルは、特に順序が重要でない場合に、現実的な画像に対応する有効なトークンセットに関連する複雑なパターンと確率をどのように学習できるでしょうか?従来のシーケンスベースのモデル(自己回帰トランスフォーマーやシーケンス上で動作する標準的な拡散モデルなど)は、このタスクには不向きです。

ここで、TokenSetフレームワークの2番目の主要な革新が登場します:Fixed-Sum Discrete Diffusion (FSDD)。研究者たちは、セットベースの表現によって課される独自の制約を同時に処理するために特別に設計された最初の拡散フレームワークとしてFSDDを開発しました:

  1. 離散値: トークン自体は、連続値ではなく、事前定義されたコードブック(語彙)から引き出される離散エンティティです。FSDDはこの離散ドメインで直接動作します。
  2. 固定シーケンス長(セットの根底にある): セットは順序付けられていませんが、研究者たちはこれらの順序付けられていないセットと固定長の構造化された整数シーケンスとの間に巧妙な全単射マッピング(一対一対応)を確立しました。このマッピングにより、通常は固定サイズの入力で動作する拡散モデルの力を活用できます。FSDDは、順序付けられていないセットを表すこれらの構造化されたシーケンスで動作するように調整されています。
  3. 合計不変性: セットがシーケンスにマッピングされる方法に特有のこの特性は、トークンセットの特定の全体的なプロパティまたは制約が拡散(ノイズ追加)および逆(生成)プロセス全体を通じて保存されることを保証することに関連している可能性があります。FSDDは、セット分布を正しくモデル化するために重要なこの不変性を尊重するように独自に設計されています。

拡散モデルは通常、データに徐々にノイズを加えて純粋なノイズになるまで行い、次にこのプロセスを逆にするモデルをトレーニングし、ノイズから始めて徐々にノイズ除去してデータを生成します。FSDDは、この強力な生成パラダイムを、順序付けられていないトークンセットを表す構造化された整数シーケンスの特定の特性に適合させます。

これら3つのプロパティに同時に成功裏に取り組むことにより、FSDDはTokenSetsの分布を学習するための原則的かつ効果的なメカニズムを提供します。これにより、生成モデルは現実的な画像のための有効で可能性の高いトークンセットを構成するものを理解し、この学習された分布からサンプリングすることによって新しいセット(したがって新しい画像)を生成することができます。この特注のモデリングアプローチは、セットベースの表現の可能性を解き放つために不可欠です。

理論の実践:検証とパフォーマンス

画期的なコンセプトには厳密な検証が必要です。TokenSetとFSDDの有効性は、画像理解と生成タスクの標準的なベンチマークである困難なImageNetデータセットで、256x256解像度にスケーリングされた画像を使用してテストされました。パフォーマンスは主に、50,000画像の検証セットでのFrechet Inception Distance (FID) スコアを使用して測定されました。FIDスコアが低いほど、生成された画像が、事前にトレーニングされたInceptionネットワークによって抽出された特徴の観点から、統計的により実際の画像に類似していることを示し、より高い品質とリアリズムを意味します。

トレーニングレジメンは確立されたベストプラクティスに従い、TiTokやMaskGITなどの先行研究からの戦略を適応させました。主要な側面は次のとおりです:

  • データ拡張: モデルのロバスト性を向上させるために、ランダムクロッピングや水平反転などの標準的な技術が使用されました。
  • 広範なトレーニング: トークナイザーコンポーネントは、大きなバッチサイズで100万ステップトレーニングされ、画像からトークンへのマッピングの徹底的な学習を保証しました。
  • 最適化: 安定した効果的な最適化のために、慎重に調整された学習率スケジュール(ウォームアップ後のコサイン減衰)、勾配クリッピング、およびExponential Moving Average (EMA) が採用されました。
  • 識別器ガイダンス: トレーニング中に識別器ネットワークが組み込まれ、生成された画像の視覚的品質をさらに向上させ、トレーニングプロセスを安定させるための敵対的信号を提供しました。

実験結果は、TokenSetアプローチのいくつかの主要な強みを浮き彫りにしました:

  • 確認された順列不変性: これは、セットベースのコンセプトの重要なテストでした。視覚的には、同じトークンセットから再構成された画像は、デコーダーによってトークンが処理される順序に関係なく同一に見えました。定量的には、メトリックは異なる順列間で一貫していました。これは、ネットワークが、マッピングプロセス中に可能性のあるすべての順列のサブセットのみでトレーニングされた可能性が高いにもかかわらず、トークンを順序付けられていないセットとして扱うことを成功裏に学習したという強力な証拠を提供します。
  • 優れたグローバルコンテキスト統合: 理論によって予測されたように、厳密なシーケンシャルオーダーからの切り離しにより、個々のトークンは画像全体にわたってより効果的に情報を統合できました。シーケンスによって誘発される空間的バイアスの欠如は、シーンのより全体的な理解と表現を可能にし、生成品質の向上に貢献しました。
  • 最先端のパフォーマンス: 意味論的に認識された表現と調整されたFSDDモデリングによって可能になったTokenSetフレームワークは、ImageNetベンチマークで以前の方法と比較して優れたパフォーマンスメトリックを示し、より高い忠実度でより現実的な画像を生成する能力を示しました。離散的、固定長、および合計不変性のプロパティを同時に満たすFSDDのユニークな能力は、その成功に不可欠であることが証明されました。

これらの結果は、TokenSetを理論的な新規性としてだけでなく、視覚表現と生成の最先端を進歩させるための実用的で強力なフレームワークとして集合的に検証します。

影響と将来の展望

TokenSetとそのセットベースの哲学の導入は、単なる段階的な改善以上のものを表しています。それは、視覚データのための生成モデルをどのように概念化し、設計するかにおける潜在的なシフトを示唆しています。シリアル化されたトークンの制約から離れ、意味内容に動的に適応する表現を採用することにより、この研究は興味深い可能性を開きます:

  • より直感的な画像編集: 画像が意味要素に対応するトークンのセットによって表現される場合、将来のインターフェースは、ユーザーが特定のオブジェクトや領域に関連するトークンを直接追加、削除、または変更することによって画像を操作できるようにするでしょうか?これは、より直感的でコンテンツ認識型の編集ツールにつながる可能性があります。
  • 構成的生成: セットベースの性質は、構成的一般化、つまりトレーニング中に明示的に見られなかったオブジェクトやシーンの新しい組み合わせを生成する能力により適しているかもしれません。画像を要素のコレクションとして理解することが鍵となる可能性があります。
  • 効率とスケーラビリティ: FSDDのような洗練されたモデリングを必要としますが、意味論に基づくリソースの動的割り当ては、特に広大な領域が意味論的に単純である可能性のある高解像度画像に対して、全体としてより効率的な表現につながる可能性があります。
  • 視覚と言語の橋渡し: セット表現は自然言語処理(例:bags of words)で一般的です。視覚におけるセットベースのアプローチを探求することは、視覚的理解とテキスト的理解を橋渡しするマルチモーダルモデルのための新しい道を提供するかもしれません。

新しいFSDDモデリング技術に支えられたTokenSetフレームワークは、基本的な表現の選択肢を再考する力の説得力のあるデモンストレーションを提供します。それは、視覚データに対するシーケンシャル構造への長年の依存に挑戦し、ピクセル内に埋め込まれた意味を認識する表現の利点を強調します。この研究は重要な一歩を示していますが、それはまた出発点でもあります。セットベースの視覚表現の可能性を完全に理解し、活用するためにはさらなる探求が必要であり、それは、世界をシーケンスとしてではなく、意味のある要素のコレクションとしてより多く見る、次世代の高性能で効率的な生成モデルにつながる可能性があります。