超越网格:TokenSet与视觉AI的语义革命

赋予机器理解和生成视觉信息能力的探索长期以来一直面临一个根本性挑战:如何有效地表示构成图像的丰富像素织锦。多年来,主流策略如同上演一出两幕剧。首先,将庞杂的视觉数据压缩成更易于管理、更紧凑的形式——即潜空间表示(latent representation)。其次,构建复杂的模型来学习和复制这个压缩空间内的模式。然而,一个持续存在的局限性给这些努力蒙上了阴影:传统分词(tokenization)技术倾向于平等对待图像的所有部分,无论其信息重要性如何。

机器视觉的瓶颈:均匀性的束缚

想象一下,你委托一位艺术家创作,却坚持要求他们对画布的每一平方英寸都使用完全相同的笔触大小和细节水平。人脸上复杂的表情所获得的关注度,将不会比一片均匀的晴朗蓝天或一面毫无特征的墙壁更多。这个类比恰恰抓住了困扰许多传统视觉表示方法的问题本质。源自变分自编码器(Variational Autoencoders, VAEs)的技术开创了将图像映射到连续潜空间的先河,而其后续者如 VQVAE 和 VQGAN 则将这些空间离散化为词元(token)序列,但它们通常强制施加统一的空间压缩比。

这意味着一个充满复杂物体、纹理和交互的区域——比如一个熙熙攘攘街景的前景——所分配到的表示“预算”,与一个简单、同质化的背景区域相同。这种固有的低效率将表示能力浪费在不太关键的区域上,同时可能剥夺了更复杂区域进行高保真度重建或生成所需的细节。

随后的进展试图缓解这些问题,但往往引入了自身的复杂性:

  • 层级化方法(Hierarchical Approaches): 像 VQVAE-2、RQVAE 和 MoVQ 这样的模型引入了多层级表示,试图通过残差量化(residual quantization)在不同尺度上捕捉信息。虽然增加了抽象层级,但层内可能存在的统一处理这一根本问题依然存在。
  • 码本扩展挑战(Codebook Scaling Challenges): 像 FSQ、SimVQ 和 VQGAN-LC 等工作专注于解决在尝试增加词元词汇量(码本,codebook)时可能发生的“表示坍塌”(representation collapse)问题,这是捕捉更精细细节的必要步骤。然而,高效管理这些大型离散词汇表仍然是一个障碍。
  • 池化策略(Pooling Strategies): 一些方法依赖池化操作来提取低维特征。虽然对于分类等特定任务有效,但池化本质上是聚合信息,常常丢失细粒度的细节。关键在于,这些方法通常缺乏对构成池化特征的单个元素的直接监督信号,使得为细节至关重要的生成任务优化表示变得困难。由此产生的特征对于精确重建或生成复杂的视觉内容可能是次优的。
  • 基于对应的匹配(Correspondence-Based Matching): 一些技术从集合建模(set modeling)中汲取灵感,从简单的词袋(Bag-of-Words)概念演变而来,有时采用二分图匹配算法(如 DETR 或 TSPN 中使用的匈牙利算法)来建立预测元素与真实标签(ground truth)之间的对应关系。然而,这种匹配过程本身可能引入不稳定性。分配给特定预测元素的监督信号可能因匹配结果的不同而在训练迭代之间发生变化,导致梯度不一致,并可能阻碍有效的收敛。当模型的目标不断变化时,它可能难以学习到稳定的表示。

贯穿这些不同方法的潜在主题是,它们都在与由僵化的、通常基于序列的表示所施加的约束作斗争,并且难以根据图像区域本身蕴含的语义意义(semantic meaning)来动态分配表示资源。

重新思考像素:基于集合的视觉新纪元

受限于序列化、均匀压缩表示的局限性,来自中国科学技术大学(University of Science and Technology of China)和腾讯混元研究(Tencent Hunyuan Research)的研究人员另辟蹊径。他们质疑了图像必须像句子中的单词一样作为有序词元序列来处理的基本假设。他们的创新答案是 TokenSet,一个标志着向更灵活、更具语义感知的方法范式转变的框架。

TokenSet 的核心在于摒弃了词元序列的僵化结构,转而将图像表示为一个无序的词元集合(unordered set of tokens)。这个看似简单的改变却具有深远的影响:

  1. 动态表示能力(Dynamic Representational Capacity): 与处处应用固定压缩比的方法不同,TokenSet 被设计用来动态分配编码容量。它直观地理解图像的不同区域承载着不同的语义权重。细节丰富、意义复杂的区域可以支配更多的表示资源,而简单的背景区域则需要较少资源。这与人类的视觉感知相呼应,我们自然会投入更多的认知资源关注显著的物体和细节。
  2. 增强的全局上下文(Enhanced Global Context): 通过将词元视为集合的成员而非链条中的环节,TokenSet 内在地解耦了序列模型(如在图像块序列上操作的 transformer)通常强制施加的词元间位置关系。集合中的每个词元原则上可以关注或整合来自所有其他词元的信息,而不受预定空间顺序的偏见。这有助于更好地聚合全局上下文信息,使表示能够更有效地捕捉长距离依赖关系和整体场景构图。理论上,每个词元的感受野可以覆盖整个图像的特征空间。
  3. 改进的鲁棒性(Improved Robustness): 集合表示的无序特性使其对局部扰动或微小的空间变化具有更强的鲁棒性。由于意义来源于词元的集合而非其精确顺序,输入图像中的轻微位移或失真不太可能显著改变整体表示。

从空间僵化的序列转向灵活、无序的集合,使得表示能够内在地更适应图像的内容,为更高效、更有意义的视觉理解和生成铺平了道路。

捕捉本质:TokenSet 中的动态分配

根据语义复杂性动态分配表示能力的承诺是 TokenSet 吸引力的核心。它是如何实现这一壮举的?虽然具体机制涉及复杂的神经网络架构和训练目标,但其基本原理是摆脱固定的网格和统一的处理方式。

想象一下,图像分析不再通过固定的棋盘格模式进行,而是通过一个更具适应性的过程。被识别为语义丰富的区域——也许包含独特的物体、复杂的纹理或对图像叙事至关重要的区域——会触发分配更多描述性词元或具有更高信息容量的词元。相反,被认为语义稀疏的区域,如均匀的背景或简单的渐变,则被更简洁地表示。

这与传统方法形成鲜明对比,例如,传统方法会提取一个 16x16 的图像块网格,并将每个图像块转换为一个词元,无论它包含的是复杂物体还是仅仅是空白空间。TokenSet 基于集合表示的原则运作,打破了这种空间僵化。

思考海滩照片的例子:

  • 传统方法: 天空、海洋、沙滩以及前景中的人物可能都被分割成图像块,每个图像块获得大致相等的表示权重。大量容量被用于描述同质化的蓝色天空。
  • TokenSet 方法: 系统理想情况下会为前景中细节丰富的人物和物体分配更多的表示资源(可能是更多的词元,或更复杂的词元),同时使用更少或更简单的词元来捕捉广阔、相对均匀的天空和海洋区域的本质。

这种自适应分配确保了模型的“注意力”和表示保真度集中在最重要的地方,从而实现对视觉场景更高效、更有效的编码。这类似于为故事中的主要角色提供比背景布景更大的描述预算。

建模无序:定和离散扩散的突破

将图像表示为无序的词元集合只是成功的一半。另一个关键部分是弄清楚如何对这些集合的分布进行建模。生成模型如何学习与对应于真实图像的有效词元集合相关的复杂模式和概率,尤其是在顺序无关紧要的情况下?传统的基于序列的模型(如自回归 transformer 或在序列上操作的标准扩散模型)不适合这项任务。

这就是 TokenSet 框架的第二个主要创新之处:定和离散扩散(Fixed-Sum Discrete Diffusion, FSDD)。研究人员开发 FSDD 作为第一个专门设计用于同时处理其基于集合的表示所施加的独特约束的扩散框架:

  1. 离散值(Discrete Values): 词元本身是从预定义码本(词汇表)中提取的离散实体,而非连续值。FSDD 直接在这个离散域中操作。
  2. 固定序列长度(集合的基础)(Fixed Sequence Length (underlying the set)): 虽然集合是无序的,但研究人员巧妙地在这些无序集合与固定长度的结构化整数序列之间建立了一个双射映射(bijective mapping,一一对应关系)。这种映射使他们能够利用通常在固定大小输入上操作的扩散模型的强大能力。FSDD 被定制为处理这些代表无序集合的结构化序列。
  3. 求和不变性(Summation Invariance): 这个特性,特定于将集合映射到序列的方式,很可能与确保词元集合的某些整体属性或约束在扩散(加噪)和逆向(生成)过程中得以保持有关。FSDD 经过独特设计以遵循这种不变性,这对于正确建模集合分布至关重要。

扩散模型通常通过逐步向数据添加噪声直至其变为纯噪声,然后训练一个模型来逆转这个过程,从噪声开始逐步去噪以生成数据。FSDD 将这种强大的生成范式应用于代表无序词元集合的结构化整数序列的特定特性。

通过成功地同时解决这三个属性,FSDD 提供了一种有原则且有效的机制来学习 TokenSet 的分布。它使生成模型能够理解什么构成了真实图像的有效且可能的词元集合,并通过从这个学习到的分布中采样来生成新的集合(从而生成新的图像)。这种定制化的建模方法对于释放基于集合的表示的潜力至关重要。

将理论付诸实践:验证与性能

一个开创性的概念需要严格的验证。TokenSet 和 FSDD 的功效在具有挑战性的 ImageNet 数据集上进行了测试,这是一个用于图像理解和生成任务的标准基准,使用了缩放到 256x256 分辨率的图像。性能主要通过在包含 50,000 张图像的验证集上的 Frechet Inception Distance (FID) 分数来衡量。较低的 FID 分数表明,就预训练 Inception 网络提取的特征而言,生成的图像在统计上与真实图像更相似,意味着更高的质量和真实感。

训练方案遵循了既定的最佳实践,借鉴了 TiTok 和 MaskGIT 等先前工作的策略。关键方面包括:

  • 数据增强(Data Augmentation): 使用了标准的随机裁剪和水平翻转等技术来提高模型的鲁棒性。
  • 充分训练(Extensive Training): 分词器(tokenizer)组件使用大批量(batch size)训练了 100 万步,确保充分学习图像到词元的映射。
  • 优化(Optimization): 采用了精心调整的学习率计划(预热后余弦衰减)、梯度裁剪和指数移动平均(Exponential Moving Average, EMA)来实现稳定有效的优化。
  • 判别器引导(Discriminator Guidance): 在训练期间引入了一个判别器网络,提供对抗性信号以进一步提高生成图像的视觉质量并稳定训练过程。

实验结果突显了 TokenSet 方法的几个关键优势:

  • 确认的置换不变性(Confirmed Permutation Invariance): 这是对基于集合概念的关键测试。视觉上,从同一组词元重建的图像,无论解码器处理词元的顺序如何,看起来都完全相同。定量地,指标在不同置换下保持一致。这提供了强有力的证据,表明网络成功地学会了将词元视为一个无序集合,满足了核心设计原则,即使它在映射过程中可能只在所有可能置换的一个子集上进行了训练。
  • 卓越的全局上下文整合(Superior Global Context Integration): 正如理论预测的那样,与严格序列顺序的解耦使得单个词元能够更有效地整合整个图像的信息。序列引起的空间偏差的缺失使得对场景的理解和表示更加整体化,有助于提高生成质量。
  • 达到顶尖水平的性能(State-of-the-Art Performance): 得益于语义感知的表示和量身定制的 FSDD 建模,TokenSet 框架在 ImageNet 基准上展示了优于先前方法的性能指标,表明其能够生成更高保真度、更逼真的图像。FSDD 同时满足离散、定长和求和不变性这三个属性的独特能力被证明对其成功至关重要。

这些结果共同验证了 TokenSet 不仅是一个理论上的新颖事物,而且是推动视觉表示和生成领域最新技术发展的实用且强大的框架。

影响与未来展望

TokenSet 及其基于集合的理念的引入,不仅仅是一次渐进式的改进;它预示着我们构思和设计视觉数据生成模型的方式可能发生转变。通过摆脱序列化词元的束缚,拥抱一种能够动态适应语义内容的表示,这项工作开辟了引人入胜的可能性:

  • 更直观的图像编辑: 如果图像由对应于语义元素的词元集合表示,未来的界面是否能允许用户通过直接添加、移除或修改与特定对象或区域相关的词元来操纵图像?这可能导致更直观、更具内容感知的编辑工具。
  • 组合式生成(Compositional Generation): 基于集合的特性可能更适合组合泛化——即生成训练期间从未明确见过的对象和场景的新组合的能力。将图像理解为元素的集合可能是关键。
  • 效率与可扩展性: 虽然需要像 FSDD 这样复杂的建模,但基于语义的资源动态分配可能潜在地带来整体上更高效的表示,特别是对于大片区域可能在语义上很简单的高分辨率图像。
  • 连接视觉与语言: 集合表示在自然语言处理中很常见(例如,词袋模型)。在视觉领域探索基于集合的方法可能为连接视觉和文本理解的多模态模型提供新的途径。

TokenSet 框架,以新颖的 FSDD 建模技术为基础,有力地证明了重新思考基本表示选择的力量。它挑战了长期以来对视觉数据序列结构的依赖,并突显了感知像素内嵌意义的表示的好处。虽然这项研究标志着重要的一步,但它也仅仅是一个起点。需要进一步探索以充分理解和利用基于集合的视觉表示的潜力,这可能催生下一代功能强大且高效的生成模型,它们看待世界的方式不再像一个序列,而更像一个有意义的元素集合。