그리드를 넘어: TokenSet과 시각 AI의 의미론적 혁명

기계에 시각 정보를 이해하고 생성하는 능력을 부여하려는 탐구는 오랫동안 근본적인 문제와 씨름해 왔습니다. 이미지를 구성하는 풍부한 픽셀 태피스트리를 어떻게 효율적으로 표현할 것인가 하는 문제입니다. 수년 동안 지배적인 전략은 2막 연극과 같았습니다. 첫째, 방대한 시각 데이터를 더 관리하기 쉽고 압축된 형태, 즉 잠재 표현(latent representation)으로 압축합니다. 둘째, 이 압축된 공간 내의 패턴을 학습하고 복제하기 위해 정교한 모델을 구축합니다. 그러나 기존의 토큰화(tokenization) 기술이 정보적 중요성에 관계없이 이미지의 모든 부분을 민주적 평등으로 취급하는 경향이라는 지속적인 한계가 이러한 노력을 가로막아 왔습니다.

보는 기계의 병목 현상: 균일성의 제약

예술가에게 작품을 의뢰하면서 캔버스의 모든 평방 인치에 대해 정확히 동일한 붓 크기와 세부 수준을 사용하도록 요구한다고 상상해 보십시오. 인간 얼굴의 복잡한 표정은 맑고 푸른 하늘이나 특징 없는 벽의 균일한 넓이보다 더 많은 관심을 받지 못할 것입니다. 이 비유는 많은 전통적인 시각 표현 방법들을 괴롭히는 문제의 본질을 포착합니다. 이미지를 연속적인 잠재 공간으로 매핑하는 선구적인 역할을 한 Variational Autoencoders (VAEs)에서 파생된 기술들과, 이러한 공간을 토큰 시퀀스로 이산화한 VQVAE 및 VQGAN과 같은 후속 기술들은 종종 균일한 공간 압축 비율을 부과합니다.

이는 복잡한 객체, 질감, 상호작용으로 가득 찬 영역(예: 번화한 거리 장면의 전경)이 단순하고 균일한 배경 영역과 동일한 표현 ‘예산’을 할당받는다는 것을 의미합니다. 이러한 내재적 비효율성은 덜 중요한 영역에 표현 용량을 낭비하는 반면, 고충실도 재구성 또는 생성에 필요한 세부 정보를 더 복잡한 영역에서 부족하게 만들 수 있습니다.

이후의 발전은 이러한 문제를 완화하려고 시도했지만, 종종 자체적인 복잡성을 도입했습니다:

  • 계층적 접근 방식 (Hierarchical Approaches): VQVAE-2, RQVAE, MoVQ와 같은 모델은 다중 수준 표현을 도입하여 잔여 양자화(residual quantization)를 통해 다양한 스케일에서 정보를 캡처하려고 시도했습니다. 추상화 계층을 추가했지만, 계층 내에서 잠재적으로 균일한 처리라는 근본적인 문제는 지속될 수 있었습니다.
  • 코드북 스케일링 문제 (Codebook Scaling Challenges): FSQ, SimVQ, VQGAN-LC와 같은 노력은 더 미세한 세부 정보를 캡처하는 데 필요한 단계인 토큰의 어휘 크기(코드북)를 늘리려고 할 때 발생할 수 있는 ‘표현 붕괴(representation collapse)’를 해결하는 데 중점을 두었습니다. 그러나 이러한 대규모 이산 어휘를 효율적으로 관리하는 것은 여전히 장애물입니다.
  • 풀링 전략 (Pooling Strategies): 일부 방법은 저차원 특징을 추출하기 위해 풀링(pooling) 연산에 의존합니다. 분류와 같은 특정 작업에는 효과적이지만, 풀링은 본질적으로 정보를 집계하여 종종 미세한 세부 정보를 잃습니다. 결정적으로, 이러한 접근 방식은 일반적으로 풀링된 특징에 기여하는 개별 요소에 대한 직접적인 감독 신호가 부족하여, 세부 정보가 가장 중요한 생성 작업에 대한 표현을 최적화하기 어렵게 만듭니다. 결과적인 특징은 복잡한 시각 콘텐츠를 정확하게 재구성하거나 생성하는 데 최적이 아닐 수 있습니다.
  • 대응 기반 매칭 (Correspondence-Based Matching): 단순한 Bag-of-Words 개념에서 발전하여 집합 모델링(set modeling)에서 영감을 얻은 기술들은 때때로 예측된 요소와 실제 값(ground truth) 간의 대응 관계를 설정하기 위해 이분 매칭 알고리즘(예: DETR 또는 TSPN에서 사용되는 Hungarian 알고리즘)을 사용합니다. 그러나 이 매칭 프로세스 자체가 불안정성을 야기할 수 있습니다. 특정 예측 요소에 할당된 감독 신호는 매칭 결과에 따라 한 훈련 반복에서 다음 반복으로 변경될 수 있으며, 이는 일관성 없는 그래디언트로 이어져 효율적인 수렴을 방해할 수 있습니다. 모델은 목표가 지속적으로 변할 때 안정적인 표현을 학습하는 데 어려움을 겪을 수 있습니다.

이러한 다양한 접근 방식 전반에 걸친 근본적인 주제는 경직되고 종종 시퀀스 기반인 표현에 의해 부과된 제약과, 이미지 영역 자체에 내재된 의미론적 의미에 따라 가장 필요한 곳에 표현 리소스를 동적으로 할당하는 어려움과의 싸움입니다.

픽셀 재고: 집합 기반 비전의 여명

순차적이고 균일하게 압축된 표현의 한계에 좌절한 University of Science and Technology of China와 Tencent Hunyuan Research의 연구원들은 다른 길을 택했습니다. 그들은 이미지가 문장의 단어처럼 정렬된 토큰 시퀀스로 처리되어야 한다는 근본적인 가정에 의문을 제기했습니다. 그들의 혁신적인 해답은 TokenSet이며, 이는 보다 유연하고 의미론적으로 인식하는 접근 방식으로의 패러다임 전환을 나타내는 프레임워크입니다.

핵심적으로, TokenSet은 토큰 시퀀스의 경직된 구조를 버리고 이미지를 **순서 없는 토큰 집합(unordered set of tokens)**으로 표현하는 것을 선호합니다. 이 간단해 보이는 변화는 심오한 영향을 미칩니다:

  1. 동적 표현 용량 (Dynamic Representational Capacity): 모든 곳에 고정된 압축 비율을 적용하는 방법과 달리, TokenSet은 코딩 용량을 동적으로 할당하도록 설계되었습니다. 이는 이미지의 다른 영역이 다른 양의 의미론적 가중치를 갖는다는 것을 직관적으로 이해합니다. 세부 정보와 의미가 풍부한 복잡한 영역은 표현 리소스의 더 큰 부분을 차지할 수 있는 반면, 더 단순한 배경 영역은 덜 필요합니다. 이는 우리가 자연스럽게 두드러진 객체와 세부 정보에 더 많은 인지 자원을 집중하는 인간의 시각적 인식과 유사합니다.
  2. 향상된 전역 컨텍스트 (Enhanced Global Context): 토큰을 체인의 링크가 아닌 집합의 구성원으로 취급함으로써, TokenSet은 본질적으로 순차 모델(예: 패치 시퀀스에서 작동하는 트랜스포머)에 의해 종종 강제되는 토큰 간 위치 관계를 분리합니다. 집합의 각 토큰은 원칙적으로 미리 결정된 공간적 순서에 편향되지 않고 다른 모든 토큰의 정보를 주의 깊게 보거나 통합할 수 있습니다. 이는 전역 컨텍셔널 정보의 우수한 집계를 용이하게 하여 표현이 장거리 의존성과 전체 장면 구성을 더 효과적으로 캡처할 수 있도록 합니다. 각 토큰의 이론적 수용 필드(receptive field)는 전체 이미지의 특징 공간을 포괄할 수 있습니다.
  3. 향상된 견고성 (Improved Robustness): 집합 표현의 순서 없는 특성은 로컬 섭동이나 사소한 공간적 변화에 대한 더 큰 견고성을 제공합니다. 의미가 정확한 순서가 아닌 토큰의 집합에서 파생되기 때문에 입력 이미지의 약간의 이동이나 왜곡이 전체 표현을 급격하게 변경할 가능성이 적습니다.

공간적으로 경직된 시퀀스에서 유연하고 순서 없는 집합으로의 이러한 이동은 이미지의 콘텐츠에 본질적으로 더 잘 맞춰진 표현을 가능하게 하여 보다 효율적이고 의미 있는 시각적 이해 및 생성을 위한 길을 열어줍니다.

본질 포착: TokenSet의 동적 할당

의미론적 복잡성에 기반한 표현 능력의 동적 할당 약속은 TokenSet의 매력의 핵심입니다. 어떻게 이 위업을 달성할까요? 특정 메커니즘에는 정교한 신경망 아키텍처와 훈련 목표가 포함되지만, 기본 원칙은 고정된 그리드와 균일한 처리에서 벗어나는 것입니다.

이미지가 고정된 체커보드 패턴이 아닌 보다 적응적인 프로세스를 통해 분석된다고 상상해 보십시오. 의미론적으로 풍부하다고 식별된 영역(예: 뚜렷한 객체, 복잡한 질감 또는 이미지의 서사에 중요한 영역 포함)은 더 설명적인 토큰 또는 더 높은 정보 용량을 가진 토큰의 할당을 유발합니다. 반대로, 의미론적으로 희소하다고 간주되는 영역(예: 균일한 배경 또는 단순한 그라데이션)은 더 간결하게 표현됩니다.

이는 예를 들어 16x16 패치 그리드가 추출되고 각 패치가 복잡한 객체를 포함하든 빈 공간만 포함하든 관계없이 토큰으로 변환되는 전통적인 방법과 극명한 대조를 이룹니다. 집합 표현 원칙에 따라 작동하는 TokenSet은 이러한 공간적 경직성에서 벗어납니다.

해변 사진 예시를 고려해 봅시다:

  • 전통적인 접근 방식: 하늘, 바다, 모래, 전경의 사람들은 각각 패치로 나뉘고 각 패치는 거의 동일한 표현 가중치를 얻습니다. 많은 용량이 균일한 푸른 하늘을 설명하는 데 소비됩니다.
  • TokenSet 접근 방식: 시스템은 이상적으로 전경의 상세한 인물과 객체에 더 많은 표현 리소스(아마도 더 많은 토큰 또는 더 복잡한 토큰)를 할당하는 반면, 넓고 상대적으로 균일한 하늘과 바다 영역의 본질을 캡처하는 데는 더 적거나 더 간단한 토큰을 사용합니다.

이러한 적응형 할당은 모델의 ‘주의’와 표현 충실도가 가장 중요한 곳에 집중되도록 보장하여 시각적 장면의 보다 효율적이고 효과적인 인코딩으로 이어집니다. 이는 이야기의 배경 풍경에 비해 주요 등장인물을 설명하는 데 더 큰 예산을 제공하는 것과 유사합니다.

순서 없는 것 모델링: Fixed-Sum Discrete Diffusion 혁신

이미지를 순서 없는 토큰 집합으로 표현하는 것은 전투의 절반에 불과합니다. 다른 중요한 부분은 이러한 집합의 분포를 모델링하는 방법을 알아내는 것입니다. 생성 모델은 현실적인 이미지에 해당하는 유효한 토큰 집합과 관련된 복잡한 패턴과 확률을 어떻게 학습할 수 있을까요? 특히 순서가 중요하지 않을 때 말입니다. 전통적인 시퀀스 기반 모델(예: 자기회귀 트랜스포머 또는 시퀀스에서 작동하는 표준 확산 모델)은 이 작업에 적합하지 않습니다.

이것이 TokenSet 프레임워크의 두 번째 주요 혁신인 **Fixed-Sum Discrete Diffusion (FSDD)**이 등장하는 지점입니다. 연구원들은 FSDD를 집합 기반 표현에 의해 부과된 고유한 제약 조건을 동시에 처리하도록 특별히 설계된 최초의 확산 프레임워크로 개발했습니다:

  1. 이산 값 (Discrete Values): 토큰 자체는 연속 값이 아닌 미리 정의된 코드북(어휘)에서 추출된 이산 개체입니다. FSDD는 이 이산 도메인에서 직접 작동합니다.
  2. 고정 시퀀스 길이 (집합의 기반) (Fixed Sequence Length (underlying the set)): 집합은 순서가 없지만, 연구원들은 이러한 순서 없는 집합과 고정 길이의 구조화된 정수 시퀀스 간의 전단사 매핑(일대일 대응)을 영리하게 설정했습니다. 이 매핑을 통해 일반적으로 고정 크기 입력에서 작동하는 확산 모델의 힘을 활용할 수 있습니다. FSDD는 순서 없는 집합을 나타내는 이러한 구조화된 시퀀스와 함께 작동하도록 맞춤화되었습니다.
  3. 합계 불변성 (Summation Invariance): 집합이 시퀀스에 매핑되는 방식에 특정한 이 속성은 확산(노이즈 추가) 및 역방향(생성) 프로세스 전반에 걸쳐 토큰 집합의 특정 전체 속성 또는 제약 조건이 보존되도록 보장하는 것과 관련이 있을 가능성이 높습니다. FSDD는 집합 분포를 올바르게 모델링하는 데 중요한 이 불변성을 존중하도록 고유하게 설계되었습니다.

확산 모델은 일반적으로 데이터에 점진적으로 노이즈를 추가하여 순수한 노이즈가 될 때까지 만든 다음, 노이즈에서 시작하여 점진적으로 노이즈를 제거하여 데이터를 생성하는 이 프로세스를 역으로 수행하도록 모델을 훈련시킵니다. FSDD는 이 강력한 생성 패러다임을 순서 없는 토큰 집합을 나타내는 구조화된 정수 시퀀스의 특정 특성에 맞게 조정합니다.

이 세 가지 속성을 동시에 성공적으로 처리함으로써 FSDD는 TokenSets의 분포를 학습하기 위한 원칙적이고 효과적인 메커니즘을 제공합니다. 이를 통해 생성 모델은 현실적인 이미지에 대한 유효하고 가능성 있는 토큰 집합을 구성하는 요소를 이해하고 이 학습된 분포에서 샘플링하여 새로운 집합(따라서 새로운 이미지)을 생성할 수 있습니다. 이 맞춤형 모델링 접근 방식은 집합 기반 표현의 잠재력을 발휘하는 데 중요합니다.

이론을 실천으로: 검증 및 성능

획기적인 개념에는 엄격한 검증이 필요합니다. TokenSet과 FSDD의 효능은 256x256 해상도로 스케일링된 이미지를 사용하여 이미지 이해 및 생성 작업의 표준 벤치마크인 까다로운 ImageNet 데이터셋에서 테스트되었습니다. 성능은 주로 50,000개 이미지 검증 세트에서 Frechet Inception Distance (FID) 점수를 사용하여 측정되었습니다. 낮은 FID 점수는 생성된 이미지가 사전 훈련된 Inception 네트워크에 의해 추출된 특징 측면에서 실제 이미지와 통계적으로 더 유사함을 나타내며, 이는 더 높은 품질과 현실성을 의미합니다.

훈련 방식은 TiTok 및 MaskGIT과 같은 이전 연구의 전략을 적용하여 확립된 모범 사례를 따랐습니다. 주요 측면은 다음과 같습니다:

  • 데이터 증강 (Data Augmentation): 모델 견고성을 향상시키기 위해 무작위 자르기 및 수평 뒤집기와 같은 표준 기술이 사용되었습니다.
  • 광범위한 훈련 (Extensive Training): 토크나이저 구성 요소는 큰 배치 크기로 1백만 단계 동안 훈련되어 이미지-토큰 매핑을 철저히 학습하도록 보장했습니다.
  • 최적화 (Optimization): 안정적이고 효과적인 최적화를 위해 신중하게 조정된 학습률 스케줄(워밍업 후 코사인 감쇠), 그래디언트 클리핑 및 Exponential Moving Average (EMA)가 사용되었습니다.
  • 판별자 안내 (Discriminator Guidance): 훈련 중에 판별자 네트워크가 통합되어 생성된 이미지의 시각적 품질을 더욱 향상시키고 훈련 과정을 안정화시키는 적대적 신호를 제공했습니다.

실험 결과는 TokenSet 접근 방식의 몇 가지 주요 강점을 강조했습니다:

  • 순열 불변성 확인 (Confirmed Permutation Invariance): 이는 집합 기반 개념의 중요한 테스트였습니다. 시각적으로 동일한 토큰 집합에서 재구성된 이미지는 디코더가 토큰을 처리하는 순서에 관계없이 동일하게 나타났습니다. 정량적으로 메트릭은 다른 순열에서도 일관되게 유지되었습니다. 이는 네트워크가 토큰을 순서 없는 집합으로 성공적으로 처리하도록 학습했음을 강력하게 증명하며, 매핑 프로세스 중에 가능한 모든 순열의 하위 집합에 대해서만 훈련되었을 가능성이 있음에도 불구하고 핵심 설계 원칙을 충족했습니다.
  • 우수한 전역 컨텍스트 통합 (Superior Global Context Integration): 이론에서 예측한 대로 엄격한 순차적 순서로부터의 분리는 개별 토큰이 전체 이미지에 걸쳐 정보를 더 효과적으로 통합할 수 있게 했습니다. 시퀀스로 인한 공간적 편향의 부재는 장면에 대한 보다 전체적인 이해와 표현을 가능하게 하여 생성 품질 향상에 기여했습니다.
  • 최첨단 성능 (State-of-the-Art Performance): 의미론적으로 인식하는 표현과 맞춤형 FSDD 모델링 덕분에 TokenSet 프레임워크는 ImageNet 벤치마크에서 이전 방법과 비교하여 우수한 성능 메트릭을 보여주었으며, 이는 더 높은 충실도와 더 현실적인 이미지를 생성하는 능력을 나타냅니다. 이산적, 고정 길이 및 합계 불변성 속성을 동시에 만족시키는 FSDD의 고유한 능력은 성공에 결정적인 역할을 했습니다.

이러한 결과는 TokenSet을 이론적 참신함뿐만 아니라 시각적 표현 및 생성 분야의 최첨단을 발전시키는 실용적이고 강력한 프레임워크로 종합적으로 검증합니다.

함의 및 미래 전망

TokenSet과 그 집합 기반 철학의 도입은 단순한 점진적 개선 이상을 나타냅니다. 이는 우리가 시각적 데이터에 대한 생성 모델을 개념화하고 엔지니어링하는 방식의 잠재적 변화를 예고합니다. 직렬화된 토큰의 제약에서 벗어나 의미론적 콘텐츠에 동적으로 적응하는 표현을 수용함으로써 이 연구는 흥미로운 가능성을 열어줍니다:

  • 보다 직관적인 이미지 편집 (More Intuitive Image Editing): 이미지가 의미론적 요소에 해당하는 토큰 집합으로 표현된다면, 미래의 인터페이스는 사용자가 특정 객체 또는 영역과 관련된 토큰을 직접 추가, 제거 또는 수정하여 이미지를 조작할 수 있게 할까요? 이는 보다 직관적이고 콘텐츠 인식적인 편집 도구로 이어질 수 있습니다.
  • 구성적 생성 (Compositional Generation): 집합 기반 특성은 구성적 일반화(compositional generalization), 즉 훈련 중에 명시적으로 보지 못한 객체와 장면의 새로운 조합을 생성하는 능력에 더 적합할 수 있습니다. 이미지를 요소의 집합으로 이해하는 것이 핵심일 수 있습니다.
  • 효율성 및 확장성 (Efficiency and Scalability): FSDD와 같은 정교한 모델링이 필요하지만, 의미론에 기반한 리소스의 동적 할당은 특히 광대한 영역이 의미론적으로 단순할 수 있는 고해상도 이미지의 경우 전반적으로 더 효율적인 표현으로 이어질 수 있습니다.
  • 비전과 언어 연결 (Bridging Vision and Language): 집합 표현은 자연어 처리(예: 단어 가방)에서 일반적입니다. 비전에서 집합 기반 접근 방식을 탐색하면 시각적 이해와 텍스트 이해를 연결하는 다중 모드 모델에 대한 새로운 길을 제공할 수 있습니다.

새로운 FSDD 모델링 기술에 의해 뒷받침되는 TokenSet 프레임워크는 근본적인 표현 선택을 재고하는 힘을 설득력 있게 보여줍니다. 이는 시각적 데이터에 대한 순차적 구조에 대한 오랜 의존에 도전하고 픽셀 내에 내재된 의미를 인식하는 표현의 이점을 강조합니다. 이 연구는 중요한 단계를 표시하지만 시작점이기도 합니다. 집합 기반 시각적 표현의 잠재력을 완전히 이해하고 활용하기 위해서는 추가 탐색이 필요하며, 이는 세상을 순서가 아닌 의미 있는 요소의 집합처럼 보는 차세대 고성능 및 효율적인 생성 모델로 이어질 수 있습니다.