Vượt Lưới: TokenSet và Cách Mạng Ngữ Nghĩa trong AI Thị Giác

Nhiệm vụ trang bị cho máy móc khả năng hiểu và tạo ra thông tin thị giác từ lâu đã phải vật lộn với một thách thức cơ bản: làm thế nào để biểu diễn hiệu quả tấm thảm pixel phong phú cấu tạo nên một hình ảnh. Trong nhiều năm, chiến lược chủ đạo đã phản ánh một vở kịch hai hồi. Đầu tiên, nén dữ liệu thị giác dàn trải thành một dạng nhỏ gọn, dễ quản lý hơn – biểu diễn tiềm ẩn (latent representation). Thứ hai, xây dựng các mô hình phức tạp để học và tái tạo các mẫu trong không gian nén này. Tuy nhiên, một hạn chế dai dẳng đã phủ bóng lên những nỗ lực này: xu hướng của các kỹ thuật token hóa thông thường là đối xử bình đẳng với tất cả các phần của hình ảnh, bất kể tầm quan trọng thông tin của chúng.

Nút Thắt Cổ Chai trong Máy Móc Thị Giác: Những Hạn Chế của Tính Đồng Nhất

Hãy tưởng tượng bạn đặt hàng một nghệ sĩ nhưng lại khăng khăng yêu cầu họ sử dụng cùng một kích thước nét vẽ và mức độ chi tiết cho mọi inch vuông của bức tranh. Những biểu cảm phức tạp trên khuôn mặt người sẽ không nhận được nhiều sự chú ý hơn khoảng không đồng nhất của bầu trời xanh trong hay một bức tường không có đặc điểm gì. Phép loại suy này nắm bắt được bản chất của vấn đề đang gây khó khăn cho nhiều phương pháp biểu diễn thị giác truyền thống. Các kỹ thuật bắt nguồn từ Variational Autoencoders (VAEs), tiên phong trong việc ánh xạ hình ảnh vào không gian tiềm ẩn liên tục, và những người kế nhiệm của chúng như VQVAE và VQGAN, đã rời rạc hóa các không gian này thành các chuỗi token, thường áp đặt một tỷ lệ nén không gian đồng nhất.

Điều này có nghĩa là một khu vực chứa đầy các đối tượng, kết cấu và tương tác phức tạp – có lẽ là tiền cảnh của một cảnh đường phố nhộn nhịp – được phân bổ cùng một ‘ngân sách’ biểu diễn như một khu vực nền đơn giản, đồng nhất. Sự kém hiệu quả cố hữu này lãng phí khả năng biểu diễn vào các khu vực ít quan trọng hơn trong khi có khả năng làm mất đi chi tiết cần thiết cho việc tái tạo hoặc tạo ra hình ảnh có độ trung thực cao ở các khu vực phức tạp hơn.

Những tiến bộ sau đó đã cố gắng giảm thiểu những vấn đề này, nhưng thường lại đưa ra những phức tạp riêng:

  • Các Phương Pháp Phân Cấp: Các mô hình như VQVAE-2, RQVAE và MoVQ đã giới thiệu các biểu diễn đa cấp, cố gắng nắm bắt thông tin ở các tỷ lệ khác nhau thông qua lượng tử hóa dư (residual quantization). Mặc dù thêm các lớp trừu tượng, vấn đề cơ bản về khả năng đối xử đồng nhất trong các lớp vẫn có thể tồn tại.
  • Thách Thức Mở Rộng Codebook: Các nỗ lực như FSQ, SimVQ và VQGAN-LC tập trung vào việc giải quyết ‘sự sụp đổ biểu diễn’ có thể xảy ra khi cố gắng tăng kích thước từ vựng (codebook) của các token, một bước cần thiết để nắm bắt các chi tiết tinh tế hơn. Tuy nhiên, việc quản lý hiệu quả các từ vựng rời rạc lớn này vẫn là một trở ngại.
  • Chiến Lược Pooling: Một số phương pháp dựa vào các hoạt động pooling để trích xuất các đặc trưng có chiều thấp hơn. Mặc dù hiệu quả cho một số tác vụ nhất định như phân loại, pooling vốn dĩ tổng hợp thông tin, thường làm mất đi các chi tiết tinh vi. Quan trọng là, các phương pháp này thường thiếu tín hiệu giám sát trực tiếp trên các yếu tố riêng lẻ đóng góp vào đặc trưng được pool, gây khó khăn cho việc tối ưu hóa biểu diễn cho các tác vụ tạo sinh nơi chi tiết là tối quan trọng. Các đặc trưng kết quả có thể không tối ưu để tái tạo hoặc tạo ra nội dung thị giác phức tạp một cách chính xác.
  • Đối Sánh Dựa Trên Tương Ứng: Các kỹ thuật lấy cảm hứng từ mô hình hóa tập hợp, phát triển từ các khái niệm Bag-of-Words đơn giản hơn, đôi khi sử dụng các thuật toán đối sánh hai phía (như thuật toán Hungarian được sử dụng trong DETR hoặc TSPN) để thiết lập sự tương ứng giữa các yếu tố được dự đoán và dữ liệu gốc (ground truth). Tuy nhiên, chính quá trình đối sánh này có thể gây ra sự bất ổn. Tín hiệu giám sát được gán cho một yếu tố dự đoán cụ thể có thể thay đổi từ lần lặp huấn luyện này sang lần lặp tiếp theo tùy thuộc vào kết quả của việc đối sánh, dẫn đến gradient không nhất quán và có khả năng cản trở sự hội tụ hiệu quả. Mô hình có thể gặp khó khăn trong việc học các biểu diễn ổn định khi mục tiêu của nó liên tục thay đổi.

Chủ đề cơ bản xuyên suốt các phương pháp đa dạng này là cuộc đấu tranh chống lại những hạn chế do các biểu diễn cứng nhắc, thường dựa trên chuỗi và khó khăn trong việc phân bổ động các tài nguyên biểu diễn đến nơi cần thiết nhất – theo ý nghĩa ngữ nghĩa được nhúng trong chính các vùng hình ảnh.

Suy Nghĩ Lại về Pixel: Bình Minh của Thị Giác Dựa Trên Tập Hợp

Thất vọng bởi những hạn chế của các biểu diễn tuần tự, được nén đồng nhất, các nhà nghiên cứu từ University of Science and Technology of China và Tencent Hunyuan Research đã bắt tay vào một con đường khác. Họ đặt câu hỏi về giả định cơ bản rằng hình ảnh phải được xử lý dưới dạng các chuỗi token có thứ tự, tương tự như các từ trong một câu. Câu trả lời sáng tạo của họ là TokenSet, một khuôn khổ đại diện cho sự thay đổi mô hình hướng tới một cách tiếp cận linh hoạt hơn và nhận biết ngữ nghĩa hơn.

Về cốt lõi, TokenSet từ bỏ cấu trúc cứng nhắc của các chuỗi token để chuyển sang biểu diễn hình ảnh dưới dạng một tập hợp các token không theo thứ tự. Sự thay đổi tưởng chừng đơn giản này lại có những hàm ý sâu sắc:

  1. Khả Năng Biểu Diễn Động: Không giống như các phương pháp áp dụng tỷ lệ nén cố định ở mọi nơi, TokenSet được thiết kế để phân bổ động khả năng mã hóa. Nó hiểu một cách trực quan rằng các vùng khác nhau của hình ảnh mang trọng số ngữ nghĩa khác nhau. Các khu vực phức tạp, giàu chi tiết và ý nghĩa, có thể chiếm một phần lớn hơn các tài nguyên biểu diễn, trong khi các vùng nền đơn giản hơn yêu cầu ít hơn. Điều này phản ánh nhận thức thị giác của con người, nơi chúng ta tự nhiên tập trung nhiều tài nguyên nhận thức hơn vào các đối tượng và chi tiết nổi bật.
  2. Ngữ Cảnh Toàn Cục Nâng Cao: Bằng cách coi các token là thành viên của một tập hợp thay vì các liên kết trong một chuỗi, TokenSet vốn dĩ tách rời các mối quan hệ vị trí giữa các token thường bị các mô hình tuần tự (như transformer hoạt động trên các chuỗi patch) áp đặt. Về nguyên tắc, mỗi token trong tập hợp có thể chú ý đến hoặc tích hợp thông tin từ tất cả các token khác mà không bị thiên vị bởi một thứ tự không gian được xác định trước. Điều này tạo điều kiện cho việc tổng hợp thông tin ngữ cảnh toàn cục vượt trội, cho phép biểu diễn nắm bắt các phụ thuộc tầm xa và bố cục tổng thể của cảnh hiệu quả hơn. Trường tiếp nhận lý thuyết cho mỗi token có thể bao gồm toàn bộ không gian đặc trưng của hình ảnh.
  3. Cải Thiện Tính Bền Vững: Bản chất không theo thứ tự của biểu diễn tập hợp giúp nó bền vững hơn trước các nhiễu loạn cục bộ hoặc các biến thể không gian nhỏ. Vì ý nghĩa bắt nguồn từ tập hợp các token chứ không phải trình tự chính xác của chúng, nên những thay đổi hoặc biến dạng nhỏ trong hình ảnh đầu vào ít có khả năng làm thay đổi đáng kể biểu diễn tổng thể.

Việc chuyển từ một chuỗi cứng nhắc về mặt không gian sang một tập hợp linh hoạt, không theo thứ tự cho phép tạo ra một biểu diễn vốn dĩ phù hợp hơn với nội dung của hình ảnh, mở đường cho việc hiểu và tạo ra hình ảnh hiệu quả và có ý nghĩa hơn.

Nắm Bắt Bản Chất: Phân Bổ Động trong TokenSet

Lời hứa về việc phân bổ động sức mạnh biểu diễn dựa trên độ phức tạp ngữ nghĩa là trọng tâm sức hấp dẫn của TokenSet. Làm thế nào nó đạt được kỳ công này? Mặc dù các cơ chế cụ thể liên quan đến kiến trúc mạng nơ-ron phức tạp và mục tiêu huấn luyện, nguyên tắc cơ bản là sự khác biệt so với các lưới cố định và xử lý đồng nhất.

Hãy tưởng tượng hình ảnh được phân tích không thông qua một mẫu bàn cờ cố định, mà thông qua một quy trình thích ứng hơn. Các vùng được xác định là giàu ngữ nghĩa – có lẽ chứa các đối tượng riêng biệt, kết cấu phức tạp hoặc các khu vực quan trọng đối với câu chuyện của hình ảnh – kích hoạt việc phân bổ nhiều token mô tả hơn hoặc các token có khả năng thông tin cao hơn. Ngược lại, các khu vực được coi là thưa thớt về mặt ngữ nghĩa, như nền đồng nhất hoặc gradient đơn giản, được biểu diễn một cách ngắn gọn hơn.

Điều này hoàn toàn trái ngược với các phương pháp truyền thống, ví dụ, một lưới 16x16 các patch được trích xuất và mỗi patch được chuyển đổi thành một token, bất kể nó chứa một đối tượng phức tạp hay chỉ là không gian trống. TokenSet, hoạt động dựa trên nguyên tắc biểu diễn tập hợp, thoát khỏi sự cứng nhắc về không gian này.

Hãy xem xét ví dụ về ảnh bãi biển:

  • Cách Tiếp Cận Truyền Thống: Bầu trời, đại dương, cát và những người ở tiền cảnh có thể được chia thành các patch, và mỗi patch nhận được trọng số biểu diễn gần như bằng nhau. Phần lớn khả năng được dành để mô tả bầu trời xanh đồng nhất.
  • Cách Tiếp Cận TokenSet: Hệ thống lý tưởng sẽ phân bổ nhiều tài nguyên biểu diễn hơn (có lẽ nhiều token hơn, hoặc các token phức tạp hơn) cho các hình người và đối tượng chi tiết ở tiền cảnh, trong khi sử dụng ít token hơn hoặc đơn giản hơn để nắm bắt bản chất của các vùng trời và biển rộng lớn, tương đối đồng nhất.

Việc phân bổ thích ứng này đảm bảo rằng ‘sự chú ý’ và độ trung thực biểu diễn của mô hình được tập trung vào những nơi quan trọng nhất, dẫn đến việc mã hóa cảnh thị giác hiệu quả và hiệu quả hơn. Nó tương tự như việc cung cấp ngân sách lớn hơn để mô tả các nhân vật chính trong một câu chuyện so với bối cảnh nền.

Mô Hình Hóa Sự Không Theo Thứ Tự: Đột Phá của Fixed-Sum Discrete Diffusion

Biểu diễn một hình ảnh dưới dạng một tập hợp các token không theo thứ tự chỉ là một nửa trận chiến. Phần quan trọng khác là tìm ra cách mô hình hóa phân phối của các tập hợp này. Làm thế nào một mô hình tạo sinh có thể học được các mẫu và xác suất phức tạp liên quan đến các tập hợp token hợp lệ tương ứng với hình ảnh thực tế, đặc biệt là khi thứ tự không quan trọng? Các mô hình dựa trên chuỗi truyền thống (như transformer tự hồi quy hoặc các mô hình khuếch tán tiêu chuẩn hoạt động trên chuỗi) không phù hợp với nhiệm vụ này.

Đây là nơi mà sự đổi mới lớn thứ hai của khuôn khổ TokenSet phát huy tác dụng: Fixed-Sum Discrete Diffusion (FSDD). Các nhà nghiên cứu đã phát triển FSDD như là khuôn khổ khuếch tán đầu tiên được thiết kế đặc biệt để xử lý đồng thời các ràng buộc độc đáo do biểu diễn dựa trên tập hợp của họ đặt ra:

  1. Giá Trị Rời Rạc: Bản thân các token là các thực thể rời rạc được lấy từ một codebook (từ vựng) được xác định trước, không phải là các giá trị liên tục. FSDD hoạt động trực tiếp trong miền rời rạc này.
  2. Độ Dài Chuỗi Cố Định (nằm dưới tập hợp): Mặc dù tập hợp không theo thứ tự, các nhà nghiên cứu đã thiết lập một cách thông minh một ánh xạ song ánh (một sự tương ứng một-một) giữa các tập hợp không theo thứ tự này và các chuỗi số nguyên có cấu trúc với độ dài cố định. Ánh xạ này cho phép họ tận dụng sức mạnh của các mô hình khuếch tán, thường hoạt động trên các đầu vào có kích thước cố định. FSDD được điều chỉnh để hoạt động với các chuỗi có cấu trúc này đại diện cho các tập hợp không theo thứ tự.
  3. Bất Biến Tổng: Thuộc tính này, đặc trưng cho cách các tập hợp được ánh xạ thành chuỗi, có khả năng liên quan đến việc đảm bảo rằng một số thuộc tính hoặc ràng buộc tổng thể nhất định của tập hợp token được bảo toàn trong suốt quá trình khuếch tán (thêm nhiễu) và đảo ngược (tạo sinh). FSDD được thiết kế độc đáo để tôn trọng tính bất biến này, điều rất quan trọng để mô hình hóa chính xác phân phối tập hợp.

Các mô hình khuếch tán thường hoạt động bằng cách thêm nhiễu dần dần vào dữ liệu cho đến khi nó trở thành nhiễu thuần túy, sau đó huấn luyện một mô hình để đảo ngược quá trình này, bắt đầu từ nhiễu và khử nhiễu dần dần để tạo ra dữ liệu. FSDD điều chỉnh mô hình tạo sinh mạnh mẽ này cho các đặc điểm cụ thể của các chuỗi số nguyên có cấu trúc đại diện cho các tập hợp token không theo thứ tự.

Bằng cách giải quyết thành công đồng thời ba thuộc tính này, FSDD cung cấp một cơ chế có nguyên tắc và hiệu quả để học phân phối của TokenSets. Nó cho phép mô hình tạo sinh hiểu được điều gì tạo nên một tập hợp token hợp lệ và có khả năng xảy ra đối với một hình ảnh thực tế và tạo ra các tập hợp mới (và do đó là hình ảnh mới) bằng cách lấy mẫu từ phân phối đã học này. Cách tiếp cận mô hình hóa riêng biệt này rất quan trọng để khai phá tiềm năng của biểu diễn dựa trên tập hợp.

Đưa Lý Thuyết vào Thực Tiễn: Xác Thực và Hiệu Suất

Một khái niệm đột phá đòi hỏi sự xác thực nghiêm ngặt. Hiệu quả của TokenSet và FSDD đã được kiểm tra trên bộ dữ liệu ImageNet đầy thách thức, một tiêu chuẩn chuẩn cho các tác vụ hiểu và tạo hình ảnh, sử dụng hình ảnh được thu nhỏ về độ phân giải 256x256. Hiệu suất chủ yếu được đo bằng điểm Frechet Inception Distance (FID) trên tập xác thực 50.000 hình ảnh. Điểm FID thấp hơn cho thấy hình ảnh được tạo ra tương tự về mặt thống kê với hình ảnh thực về các đặc trưng được trích xuất bởi mạng Inception được huấn luyện trước, biểu thị chất lượng và độ chân thực cao hơn.

Chế độ huấn luyện tuân theo các phương pháp hay nhất đã được thiết lập, điều chỉnh các chiến lược từ công trình trước đó như TiTok và MaskGIT. Các khía cạnh chính bao gồm:

  • Tăng Cường Dữ Liệu: Các kỹ thuật tiêu chuẩn như cắt xén ngẫu nhiên và lật ngang đã được sử dụng để cải thiện tính bền vững của mô hình.
  • Huấn Luyện Mở Rộng: Thành phần tokenizer được huấn luyện trong 1 triệu bước với kích thước lô lớn, đảm bảo học kỹ lưỡng ánh xạ từ hình ảnh sang token.
  • Tối Ưu Hóa: Lịch trình tốc độ học được điều chỉnh cẩn thận (khởi động sau đó giảm dần theo hàm cosine), cắt gradient và Exponential Moving Average (EMA) đã được sử dụng để tối ưu hóa ổn định và hiệu quả.
  • Hướng Dẫn Bằng Bộ Phân Biệt: Một mạng phân biệt đã được tích hợp trong quá trình huấn luyện, cung cấp tín hiệu đối nghịch để nâng cao hơn nữa chất lượng hình ảnh của hình ảnh được tạo ra và ổn định quá trình huấn luyện.

Kết quả thực nghiệm đã làm nổi bật một số điểm mạnh chính của phương pháp TokenSet:

  • Xác Nhận Tính Bất Biến Hoán Vị: Đây là một thử nghiệm quan trọng đối với khái niệm dựa trên tập hợp. Về mặt hình ảnh, các hình ảnh được tái tạo từ cùng một tập hợp token xuất hiện giống hệt nhau bất kể thứ tự mà các token được bộ giải mã xử lý. Về mặt định lượng, các chỉ số vẫn nhất quán qua các hoán vị khác nhau. Điều này cung cấp bằng chứng mạnh mẽ rằng mạng đã học thành công cách coi các token như một tập hợp không theo thứ tự, hoàn thành nguyên tắc thiết kế cốt lõi, mặc dù có khả năng nó chỉ được huấn luyện trên một tập hợp con của tất cả các hoán vị có thể có trong quá trình ánh xạ.
  • Tích Hợp Ngữ Cảnh Toàn Cục Vượt Trội: Như lý thuyết đã dự đoán, việc tách khỏi thứ tự tuần tự nghiêm ngặt cho phép các token riêng lẻ tích hợp thông tin hiệu quả hơn trên toàn bộ hình ảnh. Sự vắng mặt của các thiên vị không gian do chuỗi gây ra đã cho phép hiểu và biểu diễn cảnh một cách toàn diện hơn, góp phần cải thiện chất lượng tạo sinh.
  • Hiệu Suất Hiện Đại: Được hỗ trợ bởi biểu diễn nhận biết ngữ nghĩa và mô hình FSDD được điều chỉnh riêng, khuôn khổ TokenSet đã chứng minh các chỉ số hiệu suất vượt trội so với các phương pháp trước đó trên tiêu chuẩn ImageNet, cho thấy khả năng tạo ra hình ảnh có độ trung thực cao hơn và chân thực hơn. Khả năng độc đáo của FSDD trong việc đáp ứng đồng thời các thuộc tính rời rạc, độ dài cố định và bất biến tổng đã chứng tỏ là yếu tố quan trọng cho sự thành công của nó.

Những kết quả này cùng nhau xác thực TokenSet không chỉ là một sự mới lạ về mặt lý thuyết, mà còn là một khuôn khổ thực tế và mạnh mẽ để thúc đẩy sự phát triển hiện đại trong biểu diễn và tạo sinh thị giác.

Ý Nghĩa và Viễn Cảnh Tương Lai

Sự ra đời của TokenSet và triết lý dựa trên tập hợp của nó đại diện cho nhiều hơn là một cải tiến gia tăng; nó báo hiệu một sự thay đổi tiềm năng trong cách chúng ta khái niệm hóa và thiết kế các mô hình tạo sinh cho dữ liệu thị giác. Bằng cách thoát khỏi những hạn chế của các token được tuần tự hóa và nắm lấy một biểu diễn thích ứng động với nội dung ngữ nghĩa, công trình này mở ra những khả năng hấp dẫn:

  • Chỉnh Sửa Hình Ảnh Trực Quan Hơn: Nếu hình ảnh được biểu diễn bằng các tập hợp token tương ứng với các yếu tố ngữ nghĩa, liệu các giao diện trong tương lai có cho phép người dùng thao tác hình ảnh bằng cách trực tiếp thêm, xóa hoặc sửa đổi các token liên quan đến các đối tượng hoặc vùng cụ thể không? Điều này có thể dẫn đến các công cụ chỉnh sửa trực quan hơn và nhận biết nội dung hơn.
  • Tạo Sinh Tổ Hợp: Bản chất dựa trên tập hợp có thể phù hợp hơn với khái quát hóa tổ hợp – khả năng tạo ra các kết hợp mới của các đối tượng và cảnh chưa từng thấy rõ ràng trong quá trình huấn luyện. Hiểu hình ảnh như là tập hợp các yếu tố có thể là chìa khóa.
  • Hiệu Quả và Khả Năng Mở Rộng: Mặc dù yêu cầu mô hình hóa phức tạp như FSDD, việc phân bổ động tài nguyên dựa trên ngữ nghĩa có khả năng dẫn đến các biểu diễn hiệu quả hơn về tổng thể, đặc biệt đối với hình ảnh có độ phân giải cao nơi các khu vực rộng lớn có thể đơn giản về mặt ngữ nghĩa.
  • Kết Nối Thị Giác và Ngôn Ngữ: Biểu diễn tập hợp phổ biến trong xử lý ngôn ngữ tự nhiên (ví dụ: bags of words). Khám phá các phương pháp dựa trên tập hợp trong thị giác có thể cung cấp những conđường mới cho các mô hình đa phương thức kết nối sự hiểu biết về thị giác và văn bản.

Khuôn khổ TokenSet, được củng cố bởi kỹ thuật mô hình hóa FSDD mới lạ, cung cấp một minh chứng thuyết phục về sức mạnh của việc suy nghĩ lại các lựa chọn biểu diễn cơ bản. Nó thách thức sự phụ thuộc lâu dài vào các cấu trúc tuần tự cho dữ liệu thị giác và làm nổi bật lợi ích của các biểu diễn nhận biết ý nghĩa được nhúng trong các pixel. Mặc dù nghiên cứu này đánh dấu một bước tiến quan trọng, nó cũng đóng vai trò là điểm khởi đầu. Cần khám phá thêm để hiểu đầy đủ và khai thác tiềm năng của các biểu diễn thị giác dựa trên tập hợp, có khả năng dẫn đến thế hệ tiếp theo của các mô hình tạo sinh có khả năng cao và hiệu quả, nhìn thế giới ít giống một chuỗi hơn và giống một tập hợp các yếu tố có ý nghĩa hơn.