Alibaba vươn lên trong AI với mô hình Qwen 2.5 Omni

Sân khấu toàn cầu cho đổi mới trí tuệ nhân tạo chứng kiến sự cạnh tranh liên tục, gay gắt, với các gã khổng lồ công nghệ tranh giành quyền định hình tương lai của tương tác giữa người và máy tính. Giữa cuộc đua khốc liệt này, đội ngũ Qwen của Alibaba Cloud đã tự đưa mình vào tâm điểm chú ý, tiết lộ một đối thủ đáng gờm mới: mô hình AI Qwen 2.5 Omni. Đây không chỉ đơn thuần là một bản cập nhật gia tăng; nó đại diện cho một bước nhảy vọt đáng kể, đặc biệt là trong lĩnh vực khả năng đa phương thức, hay đúng hơn là omnimodal. Được thiết kế để xử lý một loạt đầu vào phong phú – bao gồm văn bản, hình ảnh, âm thanh và video – Qwen 2.5 Omni còn tạo sự khác biệt bằng cách không chỉ tạo ra văn bản mà còn cả phản hồi giọng nói thời gian thực, tự nhiên đáng kinh ngạc. Hệ thống tinh vi này, được củng cố bởi kiến trúc ‘Thinker-Talker’ sáng tạo và được phát hành chiến lược dưới dạng mã nguồn mở, báo hiệu tham vọng của Alibaba trong việc dân chủ hóa AI tiên tiến và trao quyền phát triển các agent thông minh, tinh vi nhưng hiệu quả về chi phí.

Giới thiệu Qwen 2.5 Omni đa diện

Được công bố với sự mong đợi đáng kể, Qwen 2.5 Omni nổi lên như là mô hình lớn hàng đầu của Alibaba, tự hào với kiến trúc đáng kể được xây dựng dựa trên bảy tỷ tham số. Mặc dù số lượng tham số cung cấp cảm giác về quy mô và độ phức tạp tiềm năng, cuộc cách mạng thực sự nằm ở khả năng chức năng của nó. Mô hình này vượt qua những hạn chế của nhiều mô hình tiền nhiệm bằng cách áp dụng mô hình omnimodal. Nó không chỉ hiểu các đầu vào đa dạng; nó có thể phản hồi thông qua nhiều kênh đầu ra đồng thời, đáng chú ý nhất là tạo ra giọng nói đàm thoại trôi chảy trong thời gian thực. Khả năng tương tác giọng nói động và tham gia vào các cuộc trò chuyện video này đẩy xa giới hạn của trải nghiệm người dùng, tiến gần hơn đến phong cách giao tiếp liền mạch mà con người coi là đương nhiên.

Trong khi những gã khổng lồ trong ngành như Google và OpenAI đã giới thiệu các chức năng đa phương thức tích hợp tương tự trong các hệ thống độc quyền, mã nguồn đóng của họ (như GPT-4o và Gemini), Alibaba đã đưa ra một quyết định chiến lược quan trọng là phát hành Qwen 2.5 Omni theo giấy phép mã nguồn mở. Động thái này thay đổi đáng kể bối cảnh khả năng tiếp cận, có khả năng trao quyền cho một cộng đồng lớn các nhà phát triển, nhà nghiên cứu và doanh nghiệp trên toàn cầu. Bằng cách cung cấp mã nguồn cơ bản và trọng số mô hình, Alibaba thúc đẩy một môi trường nơi sự đổi mới có thể phát triển mạnh mẽ một cách hợp tác, cho phép những người khác xây dựng, điều chỉnh và tinh chỉnh công nghệ mạnh mẽ này.

Thông số kỹ thuật thiết kế của mô hình làm nổi bật tính linh hoạt của nó. Nó được thiết kế để chấp nhận và diễn giải thông tin được trình bày dưới dạng lời nhắc văn bản, dữ liệu hình ảnh từ hình ảnh, tín hiệu thính giác qua các đoạn âm thanh và nội dung động thông qua các luồng video. Quan trọng là, cơ chế đầu ra của nó cũng tinh vi không kém. Nó có thể tạo ra các phản hồi văn bản phù hợp theo ngữ cảnh, nhưng tính năng nổi bật của nó là khả năng tổng hợp giọng nói tự nhiên đồng thời và truyền phát nó với độ trễ thấp. Đội ngũ Qwen đặc biệt nhấn mạnh những tiến bộ đạt được trong việc tuân theo chỉ dẫn bằng giọng nói từ đầu đến cuối, cho thấy khả năng tinh chỉnh để hiểu và thực hiện các lệnh thoại hoặc tham gia vào đối thoại nói với độ chính xác và sắc thái cao hơn so với các phiên bản trước. Tính linh hoạt đầu vào-đầu ra toàn diện này định vị Qwen 2.5 Omni như một công cụ nền tảng mạnh mẽ cho vô số ứng dụng AI thế hệ tiếp theo.

Vượt ra ngoài Đa phương thức: Tầm quan trọng của Tương tác Omnimodal

Thuật ngữ ‘đa phương thức’ (multimodal) đã trở nên phổ biến trong diễn ngôn AI, thường đề cập đến các mô hình có khả năng xử lý thông tin từ nhiều nguồn, như văn bản và hình ảnh (ví dụ: mô tả một bức tranh hoặc trả lời câu hỏi về nó). Tuy nhiên, Qwen 2.5 Omni đẩy khái niệm này đi xa hơn vào lãnh thổ ‘omnimodal’. Sự khác biệt là rất quan trọng: omnimodality không chỉ ngụ ý việc hiểu nhiều loại đầu vào mà còn tạo ra đầu ra trên nhiều phương thức, đặc biệt là tích hợp việc tạo giọng nói tự nhiên, thời gian thực như một cơ chế phản hồi cốt lõi bên cạnh văn bản.

Việc đạt được sự tích hợp liền mạch này đặt ra những thách thức kỹ thuật đáng kể. Nó đòi hỏi nhiều hơn là chỉ ghép nối các mô hình riêng biệt cho thị giác, xử lý âm thanh, hiểu ngôn ngữ và tổng hợp giọng nói. Omnimodality thực sự đòi hỏi sự tích hợp sâu sắc, cho phép mô hình duy trì ngữ cảnh và sự mạch lạc khi nó chuyển đổi giữa việc xử lý các tín hiệu thị giác, thông tin thính giác và dữ liệu văn bản, tất cả trong khi hình thành và phát âm một phản hồi phù hợp. Khả năng thực hiện điều này trong thời gian thực thêm một lớp phức tạp khác, đòi hỏi các quy trình xử lý hiệu quả cao và sự đồng bộ hóa tinh vi giữa các thành phần khác nhau của kiến trúc mô hình.

Những tác động đối với tương tác người dùng là rất sâu sắc. Hãy tưởng tượng tương tác với một trợ lý AI có thể xem một đoạn video bạn chia sẻ, lắng nghe câu hỏi nói của bạn về nó, và sau đó trả lời bằng một lời giải thích nói, thậm chí có thể làm nổi bật các phần liên quan của video một cách trực quan nếu hiển thị trên màn hình. Điều này hoàn toàn trái ngược với các hệ thống trước đó có thể yêu cầu tương tác dựa trên văn bản hoặc tạo ra giọng nói bị trì hoãn, kém tự nhiên hơn. Khả năng nói trong thời gian thực, đặc biệt, làm giảm rào cản tương tác, khiến AI giống như một đối tác trò chuyện hơn là một công cụ đơn thuần. Sự tự nhiên này là chìa khóa để mở khóa các ứng dụng trong các lĩnh vực như giáo dục, khả năng tiếp cận, dịch vụ khách hàng và công việc hợp tác, nơi giao tiếp trôi chảy là tối quan trọng. Việc Alibaba tập trung vào khả năng cụ thể này báo hiệu một sự đặt cược chiến lược vào hướng đi tương lai của giao diện người-AI.

Động cơ bên trong: Phân tích Kiến trúc ‘Thinker-Talker’

Trung tâm của các khả năng tiên tiến của Qwen 2.5 Omni là thiết kế kiến trúc mới lạ của nó, được chỉ định nội bộ là khung ‘Thinker-Talker’. Cấu trúc này phân chia một cách thông minh các nhiệm vụ cốt lõi là hiểu và phản hồi, có khả năng tối ưu hóa cho cả hiệu quả và chất lượng tương tác. Nó đại diện cho một cách tiếp cận chu đáo để quản lý luồng thông tin phức tạp trong một hệ thống omnimodal.

Thành phần Thinker đóng vai trò là lõi nhận thức, ‘bộ não’ của hoạt động. Trách nhiệm chính của nó là nhận và xử lý các đầu vào đa dạng – văn bản, hình ảnh, âm thanh, video. Nó tận dụng các cơ chế tinh vi, có khả năng xây dựng dựa trên kiến trúc Transformer mạnh mẽ (cụ thể, hoạt động tương tự như một bộ giải mã Transformer), để mã hóa và diễn giải thông tin trên các phương thức khác nhau này. Vai trò của Thinker bao gồm hiểu biết đa phương thức, trích xuất các đặc trưng liên quan, suy luận về thông tin kết hợp, và cuối cùng tạo ra một biểu diễn nội bộ mạch lạc hoặc kế hoạch, thường biểu hiện dưới dạng một đầu ra văn bản sơ bộ. Thành phần này xử lý phần nặng nhọc của nhận thức và hiểu biết. Nó cần phải hợp nhất dữ liệu từ các nguồn khác nhau thành một sự hiểu biết thống nhất trước khi quyết định một chiến lược phản hồi phù hợp.

Bổ sung cho Thinker là thành phần Talker, hoạt động tương tự như hệ thống phát âm của con người. Chức năng chuyên biệt của nó là lấy thông tin đã xử lý và ý định được hình thành bởi Thinker và dịch chúng thành giọng nói trôi chảy, tự nhiên. Nó nhận một luồng thông tin liên tục (có khả năng là văn bản hoặc các biểu diễn trung gian) từ Thinker và sử dụng quy trình tạo sinh tinh vi của riêng mình để tổng hợp dạng sóng âm thanh tương ứng. Mô tả cho thấy Talker được thiết kế như một bộ giải mã Transformer tự hồi quy hai luồng (dual-track autoregressive Transformer decoder), một cấu trúc có khả năng được tối ưu hóa cho đầu ra truyền phát – nghĩa là nó có thể bắt đầu tạo giọng nói gần như ngay lập tức khi Thinker hình thành phản hồi, thay vì chờ đợi toàn bộ suy nghĩ được hoàn thành. Khả năng này rất quan trọng để đạt được luồng đàm thoại thời gian thực, độ trễ thấp làm cho mô hình cảm thấy phản ứng nhanh và tự nhiên.

Sự tách biệt các mối quan tâm này trong kiến trúc Thinker-Talker mang lại một số lợi thế tiềm năng. Nó cho phép tối ưu hóa chuyên biệt cho từng thành phần: Thinker có thể tập trung vào hiểu biết và suy luận đa phương thức phức tạp, trong khi Talker có thể được tinh chỉnh để tổng hợp giọng nói có độ trung thực cao, độ trễ thấp. Hơn nữa, thiết kế mô-đun này tạo điều kiện cho việc huấn luyện từ đầu đến cuối hiệu quả hơn, vì các phần khác nhau của mạng có thể được huấn luyện trên các nhiệm vụ liên quan. Nó cũng hứa hẹn hiệu quả trong quá trình suy luận (inference - quá trình sử dụng mô hình đã huấn luyện), vì hoạt động song song hoặc theo đường ống của Thinker và Talker có thể giảm thời gian phản hồi tổng thể. Lựa chọn kiến trúc sáng tạo này là một yếu tố khác biệt quan trọng cho Qwen 2.5 Omni, định vị nó ở vị trí hàng đầu trong nỗ lực tạo ra các hệ thống AI tích hợp và phản ứng nhanh hơn.

Điểm chuẩn Hiệu suất và Định vị Cạnh tranh

Alibaba đã đưa ra những tuyên bố thuyết phục về sức mạnh hiệu suất của Qwen 2.5 Omni, dựa trên các đánh giá nội bộ của họ. Mặc dù các điểm chuẩn nội bộ luôn cần được xem xét một cách thận trọng cho đến khi được xác minh độc lập, kết quả được trình bày cho thấy một mô hình có năng lực cao. Đáng chú ý, Alibaba báo cáo rằng Qwen 2.5 Omni vượt trội hiệu suất so với các đối thủ đáng gờm, bao gồm mô hình Gemini 1.5 Pro của Google, khi được thử nghiệm trên bộ điểm chuẩn OmniBench. OmniBench được thiết kế đặc biệt để đánh giá khả năng của các mô hình trên một loạt các nhiệm vụ đa phương thức, làm cho lợi thế được báo cáo này đặc biệt có ý nghĩa nếu nó được duy trì dưới sự giám sát rộng rãi hơn. Việc vượt trội một mô hình hàng đầu như Gemini 1.5 Pro trên một điểm chuẩn như vậy sẽ cho thấy sức mạnh đặc biệt trong việc xử lý các nhiệm vụ phức tạp đòi hỏi tích hợp sự hiểu biết trên văn bản, hình ảnh, âm thanh và có thể cả video.

Ngoài khả năng đa phương thức, đội ngũ Qwen cũng nhấn mạnh hiệu suất vượt trội trong các nhiệm vụ đơn phương thức so với các mô hình tiền nhiệm của chính nó trong dòng Qwen, chẳng hạn như Qwen 2.5-VL-7B (một mô hình ngôn ngữ-thị giác) và Qwen2-Audio (một mô hình tập trung vào âm thanh). Điều này cho thấy rằng việc phát triển kiến trúc omnimodal tích hợp không phải trả giá bằng hiệu suất chuyên biệt; thay vào đó, các thành phần cơ bản chịu trách nhiệm xử lý thị giác, âm thanh và ngôn ngữ có thể đã được tăng cường riêng lẻ như một phần của nỗ lực phát triển Qwen 2.5 Omni. Việc xuất sắc trong cả các kịch bản đa phương thức tích hợp và các nhiệm vụ đơn phương thức cụ thể nhấn mạnh tính linh hoạt của mô hình và sự mạnh mẽ của các thành phần nền tảng của nó.

Những tuyên bố về hiệu suất này, nếu được xác thực từ bên ngoài, sẽ định vị Qwen 2.5 Omni như một đối thủ cạnh tranh nghiêm túc trong nhóm các mô hình AI lớn hàng đầu. Nó trực tiếp thách thức sự thống trị được nhận thức của các mô hình mã nguồn đóng từ các gã khổng lồ công nghệ phương Tây và thể hiện năng lực R&D đáng kể của Alibaba trong lĩnh vực công nghệ quan trọng này. Sự kết hợp giữa hiệu suất được báo cáo là tiên tiến nhất với chiến lược phát hành mã nguồn mở tạo ra một đề xuất giá trị độc đáo trong bối cảnh AI hiện tại.

Tính toán Chiến lược của Mã nguồn mở

Quyết định của Alibaba phát hành Qwen 2.5 Omni, một mô hình hàng đầu với các khả năng có thể là tiên tiến nhất, dưới dạng mã nguồn mở là một động thái chiến lược quan trọng. Trong một phân khúc ngành ngày càng được đặc trưng bởi các mô hình độc quyền, được bảo vệ chặt chẽ từ các công ty lớn như OpenAI và Google, động thái này nổi bật và mang ý nghĩa sâu sắc đối với hệ sinh thái AI rộng lớn hơn.

Một số động cơ chiến lược có khả năng củng cố quyết định này. Thứ nhất, việc mở mã nguồn có thể nhanh chóng thúc đẩy việc áp dụng và xây dựng một cộng đồng người dùng và nhà phát triển lớn xung quanh nền tảng Qwen. Bằng cách loại bỏ các rào cản cấp phép, Alibaba khuyến khích thử nghiệm rộng rãi, tích hợp vào các ứng dụng đa dạng, và phát triển các công cụ và tiện ích mở rộng chuyên biệt bởi các bên thứ ba. Điều này có thể tạo ra hiệu ứng mạng lưới mạnh mẽ, thiết lập Qwen như một công nghệ nền tảng trong các lĩnh vực khác nhau.

Thứ hai, cách tiếp cận mã nguồn mở thúc đẩy sự hợp tác và đổi mới ở quy mô có thể khó đạt được trong nội bộ. Các nhà nghiên cứu và nhà phát triển trên toàn thế giới có thể xem xét kỹ lưỡng mô hình, xác định điểm yếu, đề xuất cải tiến và đóng góp mã, dẫn đến việc tinh chỉnh và sửa lỗi nhanh hơn. Mô hình phát triển phân tán này có thể cực kỳ mạnh mẽ, tận dụng trí tuệ tập thể của cộng đồng AI toàn cầu. Alibaba hưởng lợi từ những đóng góp bên ngoài này, có khả năng cải thiện các mô hình của mình nhanh chóng và hiệu quả về chi phí hơn so với nỗ lực hoàn toàn nội bộ.

Thứ ba, nó đóng vai trò như một yếu tố khác biệt cạnh tranh mạnh mẽ chống lại các đối thủ mã nguồn đóng. Đối với các doanh nghiệp và nhà phát triển cảnh giác với việc bị khóa nhà cung cấp (vendor lock-in) hoặc tìm kiếm sự minh bạch và kiểm soát lớn hơn đối với các mô hình AI mà họ triển khai, một tùy chọn mã nguồn mở như Qwen 2.5 Omni trở nên rất hấp dẫn. Nó cung cấp sự linh hoạt, khả năng tùy chỉnh và khả năng chạy mô hình trên cơ sở hạ tầng của riêng mình, giải quyết các mối quan tâm về quyền riêng tư dữ liệu và chủ quyền hoạt động.

Hơn nữa, việc phát hành một mô hình hiệu suất cao một cách công khai nâng cao danh tiếng của Alibaba như một nhà lãnh đạo trong nghiên cứu và phát triển AI, thu hút nhân tài và có khả năng ảnh hưởng đến các tiêu chuẩn ngành. Nó định vị Alibaba Cloud như một trung tâm chính cho đổi mới AI, thúc đẩy việc sử dụng các dịch vụ điện toán đám mây rộng lớn hơn của nó, nơi người dùng có thể triển khai hoặc tinh chỉnh các mô hình Qwen. Mặc dù việc cho đi mô hình cốt lõi có vẻ phản trực giác, những lợi ích chiến lược về xây dựng hệ sinh thái, phát triển nhanh chóng, định vị cạnh tranh và thu hút khách hàng đám mây có thể lớn hơn doanh thu cấp phép trực tiếp bị bỏ lỡ. Chiến lược mã nguồn mở này là một sự đặt cược táo bạo vào sức mạnh cộng đồng và tăng trưởng hệ sinh thái như những động lực chính trong giai đoạn phát triển tiếp theo của AI.

Kích hoạt Làn sóng Tiếp theo: Ứng dụng và Khả năng tiếp cận

Sự kết hợp độc đáo giữa khả năng omnimodal, tương tác thời gian thực và tính sẵn có của mã nguồn mở định vị Qwen 2.5 Omni như một chất xúc tác cho một thế hệ ứng dụng AI mới, đặc biệt là những ứng dụng hướng tới các tương tác tự nhiên, trực quan và nhận biết ngữ cảnh hơn. Thiết kế của mô hình, cùng với mục tiêu đã nêu là tạo điều kiện cho ‘các agent AI hiệu quả về chi phí’, hứa hẹn sẽ hạ thấp rào cản cho các nhà phát triển đang tìm cách xây dựng các hệ thống thông minh tinh vi.

Hãy xem xét các khả năng trên các lĩnh vực khác nhau:

  • Dịch vụ khách hàng: Các agent AI có khả năng hiểu truy vấn nói của khách hàng, phân tích ảnh chụp sản phẩm bị lỗi được gửi và cung cấp hướng dẫn khắc phục sự cố bằng giọng nói theo thời gian thực đại diện cho một bản nâng cấp đáng kể so với các hệ thống chatbot hoặc IVR hiện tại.
  • Giáo dục: Hãy tưởng tượng các hệ thống dạy kèm tương tác có thể lắng nghe câu hỏi của học sinh, phân tích sơ đồ họ đã vẽ, thảo luận về các khái niệm liên quan bằng giọng nói tự nhiên và điều chỉnh giải thích dựa trên các tín hiệu bằng lời nói và phi ngôn ngữ của học sinh (nếu sử dụng đầu vào video).
  • Sáng tạo nội dung: Các công cụ được cung cấp bởi Qwen 2.5 Omni có thể hỗ trợ người sáng tạo bằng cách tạo kịch bản dựa trên bảng phân cảnh trực quan, cung cấp lồng tiếng thời gian thực cho các bản nháp video hoặc thậm chí giúp động não các ý tưởng nội dung đa phương tiện dựa trên đầu vào hỗn hợp.
  • Khả năng tiếp cận: Đối với những người khiếm thị, mô hình có thể mô tả môi trường xung quanh hoặc đọc to tài liệu dựa trên đầu vào camera. Đối với những người khiếm thính, nó có thể cung cấp bản ghi thời gian thực hoặc tóm tắt nội dung âm thanh/video, thậm chí có khả năng tham gia giao tiếp bằng ngôn ngữ ký hiệu nếu được huấn luyện phù hợp.
  • Chăm sóc sức khỏe: Các trợ lý AI có khả năng phân tích hình ảnh y tế, lắng nghe ghi chú đọc chính tả của bác sĩ và tạo báo cáo có cấu trúc, hợp lý hóa quy trình làm việc tài liệu (trong các khuôn khổ quy định và quyền riêng tư phù hợp).
  • Phân tích dữ liệu: Khả năng xử lý và tổng hợp thông tin từ các nguồn đa dạng (báo cáo, biểu đồ, bản ghi âm cuộc họp, bài thuyết trình video) có thể dẫn đến các công cụ kinh doanh thông minh mạnh mẽ hơn cung cấp thông tin chi tiết toàn diện.

Việc nhấn mạnh vào việc kích hoạt các agent AI hiệu quả về chi phí là rất quan trọng. Mặc dù các mô hình lớn tốn kém về mặt tính toán để huấn luyện, việc tối ưu hóa cho suy luận hiệu quả và cung cấp quyền truy cập mã nguồn mở cho phép các công ty nhỏ hơn, các công ty khởi nghiệp và các nhà phát triển cá nhân tận dụng các khả năng tiên tiến nhất mà không nhất thiết phải chịu chi phí cắt cổ liên quan đến các lệnh gọi API độc quyền từ các nhà cung cấp mã nguồn đóng, đặc biệt là ở quy mô lớn. Sự dân chủ hóa này có thể thúc đẩy sự đổi mới trong các lĩnh vực thích hợp và dẫn đến một loạt các công cụ và dịch vụ hỗ trợ AI trở nên sẵn có rộng rãi hơn.

Tiếp cận Tương lai: Tính sẵn có và Tương tác Cộng đồng

Việc làm cho công nghệ tiên tiến có thể tiếp cận được là chìa khóa để hiện thực hóa tác động tiềm năng của nó, và Alibaba đã đảm bảo rằng các nhà phát triển và người dùng quan tâm có nhiều cách để khám phá và sử dụng mô hình Qwen 2.5 Omni. Nhận thức được tầm quan trọng của các nền tảng tiêu chuẩn trong cộng đồng phát triển AI, Alibaba đã cung cấp mô hình một cách dễ dàng thông qua các kho lưu trữ phổ biến.

Các nhà phát triển có thể tìm thấy trọng số mô hình và mã liên quan trên Hugging Face, một trung tâm trung tâm cho các mô hình, bộ dữ liệu và công cụ AI. Sự tích hợp này cho phép kết hợp liền mạch vào các quy trình phát triển hiện có bằng cách sử dụng các thư viện và cơ sở hạ tầng được áp dụng rộng rãi của Hugging Face. Tương tự, mô hình được liệt kê trên GitHub, cung cấp quyền truy cập vào mã nguồn cho những người muốn tìm hiểu sâu hơn về chi tiết triển khai, đóng góp vào sự phát triển của nó hoặc phân nhánh dự án cho các điều chỉnh cụ thể.

Ngoài các nền tảng tập trung vào nhà phát triển này, Alibaba cũng cung cấp các cách trực tiếp hơn để trải nghiệm khả năng của mô hình. Người dùng có thể tương tác với Qwen 2.5 Omni thông qua Qwen Chat, có khả năng là một giao diện dựa trên web được thiết kế để giới thiệu các tính năng đàm thoại và đa phương thức của nó một cách thân thiện với người dùng. Hơn nữa, mô hình có thể truy cập được thông qua ModelScope, nền tảng cộng đồng riêng của Alibaba dành riêng cho các mô hình và bộ dữ liệu AI mã nguồn mở, chủ yếu phục vụ cộng đồng AI ở Trung Quốc nhưng có thể truy cập trên toàn cầu.

Việc cung cấp quyền truy cập thông qua các kênh đa dạng này – các nền tảng toàn cầu đã được thiết lập như Hugging Face và GitHub, một giao diện trò chuyện dành riêng cho người dùng và trung tâm cộng đồng riêng của Alibaba – thể hiện cam kết tương tác rộng rãi. Nó tạo điều kiện cho thử nghiệm, thu thập phản hồi có giá trị từ người dùng, khuyến khích đóng góp của cộng đồng và cuối cùng giúp xây dựng động lực và niềm tin xung quanh hệ sinh thái Qwen. Chiến lược sẵn có đa hướng này là điều cần thiết để chuyển thành tựu kỹ thuật của Qwen 2.5 Omni thành tác động hữu hình trên toàn cảnh nghiên cứu, phát triển và ứng dụng.