Doubao của ByteDance: Bước nhảy vọt AI với gọi video | vi

ByteDance, tập đoàn công nghệ toàn cầu đằng sau hiện tượng lan truyền TikTok, đã mở rộng đáng kể khả năng của chatbot AI Doubao bằng cách tích hợp tính năng gọi video thời gian thực. Sự bổ sung đột phá này cho phép người dùng tương tác với AI một cách nhập vai và tương tác hơn, biến Doubao từ một trợ lý dựa trên văn bản thành một công cụ hỗ trợ trực quan đa năng. Thông báo này, được đưa ra thông qua tài khoản WeChat của Doubao vào ngày 25 tháng 5 năm 2025, báo hiệu cam kết của ByteDance trong việc thúc đẩy các ranh giới của trí tuệ nhân tạo và nâng cao trải nghiệm người dùng.

Chức năng gọi video mới được triển khai cho phép người dùng kích hoạt máy ảnh của điện thoại thông minh của họ trong khi gọi thoại, đưa Doubao vào môi trường vật lý của họ một cách hiệu quả. Sự tích hợp trực quan này mở ra vô số khả năng, cho phép Doubao cung cấp hỗ trợ nhận biết theo ngữ cảnh trong nhiều tình huống thực tế.

Ứng dụng linh hoạt của Doubao: Kỷ nguyên mới của hỗ trợ được hỗ trợ bởi AI

Việc tích hợp các cuộc gọi video thời gian thực định vị Doubao như một công cụ năng động và dễ thích ứng, có khả năng hỗ trợ người dùng trong nhiều tình huống khác nhau. Hãy tưởng tượng khám phá một viện bảo tàng với Doubao là hướng dẫn viên cá nhân của bạn, đưa ra những hiểu biết sâu sắc và diễn giải về tác phẩm nghệ thuật mà bạn đang xem. Hoặc hình dung bạn đang chăm sóc khu vườn của mình, với Doubao cung cấp lời khuyên chuyên gia về chăm sóc cây trồng và xác định các vấn đề tiềm ẩn. Ngay cả những công việc trần tục như mua sắm tạp hóa cũng có thể được chuyển đổi, với Doubao gợi ý các công thức nấu ăn dựa trên các thành phần bạn có sẵn và đưa ra hướng dẫn về cách chọn sản phẩm tươi ngon nhất.

Nhưng các ứng dụng tiềm năng của tính năng gọi video của Doubao vượt xa những kịch bản hàng ngày này. AI có thể diễn giải các biểu đồ và video phức tạp, cung cấp cho người dùng những hiểu biết sâu sắc và giải thích có giá trị. Khả năng này có thể đặc biệt hữu ích trong các môi trường giáo dục, nơi Doubao có thể hoạt động như một gia sư ảo, giúp học sinh hiểu các khái niệm khó và hình dung các ý tưởng trừu tượng.

Bối cảnh AI của Trung Quốc: Sự phản ánh của đầu tư chiến lược quốc gia

Nâng cấp cuộc gọi video Doubao của ByteDance không phải là một sự kiện đơn lẻ mà là một sự phản ánh về tham vọng rộng lớn hơn của Trung Quốc trong lĩnh vực trí tuệ nhân tạo. Đất nước đã đầu tư đáng kể vào nghiên cứu và phát triển AI, với mục tiêu trở thành người dẫn đầu toàn cầu trong công nghệ biến đổi này.

“Kế hoạch phát triển AI thế hệ mới” của chính phủ Trung Quốc, được khởi động vào năm 2017, nhấn mạnh cam kết này. Kế hoạch đặt ra mục tiêu đầy tham vọng là tạo ra một ngành công nghiệp AI quốc gia trị giá 150 tỷ đô la vào năm 2030, một mục tiêu đang thúc đẩy sự đổi mới và cạnh tranh trên khắp đất nước.

Sự cạnh tranh giữa Doubao của ByteDance (với 107 triệu người dùng hoạt động hàng tháng) và Quark của Alibaba (với 149 triệu người dùng hoạt động hàng tháng) là một ví dụ về tác động thương mại của khoản đầu tư chiến lược này. Các nền tảng được hỗ trợ bởi AI này đang cạnh tranh để giành thị phần, không ngừng đổi mới và giới thiệu các tính năng mới để thu hút và giữ chân người dùng.

Lợi thế của Trung Quốc trong phát triển AI một phần là do cơ sở dữ liệu người tiêu dùng rộng lớn của nước này, cung cấp một lượng dữ liệu vô song để đào tạo các mô hình AI phức tạp. Dữ liệu này rất quan trọng để phát triển các hệ thống AI có khả năng xử lý các nhiệm vụ lý luận trực quan phức tạp, chẳng hạn như các nhiệm vụ cần thiết cho chức năng video mới của Doubao.

Khả năng đa phương thức: Biên giới mới trong AI tiêu dùng

Chức năng gọi video thời gian thực trong Doubao làm nổi bật tầm quan trọng ngày càng tăng của các khả năng đa phương thức trong các ứng dụng AI tiêu dùng. AI đa phương thức kết hợp xử lý hình ảnh, âm thanh và văn bản để tạo ra các giao diện người-máy tính trực quan và tự nhiên hơn. Điều này cho phép các hệ thống AI hiểu và phản ứng với thế giới theo cách tương tự hơn với cách con người nhận thức nó.

Cách tiếp cận của ByteDance với Doubao phản ánh những phát triển gần đây từ các đối thủ cạnh tranh. Ví dụ, Alibaba đã giới thiệu mô hình AI đa phương thức Qwen2.5-Omni-7B của mình vào tháng 3, trong khi bản cập nhật GPT-4o của OpenAI đã tăng đáng kể số lượng người dùng ChatGPT với các khả năng tạo hình ảnh được tăng cường.

Mô hình cạnh tranh tính năng đa phương thức này chứng minh rằng các công ty AI đang chạy đua để tạo ra trải nghiệm người dùng liền mạch và hấp dẫn hơn. Bằng cách kết hợp các phương thức khác nhau, các hệ thống AI có thể hiểu rõ hơn ý định của người dùng và cung cấp hỗ trợ phù hợp và được cá nhân hóa hơn.

Các ứng dụng thực tế của AI đa phương thức là rất lớn. Khả năng của Doubao để phục vụ như một hướng dẫn viên bảo tàng, gia sư làm vườn hoặc bậc thầy công thức là một ví dụ cho tiềm năng của công nghệ này để nâng cao cuộc sống hàng ngày. Khi AI ngày càng được tích hợp vào các thói quen hàng ngày của chúng ta, những khả năng đa phương thức này sẽ trở nên ngày càng quan trọng. Những tiến bộ hiện tại mở ra đấu trường nơi AI có thể hiểu các sắc thái của giao tiếp của con người thông qua các tín hiệu hình ảnh và âm thanh ngoài dữ liệu văn bản.

Khoản đầu tư 53 tỷ đô la của Alibaba trong ba năm để nâng cao khả năng AI của mình nhấn mạnh mức độ cao trong cuộc đua AI đa phương thức này. Các công ty đang đánh cược rằng những khả năng này sẽ xác định vị trí dẫn đầu thị trường và người dùng sẽ hướng tới các hệ thống AI cung cấp các tương tác tự nhiên và trực quan nhất. AI đa phương thức dự kiến sẽ là một yếu tố thay đổi cuộc chơi trong một khoảng thời gian từ trải nghiệm người dùng được cải thiện đến tạo ra các giải pháp mạnh mẽ và dễ thích ứng hơn.

Cân nhắc về đạo đức: Điều hướng những thách thức của AI trực quan nâng cao

Mô hình AI lý luận trực quan của ByteDance, cung cấp năng lượng cho chức năng gọi video của Doubao, đặt ra những câu hỏi đạo đức quan trọng về tác động của AI đối với các ngành công nghiệp sáng tạo. Khả năng của AI để tạo ra hình ảnh và video làm dấy lên lo ngại về vi phạm bản quyền, quyền sở hữu trí tuệ và khả năng thiên vị trong nhận dạng trực quan.

Bài viết đặc biệt đề cập đến những lo ngại về đạo đức về các công cụ AI được đào tạo trên các tác phẩm sáng tạo có bản quyền, làm nổi bật tranh cãi xung quanh các công cụ tạo hình ảnh của OpenAI có thể tái tạo nghệ thuật theo các phong cách cụ thể, chẳng hạn như của người sáng lập Studio Ghibli Hayao Miyazaki. Những lo ngại này phản ánh các mô hình rộng lớn hơn trong đạo đức AI, nơi quyền sở hữu nội dung do AI tạo ra vẫn còn mơ hồ về mặt pháp lý, tạo ra sự không chắc chắn cho cả người sáng tạo và công ty.

Sự tiến bộ nhanh chóng của AI đa phương thức như chức năng video của Doubao đang vượt xa các khuôn khổ pháp lý, vốn đang phải vật lộn để giải quyết các vấn đề mới xung quanh quyền sở hữu trí tuệ, sự thiên vị trong nhận dạng trực quan và các tác động đến quyền riêng tư. Thật khó cho các tổ chức lập pháp để đối phó với tốc độ mà AI đang thay đổi thị trường và cách đổi mới xảy ra.

Sự căng thẳng giữa đổi mới và quản trị đạo đức này thể hiện một thách thức mà ByteDance và các công ty AI khác sẽ cần phải điều hướng khi họ triển khai các hệ thống AI trực quan có khả năng ngày càng cao cho người tiêu dùng. Khi AI trở nên mạnh mẽ và phổ biến hơn, điều cần thiết là phải phát triển các hướng dẫn đạo đức và khuôn khổ pháp lý để bảo vệ quyền của người sáng tạo và đảm bảo rằng AI được sử dụng có trách nhiệm.

Ngoài ra, việc triển khai các thuật toán AI tiên tiến làm dấy lên lo ngại về các thành kiến tiềm ẩn được nhúng trong các hệ thống. Ví dụ: các thuật toán nhận dạng trực quan có thể duy trì và khuếch đại các thành kiến xã hội hiện có nếu chúng được đào tạo trên các bộ dữ liệu không đại diện cho dân số. Điều này có thể dẫn đến các kết quả phân biệt đối xử trong các lĩnh vực như nhận dạng khuôn mặt, tư pháp hình sự và đơn xin vay. Thách thức là làm thế nào để loại bỏ những vấn đề về thiên vị trong cách phát triển các công cụ AI.

Quyền riêng tư là một cân nhắc quan trọng khác. Việc thu thập và phân tích dữ liệu trực quan thông qua các hệ thống AI có thể làm dấy lên những lo ngại đáng kể về quyền riêng tư, đặc biệt nếu dữ liệu được sử dụng để theo dõi các cá nhân hoặc suy ra thông tin nhạy cảm về họ. Điều cần thiết là phát triển các biện pháp bảo vệ quyền riêng tư mạnh mẽ để bảo vệ quyền của các cá nhân đối với việc kiểm soát dữ liệu cá nhân của họ. Tầm quan trọng của các biện pháp bảo vệ này sẽ chỉ tăng lên khi các công cụ AI này trở nên tinh vi và tiên tiến hơn về khả năng.

Những thách thức đạo đức liên quan đến AI rất phức tạp và nhiều mặt, đòi hỏi sự hợp tác giữa các nhà phát triển AI, các nhà hoạch định chính sách và công chúng. Bằng cách giải quyết những thách thức này một cách chủ động, chúng ta có thể đảm bảo rằng AI được sử dụng để mang lại lợi ích cho xã hội nói chung. Đó là trách nhiệm toàn cầu của các tổ chức khác nhau, do đó, phải có các cuộc trò chuyện cởi mở về AI.

Việc ByteDance tích hợp các cuộc gọi video thời gian thực vào Doubao thể hiện một bước tiến quan trọng trong quá trình phát triển các trợ lý được hỗ trợ bởi AI. Khi AI tiếp tục phát triển, điều quan trọng là chúng ta phải xem xét các ý nghĩa đạo đức của những công nghệ này và làm việc để đảm bảo rằng chúng được sử dụng có trách nhiệm và đạo đức.

Giải quyết những thách thức của AI trực quan trong lĩnh vực sáng tạo

Ngoài chức năng tức thời, những tiến bộ của ByteDance trong mô hình AI trực quan đưa ra những phức tạp xung quanh vai trò của AI trong ngành công nghiệp sáng tạo. Sự phát triển này khơi dậy các cuộc tranh luận về quyền sở hữu, tính nguyên bản và chính định nghĩa về sự sáng tạo khi các mô hình AI trở thành những người đóng góp tích cực vào quá trình nghệ thuật. Việc thảo luận về những vấn đề như vậy là một ưu tiên nếu chúng ta muốn đảm bảo sự tồn tại lâu dài, công bằng và bền vững của AI và sự sáng tạo của con người.

Các mô hình AI, đặc biệt là những mô hình liên quan đến việc tạo hoặc thao túng nội dung trực quan, dựa vào các tập dữ liệu lớn các tác phẩm hiện có, nhiều trong số đó được bảo vệ bởi luật bản quyền. Hành động đào tạo AI trên các tập dữ liệu này đặt ra các câu hỏi về sử dụng hợp lý, các tác phẩm phái sinh và vi phạm tiềm năng, đòi hỏi các cân nhắc pháp lý và đạo đức cẩn thận cho cả nhà phát triển và người dùng AI. Phát triển AI đòi hỏi sự cẩn trọng để đảm bảo tuân thủ đạo đức và pháp lý.

Sự trỗi dậy của nội dung do AI tạo ra cũng thách thức các khái niệm thông thường về quyền tác giả và quyền sở hữu. Khi một mô hình AI tạo ra một tác phẩm nghệ thuật, âm nhạc hoặc văn bản, ai sở hữu bản quyền? Đó có phải là nhà phát triển AI, người dùng đã nhắc tạo hay bản thân AI có một số yêu cầu về quyền sở hữu? Những câu hỏi này phần lớn vẫn chưa được giải quyết, làm nổi bật sự cần thiết của các khung pháp lý được cập nhật có thể thích ứng với thực tế của sự sáng tạo do AI điều khiển. Cần có các khung pháp lý được cập nhật để giải quyết sự sáng tạo do AI điều khiển.

Một mối quan tâm quan trọng khác là khả năng AI duy trì các thành kiến hiện có trong các tập dữ liệu mà nó được đào tạo. Nếu một mô hình AI chủ yếu được đào tạo trên dữ liệu phản ánh một số quan điểm hoặc khuôn mẫu văn hóa nhất định, nó có thể tạo ra các kết quả củng cố những thành kiến đó, dẫn đến các kết quả có hại hoặc phân biệt đối xử. Giải quyết vấn đề này đòi hỏi sự lựa chọn và quản lý cẩn thận dữ liệu đào tạo, cũng như giám sát và đánh giá liên tục các kết quả mô hình AI để xác định và giảm thiểu mọi thành kiến không mong muốn. Lựa chọn và quản lý cẩn thận dữ liệu đào tạo sẽ dẫn đến việc giảm thiểu thành công mọi thành kiến không mong muốn.

cập nhật lúc 2025-05-30

# Chatbot # ByteDance # Doubao