字節跳動(ByteDance)旗下的抖音(TikTok)風靡全球,如今更大幅擴展了其 AI 聊天機器人 Doubao 的功能,整合了即時視訊通話功能。這項突破性的新增功能,讓使用者能以更具沉浸感與互動性的方式與 AI 互動,將 Doubao 從文字型的助理,轉變為多功能的視覺輔助工具。這項於 2025 年 5 月 25 日透過 Doubao 的微信帳號發布的公告,象徵著字節跳動致力於突破人工智慧的界限,並提升使用者體驗的決心。
新實施的視訊通話功能,讓使用者能在語音通話期間啟動智慧型手機的相機,有效地將 Doubao 帶入他們的實體環境。這種視覺整合開啟了無限的可能性,讓 Doubao 能夠在各種真實情境中,提供具備情境意識的協助。
Doubao 的多功能應用:AI 驅動協助的新紀元
即時視訊通話功能的整合,將 Doubao 定位為動態且具備適應性的工具,能夠協助使用者應對各種不同的情境。試想一下,你將 Doubao 當作你的私人導覽,一同探索博物館,並針對你正在觀賞的藝術品提供見解與詮釋。或者想像一下你在照料花園,Doubao 提供植物護理方面的專家建議,並協助辨識潛在的問題。就連像採買食品這樣平凡的任務,也能因為 Doubao 的協助而變得不一樣,它可以根據你手邊的食材建議食譜,並提供挑選最新鮮農產品的指引。
但 Doubao 視訊通話功能的潛在應用,遠遠不只這些日常情境。這款 AI 能夠解讀複雜的圖表與影片,為使用者提供寶貴的見解與說明。這項能力在教育環境中特別有用,Doubao 可以扮演虛擬家教的角色,幫助學生理解困難的概念,並將抽象的想法視覺化。
中國的 AI 格局:戰略性國家投資的體現
字節跳動 Doubao 視訊通話功能的升級,並非單一事件,而是中國在人工智慧領域更廣泛雄心的體現。中國已在 AI 的研發方面投入大量資金,目標是成為這項變革性技術的全球領導者。
中國政府於 2017 年啟動的「新一代人工智慧發展規劃」,突顯了這項承諾。該計畫設定了一個雄心勃勃的目標,即在 2030 年前創建一個價值 1500 億美元的全國性 AI 產業,這個目標正在推動全國各地的創新與競爭。
字節跳動的 Doubao(擁有 1.07 億的月活躍使用者)與阿里巴巴的 Quark(擁有 1.49 億的月活躍使用者)之間的競爭,充分展現了這項戰略投資的商業影響。這些由 AI 驅動的平台,正在爭奪市場佔有率,不斷創新並推出新功能,以吸引並留住使用者。
中國在 AI 發展方面的優勢,部分歸功於其龐大的消費者資料庫,這為訓練複雜的 AI 模型,提供了無可比擬的豐富資料。這些資料對於開發能夠處理複雜視覺推理任務的 AI 系統至關重要,例如 Doubao 新的視訊功能所需要的那些任務。
多模態能力:消費者 AI 的新前沿
Doubao 中的即時視訊通話功能,突顯了多模態能力在消費者 AI 應用中日益重要。多模態 AI 結合了視覺、音訊與文字處理,以建立更直覺與自然的人機介面。這讓 AI 系統能夠以更類似於人類感知世界的方式來理解並回應世界。
字節跳動對 Doubao 採取的策略,反映了來自競爭對手的最新發展。例如,阿里巴巴在三月推出了其 Qwen2.5-Omni-7B 多模態 AI 模型,而 OpenAI 的 GPT-4o 更新,透過增強的圖像生成能力,大幅增加了 ChatGPT 的使用者數量。
這種多模態功能競爭的模式,表明 AI 公司正在競相創造更流暢與引人入勝的使用者體驗。透過結合不同的模態,AI 系統可以更好地理解使用者的意圖,並提供更相關且個人化的協助。
多模態 AI 的實際應用非常廣泛。Doubao 具備擔任博物館導覽員、園藝家教或食譜大師的能力,充分展現了這項技術在改善日常生活方面的潛力。隨著 AI 變得更深入地整合到我們的日常生活中,這些多模態能力將變得越來越重要。目前的進展開闢了一個新的競技場,在這個競技場中,AI 除了文字資料外,還可以透過視覺與聽覺線索來理解人類溝通的細微差別。
阿里巴巴在三年內投入 530 億美元,以增強其 AI 能力,突顯了這場多模態 AI 競賽中的高風險。各家公司都在押注這些能力將決定市場領導地位,並且使用者將會傾向於提供最自然與直覺互動的 AI 系統。多模態 AI 有望在一段時間內成為遊戲規則改變者,從改善使用者體驗到產生更強大且適應性更強的解決方案。
倫理考量:駕馭進階視覺 AI 的挑戰
字節跳動的視覺推理 AI 模型(為 Doubao 的視訊通話功能提供支援),引發了關於 AI 對創意產業影響的重要倫理問題。AI 產生圖像與影片的能力,引發了對版權侵權、智慧財產權以及視覺辨識中潛在偏見的擔憂。
文章特別提到對使用受版權保護的創意作品訓練的 AI 工具的倫理擔憂,突顯了圍繞 OpenAI 圖像生成工具的爭議,這些工具可以重現特定風格的藝術,例如吉卜力工作室創辦人宮崎駿的風格。這些擔憂反映了 AI 倫理中更廣泛的模式,在 AI 產生內容的所有權在法律上仍然模糊不清的情況下,為創作者與公司帶來了不確定性。
像 Doubao 的視訊功能這樣多模態 AI 的快速發展,正在超越監管框架,這些框架難以解決圍繞智慧財產權、視覺辨識中的偏見以及隱私影響的新問題。立法機構正努力應對 AI 改變市場的速度以及創新發生的方式。
這種創新與倫理治理之間的緊張關係,是字節跳動與其他 AI 公司在向消費者部署能力越來越強大的視覺 AI 系統時,需要駕馭的挑戰。隨著 AI 變得更加強大與普及,制定倫理準則與監管框架,以保護創作者的權利並確保 AI 被負責任地使用至關重要。
此外,先進 AI 演算法的部署,引發了對嵌入在系統中潛在偏見的擔憂。例如,如果視覺辨識演算法在未具代表性人群的資料集上進行訓練,則可能會延續並放大現有的社會偏見。這可能導致在面部辨識、刑事司法與貸款申請等領域產生歧視性結果。問題是如何消除在 AI 工具開發中存在的偏見問題。
隱私是另一個關鍵考量。透過 AI 系統收集與分析視覺資料,可能會引發重大的隱私擔憂,特別是如果這些資料被用於追蹤個人或推斷關於他們的敏感資訊。制定強有力的隱私保護措施,以保護個人控制其個人資料的權利至關重要。隨著這些 AI 工具的能力變得越來越複雜與先進,這些保護措施的重要性只會增加。
與 AI 相關的倫理挑戰是複雜且多方面的,需要 AI 開發人員、政策制定者與公眾之間的合作。透過積極應對這些挑戰,我們可以確保 AI 用於造福整個社會。因此,不同實體有責任就人工智慧展開公開對話。
字節跳動將即時視訊通話整合到 Doubao 中,代表著在 AI 驅動助理開發方面向前邁出了一大步。隨著 AI 不斷發展,我們必須考慮這些技術的倫理影響,並努力確保它們以負責任且合乎道德的方式使用。
應對視覺 AI 在創意領域中的挑戰
除了直接的功能之外,字節跳動在視覺 AI 模型方面的進步,也將 AI 在創意產業中的角色複雜性推到了最前線。當 AI 模型成為藝術過程的積極貢獻者時,開發會引發圍繞所有權、原創性以及創意本身定義的爭論。如果我們想要保證 AI 與人類創意之間長期、公平且永續的共存,那麼討論這些問題是一項優先事項。
AI 模型,特別是那些參與產生或操縱視覺內容的模型,依賴大量的現有作品資料集,其中許多作品都受到版權法的保護。在這些資料集上訓練 AI 的行為,會引發關於合理使用、衍生作品與潛在侵權的問題,需要 AI 開發人員與使用者仔細的法律與倫理考量。AI 開發需要小心以確保合乎道德與法律的規定。
AI 產生內容的興起,也挑戰了關於作者身份與所有權的傳統觀念。當 AI 模型創造出一件藝術品、音樂或寫作時,誰擁有版權?是 AI 的開發人員、引導創作的使用者,還是 AI 本身對所有權有某種主張?這些問題在很大程度上仍未解決,突顯了需要更新的法律框架,以適應 AI 驅動創意的現實情況。需要更新的法律框架來解決 AI 驅動的創意。
另一個關鍵問題是 AI 可能會延續其所訓練資料集中存在的偏見。如果 AI 模型主要在反映某些文化觀點或刻板印象的資料上進行訓練,則它可能會產生強化這些偏見的輸出,導致有害或歧視性結果。解決這個問題需要仔細選擇與管理訓練資料,以及持續監控與評估 AI 模型輸出,以識別並減輕任何非預期的偏見。仔細選擇與管理訓練資料將會導致成功減輕任何非預期的偏見。