DeepSeekの挑戦
中国の人工知能の最近の進歩、特にDeepSeek-R1の発表は、世界的な注目を集めましたが、台湾は独自の文化的なアイデンティティと民主的な価値観を反映した言語モデルの開発を優先する、異なる道を歩んでいます。この取り組みは、権威主義的な政権の影響を受けたAIシステムへの対抗勢力を作り出すことを目指しています。
1月に発表されたDeepSeek-R1は、テクノロジーコミュニティ内でかなりの関心を集めました。BaiduのErnieやByteDanceのDoubaoなど、以前の中国語の言語モデルは、中国語のアプリケーション、数学、コーディングにおいて有望さを示しましたが、英語の能力が弱く、アクセスが制限されているという制限がありました。しかし、DeepSeek-R1は、国際的な認知を得た最初の中国語LLMとして、重要なマイルストーンとなりました。
DeepSeek-R1の最も印象的な側面の一つは、伝えられるところによると、開発コストが低いことでした。OpenAIのGPT-4oのトレーニングには1億米ドル以上かかったとされるのに対し、DeepSeekの研究者たちは、彼らのチャットボットはわずか560万米ドルで開発されたと主張しました。効率性の物語をさらに煽るために、DeepSeekのエンジニアは、GPT-4oやAnthropicのClaudeのようなモデルで使用されている最上位のチップではなく、Nvidia H800のようなミッドレンジCPUを使用してR1モデルをトレーニングしました。米国が高性能チップの中国への輸出を制限しているにもかかわらず、DeepSeek-R1は、256台のサーバーに分散されたわずか2,048個のプロセッサを使用して、他の主要なボットを上回ることができました。
この驚くべき効率性と低い開発コストは、主に、開発者がパフォーマンスを微調整し、ハードウェアの使用を最大化できるアセンブリのような言語であるPTXを含む、高度なプログラミング技術によるものでした。
リリース直後、DeepSeek-R1アプリは、米国のApple App Storeの無料ダウンロードランキングでトップに躍り出て、ChatGPT、TikTok、Metaのソーシャルメディアプラットフォームを上回りました。DeepSeek-R1のデビュー後、ナスダックは下落し、Nvidiaの株価は急落しました。
DeepSeekの主張への疑問
当初の熱狂にもかかわらず、多くのオブザーバーは、DeepSeekのLLMに関する主張の妥当性について疑問を提起しています。アナリストたちは、述べられた数値は、インフラストラクチャ、ハードウェア、および人的資源の費用を除外または過小評価しながら、計算コストのみを考慮している可能性が高いと示唆しています。
台北に拠点を置くジェネレーティブAIおよびクラウドゲームサービスプロバイダーであるUbitusの創業者兼CEOであるWesley Kuoは、これらの懸念に同意し、実際のコストは報告されているよりもはるかに高い可能性が高いと述べています。Nvidiaの支援を受けているUbitusは、繁体字中国語を使用するローカライズされたLLMであるProject TAMEをサポートしました。彼らはH100 CPUとゲームデータを提供しました。Ubitusはまた、FoxlinkおよびShinfox Energyと協力してUbilink.AIを設立し、Asusとの協力により、台湾最大のグリーンエネルギーを動力源とするAIスーパーコンピューティングサービスセンターを建設しました。
Kuoは、ゲーム、観光、小売などの分野で、日本の政府を含む政府向けのLLMアプリケーションとモデルの開発への同社の関与を強調し、労働力不足と高齢化に対応するためのAIの可能性を強調しています。
データ整合性に関する懸念
Kuoは、OpenAIとMicrosoftに同調し、DeepSeekがモデル蒸留を通じてデータを取得した可能性があると示唆しています。このプロセスでは、より大きなモデルの出力を模倣するために、より小さな言語モデルをトレーニングします。OpenAIとMicrosoftは、DeepSeekがOpenAIのアプリケーションプログラミングインターフェースを利用して開発を促進したと主張しています。
Kuoは、DeepSeekがOpenAIからデータを取得し、同社の効率性に関する主張について誤解があると主張しています。彼は、DeepSeek-R1が6,700億のパラメーターを持ち、Meta AIのLlama 3.1 405Bよりも大幅に大きいことを指摘しています。パラメーターは、モデルがトレーニング中に予測を行うために学習する内部数値です。Kuoはまた、DeepSeekのモデルがLlama 3.1から蒸留された可能性があることを示唆しています。
これらの反論を超えて、DeepSeek-R1の機能についても懸念が生じています。専門家たちは、その前身と同様に、R1は特殊なタスク固有の機能に優れていますが、汎用的なパフォーマンスではGPT-4oのバージョンに遅れをとっていると示唆しています。
DeepSeekのモデルの主な制限は、情報への自由なアクセスが制限されていることです。ユーザーは、デリケートな政治的トピックに関する問い合わせが、回避的な回答で満たされることを発見しました。新疆ウイグル族の少数民族や台湾の地位などのトピックについて、DeepSeekの回答は中国共産党の公式な立場を反映しています。調査によると、DeepSeekの出力のかなりの部分が検閲され、民主主義、人権、および中国の争われている主権の主張に関連する情報が抑制されています。
台湾の代替案:TAIDEとそれ以降
これに対応して、台湾で開発されたLLM、TAMEなどが、シノスフィア内でDeepSeekの代替案として登場しました。国立応用研究研究所によって2023年6月に開始されたTrustworthy AI Dialogue Engine(TAIDE)は、台湾の社会的、文化的、言語的規範に沿ったモデルを開発することを目指しています。
TAIDEの研究は停滞しているように見えますが、Project TAMEの重要なベンチマークとして機能しました。TAMEは、国立台湾大学のMachine Intelligence and Understanding Laboratory(MiuLab)によって開発され、さまざまな組織から資金提供を受け、5,000億トークンでトレーニングされました。GPT-4oを含む競合他社を39の評価で上回り、大学入学試験、弁護士資格試験、および伝統的な中国医学試験でより高いスコアを獲得しました。
TAMEの目的の1つは、地元の文化を促進することです。地元の言語能力を解き放つことは、重要なステップです。Kuoは、Whisperに基づく台湾語の音声LLMの開発について言及しており、口頭での台湾語の理解において肯定的な結果を達成しています。客家語の認識を開発する取り組みも進行中です。
これらの取り組みは、これらの言語が普及している地域の機関から好評を博しています。先住民族の言語認識でモデルをトレーニングする取り組みもありますが、限られたデータが依然として障害となっています。AIに新しい言語を学習させるには、テキストとペアになった音声録音が大量に必要です。
政府のアーカイブにある過去のデータにアクセスすることも、別の機会を提供します。ただし、一部のデータは著作権で保護されています。人工汎用知能の出現は、絶滅の危機に瀕している言語や絶滅した言語の復活を支援する可能性を提供します。
AI主権の追求
言語と文化の交差点は、台湾のアイデンティティを強化し、台湾の物語を伝え、その情報環境を保護する手段としてのAI主権の重要性を強調しています。
業界コンサルタントであり、Market Intelligence & Consulting Institute(MIC)のディレクターであるJulian Chuは、LLMモデルおよびトレーニングデータにおけるバイアスの可能性を強調しています。彼は、繁体字を使用する場合でも、LLMの出力は中華人民共和国のスタイルを反映し、台湾の文化を捉えられない可能性があると指摘しています。目標は、台湾の企業が台湾語またはデータを使用してLLMをトレーニングし、AI主権を構築することです。
Chuは、もう1つの有望な台湾LLMとして、Formosa Foundation Model(FFM-Llama2)を挙げています。Taiwan Web Serviceによって2023年9月にリリースされ、AIを民主化することを目指していました。Foxconnも3月にLLMであるFoxBrainを立ち上げました。ただし、一部のコメンテーターは、大企業のLLMへの進出に懐疑的です。
TAMEを開発したMiuLabチームのメンバーであるLin Yen-tingは、台湾に関する情報環境のギャップに対処する必要性を強調しています。彼は、DeepSeek-R1やその他の中国のLLMが台湾の歪んだ見方を提示していると指摘しています。米国で開発されたモデルも、台湾を誤って表現することがあります。オープンソースモデルは台湾を優先しない可能性があり、トレーニングデータは中国によって支配されています。
したがって、台湾のコンテンツを選択的に組み込み、モデルに再トレーニングすることが重要です。この積極的なアプローチにより、台湾のユニークな文化的および言語的景観がデジタル領域で正確に表現され、国民のアイデンティティが育まれ、世界的なAI開発に直面してもその独特の遺産が保存されます。台湾のアイデンティティを維持するというこの献身は、島国のユニークな文化と価値観が支配的な物語によって影を落とされることのないようにします。
この取り組みに内在する課題は相当なものです。真に代表的なAIモデルを構築するには、ローカライズされたコンテンツの膨大なデータセットへのアクセスや自然言語処理の専門知識など、多大なリソース投資が必要です。さらに、偽情報や偏った情報に対抗し続けるには、継続的な改良と適応のプロセスが必要です。
これらの課題にもかかわらず、AI主権に対する台湾のコミットメントは揺るぎません。TAMEやその他のローカライズされたLLMの開発は、人工知能の未来が島のユニークな文化的アイデンティティ、民主的価値観、および世界の独特の場所を維持するという揺るぎないコミットメントを反映するようにするための重要なステップを表しています。AI主権を優先することにより、台湾は文化遺産を保護するだけでなく、世界のAIの景観における主要なプレーヤーとしての地位を確立し、技術の進歩が文化的アイデンティティと民主的原則の維持と一致できることを示しています。
旅の継続
完全なAI主権への旅は進行中です。これらの取り組みの課題を克服し、長期的な成功を確実にするためには、さらなる研究、開発、および協力が不可欠です。AI主権を優先し続けることで、台湾は独自の文化的アイデンティティと民主的価値観を真に反映したデジタル景観を作り出し、ますます相互接続された世界で独自の場所を維持しようと努めている他の国々の模範となることができます。