倫理的データのみのAI:SFが現実に

倫理的なデータ調達という難題

倫理的なAIのオアシスへの道のりは、決して楽なものではありませんでした。研究者たちが認めるように、真のボトルネックは計算能力ではなく、純粋な人的努力でした。8テラバイトを超える広大なデータセットであるCommon Pile v0.1を組み立てるプロセスは、AIトレーニングに適するように、骨の折れる手作業によるクリーニングと再フォーマットを必要としました。データのセットを破損する可能性のあるあらゆる種類のエラーを探して、事実上無限のデジタル情報の山をふるいにかけることを想像してください。

しかし、真の課題は、著作権の状態を綿密に二重チェックすることにありました。インターネットの混沌とし​た領域では、蔓延する誤ったライセンス供与が当たり前になっており、著作権の検証はシジフォスの仕事と化しています。

「これは、利用可能なリソースをスケールアップできるような種類のものではありません」と、研究の共著者であるステラ・ビダーマンは_WaPo_に語りました。「自動化ツールを使用していますが、最終的にはすべて手作業で注釈が付けられ、人々によってチェックされました。そして、それは本当に大変なことです。」

テラバイト単位のデータの中から著作権の問題を探す作業は簡単ではありません。研究者たちは単にプロセッサチップを追加して解決することを期待するわけにはいきませんでした。そうではなく、彼らはすべてのデータを手動で検証し、注釈を付ける必要がありました。

逆境を乗り越えて:倫理的なAIの誕生

困難な障害にもかかわらず、ビダーマンと彼女の献身的なチームはやり遂げました。Common Pileを作成するという困難なタスクが完了すると、彼らはその可能性を解き放ち、70億のパラメーターを持つ大規模言語モデル(LLM)をトレーニングしました。その結果得られたAIは、MetaのLlama 1やLlama 2 7Bのような業界のベンチマークと対等に競合しただけでなく、クリーンな倫理的な良心を持ってそうしました。

しかし、AI研究の状況は弾丸が飛ぶように急速に進化しています。MetaがLlama 1とLlama 2を数年前にリリースしたことを覚えておくことが重要です。これはAIの世界では相対的な永遠です。

小規模で決意の固いチームが限られたリソースで同等の結果を達成できたという事実は、彼らの創意工夫の証です。特に刺激的な発見の1つは、これまで見過ごされてきた米国議会図書館にある13万冊以上の英語の書籍の宝庫でした。

AIと著作権のあいまいな水域

著作権は、AIの時代において厄介な倫理的および法的問題のままです。OpenAIやGoogleのような業界大手は、ニュース記事から個人のソーシャルメディアの投稿まで、目に見えるものすべてを貪り食うことによって、膨大なデータセットを蓄積してきました。この慣行はあらゆる方面から批判を浴びています。作家たちは、著作権で保護された書籍をAIモデルのトレーニングに違法に使用しているとして訴訟を起こしていました。

ハイテク業界は、そのような慣行は公正な使用に該当すると主張し、データへの無制限のアクセスなしにはAIの開発は「不可能」であると主張しています。この最新の研究は、そのシリコンバレーの物語に痛烈な反論をもたらしています。

この成果は大きな一歩前進ですが、すべての倫理的配慮を排除するわけではありません。大規模言語モデルは、人間の労働者を置き換える可能性があり、労働の未来について根本的な疑問を投げかけています。さらに、パブリックドメインの作品の使用は、特に彼らの創造的な貢献がAIによって再び繰り返されている人々にとっては、すべての人に受け入れられるとは限りません。

仮にAI企業がデータの使用許可を求めたり、補償を提供したりすることを余儀なくされる未来があったとしても、著作権者はAIトレーニングを許可するために不当な圧力を受ける可能性があります。AIモデルのトレーニング時に利用できる膨大なリソースは、ほとんどの著作権者が、AI企業がデータを使用することを許可するようにとの圧力に抵抗できないことを意味します。

AIの透明性と説明責任に向けて

しかし、ビダーマンは現実的です。彼女は、OpenAIのような企業が突然倫理的なデータ調達を受け入れるという幻想を抱いていません。代わりに、彼女は自分の仕事がデータ使用に関するより大きな透明性を奨励することを望んでいます。どのAI製品のトレーニングにどのデータセットが使用されたのでしょうか?その質問への答えを知ることは、AIの未来に大きな影響を与える可能性があります。
現在のところ、特定のAIのトレーニングに使用された正確なデータセットは厳重に保護された秘密です。AIモデルを複製する唯一の方法は、現在のAIモデルがどのように作成されたかを正確に伝えられるか、またはAIモデルをリバースエンジニアリングすることです。これには非常に多くの時間と労力がかかる可能性があります。

「部分的な透明性でさえ、大きな社会価値と適度な科学的価値があります」と彼女は_WaPo_に語りました。

AI開発におけるパラダイムシフト

この研究の含意は、AI倫理の領域をはるかに超えて広がっています。AIがどのように開発されるべきかについて根本的な変化を示唆しており、倫理的配慮と技術的進歩が相互に排他的である必要はないことを示しています。透明性、責任あるデータ調達、人間の監督を優先することにより、AIが人間のために役立つ未来を築くことができます。

倫理的な懸念と社会的影響への対処

倫理的なデータ使用が乗り越えられない障害であるというハイテク業界の主張は、今や決定的に覆されました。このプロジェクトの成功は、強固な倫理的基盤に基づいてAIモデルを構築することの実現可能性を強調しています。ただし、AI開発の倫理的な側面は、著作権の問題にとどまりません。雇用の喪失やアルゴリズムの偏見など、AIの社会経済的影響は慎重な検討が必要です。

AIモデルに影響を与える倫理的配慮は、調達だけではありません。データが、人口のいかなる層に対してもAIモデルが偏ったものにならないように確認する必要があります。

透明性と説明責任の促進

信頼を育み、責任あるイノベーションを確保するためには、AI業界は透明性と説明責任を受け入れる必要があります。企業は、モデルのトレーニングに使用されたデータソースと、バイアスを軽減するために採用された方法論についてオープンである必要があります。独立した監査と外部の監視は、説明責任をさらに強化し、倫理的な過ちを防ぐことができます。

AIの透明性は、データセットにAIモデルの偏りを避けるために十分な分布があることを確認するために実装できます。AIの説明責任は、潜在的な倫理的過ちをチェックするために外部監査によって実装できます。

コラボレーションとオープンソースソリューション

倫理的に調達されたAIの開発には、コラボレーションとオープンソースソリューションが必要です。データセット、方法論、ベストプラクティスを共有することで、研究者や開発者は進捗を加速し、倫理的なAI開発の課題に共同で取り組むことができます。オープンソースのイニシアチブは、小規模な組織や個人がAI革命に参加できるようにし、このテクノロジーのメリットがより公平に共有されるようにします。

より明るい未来への約束

倫理的に調達されたデータのみでトレーニングされたAIモデルの作成は、責任ある有益なAIの探求におけるマイルストーンです。この画期的な成果は、倫理的なAI開発が可能であることを証明するだけでなく、他の人が従うべきロードマップを提供します。透明性、コラボレーション、倫理的原則へのコミットメントを受け入れることで、人道的価値を守り、より公正で公平な未来を促進しながら、AIの可能性を最大限に引き出すことができます。