基於道德數據的AI:科幻夢想成真

在對科技產業聲稱的不可能性的驚人反駁中,一個專注的研究團隊已經實現了許多人認為無法實現的目標:創建一個完全基於道德來源數據訓練的AI模型。 這項突破性的成就由來自 MIT、康奈爾大學和多倫多大學等著名機構的專家帶領,為 AI 開發的未來提供了一個可行且負責任的藍圖。 秘訣是什麼? 一個精心策劃的數據集,完全由公開許可或公共領域的內容組成。

道德數據採購的艱鉅任務

通往這個道德 AI 綠洲的旅程絕非易事。 正如研究人員欣然承認的那樣,真正的瓶頸不是計算能力,而是純粹的人力。 組裝 Common Pile v0.1 這個超過 8 TB 的龐大數據集的過程,需要進行艱苦的手動清理和重新格式化,以使其適合 AI 訓練。 想像一下,篩選幾乎無窮無盡的數位資訊堆,尋找任何可能損壞數據集的錯誤。

但真正的挑戰在於對版權狀態的仔細雙重檢查。 在混亂的網路領域,猖獗的錯誤授權是常態,將版權驗證變成西西弗斯式的任務。

"這不是你可以簡單地擴展可用資源的事情,"研究共同作者 Stella Biderman 告訴 WaPo。 "我們使用自動化工具,但我們所有的東西最終都是手動註釋的,並由人工檢查。這非常困難。"

篩選數 TB 的數據以尋找版權問題的過程並不容易。 研究人員不能簡單地在過程中添加更多的電腦晶片,並期望得到解決方案。 相反,他們需要手動驗證和註釋所有數據。

戰勝逆境:合乎道德的AI誕生

儘管面臨著令人望而卻步的障礙,比德曼和她敬業的團隊仍然堅持不懈。 一旦完成創建 Common Pile 的艱鉅任務,他們就釋放了其潛力來訓練一個擁有 70 億參數的大型語言模型 (LLM)。 由此產生的 AI 不僅保持了其與 Meta 的 Llama 1 和 Llama 2 7B 等行業基準的競爭力,而且還以乾淨的道德良知做到了這一點。

但 AI 研究場景的發展速度與飛速前進的子彈一樣快。 重要的是要記住,Meta 在幾年前發布了 Llama 1 和 Llama 2,這在 AI 世界中相對永恆。

一個精簡、堅定的團隊能夠以有限的資源取得相當的成果,證明了他們的聰明才智。 一個特別有啟發性的發現是美國國會圖書館中超過 13 萬本先前被忽視的英語書籍的寶庫。

AI和版權的渾水

在 AI 時代,版權仍然是一個棘手的道德和法律問題。 OpenAI 和 Google 等行業巨頭透過吞噬他們所看到的一切,從新聞文章到個人社群媒體帖子,積累了龐大的數據集。 這種做法引起了各方的批評。 作者甚至提起訴訟,聲稱非法使用受版權保護的書籍來訓練 AI 模型。

科技產業認為,這種做法構成合理使用,並辯稱如果沒有不受限制的數據訪問,AI 的發展將 "不可能"。 這項最新的研究對矽谷的說法提出了嚴厲的反駁。

雖然這項成就標誌著向前邁出了重要的一步,但它並沒有消除所有道德考量。 大型語言模型具有取代人類工人的潛力,仍然引發了關於勞動未來的根本問題。 此外,使用公共領域的作品可能不會讓每個人都滿意,尤其是那些現在其創意貢獻被 AI 模仿的人。

即使在一個假設的未來,AI 公司被迫尋求許可或為數據使用提供compensation,版權持有人可能仍然面臨允許 AI 訓練的不當壓力。 訓練 AI 模型時可以動用的巨額資源意味著大多數版權持有人將無法抵抗大型 AI 公司允許他們使用數據的壓力。

邁向AI的透明度和責任

然而,比德曼仍然務實。 她沒有幻想 OpenAI 等公司會突然接受道德數據採購。 相反,她希望她的工作能夠鼓勵數據使用方面更大的透明度。 使用哪些數據集來訓練哪些 AI 產品? 知道這個問題的答案可能會對 AI 的未來產生重大影響。

"即使是部分透明度,也具有巨大的社會價值和適度的科學價值,"她告訴 WaPo

目前,用於訓練指定 AI 的確切數據集是嚴格保密的。 複製 AI 模型的唯一方法是準確地告訴您當前 AI 模型是如何創建的,或者是對 AI 模型進行逆向工程,這可能需要大量的時間和精力。

AI 開發的範式轉變

這項研究的影響遠遠超出了 AI 倫理的範疇。 它標誌著 AI 如何開發的根本性轉變,表明道德考量和技術進步不必相互排斥。 透過優先考慮透明度、負責任的數據採購和人工監督,我們可以創建一個 AI 為人類服務而不是相反的未來。

解決倫理問題和社會影響

科技產業關於道德數據使用是一個無法克服的障礙的論點現在受到了果斷的挑戰。 該專案的成功強調了在堅實的道德基礎上構建 AI 模型的可行性。 然而,AI 開發的道德層面不僅僅限於版權問題。 AI 的社會經濟影響,包括工作崗位流失和演算法偏差,需要仔細考量。

影響 AI 模型的道德考量不僅僅限於採購。 我們還必須驗證數據是否沒有導致 AI 模型對任何人群產生偏差或歧視。

促進透明度和責任

為了建立信任並確保負責任的創新,AI 行業必須擁抱透明度和責任。 公司應公開用於訓練其模型的資料來源以及用於減輕偏見的方法。 獨立稽核和外部監督可以進一步提高問責制並防止道德失誤。

可以實施 AI 透明度來驗證數據集是否包含足夠廣泛的分佈,以避免 AI 模型中出現偏差。 可以透過外部稽核來實施 AI 問責制,以檢查潛在的道德失誤。

合作和開源解決方案

合乎道德來源的 AI 的開發需要合作和開源解決方案。 透過分享數據集、方法和最佳實踐,研究人員和開發人員可以加速進程並共同解決道德 AI 開發的挑戰。 開源計畫還可以使較小的組織和個人能夠參與 AI 革命,確保更公平地分享該技術的利益。

光明未來的承諾

創建一個完全基於道德來源數據訓練的 AI 模型代表了追求負責任且有益 AI 的里程碑。 這項開創性的成就不僅證明了道德 AI 開發是可能的,而且還為其他人提供了遵循的路線圖。 透過擁抱透明度、合作和對道德原則的承諾,我們可以在保護人類價值觀並促進更公正和公平的未來的同時,釋放 AI 的全部潛力。