五款AI寫作助理的驚人測試結果

我最近參與了由《華盛頓郵報》組織的一項AI寫作實驗,與一群溝通專家一同評估五款熱門的AI工具。科技記者 Geoffrey Fowler 將其定位為現代版的傳統烘焙比賽,挑戰我們評估這些AI工具在處理五種類型具挑戰性的工作和個人電子郵件方面的能力。

為何選擇電子郵件?

Fowler 解釋說,電子郵件寫作是 ‘AI在你的生活中可以做的第一件真正有用的事情之一。而且AI在起草電子郵件時所展示的技能也適用於其他類型的寫作任務。’

評審們在這項盲測中總共評估了 150 封電子郵件。雖然一款AI工具明顯勝出,但實驗也突顯了AI寫作和溝通助理的潛在優勢和一個重大限制。

在評估過程中,我們並不知道哪些電子郵件是由 ChatGPT、Microsoft Copilot、Google Gemini、DeepSeek 或 Anthropic 的 Claude 所產生的。Fowler 還包括了他自己撰寫的電子郵件,挑戰我們區分AI產生和人類撰寫的內容。

頂尖的AI寫作助理

Claude 是毫無爭議的贏家。

Fowler 指出,’平均而言,Claude 的電子郵件感覺比其他郵件更人性化。’ 另一位評審 Erica Dhawan 補充說,’Claude 使用精確、尊重的語言,而不會過於商業化或不近人情。’

DeepSeek 獲得第二名,其次是 Gemini、ChatGPT 和 Copilot,Copilot 排名墊底。儘管 Copilot 在 Windows、Word 和 Outlook 中廣泛可用,但評審們發現 Copilot 的電子郵件聽起來太過人工化。根據 Fowler 的說法,’在我們的五項測試中,Copilot 在訊息開頭都使用了非常通用的 ‘希望你一切都好’ 的變體。’

儘管 Claude 在整體競賽中獲勝,但我發現我個人的分數顯示我更偏愛人類撰寫的電子郵件。這種偏好突顯了所有AI助理的一個根本限制。

Fowler 指出,評審們並不總是同意哪些電子郵件是最好的,但他們都集中在一個核心問題上:真實性。他強調說,’即使AI在寫作上在技術上是 ‘禮貌的’,但對人類來說仍然可能顯得不真誠。’

我從實驗中得到的主要結論是,AI工具擅長於勾勒輪廓、構建論點和確保清晰度。然而,它們通常會產生生硬、過於正式、機械化且缺乏個性化、情感和同理心的寫作。

AI助理在創造力方面面臨的挑戰源於大型語言模型的底層架構。這些模型旨在生成具有 ‘語法連貫性’ 的內容,這意味著將句子串聯在一起,使其自然流暢並遵守語法規則。然而,我們都知道,規則有時是需要打破的。

破壞規則者:Steve Jobs

1997 年,在 Steve Jobs 的領導下,蘋果公司推出了一場歷史上最令人難忘的行銷活動之一。當時,該公司正處於破產的邊緣,迫切需要一場能夠吸引人們注意並將其與競爭對手區分開來的活動。

由此產生的電視廣告,以 ‘非凡人物’ 而聞名,以黑白肖像為特色,展示了 Bob Dylan、John Lennon 和 Martin Luther King Jr. 等叛逆和有遠見的人物。這場活動被廣泛認為重振了蘋果的品牌形象,並在公司的財務復甦中發揮了關鍵作用。

如果讓AI負責創建蘋果的活動,它可能永遠不會發生。

我怎麼能這麼肯定?因為 Claude 自己也承認了。

Claude 承認,’如果要求我以預設模式創建像蘋果著名活動這樣的口號,我幾乎肯定會寫 ‘Think Differently’ 而不是 ‘Think Different.’ 我的訓練強調語法正確性。修飾動詞 ‘think’ 的正確副詞形式是 ‘differently,’,我會傾向於遵循這個既定規則。’

根據 Claude 的說法,它可以事後分析為什麼該活動引起共鳴。然而,’產生那種刻意的語法叛逆對我來說並不自然。’

AI缺乏叛逆精神,僅僅是因為它不是人類。雖然有些AI機器人在模擬人類寫作品質方面可能比其他機器人更擅長,但它們最終缺乏由個人經歷和創造性見解塑造的獨特聲音,而這些獨特聲音定義了人類的溝通方式。

AI應該被視為一個有用的助理,可以幫助集思廣益、闡明想法、總結文件以及收集和組織資訊。這些都是必不可少且耗時的任務。然而,雖然AI當然可以增強溝通,但不應取代人類溝通者。

隨著越來越多的人依賴AI助理來撰寫電子郵件、履歷、備忘錄和簡報,同質化的風險越來越大,個人開始聽起來很相似。企業招聘人員已經注意到這種趨勢。

每個人都擁有一個獨特而強大的故事可以分享。重要的是不要讓人工聲音淹沒一個人的真實聲音。