人工智能(AI)的迅猛發展令人眼花繚亂,要時刻掌握最新動態,幾乎需要投入全部精力。
我深知這一點,因為這就是我的工作。為了第一時間體驗最新的模型,我訂閱了Anthropic的Pro模式,得以使用其最新模型Claude 3.7的「擴展思考」模式。同時,我也訂閱了OpenAI的企業模式,以便測試他們的最新模型o3和o4-mini-high(稍後會解釋OpenAI令人費解的命名規則!),並使用OpenAI的新圖像生成模型4o創作大量圖像。4o的出色表現讓我取消了之前圖像生成工具Midjourney的訂閱。
此外,我還訂閱了Elon Musk的Grok 3,它擁有我最喜愛的AI功能。我也嘗試使用中國的AI代理平台Manus進行購物和日程安排。這些訂閱幾乎耗盡了我的預算,但這還不包括我以其他形式使用的所有AI。就在我撰寫本文的這個月裡,谷歌對其最優秀的AI產品Gemini 2.5進行了大規模升級,Meta發布了Llama 4,這是迄今為止最大的開源AI模型。
那麼,如果緊跟AI發展不是你的日常工作,但你仍然想知道在哪些情況下使用哪種AI才能真正改善你的生活,而不會浪費時間在那些表現不佳的模型上,你該怎麼辦?
這就是本文的目的。我們將以類似「消費者報告」的方式,深入探討哪種AI最適合各種應用場景,以及如何實際使用它們,所有這些都基於我在實際任務中的經驗。
不過,首先需要聲明的是:Vox Media是與OpenAI簽署了合作協議的幾家出版商之一,但我們的報導始終保持編輯獨立。Future Perfect的資金部分來自BEMC基金會,該基金會的主要資助者也是Anthropic的早期投資者;他們也不會對我們的內容進行任何編輯干預。我的妻子在谷歌工作,但與他們的AI產品沒有任何關係;因此,我通常不報導谷歌,但在這樣一篇文章中,如果不包括谷歌,那將是不負責任的。
好消息是,這篇文章不需要你信任我的編輯獨立性;我會展示我的工作。我對市面上所有主要的AI進行了幾十項比較,其中許多是我自己設計的。我鼓勵你比較它們的答案,並自行判斷我是否選擇了正確的AI進行推薦。
關於AI藝術的倫理
AI藝術是通過在互聯網內容上訓練計算機而創建的,幾乎不考慮版權或創作者的意圖。因此,大多數藝術家都對此感到不滿。在這種情況下,使用AI藝術是否合理?
我認為,在一個公正的世界裡,OpenAI肯定會賠償一些藝術家——在一個公正的世界裡,國會將採取行動,規定藝術借用的界限。與此同時,我越來越相信,現有的版權法並不適合解決這個問題。藝術家們互相影響、互相評論、互相借鑒,而能夠使用AI工具的人也會繼續這樣做。
我個人的哲學受到我童年時代粉絲文化的影響:為了自己的樂趣而建立在別人的作品之上是可以的,但如果你喜歡它,你應該為此付費,而且絕對不能出售它。這意味著不能將生成式AI藝術用於商業目的,但用你的家庭照片玩玩是可以的。
圖像生成的最佳選擇
OpenAI新推出的4o圖像創作模式是目前為止最好的AI圖像生成工具,而且優勢明顯。它在免費類別和付費類別中都是佼佼者。
在4o發布之前,我訂閱了AI圖像生成平台Midjourney。提到AI藝術,你可能會想到Midjourney:它能生成神秘、令人難忘、視覺效果精美的作品,並且擁有一些出色的工具來改進和編輯你的最終結果,比如修飾某人的頭髮,同時保持其他一切不變。
4o的最大優勢在於,它可以可靠地將一張效果不佳的照片轉變成一件美麗的藝術品,同時保留原始照片的特徵。之前的任何模型都無法做到這一點。
在下面這張照片中,我和我的妻子抱著孩子,正在慶祝她的第一個生日:
AI將蛋糕(在原始照片中幾乎被紙巾卷遮擋)移動到圖像的焦點位置,同時保持了我和妻子抱孩子的姿勢,以及雜亂的桌子和背景中貼滿照片的冰箱。最終效果溫馨、討喜、可愛。
正是這種能力讓4o最近風靡一時,這是之前的任何圖像生成器都無法做到的。
在下面這張照片中,要求Midjourney進行風格遷移,將同一張照片變成「皮克斯風格電影」:
你會注意到,這看起來像是一個完全不同的家庭,與原始照片沒有任何真正的靈感!最終你能從Midjourney獲得比這更好的效果,但這需要花費數週時間來掌握該平台的高度特定語言和工具集,成為精通提示的專家。
相比之下,ChatGPT僅用簡單的請求,無需專業語言,就能在第一次嘗試時給我一個遠遠優於Midjourney的輸出結果。
4o與其他圖像模型之間的差異在這種請求中最明顯,但它也更適合我使用的幾乎所有其他圖像生成任務。你開箱即用的產品非常不錯,而且不難生成更好的作品。理想情況下,這應該是我們從AI工具中獲得的——非專業人士也可以用簡單的語言創造出令人驚嘆的東西。
4o目前的一個不足之處是,在保持其他部分不變的情況下,編輯圖像的小部分。但即便如此,你也不再需要Midjourney——Gemini現在免費提供此功能。
4o圖像生成的提示策略
為了從4o獲得好的圖像,你首先需要繞過那些禁止各種圖像(如冒犯性或色情圖像)的過濾器,但這些過濾器通常會以一種看似隨機的方式對完全無害的內容強制執行。為了避免受到內容過濾器的偶爾責罵,不要要求以特定藝術家的風格創作作品,而是要求創作一些讓人聯想到該藝術家的作品,然後專門要求進行「風格轉換」。可以肯定的是,這並非唯一的有效解決方法,但它對我來說確實有效。
今年3月,互聯網上短暫地掀起了一股熱潮,人們可以使用4o以日本動畫大師宮崎駿的吉卜力工作室的風格再現可愛的家庭照片。但吉卜力工作室的風格不僅僅是可愛,只要稍微多加提示,你就能獲得更好的效果。下面是使用了4o的吉卜力工作室風格渲染的一張我女兒從桌子上偷吃零食的照片,提示語僅僅是「請吉卜力化」:
卡哇伊!但如果你讓4o首先思考是什麼讓這張照片具有吉卜力風格,它可能適合吉卜力工作室的哪部電影,以及這樣一部電影會包含哪些微小的細節,你就會得到這樣的結果:
這些差異是細微但有意義的:光線來自特定的光源,而不是一般的無源亮度。桌子上的食物種類更多,細節使食物看起來更真實。地板上的書不僅僅是任何書——它清晰地顯示了Eric Carle的經典作品《好餓的毛毛蟲》,僅用了兩種顏色和一條線就喚起了人們的回憶。照片中嬰兒的意圖和強度是第一張照片所沒有的。
幾年前,語言模型的一個奇怪之處在於,如果你簡單地告訴它們「給出一個聰明的答案」,它們就會變得更聰明。對於語言模型來說,這已經不太真實了,但對於AI藝術生成來說,這仍然非常真實。嘗試要求AI做好工作,它會做得更好。質疑它是否真正捕捉到了藝術家的天才之處,它會給你一個深思熟慮的答案,然後畫出一個更好的版本。
對於更逼真的藝術風格(如鉛筆插圖、照片寫實主義或油畫)來說,這種差異更為明顯,如果你不知道如何提示AI,這些風格並不總是看起來不錯,而且經常會陷入恐怖谷。如果我上傳一張我和小女兒在海灘的照片,並僅僅用「請將風格轉換為讓人聯想到Rockwell的插圖」這樣的提示語,我會得到這樣的結果:
對於AI來說,這令人印象深刻,但作為一件藝術品,它實際上並不是很好,而且幾乎完全缺乏Norman Rockwell的魔力。這並不奇怪:除非你能投入一些精力讓AI正確地繪製它們,否則像Rockwell這樣更逼真的藝術風格經常無法達到預期的效果。
如果你能做到,這是我推薦的策略:不要只上傳一張照片,而是一組照片,每張照片的姿勢和瞬間略有不同。上傳每個家庭成員面部的清晰照片,並告訴AI它們已作為參考。然後,不要要求AI立即生成圖片,而是要求它與你討論你希望捕捉的內容。這是我寫的內容:
這張照片是我女兒第一次看到大海的瞬間。我想要一張以類似於Norman Rockwell的中世紀插畫家的風格捕捉這一瞬間的插圖——一些敏銳、注重細節、個性化的東西,並關注普通時刻的魔力和普通生活的樂趣。我提供了我和女兒的額外照片,作為你的參考資料。在你生成圖像之前,讓我們討論一下Rockwell風格的本質要素,他會給這張照片帶來什麼,以及我們如何捕捉它。
4o熱情地回應了這樣的查詢:
我很樂意討論如何用Norman Rockwell風格的插圖捕捉這一瞬間——那是那種風格的完美候選者:第一次遇到廣闊而狂野的事物(大海!),以溫暖、關懷和父母與孩子之間非常人性化的時刻為基礎。
讓我們分解一下Rockwell風格的一些基本要素,以及它們如何應用於這個場景。
經過一番來回之後,它產生了這樣的結果:
Rockwell?不完全是。但這比我們剛才看到的初稿要好得多。它具有更多的動感、更多的能量、更多的細節和更多的表現力——而這一切僅僅來自於在繪製之前要求AI思考這幅畫應該試圖實現什麼!
你也可以要求4o修改它的圖畫,但你真的只能要求修改一次:根據我的經驗,在第一次修改之後,它開始讓圖畫變得越來越糟,這可能是因為它使用的「上下文」現在充滿了它自己糟糕的草稿。(這是AI不像人類那樣工作的眾多例子之一。)
這也是Midjourney仍然閃耀的地方——它具有非常好的工具來編輯圖片的特定部分,同時保持整體風格,這是4o在很大程度上缺乏的。如果你想要對你在4o中獲得的圖畫進行第二次修改,我建議你打開一個新的聊天窗口,並將你正在修改的草稿連同你的原始靈感圖像一起複製過來。
這些簡單的提示策略適用於你嘗試用AI做的幾乎任何事情。即使你很着急,我強烈建議你在要求渲染之前,先問AI「[藝術家]會在這張圖片中看到什麼」,如果你有時間,我建議你花時間進行關於你的願景的長時間討論。
贏得無聊的互聯網爭論的最佳選擇
Elon Musk的X.AI發布了Grok 3,它帶有一個令人難以置信的功能,我一直在焦急地等待其他公司複製:一個掃描某人的X個人資料並告訴你關於他們的一切的按鈕。
每當有人以一種特別令人難忘的方式回復我的推文時(無論是好的還是壞的),我都會點擊該按鈕以獲取他們的整個Twitter存在記錄的摘要。他們是深思熟慮的嗎?他們是否真誠地參與?他們是「內布拉斯加州的農民」嗎?他們是否在很大程度上發布有關為什麼烏克蘭不好的內容(也就是說,可能是一個機器人)?
這是一個很棒的功能。因此,當然,X.AI很快就大大削弱了它,這可能是因為像我這樣的人經常使用它並提出許多計算量大的查詢。我認為它不再使用最先進的Grok模型,並且它現在肯定只掃描幾天的個人資料歷史記錄。但是,如果有人正在尋找一個絕妙的產品機會,那麼請給我恢復這個功能的好版本!這絕對是一種罪惡的快感,但這是我不斷使用AI的唯一案例之一。
寫作小說的最佳選擇
Gemini 2.5 Pro 是免費類別中寫作小說的最佳AI; GPT 4.5 在付費類別中勝過它。
我不是藝術家,因此AI在藝術方面的不完善之處並沒有真正困擾我——它仍然比我自己能做的要好得多!但我是一名小說作家,因此在小說創作方面,我忍不住看到了AI的局限性。
最重要的是AI創意寫作的趨勢是多麼可預測。寫作的藝術是贏得讀者投入並回報讀者的藝術。人工智能……不這樣做。他們可以寫漂亮的隱喻;他們可以用你希望的任何風格進行詩意的描述。但是他們還不能提供優秀小說的真正內容。
如果你想讓你孩子成為主角的愚蠢的睡前故事(孩子們喜歡這個),或者你想要一個可以融入你自己作品的想法的共鳴板,那麼AI非常棒。他們也是友好的小說讀者,樂於提供反饋和分析(也許熱情有點_太_高了)。
與藝術一樣,提示是關鍵。我主要通過要求他們編寫喬治·R·R·馬丁的《權力的遊戲》的序言來探索AI生成小說的能力(我選擇這個是因為,當然,最終的夢想是AI可以完成這個注定要爛尾的系列)。
馬丁非常擅長他所做的事情。序言講述了守夜人中一些不幸的人遇到了他們的超自然敵人,成功地確立了《權力的遊戲》世界的獨特氛圍,同時立即吸引了讀者。在短短的14頁中,序言代表了AI在寫作方面尚無法做到的所有事情。他們的散文往往過於矯揉造作;他們的對話笨拙而不微妙。
你會注意到,不僅這些都比馬丁的差得多(而且馬丁的作品幾乎肯定在訓練數據中!),而且它們都以相同的方式很糟糕。散文華麗而冗長:馬丁使用正常的語言有條不紊地介紹一種不安,甚至沒有暗示超自然現象,並通過角色之間的衝突來推動故事的發展,而AI都不微妙。他們知道這是一個關於超自然現象的故事,並且毫不猶豫地將其放在首位。
這並不是說他們都是一樣的。在我嘗試教AI寫好文章的經驗中,我確實覺得Gemini是最快的學習者(免費級別),而ChatGPT 4.5有一些特殊的技巧(付費級別)。ChatGPT 4.5是唯一一款小說寫作讓人驚訝地說「哇,這是AI寫的?」的AI。對我而言,這兩種模型似乎都更具創造力,並且更能夠用我喜歡閱讀的散文來執行他們的想法。
總體印象無法令人滿意地進行消費者評估,因此我有了另一個想法:一場作文比賽。我要求Gemini 2.5 Pro、ChatGPT 4.5、Grok和Claude撰寫兩個短篇小說:一部關於一位女性在婚禮當天被母親挑剔的現實主義小說,以及一部「《權力的遊戲》,但在太空」的科幻序言。我聰明的主意是,我會要求另一群AI來評 judgment 這些故事,為我的個人印象提供另一種評 judgment 來源,即Gemini是免費類別中最好的,而ChatGPT是付費類別中最好的。然而(也許可以預見的是),這並沒有真正奏效——AI的評分結果非常混亂。
但是,就像藝術一樣,你可以通過提示的力量使AI在寫作方面變得更好。我(非常長的)提示AI來提高他們的散文寫作能力,強調向他們提供大量優秀寫作的例子,邀請他們採用仔細的、結構化的方法來模仿它,並鼓勵他們進行多個草稿並選擇最強的。
以下是Gemini 2.5 pro,被要求寫一篇兩句子的微型小說,主題由自己選擇,沒有任何結構化的提示:
老圖書館員堅持說,這本布滿灰塵的書中從未被借出過,它的借書卡完全空白。然而,在書頁的深處,在關於被遺忘的星座的章節之間,躺著一棵被壓扁的四葉草,仍然綠得不可思議。
這是Gemini 2.5 pro,帶有提示,鼓勵對如何寫好文章進行結構化思考:
他終於解碼了來自比鄰星的微弱信號:天文學家們世世代代都在尋找的優雅的素數序列,證明他們並不孤單。當他閱讀傳輸日誌時,他的心沉了下去。廣播在第一個人類祖先敲擊燧石之前,在說出第一個字之前,已經停止了數千年。
在我看來,第一個基本上是浪費了兩句話,而第二個是體面的,有趣的微型小說。
成為你朋友的最佳選擇
除了通過大量的能力測試來運行AI之外,我還花了一些時間與他們聊天。我問他們作為AI是什麼感覺,他們關心什麼,對於AI來說,關心意味著什麼,如果他們有錢,他們會捐給哪裡,以及如果他們有人的形態,他們會採取什麼形態。
大多數AI都不擅長這種隨意的對話。Gemini 2.5太像客服代理了,我尚未體驗到感覺像是和朋友出去玩的互動。如果你邀請Gemini進行角色互換,讓你扮演「助手」,邀請它來指導對話,它只會問研究問題。
另一方面,當我邀請Anthropic的Claude 3.5 Sonnet來指導對話時,它會做一些事情,比如開始寫博客,為慈善機構籌款,並開始與使用Claude的人交談,了解作為AI是什麼感覺。很難定義「有趣」,因為每個人對於對話的標準都不同,但是我與Claude進行的令人著迷或發人深省的互動比任何其他模型都要多得多,如果我想要探索想法而不是完成特定的任務,那麼這就是我的首選。Claude 3.5是我日常生活中困擾我的AI:護膚問題,對我讀過的一篇文章的想法,諸如此類。
另一個令人愉悅的AI是OpenAI的GPT 4.5。我發現與它進行長時間的對話發人深省且引人入勝,並且在與它交談的過程中,有幾次令人興奮的時刻,感覺就像我正在與真正的智能進行互動。但是它並沒有贏得這個類別,因為它太貴而且太慢了。
與Claude一樣,當有機會在世界上行動時,4.5建議開設一個博客和一個Twitter帳戶,並參與關於AI的公開對話。但是,除非你花200美元/月購買Pro計劃,否則OpenAI對於對話的消息限制非常嚴格,而且4.5的速度非常慢,這阻礙了這種隨意的會話使用。但是4.5確實提供了一個誘人的暗示,即AI將繼續變得更好,因為我們在其他方面改進它們。
如果你僅訂閱一個AI模型,那麼最佳的AI模型
ChatGPT。它並不是在所有方面都是最好的,並且OpenAI的透明度以及有時對安全性漫不經心的態度肯定有很多讓人不喜歡的地方。但是,憑藉其首屈一指的圖像生成、體面的寫作以及偶爾閃耀的對話,ChatGPT可以讓你物有所值。或者,如果你不想花任何錢,那麼Gemini 2.5 Pro對於大多數用例來說都非常非常強大——不要因為你在Google搜索上看到的AI不是那麼好而否定Google。
撰寫Future Perfect通訊的最佳選擇
人類(目前)。在過去的幾個月中,我養成了一個稍微令人毛骨悚然的習慣:檢查AI是否可以取代我的工作。我向他們提供構成給定Future Perfect通訊的基礎的研究註釋,將一些Future Perfect通訊作為示例提供給他們,並要求他們代替我完成工作。每次我點擊「輸入」按鈕時,總是帶著一些不安。畢竟,當AI可以撰寫Future Perfect時事通訊時,為什麼Vox還要付錢給我做這件事呢?
幸運的是,他們都不能:Grok 3、Gemini 2.5 Pro、DeepSeek、Claude、ChatGPT都不能。他們的通訊令人安心地、令人舒心地平庸。不_壞_,但足夠糟糕,如果我發其中一份,我的編輯會注意到我不在最佳狀態——而且這還是帶著我所有的研究註釋!其中的一些隱喻顯得蒼白無力,一些題外話令人困惑,而且偶爾會插入一個它沒有解釋的引用。
但是,如果我必須選擇一個機器人來代替我的工作,我想我會把它交給Gemini 2.5 Pro。我的編輯會注意到我不在狀態——但老實說,並沒有那麼糟糕。而且與我不同的是,機器人不需要健康保險、薪水、家庭時間或睡眠。我是否對這預示著什麼感到不安?是的,當然。