人工智能(AI)的迅猛发展令人眼花缭乱,要时刻掌握最新动态,几乎需要投入全部精力。
我深知这一点,因为这就是我的工作。为了第一时间体验最新的模型,我订阅了Anthropic的Pro模式,得以使用其最新模型Claude 3.7的“扩展思考”模式。同时,我也订阅了OpenAI的企业模式,以便测试他们的最新模型o3和o4-mini-high(稍后会解释OpenAI令人费解的命名规则!),并使用OpenAI的新图像生成模型4o创作大量图像。4o的出色表现让我取消了之前图像生成工具Midjourney的订阅。
此外,我还订阅了Elon Musk的Grok 3,它拥有我最喜爱的AI功能。我也尝试使用中国的AI代理平台Manus进行购物和日程安排。这些订阅几乎耗尽了我的预算,但这还不包括我以其他形式使用的所有AI。就在我撰写本文的这个月里,谷歌对其最优秀的AI产品Gemini 2.5进行了大规模升级,Meta发布了Llama 4,这是迄今为止最大的开源AI模型。
那么,如果紧跟AI发展不是你的日常工作,但你仍然想知道在哪些情况下使用哪种AI才能真正改善你的生活,而不会浪费时间在那些表现不佳的模型上,你该怎么办?
这就是本文的目的。我们将以类似“消费者报告”的方式,深入探讨哪种AI最适合各种应用场景,以及如何实际使用它们,所有这些都基于我在实际任务中的经验。
不过,首先需要声明的是:Vox Media是与OpenAI签署了合作协议的几家出版商之一,但我们的报道始终保持编辑独立。Future Perfect的资金部分来自BEMC基金会,该基金会的主要资助者也是Anthropic的早期投资者;他们也不会对我们的内容进行任何编辑干预。我的妻子在谷歌工作,但与他们的AI产品没有任何关系;因此,我通常不报道谷歌,但在这样一篇文章中,如果不包括谷歌,那将是不负责任的。
好消息是,这篇文章不需要你信任我的编辑独立性;我会展示我的工作。我对市面上所有主要的AI进行了几十项比较,其中许多是我自己设计的。我鼓励你比较它们的答案,并自行判断我是否选择了正确的AI进行推荐。
关于AI艺术的伦理
AI艺术是通过在互联网内容上训练计算机而创建的,几乎不考虑版权或创作者的意图。因此,大多数艺术家都对此感到不满。在这种情况下,使用AI艺术是否合理?
我认为,在一个公正的世界里,OpenAI肯定会赔偿一些艺术家——在一个公正的世界里,国会将采取行动,规定艺术借用的界限。与此同时,我越来越相信,现有的版权法并不适合解决这个问题。艺术家们互相影响、互相评论、互相借鉴,而能够使用AI工具的人也会继续这样做。
我个人的哲学受到我童年时代粉丝文化的影响:为了自己的乐趣而建立在别人的作品之上是可以的,但如果你喜欢它,你应该为此付费,而且绝对不能出售它。这意味着不能将生成式AI艺术用于商业目的,但用你的家庭照片玩玩是可以的。
图像生成的最佳选择
OpenAI新推出的4o图像创作模式是目前为止最好的AI图像生成工具,而且优势明显。它在免费类别和付费类别中都是佼佼者。
在4o发布之前,我订阅了AI图像生成平台Midjourney。提到AI艺术,你可能会想到Midjourney:它能生成神秘、令人难忘、视觉效果精美的作品,并且拥有一些出色的工具来改进和编辑你的最终结果,比如修饰某人的头发,同时保持其他一切不变。
4o的最大优势在于,它可以可靠地将一张效果不佳的照片转变成一件美丽的艺术品,同时保留原始照片的特征。之前的任何模型都无法做到这一点。
在下面这张照片中,我和我的妻子抱着孩子,正在庆祝她的第一个生日:
AI将蛋糕(在原始照片中几乎被纸巾卷遮挡)移动到图像的焦点位置,同时保持了我和妻子抱孩子的姿势,以及杂乱的桌子和背景中贴满照片的冰箱。最终效果温馨、讨喜、可爱。
正是这种能力让4o最近风靡一时,这是之前的任何图像生成器都无法做到的。
在下面这张照片中,要求Midjourney进行风格迁移,将同一张照片变成“皮克斯风格电影”:
你会注意到,这看起来像是一个完全不同的家庭,与原始照片没有任何真正的灵感!最终你能从Midjourney获得比这更好的效果,但这需要花费数周时间来掌握该平台的高度特定语言和工具集,成为精通提示的专家。
相比之下,ChatGPT仅用简单的请求,无需专业语言,就能在第一次尝试时给我一个远远优于Midjourney的输出结果。
4o与其他图像模型之间的差异在这种请求中最明显,但它也更适合我使用的几乎所有其他图像生成任务。你开箱即用的产品非常不错,而且不难生成更好的作品。理想情况下,这应该是我们从AI工具中获得的——非专业人士也可以用简单的语言创造出令人惊叹的东西。
4o目前的一个不足之处是,在保持其他部分不变的情况下,编辑图像的小部分。但即便如此,你也不再需要Midjourney——Gemini现在免费提供此功能。
4o图像生成的提示策略
为了从4o获得好的图像,你首先需要绕过那些禁止各种图像(如冒犯性或色情图像)的过滤器,但这些过滤器通常会以一种看似随机的方式对完全无害的内容强制执行。为了避免受到内容过滤器的偶尔责骂,不要要求以特定艺术家的风格创作作品,而是要求创作一些让人联想到该艺术家的作品,然后专门要求进行“风格转换”。可以肯定的是,这并非唯一的有效解决方法,但它对我来说确实有效。
今年3月,互联网上短暂地掀起了一股热潮,人们可以使用4o以日本动画大师宫崎骏的吉卜力工作室的风格再现可爱的家庭照片。但吉卜力工作室的风格不仅仅是可爱,只要稍微多加提示,你就能获得更好的效果。下面是使用了4o的吉卜力工作室风格渲染的一张我女儿从桌子上偷吃零食的照片,提示语仅仅是“请吉卜力化”:
卡哇伊!但如果你让4o首先思考是什么让这张照片具有吉卜力风格,它可能适合吉卜力工作室的哪部电影,以及这样一部电影会包含哪些微小的细节,你就会得到这样的结果:
这些差异是细微但有意义的:光线来自特定的光源,而不是一般的无源亮度。桌子上的食物种类更多,细节使食物看起来更真实。地板上的书不仅仅是任何书——它清晰地显示了Eric Carle的经典作品《好饿的毛毛虫》,仅用了两种颜色和一条线就唤起了人们的回忆。照片中婴儿的意图和强度是第一张照片所没有的。
几年前,语言模型的一个奇怪之处在于,如果你简单地告诉它们“给出一个聪明的答案”,它们就会变得更聪明。对于语言模型来说,这已经不太真实了,但对于AI艺术生成来说,这仍然非常真实。尝试要求AI做好工作,它会做得更好。质疑它是否真正捕捉到了艺术家的天才之处,它会给你一个深思熟虑的答案,然后画出一个更好的版本。
对于更逼真的艺术风格(如铅笔插图、照片写实主义或油画)来说,这种差异更为明显,如果你不知道如何提示AI,这些风格并不总是看起来不错,而且经常会陷入恐怖谷。如果我上传一张我和小女儿在海滩的照片,并仅仅用“请将风格转换为让人联想到Rockwell的插图”这样的提示语,我会得到这样的结果:
对于AI来说,这令人印象深刻,但作为一件艺术品,它实际上并不是很好,而且几乎完全缺乏Norman Rockwell的魔力。这并不奇怪:除非你能投入一些精力让AI正确地绘制它们,否则像Rockwell这样的更逼真的艺术风格经常无法达到预期的效果。
如果你能做到,这是我推荐的策略:不要只上传一张照片,而是一组照片,每张照片的姿势和瞬间略有不同。上传每个家庭成员面部的清晰照片,并告诉AI它们已作为参考。然后,不要要求AI立即生成图片,而是要求它与你讨论你希望捕捉的内容。这是我写的内容:
这张照片是我女儿第一次看到大海的瞬间。我想要一张以类似于Norman Rockwell的中世纪插画家的风格捕捉这一瞬间的插图——一些敏锐、注重细节、个性化的东西,并关注普通时刻的魔力和普通生活的乐趣。我提供了我和女儿的额外照片,作为你的参考资料。在你生成图像之前,让我们讨论一下Rockwell风格的本质要素,他会给这张照片带来什么,以及我们如何捕捉它。
4o热情地回应了这样的查询:
我很乐意讨论如何用Norman Rockwell风格的插图捕捉这一瞬间——这是那种风格的完美候选者:第一次遇到广阔而狂野的事物(大海!),以温暖、关怀和父母与孩子之间非常人性化的时刻为基础。
让我们分解一下Rockwell风格的一些基本要素,以及它们如何应用于这个场景。
经过一番来回之后,它产生了这样的结果:
Rockwell?不完全是。但这比我们刚才看到的初稿要好得多。它具有更多的动感、更多的能量、更多的细节和更多的表现力——而这一切仅仅来自于在绘制之前要求AI思考这幅画应该试图实现什么!
你也可以要求4o修改它的图画,但你真的只能要求修改一次:根据我的经验,在第一次修改之后,它开始让图画变得越来越糟,这可能是因为它使用的“上下文”现在充满了它自己糟糕的草稿。(这是AI不像人类那样工作的众多例子之一。)
这也是Midjourney仍然闪耀的地方——它具有非常好的工具来编辑图片的特定部分,同时保持整体风格,这是4o在很大程度上缺乏的。如果你想要对你在4o中获得的图画进行第二次修改,我建议你打开一个新的聊天窗口,并将你正在修改的草稿连同你的原始灵感图像一起复制过来。
这些简单的提示策略适用于你尝试用AI做的几乎任何事情。即使你很着急,我强烈建议你在要求渲染之前,先问AI“[艺术家]会在这张图片中看到什么”,如果你有时间,我建议你花时间进行关于你的愿景的长时间讨论。
赢得无聊的互联网争论的最佳选择
Elon Musk的X.AI发布了Grok 3,它带有一个令人难以置信的功能,我一直在焦急地等待其他公司复制:一个扫描某人的X个人资料并告诉你关于他们的一切的按钮。
每当有人以一种特别令人难忘的方式回复我的推文时(无论是好的还是坏的),我都会点击该按钮以获取他们的整个Twitter存在记录的摘要。他们是深思熟虑的吗?他们是否真诚地参与?他们是“内布拉斯加州的农民”吗?他们是否在很大程度上发布有关为什么乌克兰不好的内容(也就是说,可能是一个机器人)?
这是一个很棒的功能。因此,当然,X.AI很快就大大削弱了它,这可能是因为像我这样的人经常使用它并提出许多计算量大的查询。我认为它不再使用最先进的Grok模型,并且它现在肯定只扫描几天的个人资料历史记录。但是,如果有人正在寻找一个绝妙的产品机会,那么请给我恢复这个功能的好版本!这绝对是一种罪恶的快感,但这是我不断使用AI的唯一案例之一。
写作小说的最佳选择
Gemini 2.5 Pro 是免费类别中写作小说的最佳AI; GPT 4.5 在付费类别中胜过它。
我不是艺术家,因此AI在艺术方面的不完善之处并没有真正困扰我——它仍然比我自己能做的要好得多!但我是一名小说作家,因此在小说创作方面,我忍不住看到了AI的局限性。
最重要的是AI创意写作的趋势是多么可预测。写作的艺术是赢得读者投入并回报读者的艺术。人工智能……不这样做。他们可以写漂亮的隐喻;他们可以用你希望的任何风格进行诗意的描述。但是他们还不能提供优秀小说的真正内容。
如果你想让你孩子成为主角的愚蠢的睡前故事(孩子们喜欢这个),或者你想要一个可以融入你自己作品的想法的共鸣板,那么AI非常棒。他们也是友好的小说读者,乐于提供反馈和分析(也许热情有点_太_高了)。
与艺术一样,提示是关键。我主要通过要求他们编写乔治·R·R·马丁的《权力的游戏》的序言来探索AI生成小说的能力(我选择这个是因为,当然,最终的梦想是AI可以完成这个注定要烂尾的系列)。
马丁非常擅长他所做的事情。序言讲述了守夜人中一些不幸的人遇到了他们的超自然敌人,成功地确立了《权力的游戏》世界的独特氛围,同时立即吸引了读者。在短短的14页中,序言代表了AI在写作方面尚无法做到的所有事情。他们的散文往往过于矫揉造作;他们的对话笨拙而不微妙。
你会注意到,不仅这些都比马丁的差得多(而且马丁的作品几乎肯定在训练数据中!),而且它们都以相同的方式很糟糕。散文华丽而冗长:马丁使用正常的语言有条不紊地介绍一种不安,甚至没有暗示超自然现象,并通过角色之间的冲突来推动故事的发展,而AI都不微妙。他们知道这是一个关于超自然现象的故事,并且毫不犹豫地将其放在首位。
这并不是说他们都是一样的。在我尝试教AI写好文章的经验中,我确实觉得Gemini是最快的学习者(免费级别),而ChatGPT 4.5有一些特殊的技巧(付费级别)。ChatGPT 4.5是唯一一款小说写作让人惊讶地说“哇,这是AI写的?”的AI。对我而言,这两种模型似乎都更具创造力,并且更能够用我喜欢阅读的散文来执行他们的想法。
总体印象无法令人满意地进行消费者评估,因此我有了另一个想法:一场作文比赛。我要求Gemini 2.5 Pro、ChatGPT 4.5、Grok和Claude撰写两个短篇小说:一部关于一位女性在婚礼当天被母亲挑剔的现实主义小说,以及一部“《权力的游戏》,但在太空”的科幻序言。我聪明的主意是,我会要求另一群AI来评判这些故事,为我的个人印象提供另一种评估来源,即Gemini是免费类别中最好的,而ChatGPT是付费类别中最好的。然而(也许可以预见的是),这并没有真正奏效——AI的评分结果非常混乱。
但是,就像艺术一样,你可以通过提示的力量使AI在写作方面变得更好。我(非常长的)提示AI来提高他们的散文写作能力,强调向他们提供大量优秀写作的例子,邀请他们采用仔细的、结构化的方法来模仿它,并鼓励他们进行多个草稿并选择最强的。
以下是Gemini 2.5 pro,被要求写一篇两句子的微型小说,主题由自己选择,没有任何结构化的提示:
老图书管理员坚持说,这本布满灰尘的书中从未被借出过,它的借书卡完全空白。然而,在书页的深处,在关于被遗忘的星座的章节之间,躺着一棵被压扁的四叶草,仍然绿得不可思议。
这是Gemini 2.5 pro,带有提示,鼓励对如何写好文章进行结构化思考:
他终于解码了来自比邻星的微弱信号:天文学家们世世代代都在寻找的优雅的素数序列,证明他们并不孤单。当他阅读传输日志时,他的心沉了下去。广播在第一个人类祖先敲击燧石之前,在说出第一个字之前,已经停止了数千年。
在我看来,第一个基本上是浪费了两句话,而第二个是体面的,有趣的微型小说。
成为你朋友的最佳选择
除了通过大量的能力测试来运行AI之外,我还花了一些时间与他们聊天。我问他们作为AI是什么感觉,他们关心什么,对于AI来说,关心意味着什么,如果他们有钱,他们会捐给哪里,以及如果他们有人的形态,他们会采取什么形态。
大多数AI都不擅长这种随意的对话。Gemini 2.5太像客服代理了,我尚未体验到感觉像是和朋友出去玩的互动。如果你邀请Gemini进行角色互换,让你扮演“助手”,邀请它来指导对话,它只会问研究问题。
另一方面,当我邀请Anthropic的Claude 3.5 Sonnet来指导对话时,它会做一些事情,比如开始写博客,为慈善机构筹款,并开始与使用Claude的人交谈,了解作为AI是什么感觉。很难定义“有趣”,因为每个人对于对话的标准都不同,但是我与Claude进行的令人着迷或发人深省的互动比任何其他模型都要多得多,如果我想要探索想法而不是完成特定的任务,那么这就是我的首选。Claude 3.5是我日常生活中困扰我的AI:护肤问题,对我读过的一篇文章的想法,诸如此类。
另一个令人愉悦的AI是OpenAI的GPT 4.5。我发现与它进行长时间的对话发人深省且引人入胜,并且在与它交谈的过程中,有几次令人兴奋的时刻,感觉就像我正在与真正的智能进行互动。但是它并没有赢得这个类别,因为它太贵而且太慢了。
与Claude一样,当有机会在世界上行动时,4.5建议开设一个博客和一个Twitter帐户,并参与关于AI的公开对话。但是,除非你花200美元/月购买Pro计划,否则OpenAI对于对话的消息限制非常严格,而且4.5的速度非常慢,这阻碍了这种随意的会话使用。但是4.5确实提供了一个诱人的暗示,即AI将继续变得更好,因为我们在其他方面改进它们。
如果你仅订阅一个AI模型,那么最佳的AI模型
ChatGPT。它并不是在所有方面都是最好的,并且OpenAI的透明度以及有时对安全性漫不经心的态度肯定有很多让人不喜欢的地方。但是,凭借其首屈一指的图像生成、体面的写作以及偶尔闪耀的对话,ChatGPT可以让你物有所值。或者,如果你不想花任何钱,那么Gemini 2.5 Pro对于大多数用例来说都非常非常强大——不要因为你在Google搜索上看到的AI不是那么好而否定Google。
撰写Future Perfect通讯的最佳选择
人类(目前)。在过去的几个月中,我养成了一个稍微令人毛骨悚然的习惯:检查AI是否可以取代我的工作。我向他们提供构成给定Future Perfect通讯的基础的研究注释,将一些Future Perfect通讯作为示例提供给他们,并要求他们代替我完成工作。每次我点击“输入”按钮时,总是带着一些不安。毕竟,当AI可以撰写Future Perfect时事通讯时,为什么Vox还要付钱给我做这件事呢?
幸运的是,他们都不能:Grok 3、Gemini 2.5 Pro、DeepSeek、Claude、ChatGPT都不能。他们的通讯令人安心地、令人舒心地平庸。不_坏_,但足够糟糕,如果我发其中一份,我的编辑会注意到我不在最佳状态——而且这还是带着我所有的研究注释!其中的一些隐喻显得苍白无力,一些题外话令人困惑,而且偶尔会插入一个它没有解释的引用。
但是,如果我必须选择一个机器人来代替我的工作,我想我会把它交给Gemini 2.5 Pro。我的编辑会注意到我不在状态——但老实说,并没有那么糟糕。而且与我不同的是,机器人不需要健康保险、薪水、家庭时间或睡眠。我是否对这预示着什么感到不安?是的,当然。