OpenAI 的 GPT-4.5:高价 AI,回报存疑

渐进式改进,天文数字般的成本

GPT-4.5 在几个关键领域进行了改进。OpenAI 声称提高了准确性,减少了产生’幻觉’(生成虚假信息)的倾向,并增强了说服能力。然而,这些增强功能的代价是高昂的。使用 GPT-4.5 的定价结构设定为每百万输入 token 75 美元,每百万输出 token 高达 150 美元。这种定价在 AI 社区内引发了激烈的争论,专家们对于这种渐进式改进是否值得如此巨大的财务支出存在严重分歧。

核心问题围绕着 GPT-4.5 的实际价值主张。虽然更流畅的对话和略微提高的准确性受到欢迎,但根本问题仍然存在:它代表了 AI 能力的重大飞跃,还是仅仅是对现有技术的一种昂贵的改进?

真实世界测试:与 OpenAI 的说法脱节?

对 GPT-4.5 的独立评估进一步加剧了争论。Andrej Karpathy,AI 领域的杰出人物,进行了一项比较实验,将 GPT-4 与 GPT-4.5 进行了对比。向用户展示了五个创意写作任务,然后要求他们判断输出的质量。令人惊讶的是,结果在五个任务中的四个中都倾向于较旧的 GPT-4 模型。这一结果直接挑战了 GPT-4.5 代表普遍优越迭代的观点。

Raj Dandeker 博士的技术评估也产生了类似的结果。他的测试集中在 OpenAI 明确声称改进的领域,例如数学推理和逻辑演绎。然而,据报道,GPT-4.5 在这些领域表现不佳,与之前的版本相比几乎没有优势。这些发现直接与 OpenAI 的断言相矛盾,并引发了对该公司营销声明的透明度和准确性的严重质疑。

媒体和行业反应:各种各样的观点

媒体对 GPT-4.5 的反应反映了 AI 社区内部的分歧意见。《连线》杂志是技术新闻领域的重要声音,它提供了一个批判性的视角,质疑 OpenAI 对通用人工智能 (AGI) 的不懈追求,并认为 GPT-4.5 是一次昂贵的升级,只有微小的收益。《Futurism》是另一家有影响力的出版物,它指出围绕该版本发布的最初炒作有所下降,表明人们对该技术的真正潜力越来越怀疑。

然而,并非所有的反应都是负面的。与斯坦福大学有关联的 Jacob Rintamaki 提出了一个更积极的评估,特别赞扬了 GPT-4.5 改进的幽默感。他认为,这代表了 AI 在理解和参与社交互动方面向前迈出的重要一步。这突出了 GPT-4.5 的一个潜在优势:在细致入微的沟通和幽默感至关重要的领域表现出色。

竞争对手的看法

甚至竞争的 AI 模型也在某种意义上对 GPT-4.5 的发布发表了’评论’。xAI 的 Grok 是一种竞争对手的语言模型,它承认 GPT-4.5 在对话能力方面的改进,但也指出了它的资源密集型特性。这突出了一个关键问题:运行 GPT-4.5 所需的巨大计算能力,这直接转化为更高的运营成本和更大的环境足迹。

ChatGPT 本身在被提示时强调了 GPT-4.5 增强的上下文保留、创造力和准确性。然而,它也承认该模型仍然存在缺陷,特别是在长时间的对话中,它有时会失去对正在进行的对话的跟踪或产生不一致的响应。这种自我评估虽然看似客观,但进一步强化了这样一种看法,即 GPT-4.5 尽管有所进步,但仍然是一种不完善的技术。

深入研究细节

为了理解这种褒贬不一的反应,有必要更详细地研究围绕 GPT-4.5 的具体主张和反主张。

1. 增强准确性的主张:

OpenAI 声称 GPT-4.5 比其前身更准确。虽然这在某些狭义定义的任务中可能是正确的,但 Karpathy 和 Dandeker 的独立测试对这一主张的普遍性提出了质疑。看来,准确性的提高并非在所有领域都是一致的,并且可能不如最初宣传的那么重要。

2. 减少幻觉的承诺:

‘幻觉’,即语言模型产生虚假或无意义信息的倾向,一直是该领域的一个持续挑战。OpenAI 声称 GPT-4.5 在缓解这个问题方面取得了进展。然而,用户报告和传闻证据表明,幻觉虽然可能不那么频繁,但仍然是一个问题。该模型仍然可以产生自信的、不准确的陈述,特别是在处理复杂或细微的主题时。

3. 说服的艺术:

OpenAI 强调了 GPT-4.5 增强的说服能力。这引发了伦理问题,因为更具说服力的 AI 可能被用于操纵目的,例如传播虚假信息或以不良方式影响舆论。GPT-4.5 的说服力在多大程度上代表了真正的进步或潜在的风险,仍然是一个持续争论的话题。

4. 对话优势:

GPT-4.5 无疑是一个比 GPT-4 更流畅、更吸引人的对话者。这可能是它最重要和最明显的改进。该模型生成的文本更自然地流动,更有效地模仿人类的说话模式,并表现出对会话细微差别的更大理解。这使得它更适合聊天机器人、虚拟助手和创意写作工具等应用。

5. 推理缺陷:

尽管对话有所改进,但推理能力缺乏实质性进展是许多批评者的主要症结所在。GPT-4.5 仍然难以完成需要逻辑演绎、数学推理和常识理解的任务。这种局限性阻碍了它在需要精确分析思维的领域的适用性,例如科学研究、金融建模和法律分析。

6. 成本因素:

使用 GPT-4.5 的高昂成本是许多潜在用户的主要障碍。基于输入和输出 token 的定价结构使其对于大规模应用或持续使用而言过于昂贵。这引发了对可访问性和公平性的担忧,因为只有资金充足的组织和个人才能负担得起利用该技术。

7. ‘研究预览’标签:

OpenAI 决定将 GPT-4.5 作为’研究预览’发布是值得注意的。这表明该模型仍在开发中,可能会进行进一步的改进。这也意味着 OpenAI 意识到了这些局限性,并正在寻求用户的反馈以指导未来的改进。然而,’研究预览’标签并不能完全免除高成本或 OpenAI 的说法与模型实际性能之间的差异。

更广泛的背景:AI 军备竞赛

GPT-4.5 的发布必须在正在进行的’AI 军备竞赛’的更广泛背景下理解。像 OpenAI、Google 和 Anthropic 这样的公司正在进行激烈的竞争,以开发最先进和最强大的 AI 模型。这种竞争压力可能导致仓促发布、夸大的声明以及对渐进式改进而不是根本性突破的关注。

对 AGI(一种具有人类水平智力和一般问题解决能力的人工智能)的追求仍然是该领域大部分研究和开发的驱动力。然而,GPT-4.5 尽管有所进步,但远未达到这一雄心勃勃的目标。它提醒我们,通往 AGI 的道路可能漫长而艰辛,真正的突破是罕见且难以实现的。

GPT-4.5 的未来

GPT-4.5 的最终命运仍不确定。作为’研究预览’,它可能会随着时间的推移而发展。OpenAI 可能会解决这些批评并改进模型的推理能力,降低其成本,或改进其在特定领域的性能。

然而,对 GPT-4.5 的褒贬不一的反应突出了在 AI 领域进行批判性评估和独立测试的重要性。它还强调了 OpenAI 等公司需要提高透明度,特别是关于其模型的能力和局限性。

目前,GPT-4.5 是 AI 持续进步的证明,但也是一个关于炒作的危险、实现真正突破的挑战以及平衡创新与伦理考虑和实际现实的重要性的警示故事。高昂的价格,加上可疑的投资回报,使其成为少数人才能负担得起的奢侈品,甚至更少人能够证明其合理性。它有力地提醒我们,AI 的进步并不总是线性的,更大、更昂贵的模型并不总是更好。