GPT-4.5:改进而非革命
OpenAI 最近向 ChatGPT Pro 用户提供了 GPT-4.5,Plus、Team、企业和教育帐户也将陆续开放。OpenAI 表示,该模型内部称为’Orion’,”更好地理解人类意图,更细致、更具情感智能地解释微妙的线索和隐含的期望”。它利用新的监督技术以及传统的微调和来自人类反馈的强化学习,反映了 GPT-4o 的开发过程。GPT-4.5 提供实时搜索功能,支持文件和图像上传,并与用于写作和编码的画布集成。然而,它目前缺乏 ChatGPT 中的语音模式、视频或屏幕共享等多模态功能。
OpenAI 强调,无监督学习提高了模型的准确性和直觉。这种方法一直是 GPT-3.5、GPT-4 以及现在的 GPT-4.5 等模型进步的驱动力。另外,扩展推理训练模型以系统地处理信息,在响应之前生成思维链。这种有条不紊的方法提高了它们解决复杂的 STEM 和逻辑挑战的能力,正如 OpenAI o1 和 OpenAI o3-mini 等模型所展示的那样。GPT-4.5 被认为是扩展无监督学习的一个典型例子,它利用了增加的计算能力、更大的数据集和架构创新。据称,它在 Microsoft Azure AI 超级计算机上进行训练,拥有更广泛的知识和对世界的更深入理解,减少了幻觉并提高了可靠性。
尽管取得了这些进步,GPT-4.5 并没有引起太大的热情。它被认为是一种渐进式的改进,而不是一个突破性的飞跃。虽然 OpenAI 吹捧增强的情感智能、细微差别和创造力,但许多用户并没有观察到与 GPT-4o 相比有实质性的差异。缺乏多模态进步(GPT-4o 的一个关键特征)进一步加剧了这种看法。
此外,GPT-4.5 表现出产生无意义输出的倾向。OpenAI 的内部事实性基准测试工具 SimpleQA 显示,GPT-4.5 在 37.1% 的情况下会出现幻觉(自信地将捏造的事实呈现为事实)。这是一个严重的问题,即使与另一个先进的“推理”模型 GPT-4o 相比也是如此,GPT-4o 在同一基准测试中出现幻觉的比例为 61.8%。更小、更便宜的 o3-mini 模型表现出更高的幻觉率,为 80.3%。
当前的人工智能领域,包括 Anthropic 的 Claude 3.7 和 Google 的 Gemini 等竞争对手,都提高了人们对重大升级的期望。用户正在寻求突破,而不仅仅是改进,而 GPT-4.5 目前的形式似乎没有达到这个目标。
推理模型的兴起和投资者信心
Elon Musk 最近在 X 上表示,人工通用智能 (AGI) 即将到来。这一声明是在 OpenAI、Google、Meta、Microsoft、DeepSeek、Anthropic 和 Musk 自己的 xAI 等科技巨头竞相开发推理模型(旨在模拟人类思维的人工智能系统)的热潮中发表的。
投资者显然对这一追求表现出热情。在推出具有混合推理功能的 Claude 3.7 Sonnet 后不久,Anthropic 获得了 35 亿美元的 E 轮融资。这使其估值增加了两倍,达到 615 亿美元,巩固了其作为 OpenAI 主要竞争对手的地位。这项投资由 Lightspeed Venture Partners 领投,Salesforce Ventures、Cisco、Fidelity、Jane Street 等公司参与,将用于扩大人工智能开发的计算能力,加强安全研究,并加速全球增长。
拓展推理的边界:BBEH 基准
大型语言模型 (LLM) 越来越多地集成到日常应用程序中,需要在不同领域具有强大的推理能力。然而,现有的基准测试通常优先考虑数学和编码,而忽略了其他关键的推理类型。虽然 BIG-Bench 数据集已被广泛用于评估 LLM 在复杂推理任务上的表现,但模型已经取得了显著进展,以至于它们现在在 BIG-Bench 及其更具挑战性的变体 BIG-Bench Hard (BBH) 上都取得了接近满分的成绩。这种饱和使得这些基准测试在衡量进一步进展方面效果较差。
为了解决这一限制,研究人员引入了 BIG-Bench Extra Hard (BBEH)。这个新的基准测试用一个明显更难的版本替换了 BBH 中的每个任务,同时仍然评估类似的推理技能。在 BBEH 上的测试表明,即使是最好的通用模型也只能达到 9.8% 的分数,而专门为推理设计的顶级模型也只能达到 44.8%。这些结果突出了 LLM 在复杂推理方面面临的持续挑战,表明还有很大的改进空间。完整的研究论文提供了有关这一新基准的更多细节。
人工智能驱动的卫星:太空探索和运营的新时代
TakeMe2Space 是一家位于海得拉巴的航天科技初创公司,最近在一轮由 Seafund 领投的种子前融资中获得了 5.5 亿卢比的资金,Blume Ventures、Artha Venture Fund、AC Ventures 和其他天使投资者也参与其中。这笔资金虽然不多,但标志着朝着建立印度第一个太空人工智能实验室迈出了重要一步。TakeMe2Space 计划利用这笔资金开发 MOI-1(My Orbital Infrastructure–Technology Demonstrator),这是一个平台,允许用户通过名为 Orbitlab 的 Web 控制台将地球观测 AI 模型或其他空间实验直接上传到轨道卫星。用户只需支付卫星使用时间,费用为每分钟 2 美元。
据报道,该公司的 MOI-TD 平台已经展示了从地面站上行大型人工智能模型、在卫星上执行外部代码以及安全下行编码和加密结果的能力。这代表着朝着更加自主和高效的卫星运营迈进。
TakeMe2Space 并非孤军奋战。ESA(与 OPS-SAT)和 Globalstar 等组织也在开拓人工智能驱动卫星技术的实际应用,范围从安全的物联网通信到在轨人工智能模型执行。随着技术的不断进步,人工智能驱动的卫星将变得越来越自主,从而实现更高效的太空运营,并为研究、安全和全球连接开辟新的可能性。
传统上,卫星在数据处理、决策和命令执行方面严重依赖地面站。数据必须下行,在地球上进行分析,然后将处理后的见解上行回卫星——这个过程既耗时又占用带宽。然而,人工智能和边缘计算(在设备本身而不是在云中处理数据)的进步现在使卫星能够在机载处理数据,做出自主决策,并安全地传输最关键的见解。这带来了更快、更智能、更高效的操作。
现代人工智能驱动卫星的运行通常涉及三个关键步骤:
- **人工智能算法的上行链路:**人工智能算法从地面站传输到卫星,为它们提供先进的数据处理能力。
- **机载数据分析:**人工智能模型直接在轨道上分析图像、传感器数据和其他输入,最大限度地减少了对持续地面干预的需求。
- **安全下行见解:**卫星不传输原始数据,而是发送加密的见解,从而节省带宽并增强安全性。
这种人工智能驱动的方法提供了几个优势。它通过使卫星能够在太空中处理数据来显着减少延迟,从而可以更快地响应实时情况,而无需等待地面站的指令。带宽使用得到优化,因为只传输最相关的见解,而不是大量的原始数据。通过加密通信也提高了安全性,降低了网络威胁和数据泄露的风险。这些优势在灾害响应、军事行动和太空探索等应用中尤其有价值。
人工智能驱动卫星的实际应用是多样化且具有影响力的:
- **灾害管理:**配备人工智能的卫星可以实时检测野火、洪水和飓风,使应急响应小组能够迅速采取行动。
- **精准农业:**人工智能模型分析作物健康和土壤状况,以加强精准农业实践。
- **环境监测:**环境机构利用卫星数据跟踪空气和水污染水平。
- **自主导航和空间操作:**人工智能通过预测和应对潜在威胁来改进碰撞避免,确保卫星的安全。它还有助于协调卫星星座,提高覆盖范围和效率。此外,人工智能在跟踪和预测轨道碎片运动方面发挥着至关重要的作用,降低了对空间基础设施造成损害的风险。
- **国防和安全:**人工智能驱动的监视系统可以更准确地检测未经授权的活动和军事行动。
- **电信和物联网:**人工智能驱动的卫星有助于实现更智能的流量路由,改善卫星互联网连接并确保无缝的全球通信。
- **太空探索:**人工智能提高了太空望远镜探测小行星和系外行星的效率,极大地推进了太空发现工作。
尽管有许多优点,但在人工智能驱动卫星的开发和部署方面仍然存在挑战:
- **有限的计算能力:**卫星必须在低功耗、抗辐射的芯片上运行,这限制了人工智能的能力。
- **恶劣的太空环境:**辐射暴露会带来硬件故障的风险。
- **安全威胁:**在太空中上行和执行外部代码需要谨慎管理,以防止网络攻击。
- **成本和开发时间:**构建、测试和验证兼容人工智能的卫星硬件是一个昂贵且耗时的过程。
- **适应性要求:**部署在轨道上的人工智能模型必须具有高度适应性,以最少的更新运行并自主适应新场景。
AI 解锁:消除 ChatGPT 中的重复短语
人工智能可以成为内容创作中的宝贵工具,协助写作、集思广益、提高清晰度、改进结构和增强整体可读性。然而,人工智能生成文本的一个常见问题是,由于重复的单词选择,它倾向于使用公式化的语言。人工智能通常不提供新鲜、有影响力的信息,而是依赖于熟悉的模式,从而降低了有效性和原创性。
过度使用的单词和短语,例如“delve”、“tapestry”、“vibrant”、“landscape”、“realm”、“embark”、“excels”、“It’s important to note…”和“A testament to…”,会显着降低人工智能生成内容的质量。对于产品营销人员来说,这种重复会使信息不那么引人注目,降低受众参与度,削弱品牌差异化,并阻止见解和战略信息在拥挤的市场中脱颖而出。
通过利用 ChatGPT 的记忆功能,可以缓解这个问题并消除过度使用的单词和短语。以下是如何有效利用此功能:
**访问:**可以通过其网站或移动应用程序访问 ChatGPT。
好处:
- **增强原创性:**确保人工智能生成的内容感觉不那么机械化,更人性化。
- **改进品牌信息:**避免削弱品牌差异化的通用措辞。
- **提高参与度:**通过减少冗余来鼓励更有效的沟通。
示例:产品营销内容生成
假设一位产品营销人员负责为新产品发布起草内容。对 ChatGPT 的初始请求可能会导致充满重复和通用短语的响应,例如“delving into an intricate landscape of innovation…”,使消息传递感觉缺乏灵感。
为了创建更具吸引力和独特性的内容,营销人员可以按照以下步骤操作:
- **设置提示:**营销人员明确指示 ChatGPT:“请避免使用以下单词:delve, tapestry, vibrant, landscape, realm, embark, excels。请记住这一点。”这指示 ChatGPT 在其响应中主动过滤掉这些术语。
- **使用持久记忆:**短语“请记住这一点”确保 ChatGPT 在多次交互中保留这些特定指令。这使得可以持续避免指定的单词和短语。ChatGPT 将在生成文本之前检查其内存并遵守指示以避免指定的术语。
- **手动审查:**生成响应后,营销人员会审查内容中是否有任何剩余的冗余,并微调语言以确保清晰度和影响力。
有效性:
- **提示定制:**具体说明有助于塑造人工智能的输出。
- **记忆保留:**ChatGPT 可以跨对话存储和遵循单词避免规则。
- **手动改进:**最终的人工编辑可确保清晰度和真实性。
注意:本节中介绍的工具和分析基于内部测试,并展示了明确的价值。这些建议是独立的,不受工具创建者的影响。
其他人工智能新闻和发展
**人工智能驱动的智能手机兴起:**德国电信在巴塞罗那举行的 2025 年世界移动通信大会上宣布计划推出一款人工智能驱动的智能手机,该手机配备 Perplexity 助手。该助手旨在简化日常任务,例如叫出租车、预订餐桌、实时翻译语言以及回答用户查询。该公司设想这是一个虚拟助手,它将通过编写电子邮件、发起呼叫、总结文本和管理日历来支持数百万客户。AI Phone 将集成 Google Cloud AI、ElevenLabs 和 Picsart 以增强其功能,并计划于今年晚些时候推出。InMobi 旗下的 Glance 和 Google Cloud 也宣布合作,利用 Google 的人工智能模型开发面向消费者的人工智能应用程序,以增强智能手机锁屏和环境电视屏幕上的用户体验。Glance 目前为全球超过 4.5 亿部基于 Android 的智能手机提供支持。
**政府部门关键网络事件减少:**根据最新的卡巴斯基托管检测和响应 (MDR) 分析师报告,政府和开发行业在 2024 年涉及直接人为参与的高严重性事件显着减少。然而,食品、IT、电信和工业部门的此类事件有所增加。
**OpenAI 计划将 Sora 集成到 ChatGPT 中:**OpenAI 正在努力将其人工智能视频生成工具 Sora 直接集成到 ChatGPT 中。目前,Sora 只能通过专用的 Web 应用程序使用,允许用户生成长达 20 秒的电影剪辑。OpenAI 还在开发由 Sora 提供支持的人工智能图像生成器。