揭秘Gemini:谷歌的下一代AI家族
Gemini是谷歌进军下一代AI模型的雄心勃勃的尝试。Gemini由DeepMind和Google Research这两个谷歌领先的AI研究实验室合作开发,它不是一个单一的实体,而是一个模型系列,每个模型都针对特定的任务和性能水平进行了定制。这个系列包括:
- **Gemini Ultra:**该系列的重量级成员,专为需要大量计算能力的高度复杂任务而设计。(目前暂未发布)
- **Gemini Pro:**一个强大的模型,比Ultra小,但能够处理各种任务。Gemini 2.0 Pro是最新版本,目前是谷歌的旗舰产品。
- **Gemini Flash:**Pro的精简版,’蒸馏’版本,优先考虑速度和效率。
- Gemini Flash-Lite: Gemini Flash 的一个略微简化和更快的版本。
- **Gemini Flash Thinking:**一个展示’推理’能力的模型。
- Gemini Nano:包含两个紧凑的模型,Nano-1和稍强的Nano-2,专为设备上的离线操作而设计。
所有Gemini模型的一个显著特征是它们固有的多模态性。与仅在文本数据上训练的模型(例如谷歌的LaMDA)不同,Gemini模型擅长处理和分析各种数据类型。它们已经在包含公共、专有和许可的音频、图像、视频、代码库和多种语言文本的庞大数据集上进行了训练。
这种多模态特性使Gemini能够超越纯文本模型的局限性。LaMDA仅限于基于文本的输入和输出,而Gemini模型,特别是Flash和Pro的较新版本,可以原生生成图像和音频以及文本。
然而,在公开可用的数据上训练AI模型(通常未经数据所有者的明确同意)的伦理和法律影响仍然是一个复杂的问题。虽然谷歌提供AI赔偿政策来保护某些Google Cloud客户免受潜在诉讼,但该政策有其局限性。用户,尤其是那些打算将Gemini用于商业目的的用户,应谨慎行事。
Gemini Apps vs. Gemini Models:理解区别
区分Gemini模型和可在Web和移动平台上使用的Gemini应用程序(以前称为Bard)至关重要。
Gemini应用程序充当客户端,连接到各种Gemini模型并呈现用户友好的、类似聊天机器人的界面。它们是与谷歌生成式AI功能交互的前端。
在Android设备上,Gemini应用程序取代了Google Assistant应用程序。在iOS上,Google和Google Search应用程序充当Gemini客户端。
Android用户可以调用Gemini覆盖层来询问有关屏幕上显示内容的问题,例如YouTube视频。此覆盖层通过按住受支持智能手机的电源按钮或使用语音命令’Hey Google’触发。
Gemini应用程序用途广泛,接受图像、语音命令和文本作为输入。它们可以处理PDF等文件,可以直接上传或从Google Drive导入,并生成图像。在移动设备上使用Gemini应用程序启动的对话会与Web上的Gemini无缝同步,前提是用户登录到同一个Google帐户。
Gemini Advanced:解锁高级AI功能
Gemini应用程序并不是利用Gemini模型强大功能的唯一途径。谷歌正在逐步将Gemini驱动的功能集成到其核心应用程序和服务中,包括Gmail和Google Docs。
要充分利用这些功能,用户通常需要Google One AI Premium计划。该计划在技术上是Google One的一个组成部分,每月收费20美元,并允许在Docs、Maps、Slides、Sheets、Drive和Meet等Google Workspace应用程序中使用Gemini。它还解锁了’Gemini Advanced’,允许在Gemini应用程序中访问谷歌更复杂的Gemini模型。
Gemini Advanced用户享有额外的好处,例如优先访问新功能和模型,能够在Gemini中直接执行和修改Python代码,以及NotebookLM(谷歌将PDF转换为AI生成播客的工具)的扩展限制。Gemini Advanced最近增加了一个记忆功能,可以存储用户偏好并使Gemini能够引用过去的对话,为当前的交互提供上下文。
Gemini Advanced独有的最引人注目的功能之一是’Deep Research’。此功能利用具有增强推理能力的Gemini模型来生成详细的简报。为了响应诸如’我应该如何重新设计我的厨房?’之类的提示,Deep Research会制定一个多步骤的研究计划,搜索网络,并编译一个全面的答案。
在Gmail中,Gemini位于侧面板中,能够撰写电子邮件和总结邮件主题。类似的面板出现在Docs中,协助内容编写、润色和头脑风暴。在Slides中,Gemini生成幻灯片和自定义图像。在Google Sheets中,它有助于数据跟踪、组织和公式创建。
Gemini的存在扩展到Google Maps,在那里它汇总有关当地企业的评论并提供建议,例如访问外国城市的行程建议。聊天机器人的功能还包括Drive,它可以总结文件和文件夹,并提供有关项目的简明信息。
Gemini最近已集成到谷歌的Chrome浏览器中,作为AI写作工具。此工具可用于创建全新的内容或重写现有文本,同时考虑当前网页的上下文以提供量身定制的建议。
除了这些核心应用程序之外,还可以在谷歌的数据库产品、云安全工具和应用程序开发平台(包括Firebase和Project IDX)中找到Gemini的踪迹。它还为Google Photos(自然语言搜索查询)、YouTube(视频创意头脑风暴)和Meet(字幕翻译)等应用程序中的功能提供支持。
Code Assist(以前称为Duet AI for Developers)是谷歌用于代码完成和生成的AI驱动工具套件,它依赖Gemini来执行计算密集型任务。同样,谷歌的安全产品(例如Gemini in Threat Intelligence)利用Gemini来分析潜在的恶意代码并促进对威胁和入侵指标的自然语言搜索。
Gemini Extensions 和 Gems:定制AI体验
Gemini Advanced用户可以创建’Gems’,由Gemini模型提供支持的自定义聊天机器人,可在桌面和移动平台上访问。Gems可以从自然语言描述生成,例如’你是我的跑步教练。给我一个每日跑步计划’,并且可以与其他用户共享或保密。
Gemini应用程序可以通过’Gemini extensions’与各种Google服务集成。这些扩展使Gemini能够与Drive、Gmail、YouTube和其他服务交互,允许它响应诸如’你能总结我最近的三封电子邮件吗?’之类的查询。
Gemini Live:进行深入的语音对话
‘Gemini Live’提供了一种身临其境的体验,允许用户与Gemini进行详细的语音对话。此功能可在移动设备上的Gemini应用程序和Pixel Buds Pro 2中使用,即使手机锁定时也可以访问。
借助Gemini Live,用户可以在Gemini说话时打断它以提出澄清问题,并且聊天机器人可以实时适应语音模式。Live还被设计为虚拟教练,协助活动准备、头脑风暴和其他任务。例如,Live可以建议在求职面试中强调的技能并提供公开演讲技巧。
Gemini for Teens:为学生量身定制的AI体验
谷歌提供了一种专门为青少年学生量身定制的Gemini体验。
这个以青少年为中心的Gemini版本包含’额外的政策和保障措施’,包括定制的入门流程和AI素养指南。除了这些修改之外,它与标准的Gemini体验非常相似,包括’double-check’功能,该功能通过交叉引用网络上的信息来验证Gemini响应的准确性。
探索Gemini模型的功能
Gemini模型的多模态特性使其能够执行各种任务,从语音转录到实时图像和视频字幕。其中许多功能已经整合到谷歌的产品中,并承诺在不久的将来进一步改进。
然而,重要的是要承认,与竞争对手一样,谷歌尚未完全解决与生成式AI技术相关的一些固有挑战,例如编码偏差和捏造信息的倾向(幻觉)。在评估Gemini的使用时,尤其是在关键应用中,应考虑这些限制。
Gemini Pro的实力
谷歌声称其最新的Pro模型Gemini 2.0 Pro代表了其在编码和处理复杂提示方面的最先进产品。2.0 Pro在评估编程、推理、数学和事实准确性的基准测试中优于其前身Gemini 1.5 Pro。
在谷歌的Vertex AI平台中,开发人员可以通过微调或’接地’为特定上下文和用例定制Gemini Pro。例如,可以指示Pro(以及其他Gemini模型)利用来自Moody’s、Thomson Reuters、ZoomInfo和MSCI等第三方提供商的数据,或者从公司数据集或Google Search中获取信息,而不是其更广泛的知识库。Gemini Pro还可以连接到外部的第三方API以执行特定操作,例如自动化后台工作流程。
谷歌的AI Studio平台提供了使用Pro创建结构化聊天提示的模板。开发人员可以控制模型的创作范围,提供示例来指导语气和风格,并微调Pro的安全设置。
Gemini Flash:轻量级效率和Gemini Flash Thinking的推理能力
Gemini 2.0 Flash 能够使用 Google 搜索和其他外部 API。 即使它更小,它在衡量编码和图像分析的基准测试中也优于一些较大的 1.5 模型。 作为 Gemini Pro 的衍生产品,Flash 专为提高效率而设计,针对狭窄、高频的生成式 AI 任务。
谷歌强调Flash适用于摘要、聊天应用程序、图像和视频字幕以及从长文档和表格中提取数据等应用。与此同时,据谷歌称,Gemini 2.0 Flash-Lite是Flash的一个更紧凑的版本,在性能上超过了Gemini 1.5 Flash,同时保持相同的价格和速度。
去年12月,谷歌推出了Gemini 2.0 Flash的’thinking’变体,具有’推理’能力。这个AI模型在提供答案之前需要几秒钟的时间来反向解决问题,这可能会提高其可靠性。
Gemini Nano:设备端AI能力
Gemini Nano是Gemini的一个非常紧凑的版本,旨在直接在兼容设备上运行,无需将任务发送到远程服务器。目前,Nano为Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9和Samsung Galaxy S24上的多项功能提供支持,包括Recorder中的Summarize和Gboard中的Smart Reply。
Recorder应用程序允许用户录制和转录音频,它包含一个Gemini驱动的摘要功能,用于录制的对话、访谈、演示文稿和其他音频片段。即使没有网络连接,也会生成这些摘要,并且为了保护隐私,在此过程中没有任何数据离开用户的设备。
Nano还在Gboard(谷歌的键盘替代品)中找到了它的位置,它为Smart Reply提供支持。此功能在WhatsApp等消息应用程序中建议回复,从而简化对话。
Android的未来版本将利用Nano在通话期间提醒用户注意潜在的诈骗。Pixel手机上的新天气应用程序使用Gemini Nano生成个性化的天气报告。此外,谷歌的辅助功能服务TalkBack使用Nano为视障用户创建对象的听觉描述。
Gemini Ultra:等待回归
Gemini Ultra最近几个月相对缺席。该模型目前在Gemini应用程序中不可用,也未在谷歌的Gemini API定价页面上列出。但是,这并不排除谷歌将来重新引入Ultra的可能性。
Gemini模型的定价结构
Gemini 1.5 Pro、1.5 Flash、2.0 Flash和2.0 Flash-Lite可通过谷歌的Gemini API用于开发应用程序和服务。它们按即用即付的方式运行。截至2025年2月22日,基本定价(不包括附加组件)如下:
- **Gemini 1.5 Pro:**每100万个输入token 1.25美元(对于最多128K token的提示)或每100万个输入token 2.50美元(对于超过128K token的提示);每100万个输出token 5美元(对于最多128K token的提示)或每100万个输出token 10美元(对于超过128K token的提示)
- **Gemini 1.5 Flash:**每100万个输入token 7.5美分(对于最多128K token的提示),每100万个输入token 15美分(对于超过128K token的提示),每100万个输出token 30美分(对于最多128K token的提示),每100万个输出token 60美分(对于超过128K token的提示)
- **Gemini 2.0 Flash:**每100万个输入token 10美分,每100万个输出token 40美分。对于音频,每100万个输入token 70美分。
- **Gemini 2.0 Flash-Lite:**每100万个输入token 7.5美分,每100万个输出token 30美分。
Token表示原始数据的细分单位,例如单词’fantastic’中的音节’fan’、’tas’和’tic’。一百万个token大约相当于750,000个单词。’输入’是指输入到模型中的token,而’输出’表示模型生成的token。
2.0 Pro的定价尚未公布,Nano仍处于早期访问阶段。
Gemini可能登陆iPhone
Gemini与iPhone集成的可能性是存在的。
苹果公司表示,它正在进行讨论,可能利用Gemini和其他第三方模型来实现其Apple Intelligence套件中的各种功能。在WWDC 2024的主题演讲之后,苹果高级副总裁Craig Federighi确认了与包括Gemini在内的模型合作的计划,但没有透露更多细节。