谷歌Gemini：生成式AI全解析 | zh-CN

揭秘Gemini：谷歌的下一代AI家族

Gemini是谷歌进军下一代AI模型的雄心勃勃的尝试。Gemini由DeepMind和Google Research这两个谷歌领先的AI研究实验室合作开发，它不是一个单一的实体，而是一个模型系列，每个模型都针对特定的任务和性能水平进行了定制。这个系列包括：

**Gemini Ultra：**该系列的重量级成员，专为需要大量计算能力的高度复杂任务而设计。（目前暂未发布）
**Gemini Pro：**一个强大的模型，比Ultra小，但能够处理各种任务。Gemini 2.0 Pro是最新版本，目前是谷歌的旗舰产品。
**Gemini Flash：**Pro的精简版，’蒸馏’版本，优先考虑速度和效率。
Gemini Flash-Lite: Gemini Flash 的一个略微简化和更快的版本。
**Gemini Flash Thinking：**一个展示’推理’能力的模型。
Gemini Nano：包含两个紧凑的模型，Nano-1和稍强的Nano-2，专为设备上的离线操作而设计。

所有Gemini模型的一个显著特征是它们固有的多模态性。与仅在文本数据上训练的模型（例如谷歌的LaMDA）不同，Gemini模型擅长处理和分析各种数据类型。它们已经在包含公共、专有和许可的音频、图像、视频、代码库和多种语言文本的庞大数据集上进行了训练。

这种多模态特性使Gemini能够超越纯文本模型的局限性。LaMDA仅限于基于文本的输入和输出，而Gemini模型，特别是Flash和Pro的较新版本，可以原生生成图像和音频以及文本。

然而，在公开可用的数据上训练AI模型（通常未经数据所有者的明确同意）的伦理和法律影响仍然是一个复杂的问题。虽然谷歌提供AI赔偿政策来保护某些Google Cloud客户免受潜在诉讼，但该政策有其局限性。用户，尤其是那些打算将Gemini用于商业目的的用户，应谨慎行事。

Gemini Apps vs. Gemini Models：理解区别

区分Gemini模型和可在Web和移动平台上使用的Gemini应用程序（以前称为Bard）至关重要。

Gemini应用程序充当客户端，连接到各种Gemini模型并呈现用户友好的、类似聊天机器人的界面。它们是与谷歌生成式AI功能交互的前端。

在Android设备上，Gemini应用程序取代了Google Assistant应用程序。在iOS上，Google和Google Search应用程序充当Gemini客户端。

Android用户可以调用Gemini覆盖层来询问有关屏幕上显示内容的问题，例如YouTube视频。此覆盖层通过按住受支持智能手机的电源按钮或使用语音命令’Hey Google’触发。

Gemini应用程序用途广泛，接受图像、语音命令和文本作为输入。它们可以处理PDF等文件，可以直接上传或从Google Drive导入，并生成图像。在移动设备上使用Gemini应用程序启动的对话会与Web上的Gemini无缝同步，前提是用户登录到同一个Google帐户。

Gemini Advanced：解锁高级AI功能

Gemini应用程序并不是利用Gemini模型强大功能的唯一途径。谷歌正在逐步将Gemini驱动的功能集成到其核心应用程序和服务中，包括Gmail和Google Docs。

要充分利用这些功能，用户通常需要Google One AI Premium计划。该计划在技术上是Google One的一个组成部分，每月收费20美元，并允许在Docs、Maps、Slides、Sheets、Drive和Meet等Google Workspace应用程序中使用Gemini。它还解锁了’Gemini Advanced’，允许在Gemini应用程序中访问谷歌更复杂的Gemini模型。

Gemini Advanced用户享有额外的好处，例如优先访问新功能和模型，能够在Gemini中直接执行和修改Python代码，以及NotebookLM（谷歌将PDF转换为AI生成播客的工具）的扩展限制。Gemini Advanced最近增加了一个记忆功能，可以存储用户偏好并使Gemini能够引用过去的对话，为当前的交互提供上下文。

Gemini Advanced独有的最引人注目的功能之一是’Deep Research’。此功能利用具有增强推理能力的Gemini模型来生成详细的简报。为了响应诸如’我应该如何重新设计我的厨房？’之类的提示，Deep Research会制定一个多步骤的研究计划，搜索网络，并编译一个全面的答案。

在Gmail中，Gemini位于侧面板中，能够撰写电子邮件和总结邮件主题。类似的面板出现在Docs中，协助内容编写、润色和头脑风暴。在Slides中，Gemini生成幻灯片和自定义图像。在Google Sheets中，它有助于数据跟踪、组织和公式创建。

Gemini的存在扩展到Google Maps，在那里它汇总有关当地企业的评论并提供建议，例如访问外国城市的行程建议。聊天机器人的功能还包括Drive，它可以总结文件和文件夹，并提供有关项目的简明信息。

Gemini最近已集成到谷歌的Chrome浏览器中，作为AI写作工具。此工具可用于创建全新的内容或重写现有文本，同时考虑当前网页的上下文以提供量身定制的建议。

除了这些核心应用程序之外，还可以在谷歌的数据库产品、云安全工具和应用程序开发平台（包括Firebase和Project IDX）中找到Gemini的踪迹。它还为Google Photos（自然语言搜索查询）、YouTube（视频创意头脑风暴）和Meet（字幕翻译）等应用程序中的功能提供支持。

Code Assist（以前称为Duet AI for Developers）是谷歌用于代码完成和生成的AI驱动工具套件，它依赖Gemini来执行计算密集型任务。同样，谷歌的安全产品（例如Gemini in Threat Intelligence）利用Gemini来分析潜在的恶意代码并促进对威胁和入侵指标的自然语言搜索。

Gemini Extensions 和 Gems：定制AI体验

Gemini Advanced用户可以创建’Gems’，由Gemini模型提供支持的自定义聊天机器人，可在桌面和移动平台上访问。Gems可以从自然语言描述生成，例如’你是我的跑步教练。给我一个每日跑步计划’，并且可以与其他用户共享或保密。

Gemini应用程序可以通过’Gemini extensions’与各种Google服务集成。这些扩展使Gemini能够与Drive、Gmail、YouTube和其他服务交互，允许它响应诸如’你能总结我最近的三封电子邮件吗？’之类的查询。

Gemini Live：进行深入的语音对话

‘Gemini Live’提供了一种身临其境的体验，允许用户与Gemini进行详细的语音对话。此功能可在移动设备上的Gemini应用程序和Pixel Buds Pro 2中使用，即使手机锁定时也可以访问。

借助Gemini Live，用户可以在Gemini说话时打断它以提出澄清问题，并且聊天机器人可以实时适应语音模式。Live还被设计为虚拟教练，协助活动准备、头脑风暴和其他任务。例如，Live可以建议在求职面试中强调的技能并提供公开演讲技巧。

Gemini for Teens：为学生量身定制的AI体验

谷歌提供了一种专门为青少年学生量身定制的Gemini体验。

这个以青少年为中心的Gemini版本包含’额外的政策和保障措施’，包括定制的入门流程和AI素养指南。除了这些修改之外，它与标准的Gemini体验非常相似，包括’double-check’功能，该功能通过交叉引用网络上的信息来验证Gemini响应的准确性。

探索Gemini模型的功能

Gemini模型的多模态特性使其能够执行各种任务，从语音转录到实时图像和视频字幕。其中许多功能已经整合到谷歌的产品中，并承诺在不久的将来进一步改进。

然而，重要的是要承认，与竞争对手一样，谷歌尚未完全解决与生成式AI技术相关的一些固有挑战，例如编码偏差和捏造信息的倾向（幻觉）。在评估Gemini的使用时，尤其是在关键应用中，应考虑这些限制。

Gemini Pro的实力

谷歌声称其最新的Pro模型Gemini 2.0 Pro代表了其在编码和处理复杂提示方面的最先进产品。2.0 Pro在评估编程、推理、数学和事实准确性的基准测试中优于其前身Gemini 1.5 Pro。

在谷歌的Vertex AI平台中，开发人员可以通过微调或’接地’为特定上下文和用例定制Gemini Pro。例如，可以指示Pro（以及其他Gemini模型）利用来自Moody’s、Thomson Reuters、ZoomInfo和MSCI等第三方提供商的数据，或者从公司数据集或Google Search中获取信息，而不是其更广泛的知识库。Gemini Pro还可以连接到外部的第三方API以执行特定操作，例如自动化后台工作流程。

谷歌的AI Studio平台提供了使用Pro创建结构化聊天提示的模板。开发人员可以控制模型的创作范围，提供示例来指导语气和风格，并微调Pro的安全设置。

Gemini Flash：轻量级效率和Gemini Flash Thinking的推理能力

Gemini 2.0 Flash 能够使用 Google 搜索和其他外部 API。即使它更小，它在衡量编码和图像分析的基准测试中也优于一些较大的 1.5 模型。作为 Gemini Pro 的衍生产品，Flash 专为提高效率而设计，针对狭窄、高频的生成式 AI 任务。

谷歌强调Flash适用于摘要、聊天应用程序、图像和视频字幕以及从长文档和表格中提取数据等应用。与此同时，据谷歌称，Gemini 2.0 Flash-Lite是Flash的一个更紧凑的版本，在性能上超过了Gemini 1.5 Flash，同时保持相同的价格和速度。

去年12月，谷歌推出了Gemini 2.0 Flash的’thinking’变体，具有’推理’能力。这个AI模型在提供答案之前需要几秒钟的时间来反向解决问题，这可能会提高其可靠性。

Gemini Nano：设备端AI能力

Gemini Nano是Gemini的一个非常紧凑的版本，旨在直接在兼容设备上运行，无需将任务发送到远程服务器。目前，Nano为Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9和Samsung Galaxy S24上的多项功能提供支持，包括Recorder中的Summarize和Gboard中的Smart Reply。

Recorder应用程序允许用户录制和转录音频，它包含一个Gemini驱动的摘要功能，用于录制的对话、访谈、演示文稿和其他音频片段。即使没有网络连接，也会生成这些摘要，并且为了保护隐私，在此过程中没有任何数据离开用户的设备。

Nano还在Gboard（谷歌的键盘替代品）中找到了它的位置，它为Smart Reply提供支持。此功能在WhatsApp等消息应用程序中建议回复，从而简化对话。

Android的未来版本将利用Nano在通话期间提醒用户注意潜在的诈骗。Pixel手机上的新天气应用程序使用Gemini Nano生成个性化的天气报告。此外，谷歌的辅助功能服务TalkBack使用Nano为视障用户创建对象的听觉描述。

Gemini Ultra：等待回归

Gemini Ultra最近几个月相对缺席。该模型目前在Gemini应用程序中不可用，也未在谷歌的Gemini API定价页面上列出。但是，这并不排除谷歌将来重新引入Ultra的可能性。

Gemini模型的定价结构

Gemini 1.5 Pro、1.5 Flash、2.0 Flash和2.0 Flash-Lite可通过谷歌的Gemini API用于开发应用程序和服务。它们按即用即付的方式运行。截至2025年2月22日，基本定价（不包括附加组件）如下：

**Gemini 1.5 Pro：**每100万个输入token 1.25美元（对于最多128K token的提示）或每100万个输入token 2.50美元（对于超过128K token的提示）；每100万个输出token 5美元（对于最多128K token的提示）或每100万个输出token 10美元（对于超过128K token的提示）
**Gemini 1.5 Flash：**每100万个输入token 7.5美分（对于最多128K token的提示），每100万个输入token 15美分（对于超过128K token的提示），每100万个输出token 30美分（对于最多128K token的提示），每100万个输出token 60美分（对于超过128K token的提示）
**Gemini 2.0 Flash：**每100万个输入token 10美分，每100万个输出token 40美分。对于音频，每100万个输入token 70美分。
**Gemini 2.0 Flash-Lite：**每100万个输入token 7.5美分，每100万个输出token 30美分。

Token表示原始数据的细分单位，例如单词’fantastic’中的音节’fan’、’tas’和’tic’。一百万个token大约相当于750,000个单词。’输入’是指输入到模型中的token，而’输出’表示模型生成的token。

2.0 Pro的定价尚未公布，Nano仍处于早期访问阶段。

Gemini可能登陆iPhone

Gemini与iPhone集成的可能性是存在的。

苹果公司表示，它正在进行讨论，可能利用Gemini和其他第三方模型来实现其Apple Intelligence套件中的各种功能。在WWDC 2024的主题演讲之后，苹果高级副总裁Craig Federighi确认了与包括Gemini在内的模型合作的计划，但没有透露更多细节。

更新于 2025-03-01

# AIGC # Google # Gemini