Google Gemini已从一个网络搜索增强工具迅速发展为一个全面的AI聊天机器人,能够处理各种任务。它现在可以处理文件、生成带有声音的视频,并解决复杂的问题,同时受益于云存储以及与Google应用的无缝集成。从回答关于Chrome页面的问题到管理Gmail,Gemini提供了一种统一的AI体验。然而,它的研究信息溯源和图像生成能力并非总是闪耀,而且和其他聊天机器人一样,它有时会提供不准确的信息。
Gemini作为虚拟助手
将Gemini视为一个高级的虚拟助手,擅长处理各种任务。它可以分析文档、回答问题、生成图像和视频、进行研究、协助创意写作、搜索网络以及解决数学问题。它可以通过文本或语音访问,类似于Microsoft Copilot或ChatGPT。
Gemini还拥有专为程序员量身定制的功能,包括Gemini Code Assist和Jules异步编码代理。这些工具可以协助完成创建自定义WordPress插件和调试代码等任务。
核心功能:提示和响应
Gemini的核心是接收用户的提示并生成响应,由基于大量数据集训练的大型语言模型 (LLMs) 提供支持。这些模型为Gemini提供了跨各种主题的大量信息的访问权限,并辅以实时互联网搜索。
用户与Gemini的互动越多,它就变得越好使用。用户参与有助于训练底层模型,使Gemini能够提供更准确的响应并随着时间的推移减少错误。这种持续的学习过程是渐进的,但至关重要。
Gemini的模型系列:Flash和Pro
Gemini采用两个主要的模型系列:Flash和Pro。Flash系列专为对话互动而设计,而Pro系列则专注于复杂的推理任务,例如编码、数学和科学。这些系列中的每个模型都表现出独特的优势。最新的模型是2.5 Flash和2.5 Pro,测试通常侧重于默认的2.5 Flash和用于专门任务的2.5 Pro。
免费与高级:您能得到什么?
Gemini提供免费和高级计划,高级计划解锁了附加功能。
免费计划
免费用户可以访问2.5 Flash模型、有限访问2.5 Pro模型、语音模式 (Gemini Live)、有限的深度研究能力以及自定义AI助手 (Gems)。他们还可以获得对Whisk动画工具的有限访问权限以及15GB的Google Drive云存储空间。
高级计划
高级计划包括Google AI Pro(每月19.99美元)和Google AI Ultra(每月249.99美元)。AI Pro层提供更高的使用限制、Flow电影制作工具、Google Chrome中的Gemini、通过Gemini的Veo 2模型进行的视频生成,以及用于复杂提示的更大的上下文窗口。使用AI Pro,Google Drive云存储增加到2TB,Gemini与Google Workspace应用程序(如Gmail、Calendar、Docs和Sheets)集成。
AI Ultra计划包括AI Pro中的所有内容,以及更高的使用限制和几个新功能:30TB的Google Drive云存储空间、对Gemini的任务简化代理的早期访问权限、对Gemini即将推出的2.5 Pro Deep Think模式的独占访问权限、Google最新的Veo 3视频生成模型以及YouTube Premium。对于大多数用户来说,AI Pro计划通常更具成本效益。专注于通过Google Drive进行云存储的Google One订阅,使您可以获得带有超过2TB云存储的Gemini AI Pro,例如5TB(每月25美元)或10TB(每月50美元)。
价值主张:Gemini vs. 竞争对手
主要的聊天机器人,如Copilot、ChatGPT和Gemini,其高级计划的价格都在每月20美元左右。Gemini和Copilot因其与Google和Microsoft 365应用程序的集成而脱颖而出,ChatGPT则专注于聊天机器人功能。虽然Copilot Pro具有独特的功能,但Gemini的云存储集成提供了卓越的价值。
可访问性:Web、移动和集成
Gemini可通过Web和移动应用程序(Apple和Android)访问。虽然没有桌面应用程序或官方浏览器扩展,但Chrome提供了Gemini集成。Gemini可以在Google应用程序中使用,例如Calendar、Docs、Drive、Gmail、Maps、Keep、Photos、Sheets和YouTube Music。
入门:界面和用户体验
Gemini不需要帐户,但建议登录以更改模型、使用深度研究和保存聊天记录。
该界面很简单,具有“Ask Gemini”文本字段和侧栏中的最近聊天记录。可点击的示例提示提供了关于Gemini可以做什么的指导。响应通常很快,尤其是对于图像生成。用户可以复制、收听、重新生成或分享响应。偶尔的服务器问题可能会导致响应挂起,类似于ChatGPT和Copilot。
语气和记忆
Gemini比ChatGPT更直接,更少对话性。无法个性化Gemini的语气,但可以保存某些用户信息以供Gemini记住。Gemini强大的记忆可以带来更令人满意的聊天体验,即使在开始新的聊天时也能记住过去的聊天。
语音模式:Gemini Live
麦克风图标启用语音转文本输入,Gemini Live(如ChatGPT的语音模式或Copilot Voice)允许用户使用不同的声音自然地进行对话。
Gemini Live支持相机和屏幕共享,允许用户讨论真实世界的主题。虽然Gemini的图像识别能力通常很强,但该功能更多地发挥了节省时间的作用。
Project Mariner:一个任务简化代理
Project Mariner是AI Ultra用户独有的,是一个AI助手,可以完成诸如求职或公寓搜索之类的任务。Google将Project Mariner称为“研究原型”,表明它仍需要进一步完善。
网络搜索和信息检索
网络搜索是所有主流聊天机器人的标准配置。Gemini、ChatGPT和Copilot可以回答有关当前时间的问题。虽然大多数问题都得到了正确的回答,但有些问题可能会让聊天机器人感到困惑。
Gemini和Copilot的响应通常简短明了,而ChatGPT则提供更详细的信息。Gemini和ChatGPT都具有指向连接文章的来源图标,但是ChatGPT的界面显示了来源的名称和文章的完整标题。
AI模式和购物
Google搜索页面上的AI模式由Gemini提供支持,可通过AI Mode按钮访问。它允许用户根据网络结果提出问题,响应中包含相关的文章图块和相关图片,类似于ChatGPT。它还提供了对Google搜索和图像搜索的便捷访问。
Gemini还可以通过提供购买建议以及带有用户评论,零售商链接和价格跟踪的Google Shopping图块来协助购物。Gemini的购物功能提供相关的建议。
深度研究:深入的报告
深度研究是AI聊天机器人的一个有价值的功能,允许用户提出问题或提出主题,供Gemini研究和报告。报告可以引用大量来源,并在大约10分钟内生成。
两个聊天机器人都可以轻松处理简单的研究主题,但是没有明确答案且需要各种来源的问题更具挑战性。
Gemini引用了更多的来源,但是ChatGPT的来源更易于使用。Gemini允许将报告导出到Google Docs,但ChatGPT的深度研究界面本质上只是一个加载栏。
报告语气差异很大,Gemini的报告类似于学术论文,而ChatGPT的报告类似于论坛帖子。
图像生成:视觉比较
图像生成是AI聊天机器人的另一个主要功能。测试侧重于逼真的和复杂的插图。
在逼真的图像生成中,Gemini可以快速生成图像,并在视觉上吸引人,但可能包含错误。
对于复杂的插图,Gemini的漫画往往不连贯,而ChatGPT的漫画更接近实现其目标。
在技术图生成中,ChatGPT产生高度准确的图表,从而巩固了其优势。
视频生成:一个蓬勃发展的领域
AI视频生成是一种日益普及的功能。Gemini具有Flow电影制作工具,Veo 3视频生成模型和Whisk AI动画器。它生成带有音频的视频的能力使其与ChatGPT的Sora视频生成区分开来,尽管它仅限于AI Ultra订阅者。
Veo 3代表了向前迈出的重要一步,但需要仔细的提示校准。每次生成需要150个积分(AI Ultra每月获得12,500个积分)。
Flow允许修剪视频剪辑并根据新的提示扩展它们。如果有足够的积分,理论上可以使用Flow完全制作电影。
Whisk是Google的AI动画工具,允许用户上传图片。结果可能很有趣,但存在错误和失真。
文件分析:理解上传的内容
Gemini可以分析和理解上传的文件,批判简历、解释图像或翻译文本。
在图像识别中,聊天机器人经过测试,其能够识别上传图像中的组件。ChatGPT可以包含更大的细节量。
对于文档处理,聊天机器人的任务是仅根据上传的文档来回答问题。Gemini和ChatGPT都提供了正确的答案,但在上传文件时应谨慎。ChatGPT在处理文件方面可能比Gemini略有优势,但这只是很小的优势。
创意写作:诗歌生成
AI聊天机器人可以协助创意写作,包括笑话,独白和诗歌。
当被要求写一首自由诗歌时,ChatGPT更严格地遵循指示。Gemini的诗歌未使用标点,而Copilot的诗歌的换行符感觉不足。
复杂推理:考试题
通过向聊天机器人提供计算机科学,数学和物理的本科考试问题来测试复杂推理。
聊天机器人表现出色,有效地回答了所有物理问题。ChatGPT返回的错误答案总体上最少。
Chrome中的Gemini:无缝集成
Chrome现在集成了Gemini。付费帐户持有人可以单击Gemini图标以打开聊天窗口,像往常一样与Gemini互动并查询活动选项卡的内容。Chrome中的Gemini集成允许用户消除打开新选项卡以通过类似于Edge中的Copilot Vision的功能询问Gemini的需求,尽管Gemini’s Live功能在其Web界面中不可用。
文本响应非常快。响应速度使我想知道,在您与Gemini共享之前,它是否具有对网页的某种访问权限。
尽管Chrome中的Gemini有一些局限性;Gemini无法理解视频,并且使用Live的回复不如通过文本那样快,但总的来说,它很有用,因为它消除了复制和粘贴的需要。但是,除非您一直使用Gemini,否则单击一下即可节省的时间可能并不重要。Live功能同样有帮助,使我可以提出有关我正在看到的问题,而无需触摸键盘。
Chrome中的Gemini对它可以查看和理解的内容有一些限制。结果,Gemini可能会感到具有侵入性。一旦您共享某些选项卡,Gemini就可以查看和回应有关这些选项卡的问题。
Google Apps集成:增强生产力
AI Pro计划用户可以在Google的应用程序中获得AI功能,包括Calendar,Docs,Drive,Gmail,Maps,Keep,Photos,Sheets和YouTube Music。
Google强调了Gemini网站本身的集成能力。您可以根据传单将活动添加到Google Calendar,在Google Keep中生成购物清单,或让Gemini在YouTube Music中管理播放列表。Docs,Gmail,Sheets和Slides中的Gemini反映了Microsoft 365应用程序中的Copilot,基于提示创建幻灯片,草拟电子邮件,生成文本并建议公式。
Gmail中的Gemini脱颖而出,授予Gemini对您的电子邮件历史记录的完全访问权限,从而可以搜索特定信息或提供收件箱清理建议。但是,它不是一种无所不能的功能。Gemini做不到所有事情。此集成感觉像是侵犯了隐私。
取决于您利用Gemini可用集成的方式,可能没有满足您特定需求的集成。但是,由于具有多种功能,因此可能是有益。
Gems:定制AI专家
Gems是为特定目的量身定制的Gemini的自定义版本。讲师可以添加文件并创建一个PC Builder Gem,以帮助首次构建计算机的构建者。
响应与与Gemini交谈略有不同。那些计划与Gemini讨论指定主题的人可以创建一个Gem。但是,Gems并没有真正兑现Google的承诺。
安全和隐私
Gemini没有意识,无法像人一样思考或理解事物。
成人内容、非法活动、逼真的人物图像和禁忌话题违反了Gemini的政策,Gemini的过滤系统最宽松。
Gemini有一个上下文窗口。Gemini的AI Pro计划上的上下文窗口一次可以使用多达1,500页文本或30,000行代码(付费)。如果广泛使用免费版本,订阅者可能会遇到障碍。
当您使用Gemini时,Google会收集数据,包括文件、位置信息、产品使用情况和聊天记录。此数据用于改进Google产品和机器学习技术。
用户可以关闭Gemini Apps Activity。默认情况下,Google会将聊天数据存储18个月。
至于Gemini的Google Workspace集成,例如Gmail、Docs、Drive、Sheets和Slides,Google承诺不使用经过训练的模型,不出售它,也不将其用于定向广告。
Google过去曾经历过一些问题,包括恶意行为者利用Google Chrome漏洞、意大利监管机构因其数据实践而引用Google,以及未经同意的数据收集导致数十亿美元的损失。因此,建议不要分享敏感数据。