揭開 Gemini 的神秘面紗:Google 的新一代 AI 家族
Gemini 是 Google 對下一代 AI 模型的雄心勃勃的嘗試。Gemini 由 Google 領先的 AI 研究實驗室 DeepMind 和 Google Research 共同開發,它不是一個單一的實體,而是一個模型家族,每個模型都針對特定任務和效能等級量身定制。這個家族包括:
- Gemini Ultra: 該家族的重量級成員,專為需要大量計算能力的高度複雜任務而設計。(目前尚未推出)
- Gemini Pro: 一個強大的模型,比 Ultra 小,但能夠處理廣泛的任務。Gemini 2.0 Pro 是最新版本,目前是 Google 的旗艦產品。
- Gemini Flash: Pro 的精簡版,’蒸餾’ 版本,優先考慮速度和效率。
- Gemini Flash-Lite: Gemini Flash 的稍微縮小和更快的版本。
- Gemini Flash Thinking: 一個展示’推理’能力的模型。
- Gemini Nano: 包含兩個緊湊的模型,Nano-1 和稍強的 Nano-2,專為在設備上離線運行而設計。
所有 Gemini 模型的一個定義性特徵是它們固有的多模態性。與僅在文本數據上訓練的模型(例如 Google 的 LaMDA)不同,Gemini 模型擅長處理和分析不同的數據類型。它們已經在包含公共、專有和許可的音訊、圖像、影片、程式碼庫和多種語言文本的龐大數據集上進行了訓練。
這種多模態特性使 Gemini 能夠超越僅限文本模型的限制。雖然 LaMDA 僅限於基於文本的輸入和輸出,但 Gemini 模型,特別是 Flash 和 Pro 的較新版本,可以原生生成圖像和音訊以及文本。
然而,在公開可用的數據上訓練 AI 模型的道德和法律影響,通常沒有數據所有者的明確同意,仍然是一個複雜的問題。雖然 Google 提供 AI 賠償政策來保護某些 Google Cloud 客戶免受潛在訴訟,但該政策有其局限性。用戶,尤其是那些打算將 Gemini 用於商業目的的用戶,應謹慎行事。
Gemini Apps 與 Gemini Models:了解區別
區分 Gemini 模型和 Web 和移動平台上可用的 Gemini 應用程式(以前稱為 Bard)至關重要。
Gemini 應用程式充當客戶端,連接到各種 Gemini 模型並呈現用戶友好的、類似聊天機器人的界面。它們充當與 Google 生成式 AI 功能互動的前端。
在 Android 設備上,Gemini 應用程式取代了 Google Assistant 應用程式。在 iOS 上,Google 和 Google Search 應用程式充當 Gemini 客戶端。
Android 用戶可以調用 Gemini 疊加層來詢問有關其螢幕上顯示的內容的問題,例如 YouTube 影片。此疊加層可通過按住受支援智慧手機的電源按鈕或使用語音命令 ‘Hey Google’ 來觸發。
Gemini 應用程式用途廣泛,接受圖像、語音命令和文本作為輸入。它們可以處理 PDF 等文件,可以直接上傳或從 Google Drive 導入,並生成圖像。在移動設備上使用 Gemini 應用程式啟動的對話會與 Web 上的 Gemini 無縫同步,前提是用戶登錄到同一個 Google 帳戶。
Gemini Advanced:解鎖高級 AI 功能
Gemini 應用程式並不是利用 Gemini 模型功能的唯一途徑。Google 正在逐步將 Gemini 驅動的功能整合到其核心應用程式和服務中,包括 Gmail 和 Google Docs。
要充分利用這些功能,用戶通常需要 Google One AI Premium 計劃。該計劃在技術上是 Google One 的一個組成部分,每月費用為 20 美元,並允許在 Google Workspace 應用程式(如 Docs、Maps、Slides、Sheets、Drive 和 Meet)中使用 Gemini。它還解鎖了 ‘Gemini Advanced’,允許在 Gemini 應用程式中訪問 Google 更複雜的 Gemini 模型。
Gemini Advanced 用戶享有額外的好處,例如優先訪問新功能和模型、能夠直接在 Gemini 中執行和修改 Python 程式碼,以及 NotebookLM(Google 將 PDF 轉換為 AI 生成的播客的工具)的擴展限制。Gemini Advanced 最近新增了一個記憶功能,可以存儲用戶偏好並使 Gemini 能夠參考過去的對話,為當前互動提供上下文。
Gemini Advanced 獨有的最引人注目的功能之一是 ‘Deep Research’。此功能利用具有增強推理能力的 Gemini 模型來生成詳細的簡報。為了回應提示,例如 ‘我應該如何重新設計我的廚房?’,Deep Research 會制定一個多步驟的研究計劃,搜索網絡,並編譯一個全面的答案。
在 Gmail 中,Gemini 位於側邊欄中,能夠撰寫電子郵件和總結郵件線程。Docs 中會出現一個類似的面板,協助內容寫作、潤色和集思廣益。在 Slides 中,Gemini 生成幻燈片和自定義圖像。在 Google Sheets 中,它有助於數據跟踪、組織和公式創建。
Gemini 的存在擴展到 Google Maps,它匯總了有關當地企業的評論並提供建議,例如訪問外國城市的行程建議。聊天機器人的功能還包括 Drive,它可以總結文件和文件夾,並提供有關項目的簡明信息。
Gemini 最近已作為 AI 寫作工具整合到 Google 的 Chrome 瀏覽器中。此工具可用於創建全新的內容或重寫現有文本,同時考慮當前網頁的上下文以提供量身定制的建議。
除了這些核心應用程式之外,在 Google 的數據庫產品、雲安全工具和應用程式開發平台(包括 Firebase 和 Project IDX)中也可以找到 Gemini 的踪跡。它還為 Google Photos(自然語言搜索查詢)、YouTube(影片創意集思廣益)和 Meet(字幕翻譯)等應用程式中的功能提供支持。
Code Assist(以前稱為 Duet AI for Developers)是 Google 的一套用於程式碼完成和生成的 AI 驅動工具,它依賴 Gemini 來執行計算密集型任務。同樣,Google 的安全產品(例如 Gemini in Threat Intelligence)利用 Gemini 來分析潛在的惡意程式碼並促進對威脅和洩露指標的自然語言搜索。
Gemini Extensions 和 Gems:定制 AI 體驗
Gemini Advanced 用戶可以創建 ‘Gems’,這是由 Gemini 模型驅動的自定義聊天機器人,可在桌面和移動平台上訪問。Gems 可以從自然語言描述中生成,例如 ‘你是我的跑步教練。給我一個每日跑步計劃’,並且可以與其他用戶共享或保密。
Gemini 應用程式可以通過 ‘Gemini extensions’ 與各種 Google 服務整合。這些擴展使 Gemini 能夠與 Drive、Gmail、YouTube 和其他服務互動,允許它回應諸如 ‘你能總結我最近的三封電子郵件嗎?’ 之類的查詢。
Gemini Live:進行深入的語音對話
‘Gemini Live’ 提供身臨其境的體驗,允許用戶與 Gemini 進行詳細的語音對話。此功能可在移動設備上的 Gemini 應用程式和 Pixel Buds Pro 2 上使用,即使手機鎖定也可以訪問。
借助 Gemini Live,用戶可以在 Gemini 說話時打斷它以提出澄清問題,並且聊天機器人會實時適應語音模式。Live 還被設計為虛擬教練,協助活動準備、集思廣益和其他任務。例如,Live 可以建議在面試中強調的技能並提供公開演講技巧。
Gemini for Teens:為學生量身定制的 AI 體驗
Google 提供專為青少年學生量身定制的 Gemini 體驗。
這個以青少年為中心的 Gemini 版本包含 ‘額外的政策和保障措施’,包括定制的入門流程和 AI 素養指南。除了這些修改之外,它與標準的 Gemini 體驗非常相似,包括 ‘double-check’ 功能,該功能通過交叉引用網絡上的信息來驗證 Gemini 回應的準確性。
探索 Gemini 模型的功能
Gemini 模型的多模態特性使其能夠執行各種任務,從語音轉錄到實時圖像和影片字幕。其中許多功能已經整合到 Google 的產品中,並承諾在不久的將來進一步發展。
然而,重要的是要承認,與其競爭對手一樣,Google 並沒有完全解決與生成式 AI 技術相關的一些固有挑戰,例如編碼偏差和捏造信息(幻覺)的傾向。在評估 Gemini 的使用時,特別是對於關鍵應用,應考慮這些限制。
Gemini Pro 的實力
Google 聲稱其最新的 Pro 模型 Gemini 2.0 Pro 代表了其在編碼和處理複雜提示方面的最先進產品。2.0 Pro 在評估編程、推理、數學和事實準確性的基準測試中超越了其前身 Gemini 1.5 Pro。
在 Google 的 Vertex AI 平台中,開發人員可以通過微調或 ‘接地’ 為特定上下文和用例定制 GeminiPro。例如,可以指示 Pro(以及其他 Gemini 模型)利用來自 Moody’s、Thomson Reuters、ZoomInfo 和 MSCI 等第三方提供商的數據,或者從公司數據集或 Google Search 中獲取信息,而不是其更廣泛的知識庫。Gemini Pro 也可以連接到外部的第三方 API 以執行特定操作,例如自動化後台工作流程。
Google 的 AI Studio 平台提供了使用 Pro 創建結構化聊天提示的模板。開發人員可以控制模型的創意範圍,提供示例來指導語氣和風格,並微調 Pro 的安全設置。
Gemini Flash:輕量級效率和 Gemini Flash Thinking 的推理能力
Gemini 2.0 Flash 能夠使用 Google 搜索和其他外部 API。儘管它更小,但在衡量編碼和圖像分析的基準測試中,它的表現優於一些較大的 1.5 模型。作為 Gemini Pro 的衍生產品,Flash 專為提高效率而設計,針對狹窄、高頻的生成式 AI 任務。
Google 強調 Flash 適用於摘要、聊天應用程式、圖像和影片字幕以及從冗長文檔和表格中提取數據等應用程式。同時,根據 Google 的說法,Gemini 2.0 Flash-Lite 是 Flash 的更緊湊版本,在性能上超越了 Gemini 1.5 Flash,同時保持相同的價格和速度。
去年 12 月,Google 推出了一個具有 ‘reasoning’ 能力的 ‘thinking’ 版本的 Gemini 2.0 Flash。這個 AI 模型需要幾秒鐘的時間來反向解決問題,然後再提供答案,這可能會提高其可靠性。
Gemini Nano:設備上的 AI 能力
Gemini Nano 是 Gemini 的一個非常緊湊的版本,旨在直接在兼容設備上運行,無需將任務發送到遠程服務器。目前,Nano 為 Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9 和 Samsung Galaxy S24 上的多個功能提供支持,包括 Recorder 中的 Summarize 和 Gboard 中的 Smart Reply。
Recorder 應用程式使用戶能夠錄製和轉錄音訊,它包含一個 Gemini 驅動的摘要功能,用於錄製的對話、採訪、演示文稿和其他音訊片段。即使沒有網絡連接,也會生成這些摘要,並且為了保護隱私,在此過程中沒有數據會離開用戶的設備。
Nano 還在 Google 的鍵盤替代品 Gboard 中找到了自己的位置,它為 Smart Reply 提供支持。此功能在 WhatsApp 等消息應用程式中建議回應,從而簡化對話。
Android 的未來版本將利用 Nano 在通話期間提醒用戶注意潛在的詐騙。Pixel 手機上的新天氣應用程式使用 Gemini Nano 生成個性化的天氣報告。此外,Google 的輔助功能服務 TalkBack 使用 Nano 為視力障礙用戶創建對象的聽覺描述。
Gemini Ultra:等待它的回歸
Gemini Ultra 最近幾個月相對較少受到關注。該模型目前在 Gemini 應用程式中不可用,也沒有在 Google 的 Gemini API 定價頁面上列出。但是,這並不排除 Google 將來重新引入 Ultra 的可能性。
Gemini 模型的定價結構
Gemini 1.5 Pro、1.5 Flash、2.0 Flash 和 2.0 Flash-Lite 可通過 Google 的 Gemini API 進行應用程式和服務開發。它們按即用即付的方式運行。截至 225 年 2 月,基本定價(不包括附加組件)如下:
- Gemini 1.5 Pro: 每 100 萬個輸入 token 1.25 美元(對於最多 128K token 的提示)或每 100 萬個輸入 token 2.50 美元(對於超過 128K token 的提示);每 100 萬個輸出 token 5 美元(對於最多 128K token 的提示)或每 100 萬個輸出 token 10 美元(對於超過 128K token 的提示)
- Gemini 1.5 Flash: 每 100 萬個輸入 token 7.5 美分(對於最多 128K token 的提示),每 100 萬個輸入 token 15 美分(對於超過 128K token 的提示),每 100 萬個輸出 token 30 美分(對於最多 128K token 的提示),每 100 萬個輸出 token 60 美分(對於超過 128K token 的提示)
- Gemini 2.0 Flash: 每 100 萬個輸入 token 10 美分,每 100 萬個輸出 token 40 美分。對於音訊,每 100 萬個輸入 token 70 美分。
- Gemini 2.0 Flash-Lite: 每 100 萬個輸入 token 7.5 美分,每 100 萬個輸出 token 30 美分。
Token 代表原始數據的細分單位,例如單詞 ‘fantastic’ 中的音節 ‘fan’、’tas’ 和 ‘tic’。一百萬個 token 大約相當於 750,000 個單詞。’輸入’ 指的是輸入到模型中的 token,而 ‘輸出’ 表示模型生成的 token。
2.0 Pro 的定價尚未公佈,Nano 仍處於早期訪問階段。
Gemini 可能會登陸 iPhone
Gemini 與 iPhone 整合的可能性是明確存在的。
Apple 已表示正在進行討論,以潛在地利用 Gemini 和其他第三方模型來實現其 Apple Intelligence 套件中的各種功能。在 WWDC 2024 的主題演講之後,Apple 高級副總裁 Craig Federighi 確認了與包括 Gemini 在內的模型合作的計劃,但沒有透露更多細節。