科技論壇分析:GPT-4.5、太空 AI 與推理模型未來

GPT-4.5:精益求精,而非革命

OpenAI 最近向 ChatGPT Pro 用戶開放了 GPT-4.5,Plus、Team、企業和教育帳戶也將陸續開放。OpenAI 表示,這個內部稱為 ‘Orion’ 的模型「更了解人類意圖,能更細緻、更具情感智慧地解讀微妙的線索和隱含的期望」。它利用新的監督技術,以及傳統的微調和來自人類回饋的強化學習,與 GPT-4o 的開發過程相似。GPT-4.5 提供即時搜尋功能,支援檔案和圖片上傳,並整合了用於寫作和編碼的畫布。然而,它目前缺乏 ChatGPT 中的多模態功能,如語音模式、影片或螢幕共享。

OpenAI 強調,無監督學習提高了模型的準確性和直覺。這種方法一直是推動 GPT-3.5、GPT-4 和現在的 GPT-4.5 等模型進步的動力。另外,擴展推理訓練模型以系統地處理資訊,在回應之前產生一系列思考。這種有條理的方法提高了它們處理複雜 STEM 和邏輯挑戰的能力,正如 OpenAI o1 和 OpenAI o3-mini 等模型所展示的那樣。GPT-4.5 被呈現為擴展無監督學習的典型例子,利用增加的計算能力、更大的數據集和架構創新。據稱,它在 Microsoft Azure AI 超級計算機上進行訓練,擁有更廣泛的知識和對世界的更深入理解,減少了幻覺並提高了可靠性。

儘管取得了這些進展,GPT-4.5 並沒有引起太大的熱情。它被認為是一種漸進式的改進,而不是突破性的飛躍。雖然 OpenAI 吹捧增強的情感智慧、細微差別和創造力,但許多用戶並未觀察到與 GPT-4o 相比有顯著差異。缺乏多模態進展(GPT-4o 的一個關鍵特徵)進一步加劇了這種看法。

此外,GPT-4.5 表現出產生無意義輸出的傾向。OpenAI 的內部事實性基準測試工具 SimpleQA 顯示,GPT-4.5 在 37.1% 的時間裡會產生幻覺(自信地將捏造的事實呈現為事實)。這是一個嚴重的問題,即使與另一個先進的「推理」模型 GPT-4o 相比也是如此,GPT-4o 在同一基準測試中產生幻覺的比例為 61.8%。更小、更便宜的 o3-mini 模型表現出更高的幻覺率,達到 80.3%。

目前的人工智慧格局,包括 Anthropic 的 Claude 3.7 和 Google 的 Gemini 等競爭對手,提高了人們對重大升級的期望。用戶正在尋求突破,而不僅僅是改進,而 GPT-4.5 目前的形式似乎未能達到這一目標。

推理模型的興起與投資者信心

Elon Musk 最近在 X 上表示,人工通用智慧 (AGI) 即將到來。這一聲明發表之際,OpenAI、Google、Meta、Microsoft、DeepSeek、Anthropic 和 Musk 自己的 xAI 等科技巨頭正熱烈地競相開發推理模型——旨在模擬人類思維的人工智慧系統。

投資者顯然對這一追求表現出熱情。在推出具有混合推理功能的 Claude 3.7 Sonnet 後不久,Anthropic 獲得了 35 億美元的 E 輪融資。這使其估值增加了兩倍,達到 615 億美元,鞏固了其作為 OpenAI 主要競爭對手的地位。這項投資由 Lightspeed Venture Partners 領投,Salesforce Ventures、Cisco、Fidelity、Jane Street 等公司參與,將用於擴大 AI 開發的計算能力,加強安全研究,並加速全球增長。

推動推理的界限:BBEH 基準測試

大型語言模型 (LLM) 越來越多地整合到日常應用中,需要在不同領域具備強大的推理能力。然而,現有的基準測試通常優先考慮數學和編碼,而忽略了其他關鍵的推理類型。雖然 BIG-Bench 數據集已被廣泛用於評估 LLM 在複雜推理任務上的表現,但模型已經取得了顯著進展,以至於它們現在在 BIG-Bench 及其更具挑戰性的變體 BIG-Bench Hard (BBH) 上都取得了接近滿分的成績。這種飽和使得這些基準測試在衡量進一步的進展方面效果較差。

為了解決這一限制,研究人員推出了 BIG-Bench Extra Hard (BBEH)。這個新的基準測試用更困難的版本替換了 BBH 中的每個任務,同時仍然評估相似的推理技能。在 BBEH 上的測試顯示,即使是最好的通用模型也只能達到 9.8% 的分數,而專門為推理設計的頂級模型則達到了 44.8%。這些結果突顯了 LLM 在複雜推理方面面臨的持續挑戰,表明還有很大的改進空間。完整的研討會論文提供了有關這個新基準測試的更多詳細資訊。

AI 驅動的衛星:太空探索與營運的新時代

TakeMe2Space 是一家位於海德拉巴的太空科技初創公司,最近在一輪由 Seafund 領投的種子前融資中獲得了 5.5 億盧比的資金,Blume Ventures、Artha Venture Fund、AC Ventures 和其他天使投資者也參與其中。這筆資金雖然不多,但標誌著朝著建立印度第一個太空 AI 實驗室邁出了重要一步。TakeMe2Space 計劃利用這筆資金開發 MOI-1(My Orbital Infrastructure–Technology Demonstrator),這是一個平台,允許用戶通過名為 Orbitlab 的網絡控制台將地球觀測 AI 模型或其他太空實驗直接上傳到軌道衛星。用戶只需支付衛星使用時間,費率為每分鐘 2 美元。

據報導,該公司的 MOI-TD 平台已展示了從地面站上傳大型 AI 模型、在衛星上執行外部程式碼以及安全地下傳編碼和加密結果的能力。這代表著朝著更自主和高效的衛星營運邁進。

TakeMe2Space 並非孤軍奮戰。ESA(與 OPS-SAT)和 Globalstar 等組織也在開創 AI 驅動衛星技術的實際應用,範圍從安全的物聯網通信到在軌 AI 模型執行。隨著技術的不斷進步,AI 驅動的衛星將變得越來越自主,從而實現更高效的太空營運,並為研究、安全和全球連接開闢新的可能性。

傳統上,衛星在數據處理、決策和指令執行方面嚴重依賴地面站。數據必須下傳,在地球上進行分析,然後將處理後的見解上傳回衛星——這個過程既耗時又佔用大量頻寬。然而,AI 和邊緣計算(在設備本身而不是在雲端處理數據)的進步現在使衛星能夠在機載處理數據、做出自主決策,並安全地僅傳輸最關鍵的見解。這將帶來更快、更智慧、更高效的營運。

現代 AI 驅動衛星的操作通常涉及三個關鍵步驟:

  1. AI 演算法的上傳: AI 演算法從地面站傳輸到衛星,為它們提供先進的數據處理能力。
  2. 機載數據分析: AI 模型直接在軌道上分析圖像、感測器數據和其他輸入,最大限度地減少了對持續地面干預的需求。
  3. 安全下傳見解: 衛星不傳輸原始數據,而是發送加密的見解,從而節省頻寬並增強安全性。

這種 AI 驅動的方法提供了幾個優勢。它通過使衛星能夠在太空中處理數據來顯著減少延遲,從而能夠更快地響應即時情況,而無需等待地面站的指令。頻寬使用得到優化,因為只傳輸最相關的見解,而不是大量的原始數據。通過加密通信也提高了安全性,降低了網絡威脅和數據洩露的風險。這些優勢在災害應變、軍事行動和太空探索等應用中尤其有價值。

AI 驅動衛星的實際應用是多樣化且具有影響力的:

  • 災害管理: 配備 AI 的衛星可以即時檢測野火、洪水和颶風,使應急響應團隊能夠迅速採取行動。
  • 精準農業: AI 模型分析作物健康和土壤條件,以增強精準農業實踐。
  • 環境監測: 環境機構利用衛星數據來追蹤空氣和水污染水平。
  • 自主導航和太空營運: AI 通過預測和應對潛在威脅來改善碰撞避免,確保衛星的安全。它還有助於協調衛星星座,增強覆蓋範圍和效率。此外,AI 在追蹤和預測軌道碎片運動方面發揮著至關重要的作用,降低了對太空基礎設施造成損壞的風險。
  • 國防與安全: AI 驅動的監控系統可以更準確地檢測未經授權的活動和軍事行動。
  • 電信和物聯網: AI 驅動的衛星有助於實現更智慧的流量路由,改善衛星互聯網連接並確保無縫的全球通信。
  • 太空探索: AI 提高了太空望遠鏡在檢測小行星和系外行星方面的效率,顯著推進了太空發現工作。

儘管有許多優勢,但在 AI 驅動衛星的開發和部署方面仍然存在挑戰:

  • 有限的計算能力: 衛星必須在低功耗、抗輻射的晶片上運行,這限制了 AI 能力。
  • 惡劣的太空環境: 輻射暴露會帶來硬體故障的風險。
  • 安全威脅: 在太空中上傳和執行外部程式碼需要仔細管理,以防止網絡攻擊。
  • 成本和開發時間: 構建、測試和驗證 AI 相容的衛星硬體是一個昂貴且耗時的過程。
  • 適應性要求: 部署在軌道上的 AI 模型必須具有高度適應性,以最少的更新運行並自主適應新場景。

AI 解鎖:消除 ChatGPT 中的重複短語

AI 可以成為內容創作中的寶貴工具,協助寫作、集思廣益、提高清晰度、完善結構和增強整體可讀性。然而,AI 生成文本的一個常見問題是,由於重複的單詞選擇,它傾向於使用公式化的語言。AI 通常不提供新鮮、有影響力的訊息,而是依賴熟悉的模式,降低了效率和原創性。

過度使用的單詞和短語,例如「delve」、「tapestry」、「vibrant」、「landscape」、「realm」、「embark」、「excels」、「It’s important to note…」和「A testament to…」,會顯著降低 AI 生成內容的質量。對於產品行銷人員來說,這種重複會使訊息不那麼引人注目,降低受眾參與度,削弱品牌差異化,並阻止見解和策略訊息在擁擠的市場中脫穎而出。

通過利用 ChatGPT 的記憶功能,可以緩解此問題並消除過度使用的單詞和短語。以下是如何有效利用此功能的方法:

存取: 可以通過其網站或移動應用程式存取 ChatGPT。

優點:

  • 增強原創性: 確保 AI 生成的內容感覺不那麼機械化,更人性化。
  • 改進品牌訊息傳遞: 避免削弱品牌差異化的通用措辭。
  • 提高參與度: 通過減少冗餘來鼓勵更有效的溝通。

範例:產品行銷內容生成

假設一位產品行銷人員負責為新產品發布起草內容。對 ChatGPT 的初始請求可能會導致充滿重複和通用短語的回應,例如「delving into an intricate landscape of innovation…」,使訊息感覺缺乏靈感。

為了創建更引人注目和獨特的內容,行銷人員可以按照以下步驟操作:

  1. 設定提示: 行銷人員明確指示 ChatGPT:「請避免使用以下單詞:delve, tapestry, vibrant, landscape, realm, embark, excels。請將此記住。」這指示 ChatGPT 在其回應中主動過濾掉這些術語。
  2. 使用持久記憶: 「請將此記住」這句話確保 ChatGPT 在多次互動中保留這些特定指令。這使得能夠持續避免指定的單詞和短語。ChatGPT 將在生成文本之前檢查其記憶並遵守指令以避免指定的術語。
  3. 人工審閱: 生成回應後,行銷人員會審閱內容中是否有任何剩餘的冗餘,並微調語言以確保清晰度和影響力。

有效性:

  • 提示自定義: 特定指令有助於塑造 AI 的輸出。
  • 記憶保留: ChatGPT 可以跨對話存儲和遵循單詞避免規則。
  • 人工細化: 最後的人工編輯可確保清晰度和真實性。

注意:本節中介紹的工具和分析基於內部測試,並展示了明確的價值。這些建議是獨立的,不受工具創建者的影響。

其他 AI 新聞和發展

  • AI 驅動的智慧型手機崛起: 德國電信在巴塞隆納舉行的 2025 年世界移動通信大會上宣布計劃推出一款 AI 驅動的智慧型手機,該手機配備 Perplexity 助手。該助手旨在簡化日常任務,例如叫計程車、預訂餐桌、即時翻譯語言和回答用戶查詢。該公司設想這將是一個虛擬助手,通過撰寫電子郵件、發起通話、總結文本和管理日曆來為數百萬客戶提供支援。AI Phone 將整合 Google Cloud AI、ElevenLabs 和 Picsart 以增強其功能,並計劃於今年稍後推出。InMobi 旗下部門 Glance 和 Google Cloud 也宣布合作,利用 Google 的 AI 模型開發面向消費者的 AI 應用程式,以增強智慧型手機鎖定螢幕和環境電視螢幕上的用戶體驗。Glance 目前為全球超過 4.5 億部基於 Android 的智慧型手機提供支援。

  • 政府部門重大網絡事件減少: 根據最新的 Kaspersky Managed Detection and Response (MDR) 分析師報告,政府和開發行業在 2024 年涉及直接人為參與的高嚴重性事件顯著減少。然而,食品、IT、電信和工業部門的此類事件有所增加。

  • OpenAI 計劃將 Sora 整合到 ChatGPT 中: OpenAI 正在努力將其 AI 影片生成工具 Sora 直接整合到 ChatGPT 中。目前,Sora 只能通過專用的網絡應用程式使用,允許用戶生成長達 20 秒的電影剪輯。OpenAI 還在開發由 Sora 驅動的 AI 圖像生成器。