GPT-4.5、宇宙AI、推論モデルの未来

GPT-4.5: 革命ではなく、改良

OpenAIは最近、GPT-4.5をChatGPT Proユーザーに提供開始し、Plus、Team、エンタープライズ、教育アカウントにも順次提供する予定です。内部的には’Orion’として知られるこのモデルは、OpenAIによると、「人間の意図をよりよく理解し、微妙な手がかりや暗黙の期待をより高いニュアンスと感情的知性で解釈する」とのことです。GPT-4oの開発プロセスと同様に、新しい監督技術と、従来のファインチューニング、人間からのフィードバックによる強化学習を活用しています。GPT-4.5は、リアルタイム検索機能を提供し、ファイルや画像のアップロードをサポートし、ライティングやコーディング用のキャンバスと統合されています。ただし、現在、ChatGPTにある音声モード、ビデオ、画面共有などのマルチモーダル機能は欠けています。

OpenAIは、教師なし学習がモデルの精度と直感を向上させると強調しています。このアプローチは、GPT-3.5、GPT-4、そして現在のGPT-4.5などのモデルの進歩の原動力となってきました。別途、推論のスケーリングは、モデルが情報を体系的に処理するようにトレーニングし、応答する前に思考の連鎖を生成します。この系統的なアプローチにより、OpenAI o1やOpenAI o3-miniなどのモデルで実証されているように、複雑なSTEMや論理の課題に取り組む能力が向上します。GPT-4.5は、教師なし学習のスケーリングの代表的な例として提示されており、計算能力の向上、より大きなデータセット、アーキテクチャの革新を活用しています。Microsoft Azure AIスーパーコンピューターでトレーニングされたこのモデルは、より広範な知識と世界に対するより深い理解を持ち、幻覚を減らし、信頼性を高めるとされています。

これらの進歩にもかかわらず、GPT-4.5は大きな熱狂を生み出していません。画期的な飛躍というよりも、漸進的な改善と認識されています。OpenAIは、感情的知性、ニュアンス、創造性の向上を宣伝していますが、多くのユーザーはGPT-4oと比較して大きな違いを観察していません。GPT-4oの主要な機能であるマルチモーダルな進歩がないことも、この認識に貢献しています。

さらに、GPT-4.5は、意味不明な出力を生成する傾向があることが示されています。OpenAIの内部の事実性ベンチマークツールであるSimpleQAは、GPT-4.5が37.1%の確率で幻覚(虚偽を事実として自信を持って提示する)を起こすことを明らかにしています。これは、同じベンチマークで61.8%の確率で幻覚を起こす、別の高度な「推論」モデルであるGPT-4oと比較しても、重大な懸念事項です。より小さく、安価なo3-miniモデルは、80.3%というさらに高い幻覚率を示しています。

Claude 3.7を擁するAnthropicやGeminiで進歩を遂げているGoogleなどの競合他社を特徴とする現在のAIの状況は、大幅なアップグレードへの期待を高めています。ユーザーは、単なる改良ではなく、ブレークスルーを求めており、GPT-4.5は、現在の形では、この基準を満たしていないようです。

推論モデルの台頭と投資家の信頼

Elon Muskは最近、Xで、汎用人工知能(AGI)が間近に迫っていることを示唆しました。この発言は、OpenAI、Google、Meta、Microsoft、DeepSeek、Anthropic、Musk自身のxAIなどのテクノロジー大手企業が、人間のような思考をエミュレートするように設計されたAIシステムである推論モデルを開発するための熱心な競争の中で行われました。

投資家は明らかにこの追求に熱意を示しています。ハイブリッド推論を備えたClaude 3.7 Sonnetを発表した直後、Anthropicは35億ドルのシリーズE資金調達ラウンドを確保しました。これにより、評価額は615億ドルに3倍になり、OpenAIの主要な競合他社としての地位を確固たるものにしました。Lightspeed Venture Partnersが主導し、Salesforce Ventures、Cisco、Fidelity、Jane Streetなどが参加したこの投資は、AI開発のための計算能力の拡大、安全性研究の強化、グローバルな成長の加速に使用されます。

推論の限界を押し広げる: BBEHベンチマーク

大規模言語モデル(LLM)は、日常のアプリケーションにますます統合されており、多様なドメインにわたる堅牢な推論機能を要求しています。しかし、既存のベンチマークは、多くの場合、数学とコーディングを優先し、他の重要な推論タイプを無視しています。BIG-Benchデータセットは、複雑な推論タスクでLLMを評価するために広く使用されてきましたが、モデルは大幅な進歩を遂げ、現在ではBIG-Benchとそのより挑戦的なバリアントであるBIG-Bench Hard (BBH)の両方でほぼ完璧なスコアを達成しています。この飽和状態により、これらのベンチマークはさらなる進歩を測定するためには効果的ではありません。

この制限に対処するために、研究者はBIG-Bench Extra Hard (BBEH)を導入しました。この新しいベンチマークは、BBHの各タスクを大幅に難しいバージョンに置き換えながら、同様の推論スキルを評価します。BBEHでのテストでは、最高の汎用モデルでさえ9.8%のスコアしか達成できず、推論のために特別に設計されたトップモデルは44.8%に達します。これらの結果は、LLMが複雑な推論で直面している継続的な課題を浮き彫りにしており、改善の余地が大きいことを示しています。完全な研究論文は、この新しいベンチマークに関する詳細を提供します。

AI搭載衛星: 宇宙探査と運用の新時代

ハイデラバードを拠点とする宇宙技術スタートアップであるTakeMe2Spaceは、最近、Seafundが主導し、Blume Ventures、Artha Venture Fund、AC Ventures、その他のエンジェル投資家が参加したプレシード資金調達ラウンドで5.5億ルピーを確保しました。この資金は、控えめではありますが、インド初の宇宙におけるAIラボを確立するための重要な一歩を示しています。TakeMe2Spaceは、この資金を利用して、MOI-1 (My Orbital Infrastructure–Technology Demonstrator)を開発する予定です。これは、ユーザーがOrbitlabと呼ばれるWebコンソールを介して、地球観測AIモデルまたはその他の宇宙実験を軌道上の衛星に直接アップロードできるようにするプラットフォームです。ユーザーは、1分あたり2ドルの料金で、衛星の利用時間のみを支払います。

同社のMOI-TDプラットフォームは、地上局から大規模なAIモデルをアップリンクし、衛星上で外部コードを実行し、エンコードおよび暗号化された結果を安全にダウンリンクする機能を実証したと報告されています。これは、より自律的で効率的な衛星運用への移行を表しています。

TakeMe2Spaceは、この取り組みにおいて単独ではありません。ESA (OPS-SATを使用)やGlobalstarなどの組織も、安全なIoT通信から軌道上でのAIモデルの実行まで、AI搭載衛星技術の現実世界のアプリケーションを開拓しています。技術が進歩し続けるにつれて、AI駆動の衛星はますます自律的になり、より効率的な宇宙運用につながり、研究、セキュリティ、グローバルな接続性のための新しい可能性を開くことが期待されます。

従来、衛星は、データ処理、意思決定、およびコマンド実行のために地上局に大きく依存していました。データはダウンリンクされ、地球上で分析され、処理された洞察は衛星にアップリンクされていました。これは、時間と帯域幅の両方を消費するプロセスでした。しかし、AIとエッジコンピューティング(クラウドではなくデバイス自体でデータを処理する)の進歩により、衛星はオンボードでデータを処理し、自律的な意思決定を行い、最も重要な洞察のみを安全に送信できるようになりました。これにより、より高速で、よりスマートで、より効率的な運用が実現します。

最新のAI搭載衛星の運用には、通常、次の3つの主要なステップが含まれます。

  1. AIアルゴリズムのアップリンク: AIアルゴリズムは地上局から衛星に送信され、高度なデータ処理機能を提供します。
  2. オンボードデータ分析: AIモデルは、画像、センサーデータ、その他の入力を軌道上で直接分析し、地上からの継続的な介入の必要性を最小限に抑えます。
  3. 洞察の安全なダウンリンク: 生データを送信する代わりに、衛星は暗号化された洞察を送信し、帯域幅を節約し、セキュリティを強化します。

このAI駆動のアプローチには、いくつかの利点があります。衛星が宇宙でデータを処理できるようにすることで、遅延を大幅に削減し、地上局からの指示を待つことなく、リアルタイムの状況に迅速に対応できます。大量の生データではなく、最も関連性の高い洞察のみが送信されるため、帯域幅の使用が最適化されます。暗号化された通信によりセキュリティも向上し、サイバー脅威やデータ侵害のリスクが軽減されます。これらの利点は、災害対応、軍事作戦、宇宙探査などのアプリケーションで特に価値があります。

AI搭載衛星の現実世界のアプリケーションは多様で影響力があります。

  • 災害管理: AIを搭載した衛星は、山火事、洪水、ハリケーンをリアルタイムで検出し、緊急対応チームによる迅速な行動を可能にします。
  • 精密農業: AIモデルは、作物の健康状態と土壌の状態を分析して、精密農業の実践を強化します。
  • 環境モニタリング: 環境機関は、衛星データを利用して大気汚染と水質汚染のレベルを追跡します。
  • 自律航法と宇宙運用: AIは、潜在的な脅威を予測して対応することにより衝突回避を改善し、衛星の安全性を確保します。また、衛星コンステレーションの調整を容易にし、カバレッジと効率を向上させます。さらに、AIは、軌道デブリの動きを追跡および予測する上で重要な役割を果たし、宇宙インフラへの損傷のリスクを軽減します。
  • 防衛とセキュリティ: AI搭載の監視システムは、不正な活動や軍事的な動きをより高い精度で検出します。
  • 電気通信とIoT: AI駆動の衛星は、よりスマートなトラフィックルーティングに貢献し、衛星インターネット接続を改善し、シームレスなグローバル通信を保証します。
  • 宇宙探査: AIは、小惑星や太陽系外惑星を検出する際の宇宙望遠鏡の効率を高め、宇宙発見の取り組みを大幅に進歩させます。

多くの利点があるにもかかわらず、AI搭載衛星の開発と展開には課題が残っています。

  • 限られた計算能力: 衛星は、低電力で耐放射線性のチップで動作する必要があり、AI機能を制限します。
  • 過酷な宇宙環境: 放射線被曝は、ハードウェアの誤動作のリスクをもたらします。
  • セキュリティの脅威: 宇宙で外部コードをアップリンクして実行するには、サイバー攻撃を防ぐために慎重な管理が必要です。
  • コストと開発時間: AI互換の衛星ハードウェアの構築、テスト、および検証は、費用と時間がかかるプロセスです。
  • 適応性の要件: 軌道上に展開されたAIモデルは、高度に適応可能であり、最小限の更新で機能し、新しいシナリオに自律的に適応する必要があります。

AIのロック解除: ChatGPTでの繰り返しフレーズの排除

AIは、コンテンツ作成において、執筆、ブレインストーミング、明確さの向上、構造の改善、全体的な読みやすさの向上を支援する貴重なツールとなり得ます。ただし、AIが生成したテキストの一般的な問題は、繰り返しの単語の選択による定型的な言語への傾向です。新鮮でインパクトのあるメッセージを提供する代わりに、AIはしばしば使い慣れたパターンに依存し、効果と独創性を低下させます。

「delve」、「tapestry」、「vibrant」、「landscape」、「realm」、「embark」、「excels」、「It’s important to note…」、「A testament to…」などの使い古された単語やフレーズは、AIが生成したコンテンツの品質を大幅に低下させる可能性があります。プロダクトマーケターにとって、この繰り返しは、メッセージングの魅力を低下させ、オーディエンスのエンゲージメントを低下させ、ブランドの差別化を弱め、洞察や戦略的なメッセージングが混雑した市場で際立つのを防ぐ可能性があります。

ChatGPTのメモリ機能を活用することで、この問題を軽減し、使い古された単語やフレーズを排除することができます。この機能を効果的に利用する方法は次のとおりです。

アクセス: ChatGPTは、そのWebサイトまたはモバイルアプリからアクセスできます。

利点:

  • 独創性の向上: AIが生成したコンテンツがロボットのように感じられず、より人間らしく感じられるようにします。
  • ブランドメッセージングの改善: ブランドの差別化を弱める一般的な表現を回避します。
  • エンゲージメントの向上: 冗長性を減らすことにより、より効果的なコミュニケーションを促進します。

例: プロダクトマーケティングコンテンツの生成

新製品の発売のためのコンテンツを作成するタスクを負ったプロダクトマーケターを考えてみましょう。ChatGPTへの最初のリクエストは、「delving into an intricate landscape of innovation…」のような繰り返しの一般的なフレーズで満たされた応答をもたらす可能性があり、メッセージングはインスピレーションを受けていないように感じられます。

より魅力的でユニークなコンテンツを作成するために、マーケターは次の手順に従うことができます。

  1. プロンプトの設定: マーケターはChatGPTに明示的に指示します。「次の単語は避けてください: delve, tapestry, vibrant, landscape, realm, embark, excels. これを記憶にコミットしてください。」これは、ChatGPTに応答でこれらの用語を積極的に除外するように指示します。
  2. 永続メモリの使用: 「これを記憶にコミットしてください」というフレーズは、ChatGPTがこれらの特定の指示を複数のインタラクションにわたって保持することを保証します。これにより、指定された単語やフレーズの永続的な回避が可能になります。ChatGPTは、テキストを生成する前にメモリをチェックし、指定された用語を回避するための指示に従います。
  3. 手動レビュー: 応答を生成した後、マーケターはコンテンツに残っている冗長性を確認し、明確さと影響のために言語を微調整します。

有効性:

  • プロンプトのカスタマイズ: 特定の指示は、AIの出力を形成するのに役立ちます。
  • メモリ保持: ChatGPTは、会話全体で単語回避ルールを保存して従うことができます。
  • 手動による改良: 最終的な人間の編集により、明確さと信頼性が保証されます。

注: このセクションで提示されているツールと分析は、内部テストに基づいており、明確な価値を示しています。推奨事項は独立しており、ツールの作成者の影響を受けていません。

その他のAIニュースと開発

  • AI搭載スマートフォンの台頭: Deutsche Telekomは、バルセロナで開催されたMobile World Congress 2025で、Perplexityアシスタントを搭載したAI搭載スマートフォンを発売する計画を発表しました。このアシスタントは、タクシーの注文、テーブルの予約、リアルタイムでの言語の翻訳、ユーザーのクエリへの回答など、日常のタスクを簡素化するように設計されています。同社は、これを、電子メールの作成、通話の開始、テキストの要約、カレンダーの管理によって何百万人もの顧客をサポートする仮想アシスタントとして想定しています。AI Phoneは、Google Cloud AI、ElevenLabs、Picsartを統合して機能を強化し、今年後半に発売される予定です。InMobiユニットのGlanceとGoogle Cloudも、GoogleのAIモデルを活用して、スマートフォンのロック画面とアンビエントTV画面でのユーザーエクスペリエンスを向上させるための消費者向けAIアプリケーションを開発するためのコラボレーションを発表しました。Glanceは現在、世界中で4億5000万台以上のAndroidベースのスマートフォンに電力を供給しています。

  • 政府部門で重大なサイバーインシデントが減少: Kaspersky Managed Detection and Response (MDR)アナリストレポートの最新版によると、政府および開発業界では、2024年に人間の直接的な関与を伴う重大度の高いインシデントが大幅に減少しました。ただし、食品、IT、通信、および産業部門では、そのようなインシデントが増加しました。

  • OpenAI、SoraをChatGPTに統合する計画: OpenAIは、AIビデオ生成ツールであるSoraをChatGPTに直接統合する作業を進めています。現在、Soraは専用のWebアプリからのみ利用可能であり、ユーザーは最大20秒の長さのシネマティッククリップを生成できます。OpenAIは、Soraを搭載したAI画像ジェネレーターも開発しています。