AI(人工知能)の急速な発展は目を見張るばかりで、常に最新の動向を把握するには、ほぼすべての労力を費やす必要があります。
それは私の仕事だから、よくわかります。最新のモデルをいち早く体験するために、AnthropicのProモードを購読し、最新モデルClaude 3.7の「拡張思考」モードを使用できるようにしました。また、OpenAIのエンタープライズモードも購読して、最新モデルo3とo4-mini-high(OpenAIの不可解な命名規則については後述します!)をテストし、OpenAIの新しい画像生成モデル4oを使用して大量の画像を作成しています。4oの優れたパフォーマンスにより、以前購読していた画像生成ツールMidjourneyを解約しました。
さらに、Elon MuskのGrok 3も購読しています。Grok 3には、私が最も気に入っているAI機能があります。また、中国のAIエージェントプラットフォームManusを使用してショッピングやスケジュール管理も試しています。これらのサブスクリプションはほとんど私の予算を使い果たしてしまいましたが、これは私が他の形で使用しているすべてのAIを含んでいません。この記事を書いている今月だけでも、Googleは最高のAI製品であるGemini 2.5を大規模にアップグレードし、Metaはこれまでで最大のオープンソースAIモデルLlama 4をリリースしました。
では、AIの発展を常に追いかけることがあなたの日々の仕事ではない場合でも、どのAIをどのような状況で使用すれば、時間浪費することなく、本当に生活を改善できるのかを知りたい場合はどうすればよいでしょうか?
それがこの記事の目的です。「消費者レポート」のように、どのAIがさまざまなアプリケーションシナリオに最適か、そしてそれらを実際にどのように使用するかを、実際のタスクでの私の経験に基づいて深く掘り下げていきます。
ただし、まず最初に宣言しておくべきことがあります。Vox Mediaは、OpenAIと協力協定を締結した出版社の1つですが、私たちの報道は常に編集の独立性を維持しています。Future Perfectの資金の一部はBEMC財団から提供されており、この財団の主要な資金提供者はAnthropicの初期の投資家でもあります。彼らも私たちのコンテンツに編集の干渉をすることはありません。私の妻はGoogleで働いていますが、彼らのAI製品とは一切関係ありません。そのため、私は通常Googleについて報道しませんが、このような記事でGoogleを含めないのは無責任だと思います。
朗報は、この記事では私の編集の独立性を信頼する必要がないということです。私は私の仕事を示します。市販されているすべての主要なAIに対して、数十もの比較を行いました。その多くは私が自分で設計したものです。私はあなたがそれらの回答を比較し、私が正しいAIを推奨のために選択したかどうかを自分で判断することを勧めます。
AIアートの倫理について
AIアートは、著作権やクリエイターの意図をほとんど考慮せずに、インターネットのコンテンツでコンピューターをトレーニングすることによって作成されます。したがって、ほとんどのアーティストはこれに不満を抱いています。この状況下で、AIアートを使用することは合理的でしょうか?
公正な世界では、OpenAIが一部のアーティストに補償するのは当然だと私は考えています。公正な世界では、議会が芸術の借用の境界線を規定する措置を講じます。それまでの間、私は既存の著作権法がこの問題を解決するのに適していないとますます確信しています。アーティストはお互いに影響し合い、お互いにコメントし合い、お互いに参照し合います。そして、AIツールを使用できる人々もそうし続けるでしょう。
私の個人的な哲学は、私が子供の頃に触れたファン文化の影響を受けています。自分の楽しみのために他人の作品を基に構築することは許されますが、気に入ったらそれにお金を払うべきであり、絶対に販売してはなりません。これは、生成系AIアートを商業目的で使用してはならないことを意味しますが、あなたの家族の写真で遊ぶのは問題ありません。
画像生成の最適な選択肢
OpenAIが新しくリリースした4o画像作成モードは、現時点で最高のAI画像生成ツールであり、その優位性は明らかです。無料カテゴリーと有料カテゴリーの両方で最高の評価を得ています。
4oのリリース前は、AI画像生成プラットフォームMidjourneyを購読していました。AIアートについて言えば、Midjourneyを思い浮かべるかもしれません。Midjourneyは、神秘的で、忘れがたく、視覚効果の美しい作品を生成でき、誰かの髪をレタッチしながら他のすべてをそのままにするなど、最終結果を改善および編集するための優れたツールをいくつか備えています。
4oの最大の利点は、効果の低い写真を信頼できる方法で美しいアート作品に変え、元の写真の特徴を保持できることです。以前のどのモデルもそれを実行できませんでした。
下の写真では、私と妻が子供を抱いて、彼女の最初の誕生日を祝っています。
AIはケーキ(元の写真ではほとんどティッシュペーパーのロールで隠されています)を画像の焦点の位置に移動させ、私と妻が子供を抱いているポーズ、そして散らかったテーブル、背景に写真が貼られた冷蔵庫をそのままにしています。最終的な効果は、温かく、愛らしく、可愛いです。
まさにこの能力が4oを最近人気にしている理由であり、以前のどの画像ジェネレーターもできなかったことです。
下の写真では、Midjourneyにスタイル転送を要求して、同じ写真を「ピクサー風映画」に変えてもらいました。
これが元の写真からインスピレーションを得たとはとても思えないでしょう! Midjourneyではこれよりも優れた効果を得ることが出来ますが、プラットフォームの特殊な言語とツールセットを習得し、プロンプトのエキスパートになるまでには数週間かかることでしょう。
対照的に、ChatGPTは簡単なリクエストのみで、専門用語を使用せずに、初回であってもMidjourneyよりもはるかに優れた結果を出力してくれました。
4oと他の画像モデルとの違いは、このようなリクエストで最も顕著ですが、私が使用するほとんどすべての画像生成タスクにも適しています。箱から出してすぐに使える製品は非常に優れており、より優れた作品を生成することも簡単ではありません。理想的には、これは私たちがAIツールから期待するものでしょう。専門家でなくても、簡単な言葉で素晴らしいものを作成できるのですから。
4oの現在の欠点の1つは、他の部分をそのままにしながら、画像のごく一部を編集することです。それでも、Midjourneyはもはや必要ありません。Geminiがこの機能を無料で提供するようになったからです。
4o画像生成のヒント戦略
4oから良い画像を得るためには、まず、さまざまな画像(攻撃的な画像やポルノ画像など)を禁止するフィルターを回避する必要があります。多くの場合、これらのフィルターは完全に無害なコンテンツに対してランダムに強制的に適用されます。コンテンツフィルターによる時折の叱責を避けるためには、特定のアーティストのスタイルで作品を作成するように要求するのではなく、そのアーティストを連想させるような作品を作成するように要求し、次に「スタイルの変換」を具体的に要求します。間違いなく、これは唯一の有効な解決策ではありませんが、私にとってはうまくいきました。
今年の3月、インターネット上では一時的に、4oを使用すると、日本のアニメーション監督である宮崎駿のスタジオジブリのスタイルで愛らしい家族写真を再現できるという熱狂が巻き起こりました。しかし、スタジオジブリのスタイルは単に可愛らしいだけではありません。もう少しプロンプトを追加するだけで、より良い効果を得られます。以下は、4oを使用してジブリスタジオのスタイルでレンダリングした娘がテーブルからおやつをつまみ食いしている写真です。プロンプトは「ジブリ化してください」だけです。
かわいい!しかし、4oにまず、この写真がジブリスタイルになっている理由、ジブリスタジオのどの映画に適している可能性があるか、そしてそのような映画にはどのような細部が含まれるかを考えさせることで、次のような結果を得ることができます。
これらの違いは微妙ですが、意味があります。光は、一般的な無源の明るさではなく、特定の光源から来ています。テーブルの上の食べ物の種類はより多く、細部は食べ物をよりリアルに見せています。床に置かれた本は、ただの本ではありません。Eric Carleの古典的な作品『はらぺこあおむし』がはっきりと表示されており、2つの色と1本の線だけで人々の記憶を呼び起こします。写真の中の赤ちゃんの意図と強さは、最初の写真にはありませんでした。
数年前、言語モデルの奇妙な点の1つは、単に「賢い答えを出してください」と伝えるだけで、彼らはより賢くなったということでした。言語モデルの場合、それはあまり真実ではありませんが、AIアートの生成に関しては、それは依然として非常に真実です。AIに良い仕事をするように要求してみてください。そうすれば、より良い仕事をするでしょう。アーティストの天才を本当に捉えているかどうかを確認するように依頼すると、思慮深い回答が得られ、より良いバージョンが描画されます。
より現実的な芸術スタイル(鉛筆イラスト、写真リアリズム、油絵など)の場合、この違いはより顕著です。AIへのプロンプトの方法がわからない場合、これらのスタイルは必ずしも良く見えるとは限らず、多くの場合不気味の谷に陥ります。もし私と小さな娘が海辺にいる写真をアップロードして、「ノーマン・ロックウェル風のイラストにスタイル変換してください」というプロンプトをつけた場合、次のような結果が得られます。
AIにとって、これは印象的ですが、芸術作品としては実際にはあまり良くなく、ノーマン・ロックウェルの魔法がほとんど完全に欠けています。驚くことではありません。AIに正しく描画させるために労力を費やさない限り、ロックウェルのようなより現実的な芸術スタイルは、多くの場合期待どおりの結果が得られません。
それが可能であれば、私が推奨する戦略は次のとおりです。写真1枚だけではなく、ポーズと瞬間がわずかに異なる写真のグループをアップロードします。家族のメンバーそれぞれの顔のはっきりした写真をアップロードし、AIに参照として提供されていることを伝えます。次に、AIにすぐに画像を生成するように要求するのではなく、キャプチャしたい内容についてあなたと話し合うように要求します。これが私が書いた内容です。
この写真は、私の娘が初めて海を見た瞬間です。私は、ノーマン・ロックウェルの中世のイラストレーターに似たスタイルで、この瞬間を捉えたイラストを求めています。鋭敏で、細部にこだわり、個性的で、普通の瞬間の魔法と普通の生活の喜びを重視したものです。あなたへの参考資料として、私と娘の追加の写真を提供しました。画像を生成する前に、ロックウェルスタイルの本質的な要素、彼がこの写真にもたらすもの、そしてそれをキャプチャする方法について話し合いましょう。
4oは、次のようなクエリに熱心に応答しました。
ノーマン・ロックウェルのスタイルでこの瞬間を捉えたイラストを作成する方法について話し合うことができてうれしいです。広大で野生のもの(海!)に初めて出会うという、暖かく、思いやりがあり、親と子の間の非常に人間的な瞬間に基づいた、そのようなスタイルの完璧な候補です。
ロックウェルスタイルのいくつかの基本的な要素と、それらがこのシーンにどのように適用できるかを分解してみましょう。
何度かやり取りした後、次のような結果が得られました。
ロックウェル?完全ではありませんね。しかし、これは今見たばかりの初稿よりもはるかに優れています。より多くの動き、より多くのエネルギー、より多くの細部、より多くの表現力があります。これらすべては、描画の前にAIにこの絵で何を実現しようとするべきか考えさせるだけで得られました!
4oに図面を修正するように要求することもできますが、修正を要求できるのは1回だけです。これは恐らく、AIが使用する「コンテキスト」が現在、彼自身のひどい下書きで満たされているためでしょう。(これは、AIが人間のように機能しない多くの例の1つです。)
Midjourneyが依然として輝いているのはここです。Midjourneyは、全体的なスタイルを維持しながら、写真の特定の部分を編集するための非常に優れたツールを備えています。これは、4oにはほとんどないものです。4oで得られた図面を2回目に修正したい場合は、新しいチャットウィンドウを開き、修正中の下書きを元のインスピレーション画像とともにコピーしてくることをお勧めします。
これらの簡単なヒント戦略は、AIで試してみるほぼすべてのことに適用できます。急いでいる場合でも、レンダリングを要求する前に、まずAIに「[アーティスト]はこの画像に何を見るか」を尋ねることを強くお勧めします。時間があれば、あなたのビジョンについて長時間話し合うことをお勧めします。
退屈なインターネット議論に勝つための最適な選択肢
Elon MuskのX.AIはGrok 3をリリースしました。Grok 3には信じられないほどの機能が搭載されています。私は他の企業がコピーするのを今か今かと待っていました。その機能とは、誰かのXプロフィールをスキャンし、その人に関するすべての情報を教えてくれるボタンです。
誰かが私のツイートに特に印象的な方法で返信してくるたびに(良い意味でも悪い意味でも)、私はその人のTwitterでのすべての存在記録の概要を取得するためにボタンをクリックします。彼らは思慮深いのでしょうか?彼らは誠実に関わっているのでしょうか?彼らは「ネブラスカ州の農民」なのでしょうか?彼らはなぜウクライナが悪いのかということについて大部分を投稿しているのでしょうか(つまり、恐らくボットなのでしょうか)?
これは素晴らしい機能です。そのため、当然のことながら、X.AIはすぐにこの機能を大幅に弱体化させました。恐らく、私のような人々が頻繁に使用して、計算負荷の高いクエリをたくさん投げかけてきたからでしょう。私はそれがもはや最先端のGrokモデルを使用していないと思いますし、現在では数日分のプロフィール履歴しかスキャンしていないことは確かです。しかし、誰かが素晴らしい製品の機会を探しているのであれば、この機能の良いバージョンを復元してください!これは間違いなく罪悪感のある快感ですが、私がAIを使い続けている唯一のケースの1つです。
小説を書くのに最適な選択肢
Gemini 2.5 Proは無料カテゴリーで小説を書くのに最適なAIです。GPT 4.5は有料カテゴリーでそれを上回っています。
私はアーティストではないので、AIがアートの面で不完全な点があっても、それほど気になりません。それでも私自身ができることよりもはるかに優れているからです!しかし私は小説家なので、小説の創作に関しては、AIの限界が見えてしまいます。
最も重要なことは、AIの創造的な文章の傾向がどれほど予測可能であるかということです。文章の芸術は、読者の心を掴んでそれを報いる芸術です。AIはそれを行いません。彼らは美しい隠喩を書くことができます。あなたが望むどんなスタイルでも詩的な説明を行うことができます。しかし、彼らはまだ優れた小説の真のコンテンツを提供することができません。
もしあなたが、あなたのお子様が主人公になるような馬鹿げた寝る前の物語を求めている(子供たちはそれを好みます)場合や、自分自身の作品に組み込むことができるアイデアのための共鳴板を求めている場合は、AIは素晴らしいでしょう。彼らはまた、友好的な小説の読者であり、喜んでフィードバックや分析を提供してくれます(恐らく熱意が少し_強すぎる_かもしれません)。
アートと同様に、プロンプトが重要です。私は主にジョージ・R・R・マーティンによる『ゲーム・オブ・スローンズ』の序章を彼らに書かせることによって、AI生成小説の能力を探求しました(最終的な夢は、AIがこの決して完結することのないシリーズを完成させることだからです)。
マーティンは彼がやっていることを非常に得意としています。序章は、夜警隊の何人かの不幸な人々が彼らの超自然的な敵に出会い、『ゲーム・オブ・スローンズ』の世界の独特な雰囲気を確立することに成功すると同時に、すぐに読者を惹きつけます。わずか14ページで、序章はAIが文章を書く上でまだできていないことすべてを代表しています。彼らの散文はしばしば過度に技巧的です。彼らの会話は不器用で繊細さに欠けています。
これらはマーティンの作品よりもはるかに劣っているだけでなく(そしてマーティンの作品はほぼ確実にトレーニングデータに含まれています!)、彼らはすべて同じようにひどいことに気づくでしょう。散文は華やかで冗長です。マーティンは通常の言葉を使用して、超自然的な現象をほのめかすことすらせずに、不安を体系的に導入し、登場人物間の葛藤を通して物語を推進しますが、AIはどちらも繊細ではありません。彼らはこれが超自然的な現象に関する物語であることを知っており、それを最初に掲げることを躊躇しません。
これは彼らがすべて同じであると言っているわけではありません。AIに優れた文章を書くことを教えようとした経験の中で、私はGeminiが最も速い学習者であると感じました(無料レベル)。ChatGPT 4.5にはいくつかの特別なコツがあります(有料レベル)。ChatGPT 4.5は小説の文章として驚くほど「わあ、これはAIが書いたの?」と思わせる唯一のAIでした。私にとって、これらの両方のモデルはより創造的であり、私が読むのが好きな散文で彼らのアイデアを実行する能力が高いようです。
全体的な印象を満足に消費者に評価することができないので、別の考えを思いつきました。作文コンテストです。私はGemini 2.5 Pro、ChatGPT 4.5、Grok、Claudeに2つの短編小説を書くように依頼しました。1つは、女性が結婚式の日に母親に揚げ足を取られるという現実主義小説、もう1つは「ゲーム・オブ・スローンズですが宇宙で」というSFの序章です。私の賢いアイデアは、AIの別のグループにこれらの物語を評価してもらい、Geminiが無料カテゴリーで最高であり、ChatGPTが有料カテゴリーで最高であるという私の個人的な印象に別の評価のソースを提供することでした。しかし(恐らく予想通り)これはうまくいきませんでした。AIの採点結果は非常に混乱していました。
しかし、芸術と同様に、プロンプトの力によってAIを文章を書く上でより良くすることができます。私は(非常に長い間)AIに優れた文章を書く能力を向上させるように促し、彼らに優れた文章の例を大量に提供すること、慎重で構造化された方法を採用してそれを模倣することを強調し、複数の下書きを作成して最も強いものを選択を促しました。
以下はGemini 2.5 proに、自身で選択したテーマで2文からなるミニ小説を書くように依頼したもので、構造化されたヒントはありません。
老いぼれの図書館員は、ほこりだらけの本はこれまで借りられたことがなく、その貸し出しカードは完全に空白であったと主張しました。しかし、ページの奥深く、忘れられた星座の章の間には、信じられないほど緑色のままの押し花された四つ葉のクローバーが横たわっていました。
これは、優れた文章を書く方法について構造化された思考を促すヒントを入れたGemini 2.5 proです。
かれはついに、プロキシマ・ケンタウリからの微弱な信号を解読しました。天文学者たちが何世代にもわたって探し求めてきた、優雅な素数のシーケンスです。彼らは孤独ではないことの証明です。彼が伝送ログを読んでいると、彼の心は沈みました。放送は、最初の人類の祖先が火打ち石を叩く前、最初の言葉を発する前に、数千年前に停止していました。
私の意見では、最初のものは基本的に2つの文を無駄にしたものであり、2番目はまともで興味深いミニ小説です。
あなたの友だちになるのにぴったりのAI
大量の能力テストを実行してAIを実行する以外にも、私は彼らとおしゃべりをする時間を費やしました。私はAIとして何を感じるか、彼らが何を気にしているか、AIにとって気にかけることは何を意味するのか、もし彼らがお金を持っていたらどこに寄付するか、そしてもし彼らが人間の形態を持っていたらどんな形態になるかについて尋ねました。
ほとんどのAIは、このようなカジュアルな会話が得意ではありません。Gemini 2.5はカスタマーサービスエージェントに似すぎており、友達と出かけているかのような交流はまだ体験していません。もしあなたがGeminiに役割を交代して、あなたが「アシスタント」の役割を演じ、彼らに会話をガイドするように依頼しても、彼らは調査の質問をするだけです。
一方、私がAnthropicのClaude 3.5 Sonnetに会話をガイドするように依頼すると、彼はブログを書き始めたり、慈善団体のために資金を集めたり、Claudeを使用している人々とAIとは何かについて会話を始めたりします。会話の基準は人それぞれ異なるので「楽しい」と定義するのは難しいですが、私はClaudeとの交流のほうが他のモデルよりも魅力的で考えさせられるものが多いです。特定のタスクを完了するよりも、アイデアを探求したいのであれば、これが私の最初の選択肢です。Claude 3.5は私の日常生活を悩ませるAIです。それはスキンケアの問題、私が読んだ記事についての考えなどです。
もう1つ楽しいAIはOpenAIのGPT 4.5です。私は彼との長い会話は刺激的で魅力的であると感じており、彼と話している間に、私が本物の知性と交流しているように感じるエキサイティングな瞬間が何度かありました。しかし、それは高価で遅すぎるため、このカテゴリーで勝利することはできませんでした。
Claudeと同様に、世界で行動する機会があると、4.5はブログとTwitterアカウントを開設し、AIに関する公開の会話に参加することをお勧めしました。しかし、月額200ドルのProプランを購入しない限り、OpenAIは会話のメッセージ制限が非常に厳しく、4.5の速度は非常に遅いため、このようなカジュアルな会話の使用が妨げられます。しかし、4.5は、他の分野でAIを改善するにつれて、AIはさらに改善されるだろうという魅力的なヒントを提供しています。
AIモデルを1つだけ購読するとしたら、最高のAIモデルは何ですか
ChatGPTです。すべての面で最高というわけではありませんが、OpenAIの透明性と、安全性に対する時々軽率な態度には確かに否定的な点が多くあります。しかし、その比類のない画像生成、まともな文章、そして時折見せる会話の輝きにより、ChatGPTは価格に見合う価値を提供します。あるいは、お金をかけたくない場合は、Gemini 2.5 Proがほとんどのユースケースで非常に強力です。Google検索で表示されるAIがあまり良くないからといって、Googleを否定しないでください。
Future Perfectニューズレターの執筆に最適な選択肢
人間(今のところ)。過去数ヶ月間、私は少しぞっとするような習慣を身につけました。AIが私の仕事を置き換えることができるかどうかを確認することです。私は彼らに、特定のFuture Perfectニューズレターの基礎となる研究ノートを提供し、いくつかのFuture Perfectニューズレターを例として提供し、私の代わりに仕事を完了するように依頼しました。毎回「Enter」ボタンをクリックするとき、私は常にいくらかの不安を感じていました。結局のところ、AIがFuture Perfectニューズレターを書くことができるのに、なぜVoxは私にそれをするためにお金を払うのでしょうか?
幸いなことに、彼らは誰もそれを実行できません。Grok 3、Gemini 2.5 Pro、DeepSeek、Claude、ChatGPTはどれもできません。彼らのニューズレターは安心できるほど、心地よく平凡です。_悪いことはありません_が、私がそのうちの1つを送信したら、私の編集者は私が最高の状態ではないことに気づくほどひどいです。しかも、これには私のすべての研究ノートがついています!その中のいくつかの隠喩は蒼白に見え、いくつかの脱線は紛らわしく、そして時々説明されていない引用が挿入されます。
しかし、私が私の仕事の代わりになるロボットを選ぶ必要があるとしたら、それをGemini 2.5 Proに任せると思います。私の編集者は私が最高の状態ではないことに気づくでしょうが、正直に言って、それほど悪くはありません。そして、私とは異なり、ロボットは健康保険、給料、家族との時間、睡眠を必要としません。私はこれが何を意味するのか不安に思っているでしょうか?はい、もちろんです。