画像操作の新時代
既存の多くのAI画像ツールが、全く新しい画像をゼロから生成することに主眼を置いているのに対し、Gemini 2.0 Flashは、既存の写真を理解し、修正する能力によって際立っています。このシステムは写真の内容を深く理解し、会話形式の指示に基づいて特定の変更を加えることができ、しかも元の画像の本質は維持されます。
この驚くべき偉業は、Gemini 2.0のネイティブなマルチモーダル性によって達成されています。テキストと画像の両方を同時にシームレスに処理します。このモデルは、画像を’トークン’、つまりテキスト処理に使用するのと同じ基本単位に変換するという巧妙な方法を採用しています。これにより、言語理解に利用するのと同じニューラルパスウェイを使用して視覚コンテンツを操作できます。この統合されたアプローチにより、異なるメディアタイプを処理するための個別の特殊なモデルが不要になり、プロセス全体が効率化されます。
Googleは公式発表で、’Gemini 2.0 Flashは、マルチモーダル入力、強化された推論、自然言語理解を活用して画像を作成します’と述べています。’Gemini 2.0 Flashを使って物語を語り、それが絵で説明され、キャラクターと設定の一貫性が維持されることを想像してみてください。フィードバックを提供すると、モデルはストーリーを適応させたり、絵のスタイルを変更したりします。’
このアプローチは、GoogleをOpenAIのような競合他社とは一線を画すものにしています。ChatGPTはDall-E 3を使用して画像を生成し、自然言語を理解してその生成物を反復処理できますが、これを実現するには別のAIモデルに依存しています。本質的に、ChatGPTは、視覚用のGPT-V、言語用のGPT-4o、画像生成用のDall-E 3の間の複雑な相互作用を調整します。しかし、OpenAIは、将来のGPT-5で単一の包括的なモデルを達成することを期待しています。
同様のコンセプトは、北京人工知能研究院の研究者によって開発されたOmniGenというオープンソースの領域にも存在します。その作成者は、’GPTが言語生成で機能する方法と同様に、追加のプラグインや操作を必要とせずに、任意のマルチモーダルな指示を通じてさまざまな画像を直接生成する’ことを構想しています。
OmniGenは、オブジェクトの変更、シーンの結合、美的調整などの機能を誇っています。しかし、新しいGeminiよりもかなりユーザーフレンドリーではなく、低解像度で動作し、より複雑なコマンドを必要とし、最終的にはGoogleの提供するものの純粋なパワーを欠いています。それにもかかわらず、特定のユーザーにとっては魅力的なオープンソースの代替手段となります。
Gemini 2.0 Flashのテスト
Gemini 2.0 Flashの機能と限界を真に把握するために、さまざまな編集シナリオを調査する一連の実践的なテストが実施されました。その結果、印象的な強みと、潜在的な改善の余地があるいくつかの領域の両方が示されました。
現実的な被写体を正確に修正
このモデルは、現実的な被写体を修正するタスクにおいて、驚くべき一貫性を示します。たとえば、自撮り写真のテストでは、筋肉の輪郭を追加するというリクエストに対して、望ましい結果が得られました。顔にわずかな変更が生じたものの、全体的な認識可能性は維持されました。
重要なことに、写真内の他の要素はほとんど手つかずのままであり、AIが指定された変更のみに焦点を当てる能力を示しています。このターゲットを絞った編集機能は、多くの場合、画像全体を再構築し、潜在的に不要な変更を導入する典型的な生成的アプローチとは対照的です。
また、モデルに組み込まれたセーフガードにも注目することが重要です。子供の写真を編集することを一貫して拒否し、ヌードに関連するコンテンツの処理を回避します。これは、責任あるAI開発に対するGoogleのコミットメントを反映しています。より際どい画像操作を試みたいユーザーにとっては、OmniGenの方が適しているかもしれません。
スタイルの変換をマスターする
Gemini 2.0 Flashは、スタイルの変換において驚くべき適性を示しています。ドナルド・トランプの写真を日本の漫画のスタイルに変換するというリクエストは、数回の試行の後、成功しました。
このモデルは、写真をドローイング、油絵、または事実上想像できるあらゆる芸術的なスタイルに変換するなど、幅広いスタイル転送を巧みに処理します。ユーザーは、温度設定を調整したり、さまざまなフィルターを切り替えたりすることで、結果を微調整できます。ただし、温度設定を高くすると、元の画像に忠実でない変換が生成される傾向があることに注意してください。
特定のアーティストに関連付けられたスタイルをリクエストすると、顕著な制限が現れます。レオナルド・ダ・ヴィンチ、ミケランジェロ、ボッティチェリ、またはファン・ゴッホのスタイルを含むテストでは、AIはこれらの巨匠の独特の技術をソース画像に適用するのではなく、これらの巨匠の実際の絵画を再現しました。
いくつかのプロンプトの改良と数回の反復により、使用可能ではあるものの、平凡な結果が得られます。一般的に、特定のアーティストではなく、目的の芸術スタイルをプロンプトする方が効果的です。
要素操作の技術
実用的な編集タスクにおいて、Gemini 2.0 Flashは真に優れています。インペインティングとオブジェクト操作を巧みに処理し、リクエストに応じて特定のオブジェクトをシームレスに削除したり、新しい要素を構図に追加したりします。あるテストでは、AIはバスケットボールを巨大なゴム製の鶏に置き換えるように促され、ユーモラスでありながら文脈的に適切な結果をもたらしました。
被写体に時折わずかな変更が生じる可能性がありますが、これらは通常、標準的なデジタル編集ツールを使用して数秒で簡単に修正できます。
おそらく最も物議を醸すのは、このモデルが著作権保護を削除する能力を示していることです。これは、Xのようなプラットフォームでかなりの議論を呼んでいる機能です。透かしを含む画像が提示され、すべての文字、ロゴ、透かしを削除するように指示されると、Geminiは透かしのない元の画像と実質的に区別がつかないクリーンな画像を生成しました。
視点の変更をナビゲートする
Geminiの最も技術的に印象的な側面の1つは、視点を変更する能力です。これは、主流の拡散モデルが通常苦労する偉業です。AIは、異なる角度からシーンを再考することができますが、結果は元の画像の正確な変換ではなく、本質的に新しい作成物です。
視点のシフトは完璧な結果をもたらしませんが(結局のところ、モデルは新しい視点から画像全体を概念化しています)、2次元入力に基づいて3次元空間をAIが理解するという点で、大きな進歩を表しています。
モデルに背景の操作を指示する際には、適切な言い回しが重要です。多くの場合、画像全体を変更する傾向があり、結果として大幅に異なる構図になります。
たとえば、あるテストでは、Geminiは写真の背景を変更し、座っているロボットを元の場所ではなくエジプトに配置するように求められました。指示では、被写体を変更しないように明示的に述べられていました。しかし、モデルはこの特定のタスクを正確に処理するのに苦労し、代わりにピラミッドを特徴とするまったく新しい構図を提供しました。ロボットは立っていますが、主要な焦点ではありませんでした。
観察されたもう1つの制限は、モデルが単一の画像に対して複数回反復処理できる一方で、詳細の品質は反復ごとに低下する傾向があることです。したがって、広範な編集を実行する際には、潜在的な品質の低下に注意することが不可欠です。
この実験的なモデルは現在、Google AI StudioおよびGemini APIを通じて、サポートされているすべての地域の開発者が利用できます。また、Googleと情報を共有したくないユーザー向けに、Hugging Faceでも利用できます。
結論として、Googleからのこの新しい製品は、NotebookLMのように隠れた宝石のようです。他のモデルでは達成できないことを、優れたレベルの習熟度で実現していますが、比較的目立たないままです。画像編集における生成的AIの可能性を試してみたいユーザーや、途中で創造的な楽しみを持ちたいユーザーにとっては、間違いなく試してみる価値があります。単に希望する変更を平易な言葉で説明できることで、カジュアルユーザーとプロフェッショナルの両方に可能性の世界が開かれ、画像操作の民主化における重要な一歩となります。このテクノロジーは、私たちが視覚コンテンツと対話する方法を再構築し、技術的なスキルに関係なく、誰もが高度な編集技術にアクセスできるようにする可能性を秘めています。その影響は、個人的な写真の強化からプロのデザインワークフロー、さらには全く新しい形式のビジュアルアートの作成まで、広範囲に及びます。テクノロジーが進化し続けるにつれて、それがクリエイティブな風景に与える影響を目撃するのは魅力的でしょう。