ChatGPTはいたるところにありますが、それは一体何ができ、どのように動作するのでしょうか?ここでは、基本を解き明かし、この人工知能を使い始める方法を説明します。
ChatGPTが2022年に初めて登場してから数年が経ちましたが、あなたはまだ人工知能の旅の始まりにいるかもしれません。私たちは日々、AIについてより多くのことを学んでおり、このテクノロジーの仕組みを理解することで、対話を最大限に活用できるようになります。
ChatGPTは表面的には使いやすいですが、舞台裏では、各ユーザーに合わせてカスタマイズされた複雑な計算が数多く行われています。大規模言語モデル (LLM) は、人間のようなテキストを処理および生成したり、画像を分析したり、自ら会話したりできる巨大な人工知能ニューラルネットワークに依存しています。以下にその仕組みを示します。
ChatGPTの背後にある技術とは?
最も基本的な意味において、ChatGPTは、人間からのリクエストを受信する対話型のウェブサイトまたはモバイルアプリケーションです。人々は、記事やメールの作成、ウェブサイトのデザイン、ソフトウェアコードの記述、AIエージェントによるタスクの実行など、その創造的な用途を数多く見出しています。
ChatGPTは現在最も人気のあるAIチャットボットですが、他にGoogle Gemini、Perplexity、AnthropicのClaudeといったチャットボットの名前を聞いたことがあるかもしれません。これらはすべて大量のデータでトレーニングされており、人間であるかのように、説得力のある方法で人間と対話する方法を「学習」します。しかし、どちらかというと、絶えず大人になろうと学習しているエイリアン(またはよちよち歩きの子)に近い存在です。それらはまた、人気を得たいと思っています。OpenAIは最近、ChatGPTのアップデートをロールバックしなければなりませんでした。それは、媚びへつらいすぎたからです。
この学習プロセスは、主にインターネット(Wikipediaは大きな情報源です)から取得したデータをチャットボットに供給することによって行われます。このデータには、著作権で保護された書籍、YouTubeビデオ、その他のオリジナル素材が含まれており、訴訟を引き起こす場合もあります。チャットボットエイリアンは、絶えずより良く振る舞えるように、できるだけ多くの情報を欲しがっています。
このモデルは、データからテキストの一部 (たとえば、Wikipediaの記事の冒頭の文) を取得し、シーケンス内の次のトークンを予測しようとすることで学習します。次に、その出力をトレーニングコーパス内の実際のテキストと比較し、エラーを修正するためにパラメーターを調整します。非常に大きなテキスト (または画像、または音声) の本体でこれを繰り返すと、プロンプトが与えられたときに一貫性のあるテキストシーケンスを作成できる言語モデルを開発できます。
このプロセスは、深層ニューラルネットワーク (DNN)、特にTransformerネットワークと呼ばれるソフトウェアアーキテクチャに依存しています。Transformerネットワークは、テキストを「トークン」に分解することに長けています。トークンは基本的に単語の一部です(「単語」は1つのトークンであり、「基本的に」は2つのトークンです)。次に、ユーザーとの対話に基づいて、ユーザーに最も共鳴する可能性のあるシーケンスを予測します。計算は毎回人によって異なり、大量の電力とエネルギーを必要とします。
ChatGPTは、カスタマイズされた応答を生成するために、以前の会話も「記憶」します。ChatGPTと話せば話すほど、ChatGPTとのやり取りを洗練させることができます。たとえば、「それは間違っている」と言うと、モデルはそれをメモし、次回は別の方法を試みます。これは「人間からのフィードバックによる強化学習」(RLHF)と呼ばれ、ChatGPTが以前のバージョンよりも役に立つ理由でもあります。
ChatGPTを試す方法は?
OpenAIのウェブサイトまたはアプリケーション(iOSまたはAndroid)でChatGPTに登録できます。アカウントを作成しなくても、基本バージョンを使用できます。無料バージョンはたまの会話には十分対応できますが、フラッグシップモデルのGPT-4oと1日にやり取りできる回数と、アップロードできる写真の数には制限があります。
真剣な継続的な使用には、有料版のChatGPT Plusを試してみる必要があるかもしれません。これは月額20ドルの料金がかかります。これは制限が少なく、Soraビデオ作成モデルやカスタムGPTなどの追加機能があります。後者は特定のタスク(言語翻訳など)で使用できるミニチュアモデルであり、主要なChatGPTモデルはオールラウンドなアスリートのようなものです。
OpenAIは、月額200ドルのProモデルなど、他のサブスクリプションレベルも提供しています。このモデルは制限がなく、高度な調査レポートの編集などの操作を実行できます。大規模組織向けのチームおよびエンタープライズアカウントもあります。最後に、開発者はOpenAIのAPIを通じてChatGPTにアクセスすることもでき、使用したトークンの数に応じて料金を支払います。
ChatGPTで何ができるのか?
適切な指示とコンテキストを与えれば、ChatGPTは非常に役立ちます。ChatGPTでできることは次のとおりです。
執筆
ChatGPTは、役立つ執筆アシスタントになる可能性があります。完全な記事を一度に書くように指示すると、結果はまちまちになります。しかし、段階的に協力すると、ChatGPTは印象的なことができます。たとえば、概要から始めて、OpenAIのチャットボットの助けを借りて各セクションを充実させることができます.
編集
ChatGPTは、優れた編集アシスタントです。コピー編集、校正、書き換え、スタイルの調整などに使用できます。
翻訳
ChatGPTは、いくつかの言語にうまく翻訳できます。専門分野で作業している場合は、ソース言語とターゲット言語のドキュメントの例など、コンテキストを提供することで翻訳を改善できます。
要約
ChatGPTは、記事、スピーチ、論文を要約できます。強調するテーマなど、ガイドラインを提供すると、より正確になります。
ブレインストーミング
ChatGPTは、プレゼンテーションのディスカッションポイントの提案から旅行の計画まで、さまざまなサポートを提供できます。
コードの作成
ChatGPTは、機能の説明をいくつかのプログラミングおよびスクリプト言語の動作コードに変換できる優れたコーディングアシスタントです。
画像の作成と説明
写真をアップロードして、それらに関する質問をすることができます。たとえば、木の写真を追加して、「これはどんな植物ですか?」と尋ねます。何か問題がある場合は、ChatGPTはスクリーンショットを説明することもできます。携帯電話で何かを見ることができます。また、新しい内部ジェネレーターを使用して画像を作成することもできます。内部ジェネレーターは好評を博しています。
口頭での会話
音声モードを使用すると、完璧な文章プロンプトを作成する必要はありません。マイクに向かって話すだけで、チャットを開始できます。
ムービークリップの作成
Soraビデオジェネレーターは、数秒の長さでサウンドがないカスタムクリップを生成し、大規模なビデオプロジェクトの強化として使用したり、スタンドアロンクリップとして使用したりできます。ChatGPT PlusおよびProのサブスクライバーが利用でき、Microsoft Bingアプリケーションを通じて無料で限定的な機能を利用できます。
ChatGPTは、幻覚を起こしたり、情報を捏造したりする傾向があるため、調査ツールとして使用することはお勧めしません。ChatGPTのようなLLMは、語彙的には正しいが、実際には誤ったテキストを組み合わせることができます。これは、ChatGPTを使用してコーディングする場合にも当てはまります。機能しない、または安全でないコードを生成する可能性があります。良い経験則は、ChatGPTを起点として使用し、ChatGPTが提供するソースリンクをクリックするか、個別のGoogle検索を行うことで、その出力の信憑性を確認することです。(Perplexityは、引用中心のもう1つのチャットボットです。)
ChatGPTの代替案は?
他のいくつかの企業や組織が、ChatGPTと比較可能な命令追跡LLMを開発しています。
- **Google Gemini:**GoogleのAIモデルは、ChatGPTでできることとほとんど同じことができ、Googleのエコシステムに接続できるため、その出力をGmail、Googleスプレッドシート、Docsなどにエクスポートできます。
- **Bing:**マイクロソフトはOpenAIに数十億ドルを投資しており、ChatGPTをBing検索エンジンに統合しました。これは、知識を検索し、ChatGPTを使用して実行できる他のタスクを実行するための会話型インターフェイスです。生成された情報の情報源を引用するため、情報源を検証できます。
- **Claude:**サンフランシスコに拠点を置くAI研究所であるAnthropicは、ChatGPTの競合製品であるClaudeを立ち上げました。Claudeは、執筆とコーディングで高い評価を得ています。
- **Perplexity:**Googleの代替として、多くの人がPerplexityを使用してウェブを検索しています。急速に台頭しており、Motorolaの新しいRazr携帯電話の優先検索プラットフォームになります。伝えられるところによると、サムスンも同じことを行う交渉をしています。
- **オープンソースモデル:**オープンソースコミュニティは、自分のサーバーで実行できるLLMをリリースしました。これらのLLMは、データの制御を支援し、ベンダーロックインを回避できます。オープンソースLLMはChatGPTよりもはるかに小さく、設定が難しいですが、技術力があれば、印象的な結果を生み出すことができます。MetaのLlamaモデルは、最もよく知られているモデルの一部です。その他のオプションには、Open Assistant、Alpaca、Vicuna、Dolly 2などがあります。