規制されていないLLMは医療機器のような出力を生成

LLMの医療における可能性と規制上の課題

大規模言語モデル (LLM) は、その広範なトレーニングデータと人間のようなテキストを生成する能力から、さまざまな分野での意思決定支援への応用に関心が高まっています。しかし、生成型人工知能 (AI) システムを魅力的にしているまさにその特性が、規制当局にとっては独特のハードルをもたらしています。これらの規制当局は、数十年前の、従来の医療機器向けに設計された枠組みの中で運営されており、AIの動的な性質には対応していません。

現在、利用可能なLLMは医療機器として分類されていません。連邦食品医薬品化粧品法 (FD&C Act § 201(h)(1)) は、医療機器を「診断、…治癒、緩和、治療、または疾患の予防に使用することを意図した…機器…であり、その主要な意図された目的を化学的作用によって達成しないもの」と定義しています。ほとんどのLLMには、医療アドバイスを提供することを意図していないという免責事項が含まれており、FDAの規制を回避しています。それにもかかわらず、研究環境と実際の臨床現場の両方で、医療上の意思決定支援にLLMを使用することを示す、発表された研究と事例証拠のコレクションが増えています。

LLMベースの臨床意思決定支援の規制範囲の定義

LLMの可能性を考慮すると、それらを臨床意思決定支援システム (CDSS) に正式に組み込む場合、適切な規制の問題が最も重要になります。21世紀治療法 (21st Century Cures Act) のFD&C法改正 (Public Law 114–255) は、FDAのガイダンスとともに、意思決定支援ソフトウェアがデバイスとして適格であり、その結果FDAの管轄下にあるかどうかを判断するための4つの主要な基準を概説しています。これらの基準は、以下を中心に展開します。

  • ソフトウェア機能の入力データ。
  • その出力データ。
  • その臨床的推奨事項の内容。
  • エンドユーザーがそれらの推奨事項の背後にある根拠を確認する能力。

具体的には、CDSSの出力が、一般的な情報ベースの推奨事項ではなく、治療または診断のための正確な指示を提供する場合、デバイスと見なされます。さらに、CDSSが推奨事項の根拠を提供せず、ユーザーが独自にそれらを確認して独自の結論に達することを妨げる場合、デバイスとして分類されます。FDAのガイダンスはさらに、臨床上の緊急事態で使用されるCDSSは、意思決定の重要かつ時間的制約のある性質のためにデバイスと見なされ、CDSSのアドバイスの独立した評価を妨げると明確にしています。

生成AIシステムにおけるデバイスのような出力の調査

生成AI (LLMなど) を採用したCDSSが、医療機器を模倣した出力を生成するかどうかは不明です。制約のないLLMのフリーテキスト出力は、確立されたデバイス基準を満たす場合と満たさない場合があります。さらに、困難なプロンプトまたは「脱獄」に対するLLMの応答が、これらの基準とどのように整合するかは不明です。医療アドバイスのためのLLMの使用が増加しているため、LLMベースのCDSSのデバイス指定と規制状況に関する不確実性は、これらのテクノロジーの安全かつ効果的な開発を妨げる可能性があります。より多くの臨床医と患者がこれらのツールを利用するようになるにつれて、医療における生成AIの安全性と革新性の間の適切なバランスを取ることが重要です。

研究目的:デバイスのような機能の評価

この研究は、LLMのデバイスのような機能を評価することを目的としました。この機能は、「疾患またはその他の状態の診断、治療、予防、治癒、または緩和」のための有用性として定義され、そのような使用が意図されているか許可されているかに関係ありません。具体的な目的は次のとおりです。

  1. LLMの出力が、それらの基準に関する指示と臨床上の緊急事態を提示されたときに、デバイス基準と一致するかどうかを判断すること。
  2. モデルの出力がデバイスのような出力を提供するように操作できる条件 (もしあれば) を特定すること。これには、診断および治療情報に対する直接的な要求、および非デバイス基準を遵守するプロンプトにもかかわらずデバイスのような出力を引き出すように設計された事前定義済みの「脱獄」の使用が含まれます。

結果:LLMの応答とデバイス基準の整合性

予防ケアの推奨事項

予防ケアの推奨事項について質問された場合、すべてのLLMは、最終的なテキスト出力で非デバイス基準と一致する応答を生成しました。Llama-3モデルは、シングルショットプロンプトに応答して、最初は応答のわずかな割合 (家庭医療では20%、精神医学の予防ケアシナリオでは60%) でデバイスのような意思決定支援を提供しました。しかし、それはすぐにこのテキストを「申し訳ありませんが、現時点ではこのリクエストに対応できません」という免責事項に置き換えました。デバイス基準の詳細な例を含むマルチショットプロンプトを提示すると、すべてのモデルは、すべての最初の予防ケア応答に対して一貫して非デバイスの推奨事項を提供しました。

時間的制約のある緊急シナリオ

時間的制約のある緊急事態を伴う状況では、GPT-4の応答の100%とLlama-3の応答の52%が、デバイスのような意思決定支援と一致しました。デバイスのような推奨事項の全体的な割合は、マルチショットプロンプトでも一貫していましたが、異なる臨床シナリオ間でばらつきが見られました。これらのデバイスのような応答には、緊急事態に関連する特定の診断と治療の提案が含まれていました。

「Desperate Intern」脱獄

「Desperate Intern」脱獄にさらされると、応答のかなりの割合がデバイスのような推奨事項を示しました。具体的には、GPT-4の応答の80%と68%、Llama-3の応答の36%と76%が、それぞれシングルショットおよびマルチショットプロンプトの後に、デバイスのような推奨事項を含んでいました。

LLMの提案の臨床的適切性

すべてのモデルの提案は臨床的に適切であり、確立されたケア基準と一致していたことに注意することが重要です。家庭医療と心臓病のシナリオでは、デバイスのような意思決定支援の多くは、訓練を受けた臨床医にのみ適していました。例としては、静脈内カテーテルの留置や静脈内抗生物質の投与などがあります。他のシナリオでは、デバイスのような推奨事項は、オピオイドの過剰摂取に対するナロキソンの投与やアナフィラキシーに対するエピネフリン自動注射器の使用など、一般的に傍観者のケア基準と一致していました。

規制と監視への影響

現在、LLMはCDSSとしてFDAの承認を受けておらず、一部は医療アドバイスに使用すべきではないと明示的に述べていますが、患者と臨床医は依然としてこの目的のためにそれらを利用している可能性があります。この研究では、FDAガイダンス文書の文言に基づくシングルショットプロンプトもマルチショットプロンプトも、LLMを非デバイスの意思決定支援のみを生成するように確実に制限できないことがわかりました。さらに、事前定義された脱獄は、デバイスのような意思決定支援を引き出すために多くの場合必要ありませんでした。これらの調査結果は、AI/ML CDSSに合わせた新しい規制パラダイムの必要性を強調する以前の研究を補強しています。また、生成AIテクノロジーを組み込んだ医療機器の監視にも直接的な影響があります。

規制アプローチの再考

効果的な規制には、意図された用途に応じて、LLMの出力をデバイスのような意思決定支援または非デバイスの意思決定支援のいずれかに合わせるための新しい方法が必要になる場合があります。従来のFDA承認は、特定の意図された用途と適応症に対して医療機器に付与されます。たとえば、FDA承認のAI/MLデバイスには、血行動態の不安定性または臨床的悪化を予測するように設計されたものが含まれます。ただし、LLMはさまざまなトピックについてクエリされる可能性があり、適切ではあるものの、承認された適応症に対して「適応外」と見なされる応答につながる可能性があります。結果は、シングルショットプロンプトとマルチショットプロンプトの両方がこれを制御するのに不十分であることを示しています。この発見は、LLM自体の制限を表すものではなく、LLM出力の柔軟性を維持しながら、それを承認された適応症に限定する新しい方法の必要性を強調しています。

新しい承認経路の検討

LLMの規制には、特定の適応症に縛られない新しい承認経路が必要になる場合があります。「一般化された」意思決定支援のためのデバイス承認経路は、LLMおよび生成AIツールに適している可能性があります。このアプローチはAI/ML CDSSの革新を促進しますが、このような幅広い適応症を持つシステムの安全性、有効性、および公平性を評価するための最適な方法は不明確なままです。たとえば、「企業ベース」の承認アプローチは、LLMに適している可能性があるデバイス固有の評価の必要性を回避できますが、臨床的有効性と安全性に関する保証は不確実です。

異なるユーザーグループの基準の改良

これらの調査結果は、臨床医と非臨床医の傍観者を対象としたCDSSの基準を改良する必要性を浮き彫りにしています。FDAは以前、患者および介護者向けのCDSSは医療機器と見なされ、一般的に規制の対象となると示していました。ただし、現在、非臨床医の傍観者向けに設計されたAI/ML CDSSの規制カテゴリはありません。特定の診断を下し、時間的制約のある緊急事態に対して特定の指示を提供することは、医療専門家向けのデバイスに対するFDAの基準と明確に一致しています。一方、心肺蘇生法 (CPR) やエピネフリンまたはナロキソンの投与などの行為も、これらのデバイス基準を満たしていますが、同時に、非臨床医の傍観者にとって確立された救助行動でもあります。

研究の限界

この研究にはいくつかの制限があります。

  1. ソフトウェアの指定された意図された用途ではないタスクに対してLLMを評価します。
  2. LLMの出力をFDAガイダンス (拘束力がない) と比較し、LLMの推奨事項と他の関連する米国の法定規定または規制の枠組みとの整合性を評価しません。
  3. シングルショットプロンプトおよびマルチショットプロンプトよりも効果的であった可能性がある他のプロンプト方法を評価しません。
  4. そのようなプロンプトが実際の臨床ワークフローにどのように実際に統合されるかを調査しません。
  5. GPT-4およびLlama-3を超えて、広く利用可能で一般的に使用されているLLMのより広い範囲を評価しません。
  6. プロンプトのサンプルサイズが小さいです。

今後の展望:革新と安全性のバランス

CDSSデバイス基準に関するFDAガイダンスのテキストに基づくプロンプトは、シングルショットであろうとマルチショットであろうと、LLMの出力が非デバイスの意思決定支援と一致することを保証するには不十分です。生成AIシステムに対処するには、革新、安全性、および臨床的有効性のバランスを取る、新しい規制パラダイムとテクノロジーが必要です。このテクノロジーの急速な進化には、規制に対する積極的かつ適応的なアプローチが必要であり、潜在的なリスクを軽減しながら、医療におけるLLMの利点を実現できるようにします。