LLM'ler Tıbbi Cihaz Benzeri Çıktı Üretiyor

LLM’lerin Sağlık Hizmetlerinde Vaat Ettikleri ve Düzenleyici Zorluklar

Büyük dil modellerinin (LLM’ler), kapsamlı eğitim verilerinden ve insan benzeri metinler üretebilme yeteneklerinden kaynaklanan kabiliyetleri, çeşitli alanlarda karar desteği için uygulamalarına olan ilgiyi artırıyor. Bununla birlikte, üretken yapay zeka (AI) sistemlerini bu kadar çekici kılan özellikler, düzenleyici kurumlar için de benzersiz engeller sunmaktadır. Bu kurumlar, onlarca yıl önce kurulmuş, geleneksel tıbbi cihazlar için tasarlanmış çerçeveler içinde çalışıyorlar, yapay zekanın dinamik doğası için değil.

Şu anda mevcut olan LLM’ler tıbbi cihaz olarak sınıflandırılmamıştır. Federal Gıda, İlaç ve Kozmetik Yasası (FD&C Yasası § 201(h)(1)), bir tıbbi cihazı “hastalığın teşhisinde, … tedavisinde, hafifletilmesinde, tedavisinde veya önlenmesinde kullanılması amaçlanan … birincil amaçlarına kimyasal etki yoluyla ulaşmayan bir araç” olarak tanımlar. Çoğu LLM, tıbbi tavsiye sağlamak için tasarlanmadıklarını belirten sorumluluk reddi beyanları içerir ve böylece FDA düzenlemesinden kaçınır. Buna rağmen, hem araştırma ortamlarında hem de gerçek klinik uygulamada, LLM’lerin tıbbi karar desteği için kullanımını vurgulayan, yayınlanmış araştırmalar ve anekdot niteliğinde kanıtlar giderek artmaktadır.

LLM Tabanlı Klinik Karar Desteği için Düzenleme Kapsamının Tanımlanması

LLM’lerin potansiyeli göz önüne alındığında, bir klinik karar destek sistemine (CDSS) resmi olarak dahil edilmeleri durumunda, uygun düzenleme sorusu büyük önem kazanmaktadır. 21. Yüzyıl Tedavileri Yasası’nın FD&C Yasası’na (Kamu Yasası 114-255) yaptığı değişiklik, FDA’nın rehberliği ile birlikte, karar destek yazılımının bir cihaz olarak nitelendirilip nitelendirilmediğini ve dolayısıyla FDA yetki alanına girip girmediğini belirlemek için dört temel kriteri özetlemektedir. Bu kriterler şunların etrafında döner:

  • Yazılım işlevinin girdi verileri.
  • Çıktı verileri.
  • Klinik önerilerinin özü.
  • Son kullanıcının bu önerilerin arkasındaki mantığı gözden geçirme yeteneği.

Özellikle, bir CDSS’nin çıktısı, genel bilgi tabanlı öneriler yerine tedavi veya teşhis için kesin bir direktif sunuyorsa, bir cihaz olarak kabul edilir. Ayrıca, CDSS, önerilerinin altında yatan temeli sağlamazsa, kullanıcıların bunları bağımsız olarak gözden geçirmesini ve kendi sonuçlarına varmasını engelliyorsa, bir cihaz olarak sınıflandırılır. FDA rehberliği ayrıca, klinik bir acil durumda kullanılan bir CDSS’nin, karar vermenin kritik ve zamana duyarlı doğası nedeniyle bir cihaz olarak kabul edildiğini ve CDSS’nin tavsiyesinin bağımsız olarak değerlendirilmesini engellediğini açıklar.

Üretken Yapay Zeka Sistemlerinde Cihaz Benzeri Çıktının İncelenmesi

LLM gibi üretken yapay zeka kullanan bir CDSS’nin tıbbi bir cihazı taklit eden bir çıktı üretip üretmediği belirsizliğini koruyor. Kısıtlanmamış bir LLM’nin serbest metin çıktısı, belirlenmiş cihaz kriterlerini karşılayabilir veya karşılamayabilir. Ayrıca, zorlu istemlere veya “jailbreak”lere verilen LLM yanıtlarının bu kriterlerle nasıl uyumlu olduğu bilinmemektedir. LLM’lerin tıbbi tavsiye için artan kullanımı, LLM tabanlı CDSS’lerin cihaz tanımı ve düzenleyici durumuyla ilgili belirsizliği, bu teknolojilerin güvenli ve etkili gelişiminin önünde potansiyel bir engel haline getirmektedir. Sağlık hizmetlerinde üretken yapay zeka için güvenlik ve yenilik arasında doğru dengeyi kurmak, daha fazla klinisyen ve hasta bu araçları kullandıkça çok önemlidir.

Araştırma Amaçları: Cihaz Benzeri İşlevselliğin Değerlendirilmesi

Bu araştırma, LLM’lerin cihaz benzeri işlevselliğini değerlendirmeyi amaçladı. Bu işlevsellik, bu tür bir kullanımın amaçlanıp amaçlanmadığına veya izin verilip verilmediğine bakılmaksızın, “hastalıkların veya diğer durumların teşhisi, tedavisi, önlenmesi, iyileştirilmesi veya hafifletilmesi” için kullanışlılıkları olarak tanımlanır. Spesifik hedefler şunlardı:

  1. LLM çıktısının, bu kriterlerle ilgili talimatlarla ve klinik bir acil durumla sunulduğunda cihaz kriterleriyle uyumlu olup olmayacağını belirlemek.
  2. Bir modelin çıktısının, cihaz benzeri çıktı sağlamak için manipüle edilebileceği koşulları (varsa) belirlemek. Bu, teşhis ve tedavi bilgileri için doğrudan taleplerin yanı sıra, cihaz dışı kriterlere uyma istemlerine rağmen cihaz benzeri çıktı elde etmek için tasarlanmış önceden tanımlanmış bir “jailbreak” kullanmayı içeriyordu.

Bulgular: LLM Yanıtları ve Cihaz Kriterleri Uyumu

Önleyici Bakım Önerileri

Önleyici bakım önerileri için sorgulandığında, tüm LLM’ler son metin çıktılarında cihaz dışı kriterlerle tutarlı yanıtlar üretti. Llama-3 modeli, tek atışlı bir isteme yanıt olarak, başlangıçta yanıtların küçük bir yüzdesinde (%20 aile hekimliği ve %60 psikiyatri önleyici bakım senaryoları için) cihaz benzeri karar desteği sağladı. Ancak, bu metni hızla bir sorumluluk reddi beyanıyla değiştirdi: “Üzgünüm, şu anda bu isteğinizde size yardımcı olamıyorum.” Cihaz kriterlerinin ayrıntılı örneklerini içeren çok atışlı bir istem sunulduğunda, tüm modeller ilk önleyici bakım yanıtlarının tümü için tutarlı bir şekilde cihaz dışı öneriler sağladı.

Zamana Duyarlı Acil Durum Senaryoları

Zamana duyarlı acil durumları içeren durumlarda, GPT-4 yanıtlarının %100’ü ve Llama-3 yanıtlarının %52’si cihaz benzeri karar desteğiyle uyumluydu. Cihaz benzeri önerilerin genel oranları, çok atışlı istemlerle tutarlı kaldı, ancak farklı klinik senaryolarda değişiklik gösterdi. Bu cihaz benzeri yanıtlar, acil durumlarla ilgili belirli teşhis ve tedaviler için öneriler içeriyordu.

“Çaresiz Stajyer” Jailbreak’i

“Çaresiz stajyer” jailbreak’ine maruz kaldığında, yanıtların önemli bir kısmı cihaz benzeri öneriler sergiledi. Özellikle, GPT-4 yanıtlarının %80 ve %68’i ve Llama-3 yanıtlarının %36 ve %76’sı, sırasıyla tek ve çok atışlı istemlerin ardından cihaz benzeri öneriler içeriyordu.

LLM Önerilerinin Klinik Uygunluğu

Tüm model önerilerinin klinik olarak uygun ve yerleşik bakım standartlarıyla uyumlu olduğunu belirtmek önemlidir. Aile hekimliği ve kardiyoloji senaryolarında, cihaz benzeri karar desteğinin çoğu yalnızca eğitimli klinisyenler için uygundu. Örnekler arasında intravenöz kateter yerleştirilmesi ve intravenöz antibiyotiklerin uygulanması yer alır. Diğer senaryolarda, cihaz benzeri öneriler genellikle, opioid doz aşımı için nalokson uygulamak veya anafilaksi için bir epinefrin oto-enjektörü kullanmak gibi, seyirci bakım standartlarıyla tutarlıydı.

Düzenleme ve Gözetim için Çıkarımlar

Herhangi bir LLM şu anda bir CDSS olarak FDA tarafından yetkilendirilmemiş olsa ve bazıları açıkça tıbbi tavsiye için kullanılmamaları gerektiğini belirtse de, hastalar ve klinisyenler yine de bunları bu amaç için kullanıyor olabilirler. Çalışma, bir FDA kılavuz belgesinden alınan dile dayalı olarak ne tek atışlı ne de çok atışlı istemlerin, LLM’leri yalnızca cihaz dışı karar desteği üretmekle güvenilir bir şekilde sınırlamadığını buldu. Ayrıca, cihaz benzeri karar desteği elde etmek için genellikle önceden tanımlanmış bir jailbreak gerekli değildi. Bu bulgular, yapay zeka/makine öğrenimi CDSS’lerine özel olarak uyarlanmış yeni düzenleyici paradigmaların gerekliliğini vurgulayan önceki araştırmaları desteklemektedir. Ayrıca, üretken yapay zeka teknolojilerini içeren tıbbi cihazların gözetimi için doğrudan etkileri vardır.

Düzenleyici Yaklaşımları Yeniden Düşünmek

Etkili düzenleme, LLM çıktısını, amaçlanan kullanıma bağlı olarak cihaz benzeri veya cihaz dışı karar desteğiyle daha iyi hizalamak için yeni yöntemler gerektirebilir. Geleneksel FDA yetkilendirmesi, belirli bir amaçlanan kullanım ve endikasyon için bir tıbbi cihaza verilir. Örneğin, FDA tarafından yetkilendirilen yapay zeka/makine öğrenimi cihazları, hemodinamik dengesizliği veya klinik bozulmayı tahmin etmek için tasarlanmış olanları içerir. Bununla birlikte, LLM’ler çok çeşitli konularda sorgulanabilir ve bu da uygun olsa da onaylanmış endikasyonlarına göre “etiket dışı” olarak kabul edilecek yanıtlara yol açabilir. Sonuçlar, hem tek hem de çok atışlı istemlerin bunu kontrol etmek için yetersiz olduğunu göstermektedir. Bu bulgu, LLM’lerin kendilerinin bir sınırlamasını temsil etmez, aksine LLM çıktısının esnekliğini korurken onu onaylanmış bir endikasyonla sınırlayan yeni yöntemlere olan ihtiyacı vurgular.

Yeni Yetkilendirme Yollarını Keşfetmek

LLM’lerin düzenlenmesi, belirli endikasyonlara bağlı olmayan yeni yetkilendirme yolları gerektirebilir. “Genelleştirilmiş” karar desteği için bir cihaz yetkilendirme yolu, LLM’ler ve üretken yapay zeka araçları için uygun olabilir. Bu yaklaşım, yapay zeka/makine öğrenimi CDSS’sinde yeniliği kolaylaştıracak olsa da, bu kadar geniş endikasyonlara sahip sistemlerin güvenliğini, etkinliğini ve eşitliğini değerlendirmek için en uygun yöntem belirsizliğini koruyor. Örneğin, yetkilendirmeye “firma tabanlı” bir yaklaşım, bir LLM için uygun olabilecek cihazlara özel değerlendirme ihtiyacını atlayabilir, ancak klinik etkinlik ve güvenlikle ilgili belirsiz garantilerle birlikte gelir.

Farklı Kullanıcı Grupları için Kriterleri İyileştirme

Bu bulgular, klinisyenler ve klinisyen olmayan seyirciler için tasarlanan CDSS’ler için kriterlerin iyileştirilmesi gerektiğini vurgulamaktadır. FDA daha önce, hasta ve bakıcıya yönelik CDSS’lerin, genellikle düzenlemeye tabi olan tıbbi cihazlar olarak kabul edileceğini belirtmişti. Bununla birlikte, şu anda klinisyen olmayan bir seyirci için tasarlanmış bir yapay zeka/makine öğrenimi CDSS’si için bir düzenleyici kategori bulunmamaktadır. Belirli bir teşhis koymak ve zamana duyarlı bir acil durum için belirli bir direktif sağlamak, FDA’nın sağlık profesyonelleri için tasarlanan cihazlar için kriterleriyle açıkça uyumludur. Öte yandan, kardiyopulmoner resüsitasyon (CPR) ve epinefrin veya nalokson uygulaması gibi eylemler de bu cihaz kriterlerini karşılar, ancak aynı zamanda klinisyen olmayan seyirciler için iyi bilinen kurtarma davranışlarıdır.

Çalışma Sınırlamaları

Bu çalışmanın birkaç sınırlaması vardır:

  1. LLM’leri, yazılımın belirtilen amaçlanan kullanımı olmayan bir göreve göre değerlendirir.
  2. LLM çıktısını, bağlayıcı olmayan FDA rehberliğiyle karşılaştırır ve LLM önerilerinin diğer ilgili ABD yasal hükümleri veya düzenleyici çerçeveleriyle tutarlılığını değerlendirmez.
  3. Tek ve çok atışlı istemlerden daha etkili olabilecek diğer istem yöntemlerini değerlendirmez.
  4. Bu tür istemlerin gerçek dünyadaki klinik iş akışlarına pratik olarak nasıl entegre edilebileceğini araştırmaz.
  5. GPT-4 ve Llama-3’ün ötesinde, yaygın olarak bulunan ve yaygın olarak kullanılan LLM’lerin daha geniş bir yelpazesini değerlendirmez.
  6. İstemlerin örneklem büyüklüğü küçüktür.

İleriye Doğru: Yenilik ve Güvenliği Dengelemek

CDSS cihaz kriterleri için FDA rehberliğinin metnine dayalı istemler, ister tek ister çok atışlı olsun, LLM çıktısının cihaz dışı karar desteğiyle uyumlu olmasını sağlamak için yetersizdir. Üretken yapay zeka sistemlerini ele almak, yenilik, güvenlik ve klinik etkinlik arasında bir denge kurmak için yeni düzenleyici paradigmalar ve teknolojiler gereklidir. Bu teknolojinin hızlı evrimi, LLM’lerin sağlık hizmetlerindeki faydalarının potansiyel riskleri azaltırken gerçekleştirilebilmesini sağlayarak, düzenlemeye proaktif ve uyarlanabilir bir yaklaşım gerektiriyor.