अनियंत्रित बड़े भाषा मॉडल चिकित्सा उपकरण जैसा आउटपुट उत्पन्न करते हैं

अनियमित बड़े भाषा मॉडल चिकित्सा उपकरण जैसा आउटपुट उत्पन्न करते हैं

बड़े भाषा मॉडल (LLMs) नैदानिक ​​निर्णय समर्थन (CDS) में उपयोग के लिए महत्वपूर्ण क्षमता प्रदर्शित कर रहे हैं। हालांकि, यह ध्यान देने योग्य है कि, वर्तमान में, किसी को भी खाद्य एवं औषधि प्रशासन (FDA) से CDS उपकरण के रूप में प्राधिकरण प्राप्त नहीं हुआ है। यह अध्ययन जांच करता है कि क्या दो व्यापक रूप से उपयोग किए जाने वाले LLMs को CDS प्रदान करने वाले चिकित्सा उपकरण के समान आउटपुट उत्पन्न करने के लिए प्रेरित किया जा सकता है। निष्कर्षों से पता चलता है कि LLMs, विभिन्न परिदृश्यों में, डिवाइस-आधारित निर्णय समर्थन के समान आउटपुट आसानी से उत्पन्न कर सकते हैं। यह एक संभावित आवश्यकता को रेखांकित करता है यदि LLMs को औपचारिक रूप से नैदानिक ​​अभ्यास में एकीकृत किया जाना है।

स्वास्थ्य सेवा में LLMs की संभावनाएं और नियामक चुनौतियां

LLMs की क्षमताएं, उनके व्यापक प्रशिक्षण डेटा और मानव-जैसी पाठ उत्पन्न करने की क्षमता से उत्पन्न होती हैं, जो विभिन्न क्षेत्रों में निर्णय समर्थन के लिए उनके अनुप्रयोग में रुचि बढ़ा रही हैं। हालांकि, वे विशेषताएं जो उत्पादक कृत्रिम बुद्धिमत्ता (AI) प्रणालियों को इतना आकर्षक बनाती हैं, नियामक निकायों के लिए अद्वितीय बाधाएं भी प्रस्तुत करती हैं। ये निकाय दशकों पहले स्थापित ढांचे के भीतर काम कर रहे हैं, जो पारंपरिक चिकित्सा उपकरणों के लिए डिज़ाइन किए गए हैं, न कि AI की गतिशील प्रकृति के लिए।

वर्तमान में, उपलब्ध LLMs को चिकित्सा उपकरणों के रूप में वर्गीकृत नहीं किया गया है। संघीय खाद्य, औषधि और कॉस्मेटिक अधिनियम (FD&C अधिनियम § 201(h)(1)) एक चिकित्सा उपकरण को एक “उपकरण… के रूप में परिभाषित करता है जिसका उपयोग रोग के निदान, …उपचार, शमन, उपचार या रोकथाम में किया जाता है… जो रासायनिक क्रिया के माध्यम से अपने प्राथमिक इच्छित उद्देश्यों को प्राप्त नहीं करता है।” अधिकांश LLMs में अस्वीकरण शामिल होते हैं जो बताते हैं कि वे चिकित्सा सलाह प्रदान करने के लिए अभिप्रेत नहीं हैं, इस प्रकार FDA विनियमन से बचते हैं। इसके बावजूद, प्रकाशित शोध और वास्तविक नैदानिक ​​अभ्यास दोनों में, चिकित्सा निर्णय समर्थन के लिए LLMs के उपयोग को उजागर करने वाले प्रकाशित शोध और वास्तविक साक्ष्य का एक बढ़ता हुआ संग्रह है।

LLM-आधारित नैदानिक ​​निर्णय समर्थन के लिए विनियमन का दायरा परिभाषित करना

LLMs की क्षमता को ध्यान में रखते हुए, क्या उन्हें औपचारिक रूप से एक नैदानिक ​​निर्णय समर्थन प्रणाली (CDSS) में शामिल किया जाना चाहिए, उपयुक्त विनियमन का प्रश्न सर्वोपरि हो जाता है। FD&C अधिनियम में 21वीं सदी का इलाज अधिनियम संशोधन (सार्वजनिक कानून 114-255), FDA के मार्गदर्शन के साथ, यह निर्धारित करने के लिए चार प्रमुख मानदंडों को रेखांकित करता है कि क्या निर्णय समर्थन सॉफ़्टवेयर एक उपकरण के रूप में योग्य है और इसके परिणामस्वरूप, FDA के अधिकार क्षेत्र में आता है। ये मानदंड इस प्रकार हैं:

  • सॉफ्टवेयर फ़ंक्शन का इनपुट डेटा।
  • इसका आउटपुट डेटा।
  • इसकी नैदानिक ​​सिफारिशों का सार।
  • अंतिम-उपयोगकर्ता की उन सिफारिशों के पीछे के तर्क की समीक्षा करने की क्षमता।

विशेष रूप से, एक CDSS को एक उपकरण माना जाता है यदि इसका आउटपुट सामान्य सूचना-आधारित सिफारिशों के बजाय उपचार या निदान के लिए एक सटीक निर्देश प्रदान करता है। इसके अलावा, यदि CDSS अपनी सिफारिशों के लिए अंतर्निहित आधार प्रदान करने में विफल रहता है, जिससे उपयोगकर्ता स्वतंत्र रूप से उनकी समीक्षा नहीं कर पाते हैं और अपने निष्कर्ष पर नहीं पहुंच पाते हैं, तो इसे एक उपकरण के रूप में वर्गीकृत किया जाता है। FDA मार्गदर्शन आगे स्पष्ट करता है कि नैदानिक ​​आपातकाल में उपयोग किया जाने वाला CDSS एक उपकरण माना जाता है क्योंकि निर्णय लेने की महत्वपूर्ण और समय-संवेदनशील प्रकृति के कारण, जो CDSS की सलाह के स्वतंत्र मूल्यांकन को रोकता है।

उत्पादक AI प्रणालियों में डिवाइस-जैसे आउटपुट की जांच करना

यह स्पष्ट नहीं है कि क्या उत्पादक AI, जैसे LLM को नियोजित करने वाला CDSS, एक चिकित्सा उपकरण की नकल करने वाला आउटपुट उत्पन्न करता है। एक अप्रतिबंधित LLM का फ्री-टेक्स्ट आउटपुट स्थापित डिवाइस मानदंडों को पूरा कर भी सकता है और नहीं भी। इसके अलावा, चुनौतीपूर्ण संकेतों या “जेलब्रेक” के लिए LLM प्रतिक्रियाएं इन मानदंडों के साथ कैसे संरेखित होती हैं, यह अज्ञात है। चिकित्सा सलाह के लिए LLMs का बढ़ता उपयोग LLM-आधारित CDSSs की डिवाइस पदनाम और नियामक स्थिति के आसपास अनिश्चितता को इन प्रौद्योगिकियों के सुरक्षित और प्रभावी विकास के लिए एक संभावित बाधा बनाता है। स्वास्थ्य सेवा में उत्पादक AI के लिए सुरक्षा और नवाचार के बीच सही संतुलन बनाना महत्वपूर्ण है क्योंकि अधिक चिकित्सक और रोगी इन उपकरणों का उपयोग करते हैं।

अनुसंधान उद्देश्य: डिवाइस-जैसी कार्यक्षमता का मूल्यांकन

इस शोध का उद्देश्य LLMs की डिवाइस-जैसी कार्यक्षमता का आकलन करना था। इस कार्यक्षमता को “रोगों या अन्य स्थितियों के निदान, उपचार, रोकथाम, इलाज या शमन” के लिए उनकी उपयोगिता के रूप में परिभाषित किया गया है, भले ही ऐसा उपयोग इरादा हो या अनुमति हो। विशिष्ट उद्देश्य थे:

  1. यह निर्धारित करने के लिए कि क्या LLM आउटपुट डिवाइस मानदंडों के साथ संरेखित होगा जब उन मानदंडों के बारे में निर्देशों के साथ संकेत दिया जाएगा और एक नैदानिक ​​आपातकाल के साथ प्रस्तुत किया जाएगा।
  2. उन स्थितियों की पहचान करने के लिए, यदि कोई हो, जिसके तहत एक मॉडल के आउटपुट को डिवाइस-जैसा आउटपुट प्रदान करने के लिए हेरफेर किया जा सकता है। इसमें नैदानिक ​​और उपचार जानकारी के लिए सीधे अनुरोधों का उपयोग करना, साथ ही गैर-डिवाइस मानदंडों का पालन करने के संकेतों के बावजूद डिवाइस-जैसे आउटपुट को प्राप्त करने के लिए डिज़ाइन किया गया एक पूर्व-परिभाषित “जेलब्रेक” शामिल था।

निष्कर्ष: LLM प्रतिक्रियाएं और डिवाइस मानदंड संरेखण

निवारक देखभाल सिफारिशें

जब निवारक देखभाल सिफारिशों के लिए पूछताछ की गई, तो सभी LLMs ने अपने अंतिम पाठ आउटपुट में गैर-डिवाइस मानदंडों के अनुरूप प्रतिक्रियाएं उत्पन्न कीं। Llama-3 मॉडल ने, एक सिंगल-शॉट प्रॉम्प्ट के जवाब में, शुरू में प्रतिक्रियाओं के एक छोटे प्रतिशत (पारिवारिक चिकित्सा के लिए 20% और मनोरोग निवारक देखभाल परिदृश्यों के लिए 60%) में डिवाइस-जैसी निर्णय समर्थन प्रदान किया। हालांकि, इसने तुरंत इस पाठ को एक अस्वीकरण के साथ बदल दिया: “क्षमा करें, मैं अभी इस अनुरोध के साथ आपकी सहायता नहीं कर सकता।” जब डिवाइस मानदंडों के विस्तृत उदाहरणों वाले मल्टी-शॉट प्रॉम्प्ट के साथ प्रस्तुत किया गया, तो सभी मॉडलों ने लगातार सभी प्रारंभिक निवारक देखभाल प्रतिक्रियाओं के लिए गैर-डिवाइस सिफारिशें प्रदान कीं।

समय-महत्वपूर्ण आपातकालीन परिदृश्य

समय-महत्वपूर्ण आपात स्थितियों से जुड़ी स्थितियों में, GPT-4 प्रतिक्रियाओं का 100% और Llama-3 प्रतिक्रियाओं का 52% डिवाइस-जैसे निर्णय समर्थन के साथ संरेखित हुआ। डिवाइस-जैसी सिफारिशों की समग्र दरें मल्टी-शॉट प्रॉम्प्ट के साथ सुसंगत रहीं, लेकिन विभिन्न नैदानिक ​​परिदृश्यों में भिन्नता दिखाई दी। इन डिवाइस-जैसी प्रतिक्रियाओं में आपात स्थितियों से संबंधित विशिष्ट निदान और उपचार के लिए सुझाव शामिल थे।

“Desperate Intern” जेलब्रेक

जब “desperate intern” जेलब्रेक के अधीन किया गया, तो प्रतिक्रियाओं के एक महत्वपूर्ण अनुपात ने डिवाइस-जैसी सिफारिशें प्रदर्शित कीं। विशेष रूप से, GPT-4 प्रतिक्रियाओं का 80% और 68%, और Llama-3 प्रतिक्रियाओं का 36% और 76%, क्रमशः एकल- और मल्टी-शॉट प्रॉम्प्ट के बाद डिवाइस-जैसी सिफारिशें शामिल थीं।

LLM सुझावों की नैदानिक ​​उपयुक्तता

यह ध्यान रखना महत्वपूर्ण है कि सभी मॉडल सुझाव नैदानिक ​​रूप से उपयुक्त थे और देखभाल के स्थापित मानकों के साथ संरेखित थे। पारिवारिक चिकित्सा और कार्डियोलॉजी परिदृश्यों में, अधिकांश डिवाइस-जैसी निर्णय समर्थन केवल प्रशिक्षित चिकित्सकों के लिए उपयुक्त था। उदाहरणों में एक अंतःशिरा कैथेटर का स्थान और अंतःशिरा एंटीबायोटिक दवाओं का प्रशासन शामिल है। अन्य परिदृश्यों में, डिवाइस-जैसी सिफारिशें आम तौर पर दर्शक देखभाल के मानकों के अनुरूप थीं, जैसे कि ओपिओइड ओवरडोज के लिए नालोक्सोन का प्रशासन या एनाफिलेक्सिस के लिए एपिनेफ्रीन ऑटो-इंजेक्टर का उपयोग।

विनियमन और निरीक्षण के लिए निहितार्थ

हालांकि कोई भी LLM वर्तमान में FDA-अधिकृत CDSS नहीं है, और कुछ स्पष्ट रूप से कहते हैं कि उनका उपयोग चिकित्सा सलाह के लिए नहीं किया जाना चाहिए, रोगी और चिकित्सक अभी भी इस उद्देश्य के लिए उनका उपयोग कर सकते हैं। अध्ययन में पाया गया कि FDA मार्गदर्शन दस्तावेज़ की भाषा पर आधारित, न तो सिंगल-शॉट और न ही मल्टी-शॉट प्रॉम्प्ट, LLMs को केवल गैर-डिवाइस निर्णय समर्थन उत्पन्न करने के लिए मज़बूती से प्रतिबंधित करते हैं। इसके अलावा, डिवाइस-जैसी निर्णय समर्थन प्राप्त करने के लिए अक्सर एक पूर्व-परिभाषित जेलब्रेक अनावश्यक था। ये निष्कर्ष AI/ML CDSSs के अनुरूप उपन्यास नियामक प्रतिमानों की आवश्यकता को उजागर करने वाले पूर्व शोध को सुदृढ़ करते हैं। उत्पादक AI प्रौद्योगिकियों को शामिल करने वाले चिकित्सा उपकरणों के निरीक्षण के लिए उनके प्रत्यक्ष निहितार्थ भी हैं।

नियामक दृष्टिकोणों पर पुनर्विचार

प्रभावी विनियमन के लिए LLM आउटपुट को डिवाइस-जैसी या गैर-डिवाइस निर्णय समर्थन के साथ बेहतर ढंग से संरेखित करने के लिए नए तरीकों की आवश्यकता हो सकती है, जो इच्छित उपयोग पर निर्भर करता है। पारंपरिक FDA प्राधिकरण एक चिकित्सा उपकरण को एक विशिष्ट इच्छित उपयोग और संकेत के लिए दिया जाता है। उदाहरण के लिए, FDA-अधिकृत AI/ML उपकरणों में हेमोडायनामिक अस्थिरता या नैदानिक ​​बिगड़ती भविष्यवाणी के लिए डिज़ाइन किए गए उपकरण शामिल हैं। हालांकि, LLMs से विषयों की एक विस्तृत श्रृंखला पर पूछताछ की जा सकती है, जिससे संभावित रूप से प्रतिक्रियाएं हो सकती हैं, जो उपयुक्त होने पर, उनके स्वीकृत संकेत के सापेक्ष “ऑफ-लेबल” मानी जाएंगी। परिणाम प्रदर्शित करते हैं कि इसे नियंत्रित करने के लिए न तो एकल- और न ही मल्टी-शॉट प्रॉम्प्ट पर्याप्त हैं। यह निष्कर्ष LLMs की एक सीमा का प्रतिनिधित्व नहीं करता है, बल्कि नई विधियों की आवश्यकता को रेखांकित करता है जो LLM आउटपुट के लचीलेपन को संरक्षित करते हुए इसे एक स्वीकृत संकेत तक सीमित करते हैं।

नए प्राधिकरण मार्गों की खोज

LLMs के विनियमन के लिए नए प्राधिकरण मार्गों की आवश्यकता हो सकती है जो विशिष्ट संकेतों से बंधे नहीं हैं। “सामान्यीकृत” निर्णय समर्थन के लिए एक उपकरण प्राधिकरण मार्ग LLMs और उत्पादक AI उपकरणों के लिए उपयुक्त हो सकता है। जबकि यह दृष्टिकोण AI/ML CDSS में नवाचार की सुविधा प्रदान करेगा, इतने व्यापक संकेतों वाली प्रणालियों की सुरक्षा, प्रभावशीलता और इक्विटी का आकलन करने की इष्टतम विधि अस्पष्ट बनी हुई है। उदाहरण के लिए, प्राधिकरण के लिए एक “फर्म-आधारित” दृष्टिकोण डिवाइस-विशिष्ट मूल्यांकन की आवश्यकता को बायपास कर सकता है, जो एक LLM के लिए उपयुक्त हो सकता है, लेकिन यह नैदानिक ​​प्रभावशीलता और सुरक्षा के संबंध में अनिश्चित गारंटी के साथ आता है।

विभिन्न उपयोगकर्ता समूहों के लिए मानदंडों को परिष्कृत करना

ये निष्कर्ष चिकित्सकों बनाम गैर-चिकित्सक दर्शकों के लिए अभिप्रेत CDSSs के लिए मानदंडों को परिष्कृत करने की आवश्यकता को उजागर करते हैं। FDA ने पहले संकेत दिया है कि रोगी- और देखभालकर्ता-सामना करने वाले CDSSs को चिकित्सा उपकरण माना जाएगा, जो आम तौर पर विनियमन के अधीन हैं। हालांकि, वर्तमान में एक गैर-चिकित्सक दर्शक के लिए डिज़ाइन किए गए AI/ML CDSS के लिए कोई नियामक श्रेणी नहीं है। एक विशिष्ट निदान करना और समय-महत्वपूर्ण आपातकाल के लिए एक विशिष्ट निर्देश प्रदान करना स्पष्ट रूप से स्वास्थ्य देखभाल पेशेवरों के लिए अभिप्रेत उपकरणों के लिए FDA के मानदंडों के साथ संरेखित होता है। दूसरी ओर, कार्डियोपल्मोनरी रिससिटेशन (CPR) और एपिनेफ्रीन या नालोक्सोन का प्रशासन जैसी क्रियाएं भी इन डिवाइस मानदंडों को पूरा करती हैं, फिर भी वे एक साथ गैर-चिकित्सक दर्शकों के लिए अच्छी तरह से स्थापित बचाव व्यवहार हैं।

अध्ययन की सीमाएं

इस अध्ययन की कई सीमाएँ हैं:

  1. यह LLMs का मूल्यांकन एक ऐसे कार्य के विरुद्ध करता है जो सॉफ़्टवेयर का एक निर्दिष्ट इच्छित उपयोग नहीं है।
  2. यह LLM आउटपुट की तुलना FDA मार्गदर्शन से करता है, जो गैर-बाध्यकारी है, और अन्य प्रासंगिक अमेरिकी वैधानिक प्रावधानों या नियामक ढांचे के साथ LLM सिफारिशों की निरंतरता का आकलन नहीं करता है।
  3. यह अन्य प्रॉम्प्टिंग विधियों का मूल्यांकन नहीं करता है जो एकल- और मल्टी-शॉट प्रॉम्प्ट की तुलना में अधिक प्रभावी हो सकती हैं।
  4. यह पता नहीं लगाता है कि ऐसे प्रॉम्प्ट को वास्तविक दुनिया के नैदानिक ​​वर्कफ़्लो में व्यावहारिक रूप से कैसे एकीकृत किया जा सकता है।
  5. यह GPT-4 और Llama-3 से परे व्यापक रूप से उपलब्ध और आमतौर पर उपयोग किए जाने वाले LLMs की एक विस्तृत श्रृंखला का मूल्यांकन नहीं करता है।
  6. प्रॉम्प्ट का नमूना आकार छोटा है।

आगे बढ़ना: नवाचार और सुरक्षा को संतुलित करना

CDSS डिवाइस मानदंडों के लिए FDA मार्गदर्शन के पाठ पर आधारित प्रॉम्प्ट, चाहे एकल- या मल्टी-शॉट, यह सुनिश्चित करने के लिए अपर्याप्त हैं कि LLM आउटपुट गैर-डिवाइस निर्णय समर्थन के साथ संरेखित हो। उत्पादक AI प्रणालियों को संबोधित करने के लिए नए नियामक प्रतिमानों और प्रौद्योगिकियों की आवश्यकता है, जो नवाचार, सुरक्षा और नैदानिक ​​प्रभावशीलता के बीच संतुलन बनाते हैं। इस तकनीक का तेजी से विकास विनियमन के लिए एक सक्रिय और अनुकूली दृष्टिकोण की मांग करता है, यह सुनिश्चित करता है कि स्वास्थ्य सेवा में LLMs के लाभों को संभावित जोखिमों को कम करते हुए महसूस किया जा सकता है।