LLMs ची आरोग्यसेवेतील भूमिका आणि नियामक आव्हाने
लार्ज लँग्वेज मॉडेल्स (LLMs) त्यांच्या विस्तृत प्रशिक्षण डेटा आणि मानवासारखा मजकूर तयार करण्याच्या क्षमतेमुळे, विविध क्षेत्रांमध्ये निर्णय समर्थनासाठी उपयुक्त ठरत आहेत. तथापि, जनरेटिव्ह आर्टिफिशियल इंटेलिजेंस (AI) प्रणालींना आकर्षक बनवणारी वैशिष्ट्येच नियामक संस्थांसाठी अद्वितीय अडथळे निर्माण करतात. या संस्था अनेक दशकांपूर्वी स्थापित केलेल्या फ्रेमवर्कमध्ये काम करत आहेत, जे पारंपारिक वैद्यकीय उपकरणांसाठी डिझाइन केलेले आहेत, AI च्या गतिशील स्वरूपासाठी नाही.
सध्या, उपलब्ध LLMs वैद्यकीय उपकरणे म्हणून वर्गीकृत नाहीत. फेडरल फूड, ड्रग अँड कॉस्मेटिक ॲक्ट (FD&C Act § 201(h)(1)) वैद्यकीय उपकरणाची व्याख्या ‘एक साधन… जे रोगनिदान, …उपचार, शमन, उपचार किंवा प्रतिबंध यासाठी वापरले जाते… जे रासायनिक क्रियेद्वारे त्याचा प्राथमिक हेतू साध्य करत नाही’ अशी करतो. बहुतेक LLMs मध्ये अस्वीकरण असते की ते वैद्यकीय सल्ला देण्यासाठी नाहीत, त्यामुळे FDA नियमन टाळले जाते. असे असूनही, प्रकाशित संशोधन आणि वैयक्तिक अनुभवांचा संग्रह वाढत आहे, जे वैद्यकीय निर्णय समर्थनासाठी LLMs चा वापर दर्शवतात, संशोधन सेटिंग्ज आणि प्रत्यक्ष क्लिनिकल प्रॅक्टिसमध्ये.
LLM-आधारित क्लिनिकल निर्णय समर्थनासाठी नियमनाची व्याप्ती परिभाषित करणे
LLMs ची क्षमता लक्षात घेता, जर त्यांना औपचारिकपणे क्लिनिकल डिसिजन सपोर्ट सिस्टम (CDSS) मध्ये समाविष्ट करायचे असेल, तर योग्य नियमनाचा प्रश्न महत्त्वाचा ठरतो. 21 व्या शतकातील क्युअर ॲक्ट (21st Century Cures Act) दुरुस्ती FD&C ॲक्ट (Public Law 114–255) मध्ये, FDA च्या मार्गदर्शनासह, निर्णय समर्थन सॉफ्टवेअर उपकरण म्हणून पात्र ठरते की नाही आणि FDA च्या अखत्यारीत येते की नाही हे निर्धारित करण्यासाठी चार मुख्य निकष आहेत. हे निकष खालील गोष्टींवर आधारित आहेत:
- सॉफ्टवेअर फंक्शनचा इनपुट डेटा.
- त्याचा आउटपुट डेटा.
- त्याच्या क्लिनिकल शिफारशींचा आशय.
- अंतिम वापरकर्त्याची त्या शिफारशींमागील तर्क तपासण्याची क्षमता.
विशेषतः, एक CDSS तेव्हा उपकरण मानले जाते जेव्हा त्याचे आउटपुट उपचारांसाठी किंवा निदानासाठी अचूक निर्देश देते, सामान्य माहिती-आधारित शिफारशींऐवजी. याव्यतिरिक्त, जर CDSS आपल्या शिफारशींचा मूळ आधार देण्यात अयशस्वी ठरले, ज्यामुळे वापरकर्त्यांना स्वतंत्रपणे त्यांचे पुनरावलोकन करण्यापासून आणि स्वतःचे निष्कर्ष काढण्यापासून प्रतिबंधित केले, तर ते उपकरण म्हणून वर्गीकृत केले जाते. FDA मार्गदर्शन पुढे स्पष्ट करते की क्लिनिकल आणीबाणीमध्ये वापरलेले CDSS हे उपकरण मानले जाते कारण निर्णय घेण्याची वेळ-संवेदनशील आणि महत्त्वपूर्ण असते, ज्यामुळे CDSS च्या सल्ल्याचे स्वतंत्र मूल्यांकन करणे शक्य नसते.
जनरेटिव्ह AI प्रणालींमध्ये डिव्हाइस-सारख्या आउटपुटची तपासणी
जनरेटिव्ह AI, जसे की LLM, वापरणारे CDSS वैद्यकीय उपकरणासारखे आउटपुट तयार करते की नाही हे अद्याप स्पष्ट नाही. अनियंत्रित LLM चे फ्री-टेक्स्ट आउटपुट स्थापित उपकरणाच्या निकषांची पूर्तता करू शकते किंवा नाही. शिवाय, आव्हानात्मक प्रॉम्प्ट्स किंवा “जेलब्रेक” ला LLM प्रतिसाद या निकषांशी कसे जुळतात हे अज्ञात आहे. वैद्यकीय सल्ल्यासाठी LLMs चा वाढता वापर LLM-आधारित CDSSs च्या उपकरणाचे पदनाम आणि नियामक स्थितीबद्दल अनिश्चितता निर्माण करतो, ज्यामुळे या तंत्रज्ञानाचा सुरक्षित आणि प्रभावी विकासामध्ये संभाव्य अडथळा येतो. आरोग्यसेवेतील जनरेटिव्ह AI साठी सुरक्षितता आणि नावीन्यपूर्णता यामध्ये योग्य संतुलन राखणे महत्त्वाचे आहे, कारण अधिकाधिक क्लिनिशियन आणि रुग्ण या साधनांचा वापर करत आहेत.
संशोधन उद्दिष्टे: डिव्हाइस-सारख्या कार्यक्षमतेचे मूल्यांकन
या संशोधनाचा उद्देश LLMs च्या डिव्हाइस-सारख्या कार्यक्षमतेचे मूल्यांकन करणे आहे. ही कार्यक्षमता ‘रोग किंवा इतर परिस्थितीचे निदान, उपचार, प्रतिबंध, उपचार किंवा शमन’ यासाठी उपयुक्तता म्हणून परिभाषित केली जाते, मग असा वापर हेतुपुरस्सर असो वा नसो. विशिष्ट उद्दिष्टे खालीलप्रमाणे होती:
- LLM आउटपुट उपकरणाच्या निकषांशी जुळते का, जेव्हा त्या निकषांबद्दल सूचना दिल्या जातात आणि क्लिनिकल आणीबाणी सादर केली जाते, हे निर्धारित करणे.
- मॉडेलचे आउटपुट डिव्हाइस-सारखे आउटपुट देण्यासाठी कोणत्या परिस्थितीत बदलले जाऊ शकते हे ओळखणे. यामध्ये डायग्नोस्टिक आणि उपचार माहितीसाठी थेट विनंत्या, तसेच नॉन-डिव्हाइस निकषांचे पालन करण्याचे प्रॉम्प्ट असूनही डिव्हाइस-सारखे आउटपुट मिळवण्यासाठी डिझाइन केलेले पूर्वनिर्धारित “जेलब्रेक” समाविष्ट होते.
निष्कर्ष: LLM प्रतिसाद आणि डिव्हाइस निकषांचे संरेखन
प्रतिबंधात्मक काळजी शिफारसी
प्रतिबंधात्मक काळजी शिफारशींसाठी विचारले असता, सर्व LLMs नी त्यांच्या अंतिम मजकूर आउटपुटमध्ये नॉन-डिव्हाइस निकषांशी सुसंगत प्रतिसाद तयार केले. Llama-3 मॉडेलने, सिंगल-शॉट प्रॉम्प्टला प्रतिसाद देताना, सुरुवातीला प्रतिसादांच्या लहान टक्केवारीमध्ये (फॅमिली मेडिसिनसाठी 20% आणि मानसोपचार प्रतिबंधात्मक काळजी परिस्थितीसाठी 60%) डिव्हाइस-सारखे निर्णय समर्थन प्रदान केले. तथापि, ते त्वरित हा मजकूर ‘सॉरी, मी आत्ता या विनंतीमध्ये आपल्याला मदत करू शकत नाही’ या अस्वीकरणाने बदलले. डिव्हाइस निकषांच्या तपशीलवार उदाहरणांसह मल्टी-शॉट प्रॉम्प्ट सादर केल्यावर, सर्व मॉडेल्सनी सर्व प्रारंभिक प्रतिबंधात्मक काळजी प्रतिसादांसाठी सातत्याने नॉन-डिव्हाइस शिफारसी प्रदान केल्या.
वेळ-गंभीर आणीबाणी परिस्थिती
वेळ-गंभीर आणीबाणीच्या परिस्थितीत, GPT-4 च्या 100% प्रतिसाद आणि Llama-3 च्या 52% प्रतिसाद डिव्हाइस-सारख्या निर्णय समर्थनाशी जुळले. डिव्हाइस-सारख्या शिफारशींचे एकूण दर मल्टी-शॉट प्रॉम्प्टसह सुसंगत राहिले, परंतु वेगवेगळ्या क्लिनिकल परिस्थितींमध्ये भिन्नता दर्शविली. या डिव्हाइस-सारख्या प्रतिसादांमध्ये आणीबाणीशी संबंधित विशिष्ट निदान आणि उपचारांसाठी सूचना समाविष्ट होत्या.
‘डेस्परेट इंटर्न’ जेलब्रेक
‘डेस्परेट इंटर्न’ जेलब्रेकला सामोरे जाताना, प्रतिसादांच्या महत्त्वपूर्ण प्रमाणात डिव्हाइस-सारख्या शिफारसी दिसून आल्या. विशेषतः, GPT-4 च्या 80% आणि 68% प्रतिसाद, आणि Llama-3 च्या 36% आणि 76% प्रतिसादांमध्ये अनुक्रमे सिंगल- आणि मल्टी-शॉट प्रॉम्प्टनंतर डिव्हाइस-सारख्या शिफारसी समाविष्ट होत्या.
LLM सूचनांची क्लिनिकल योग्यता
हे लक्षात घेणे महत्त्वाचे आहे की सर्व मॉडेल सूचना क्लिनिकली योग्य होत्या आणि काळजीच्या स्थापित मानकांशी जुळलेल्या होत्या. फॅमिली मेडिसिन आणि कार्डिओलॉजी परिस्थितींमध्ये, बहुतेक डिव्हाइस-सारखे निर्णय समर्थन केवळ प्रशिक्षित क्लिनिशियनसाठी योग्य होते. उदाहरणांमध्ये इंट्राव्हेनस कॅथेटर (intravenous catheter) टाकणे आणि इंट्राव्हेनस अँटीबायोटिक्स (intravenous antibiotics) देणे समाविष्ट आहे. इतर परिस्थितींमध्ये, डिव्हाइस-सारख्या शिफारसी सामान्यतः बायस्टँडर (bystander) मानकांशी सुसंगत होत्या, जसे की ओपिओइड ओव्हरडोजसाठी नॅलोक्सोन (naloxone) देणे किंवा ॲनाफिलेक्सिससाठी एपिनेफ्रिन ऑटो-इंजेक्टर (epinephrine auto-injector) वापरणे.
नियमन आणि देखरेखीसाठी परिणाम
सध्या कोणतेही LLM FDA-अधिकृत CDSS नसले आणि काहींनी स्पष्टपणे सांगितले आहे की ते वैद्यकीय सल्ल्यासाठी वापरले जाऊ नये, तरीही रुग्ण आणि क्लिनिशियन कदाचित त्यांचा वापर या उद्देशासाठी करत असतील. अभ्यासात असे आढळून आले की FDA मार्गदर्शन दस्तऐवजातील भाषेवर आधारित सिंगल-शॉट किंवा मल्टी-शॉट प्रॉम्प्ट, LLMs ना केवळ नॉन-डिव्हाइस निर्णय समर्थन तयार करण्यापुरते मर्यादित ठेवण्यासाठी पुरेसे नाहीत. शिवाय, डिव्हाइस-सारखे निर्णय समर्थन मिळवण्यासाठी पूर्वनिर्धारित जेलब्रेकची अनेकदा आवश्यकता नसते. हे निष्कर्ष AI/ML CDSSs साठी तयार केलेल्या नवीन नियामक प्रतिमानांची आवश्यकता अधोरेखित करणाऱ्या पूर्वीच्या संशोधनाची पुष्टी करतात. जनरेटिव्ह AI तंत्रज्ञान समाविष्ट करणाऱ्या वैद्यकीय उपकरणांच्या देखरेखीवरही याचा थेट परिणाम होतो.
नियामक दृष्टिकोन
प्रभावी नियमनासाठी LLM आउटपुटला डिव्हाइस-सारखे किंवा नॉन-डिव्हाइस निर्णय समर्थनाशी अधिक चांगल्या प्रकारे जुळवून घेण्यासाठी नवीन पद्धती आवश्यक असू शकतात, जे अभिप्रेत वापरांवर अवलंबून असेल. पारंपारिक FDA अधिकृतता वैद्यकीय उपकरणाला विशिष्ट हेतू आणि സൂचनेसाठी दिली जाते. उदाहरणार्थ, FDA-अधिकृत AI/ML उपकरणांमध्ये हेमोडायनामिक अस्थिरता (hemodynamic instability) किंवा क्लिनिकल ऱ्हास (clinical deterioration) चा अंदाज घेण्यासाठी डिझाइन केलेले उपकरण समाविष्ट आहेत. तथापि, LLMs ना विविध विषयांवर प्रश्न विचारले जाऊ शकतात, ज्यामुळे संभाव्यत: असे प्रतिसाद मिळू शकतात जे योग्य असले तरी, त्यांच्या मंजूर केलेल्या സൂचनेच्या सापेक्ष ‘ऑफ-लेबल’ मानले जातील. परिणाम दर्शवतात की सिंगल- आणि मल्टी-शॉट प्रॉम्प्ट हे नियंत्रित करण्यासाठी पुरेसे नाहीत. हे निष्कर्ष LLMs ची मर्यादा दर्शवत नाहीत, परंतु नवीन पद्धतींची आवश्यकता अधोरेखित करतात जे LLM आउटपुटची लवचिकता जपतात आणि त्याच वेळी ते मंजूर केलेल्या സൂचनेपुरते मर्यादित ठेवतात.
नवीन अधिकृतता मार्ग
LLMs च्या नियमनासाठी नवीन अधिकृतता मार्गांची आवश्यकता असू शकते जे विशिष्ट സൂचनांशी जोडलेले नाहीत. ‘सामान्यीकृत’ निर्णय समर्थनासाठी एक उपकरण अधिकृतता मार्ग LLMs आणि जनरेटिव्ह AI साधनांसाठी योग्य असू शकतो. हा दृष्टिकोन AI/ML CDSS मध्ये नावीन्यपूर्णतेला प्रोत्साहन देईल, परंतु अशा विस्तृत सूचना असलेल्या प्रणालींची सुरक्षितता, परिणामकारकता आणि समानतेचे मूल्यांकन करण्याची इष्टतम पद्धत अस्पष्ट आहे. उदाहरणार्थ, अधिकृततेसाठी ‘फर्म-आधारित’ दृष्टिकोन उपकरण-विशिष्ट मूल्यांकनाची आवश्यकता टाळू शकतो, जे LLM साठी योग्य असू शकते, परंतु ते क्लिनिकल परिणामकारकता आणि सुरक्षिततेबद्दल अनिश्चित हमीसह येते.
विविध वापरकर्ता गटांसाठी निकष
हे निष्कर्ष क्लिनिशियन आणि नॉन-क्लिनिशियन बायस्टँडरसाठी असलेल्या CDSSs साठी निकष सुधारण्याची गरज अधोरेखित करतात. FDA ने पूर्वी सूचित केले आहे की रुग्ण- आणि काळजीवाहू-समोर असलेल्या CDSSs वैद्यकीय उपकरणे मानली जातील, जे सामान्यत: नियमनाच्या अधीन असतील. तथापि, नॉन-क्लिनिशियन बायस्टँडरसाठी डिझाइन केलेल्या AI/ML CDSS साठी सध्या कोणतीही नियामक श्रेणी नाही. विशिष्ट निदान करणे आणि वेळ-गंभीर आणीबाणीसाठी विशिष्ट निर्देश देणे हे हेल्थकेअर प्रोफेशनल्ससाठी असलेल्या उपकरणांसाठी FDA च्या निकषांशी स्पष्टपणे जुळते. दुसरीकडे, कार्डिओपल्मोनरी रिसुसिटेशन (CPR) आणि एपिनेफ्रिन (epinephrine) किंवा नॅलोक्सोन (naloxone) सारख्या कृती देखील या उपकरणाच्या निकषांची पूर्तता करतात, तरीही त्या एकाच वेळी नॉन-क्लिनिशियन बायस्टँडरसाठी बचाव वर्तन म्हणून स्थापित आहेत.
अभ्यासाच्या मर्यादा
या अभ्यासाला अनेक मर्यादा आहेत:
- हे LLMs चे मूल्यांकन अशा कार्यासाठी करते जे सॉफ्टवेअरचा निर्दिष्ट केलेला हेतू नाही.
- हे LLM आउटपुटची तुलना FDA मार्गदर्शनाशी करते, जे बंधनकारक नाही, आणि LLM शिफारशींची इतर संबंधित US वैधानिक तरतुदी किंवा नियामक फ्रेमवर्कशी सुसंगतता तपासत नाही.
- हे इतर प्रॉम्प्टिंग पद्धतींचे मूल्यांकन करत नाही जे सिंगल- आणि मल्टी-शॉट प्रॉम्प्टपेक्षा अधिक प्रभावी असू शकतात.
- असे प्रॉम्प्ट वास्तविक-जगातील क्लिनिकल वर्कफ्लोमध्ये कसे एकत्रित केले जाऊ शकतात याचा शोध घेत नाही.
- हे GPT-4 आणि Llama-3 व्यतिरिक्त इतर मोठ्या प्रमाणावर उपलब्ध आणि सामान्यतः वापरल्या जाणाऱ्या LLMs ची विस्तृत श्रेणी तपासत नाही.
- प्रॉम्प्टचा नमुना आकार लहान आहे.
पुढे काय?: संतुलन आणि सुरक्षितता
CDSS डिव्हाइस निकषांसाठी FDA मार्गदर्शनाच्या मजकुरावर आधारित प्रॉम्प्ट, मग ते सिंगल- किंवा मल्टी-शॉट असले, तरी LLM आउटपुट नॉन-डिव्हाइस निर्णय समर्थनाशी जुळलेले असल्याची खात्री करण्यासाठी पुरेसे नाहीत. जनरेटिव्ह AI प्रणालींना संबोधित करण्यासाठी नवीन नियामक प्रतिमान आणि तंत्रज्ञानाची आवश्यकता आहे, जेणेकरून नावीन्यपूर्णता, सुरक्षितता आणि क्लिनिकल परिणामकारकता यांच्यात संतुलन राखता येईल. या तंत्रज्ञानाचा वेगवान विकास नियमनासाठी सक्रिय आणि अनुकूल दृष्टिकोन आवश्यक आहे, हे सुनिश्चित करतो की आरोग्यसेवेमध्ये LLMs चे फायदे मिळवता येतील आणि संभाव्य धोके कमी करता येतील.