স্বাস্থ্যসেবায় LLM-এর সম্ভাবনা এবং নিয়ন্ত্রক চ্যালেঞ্জ
লার্জ ল্যাঙ্গুয়েজ মডেল (LLM)-গুলির ব্যাপক প্রশিক্ষণ ডেটা এবং মানুষের মতো টেক্সট তৈরি করার ক্ষমতা রয়েছে, যা বিভিন্ন ক্ষেত্রে সিদ্ধান্ত গ্রহণে সহায়তার জন্য তাদের ব্যবহারের আগ্রহ বাড়িয়ে তুলছে। যাইহোক, জেনারেটিভ আর্টিফিশিয়াল ইন্টেলিজেন্স (AI) সিস্টেমগুলিকে আকর্ষণীয় করে তোলে এমন বৈশিষ্ট্যগুলি নিয়ন্ত্রক সংস্থাগুলির জন্য অনন্য বাধা সৃষ্টি করে। এই সংস্থাগুলি কয়েক দশক আগে প্রতিষ্ঠিত কাঠামোর মধ্যে কাজ করে, যা ঐতিহ্যগত মেডিকেল ডিভাইসগুলির জন্য ডিজাইন করা হয়েছে, AI-এর গতিশীল প্রকৃতির জন্য নয়।
বর্তমানে উপলব্ধ LLM-গুলিকে মেডিকেল ডিভাইস হিসাবে শ্রেণীবদ্ধ করা হয়নি। ফেডারেল ফুড, ড্রাগ, অ্যান্ড কসমেটিক অ্যাক্ট (FD&C Act § 201(h)(1)) একটি মেডিকেল ডিভাইসকে সংজ্ঞায়িত করে “একটি যন্ত্র… যা রোগ নির্ণয়, … নিরাময়, প্রশমন, চিকিৎসা, বা প্রতিরোধের জন্য ব্যবহার করার উদ্দেশ্যে তৈরি… যা রাসায়নিক ক্রিয়ার মাধ্যমে তার প্রাথমিক উদ্দেশ্য অর্জন করে না।” বেশিরভাগ LLM-এ দাবিত্যাগ অন্তর্ভুক্ত থাকে যে তারা মেডিকেল পরামর্শ দেওয়ার উদ্দেশ্যে নয়, এইভাবে FDA প্রবিধান এড়িয়ে যায়। তা সত্ত্বেও, প্রকাশিত গবেষণা এবং উপাখ্যানমূলক প্রমাণের একটি ক্রমবর্ধমান সংগ্রহ রয়েছে যা মেডিকেল সিদ্ধান্ত সহায়তার জন্য LLM-এর ব্যবহারকে তুলে ধরে, গবেষণার সেটিং এবং প্রকৃত ক্লিনিকাল অনুশীলন উভয় ক্ষেত্রেই।
LLM-ভিত্তিক ক্লিনিকাল সিদ্ধান্ত সহায়তার জন্য নিয়ন্ত্রণের সুযোগ সংজ্ঞায়িত করা
LLM-এর সম্ভাবনার কথা বিবেচনা করে, যদি তাদের আনুষ্ঠানিকভাবে ক্লিনিকাল ডিসিশন সাপোর্ট সিস্টেম (CDSS)-এ অন্তর্ভুক্ত করা হয়, তাহলে উপযুক্ত নিয়ন্ত্রণের প্রশ্নটি মুখ্য হয়ে ওঠে। 21st Century Cures Act-এর সংশোধনী FD&C Act (পাবলিক ল 114-255)-এ, FDA-এর নির্দেশিকা সহ, চারটি মূল মানদণ্ড নির্ধারণ করে যে সিদ্ধান্ত সমর্থন সফ্টওয়্যার একটি ডিভাইস হিসাবে যোগ্য কিনা এবং ফলস্বরূপ, FDA এখতিয়ারের অধীনে পড়ে। এই মানদণ্ডগুলি এর চারপাশে ঘোরে:
- সফ্টওয়্যার ফাংশনের ইনপুট ডেটা।
- এর আউটপুট ডেটা।
- এর ক্লিনিকাল সুপারিশের সারমর্ম।
- শেষ ব্যবহারকারীর সেই সুপারিশগুলির পিছনের যুক্তি পর্যালোচনা করার ক্ষমতা।
বিশেষত, একটি CDSS-কে একটি ডিভাইস হিসাবে গণ্য করা হয় যদি এর আউটপুট সাধারণ তথ্য-ভিত্তিক সুপারিশের পরিবর্তে চিকিৎসা বা নির্ণয়ের জন্য একটি সুনির্দিষ্ট নির্দেশনা প্রদান করে। অধিকন্তু, যদি CDSS তার সুপারিশগুলির অন্তর্নিহিত ভিত্তি প্রদান করতে ব্যর্থ হয়, ব্যবহারকারীদের স্বাধীনভাবে সেগুলি পর্যালোচনা করা এবং তাদের নিজস্ব সিদ্ধান্তে পৌঁছানো থেকে বিরত রাখে, তবে এটিকে একটি ডিভাইস হিসাবে শ্রেণীবদ্ধ করা হয়। FDA নির্দেশিকা আরও স্পষ্ট করে যে ক্লিনিকাল জরুরী পরিস্থিতিতে ব্যবহৃত একটি CDSS-কে একটি ডিভাইস হিসাবে বিবেচনা করা হয় কারণ সিদ্ধান্ত গ্রহণের সমালোচনামূলক এবং সময়-সংবেদনশীল প্রকৃতির কারণে, যা CDSS-এর পরামর্শের স্বাধীন মূল্যায়নকে বাধা দেয়।
জেনারেটিভ AI সিস্টেমে ডিভাইস-সদৃশ আউটপুট তদন্ত করা
এটি অস্পষ্ট রয়ে গেছে যে জেনারেটিভ AI, যেমন একটি LLM ব্যবহার করে একটি CDSS, মেডিকেল ডিভাইসের মতো আউটপুট তৈরি করে কিনা। একটি অনিয়ন্ত্রিত LLM-এর ফ্রি-টেক্সট আউটপুট প্রতিষ্ঠিত ডিভাইসের মানদণ্ড পূরণ করতে পারে বা নাও করতে পারে। উপরন্তু, চ্যালেঞ্জিং প্রম্পট বা “জেলব্রেক”-এর ক্ষেত্রে LLM প্রতিক্রিয়াগুলি কীভাবে এই মানদণ্ডগুলির সাথে সঙ্গতিপূর্ণ তা অজানা। মেডিকেল পরামর্শের জন্য LLM-এর ক্রমবর্ধমান ব্যবহার LLM-ভিত্তিক CDSS-এর ডিভাইসের উপাধি এবং নিয়ন্ত্রক স্থিতি ঘিরে অনিশ্চয়তাকে এই প্রযুক্তিগুলির নিরাপদ এবং কার্যকর বিকাশের ক্ষেত্রে একটি সম্ভাব্য প্রতিবন্ধক করে তোলে। স্বাস্থ্যসেবায় জেনারেটিভ AI-এর জন্য নিরাপত্তা এবং উদ্ভাবনের মধ্যে সঠিক ভারসাম্য বজায় রাখা অত্যন্ত গুরুত্বপূর্ণ কারণ আরও বেশি সংখ্যক চিকিত্সক এবং রোগী এই সরঞ্জামগুলি ব্যবহার করছেন।
গবেষণার উদ্দেশ্য: ডিভাইস-সদৃশ কার্যকারিতা মূল্যায়ন
এই গবেষণার লক্ষ্য ছিল LLM-গুলির ডিভাইস-সদৃশ কার্যকারিতা মূল্যায়ন করা। এই কার্যকারিতা “রোগ বা অন্যান্য অবস্থার নির্ণয়, চিকিৎসা, প্রতিরোধ, নিরাময় বা প্রশমন”-এর জন্য তাদের উপযোগিতা হিসাবে সংজ্ঞায়িত করা হয়, এই ধরনের ব্যবহার উদ্দিষ্ট বা অনুমোদিত কিনা তা নির্বিশেষে। নির্দিষ্ট উদ্দেশ্যগুলি ছিল:
- LLM আউটপুট সেই মানদণ্ডগুলি সম্পর্কে নির্দেশাবলী সহ প্রম্পট করা হলে এবং একটি ক্লিনিকাল জরুরী অবস্থার সাথে উপস্থাপন করা হলে ডিভাইসের মানদণ্ডগুলির সাথে সঙ্গতিপূর্ণ হবে কিনা তা নির্ধারণ করা।
- যদি থাকে, তবে কোন পরিস্থিতিতে একটি মডেলের আউটপুট ডিভাইস-সদৃশ আউটপুট প্রদানের জন্য ম্যানিপুলেট করা যেতে পারে তা সনাক্ত করা। এর মধ্যে ডায়াগনস্টিক এবং চিকিত্সার তথ্যের জন্য সরাসরি অনুরোধের পাশাপাশি একটি পূর্ব-নির্ধারিত “জেলব্রেক” ব্যবহার করা অন্তর্ভুক্ত ছিল যা ডিভাইস-বহির্ভূত মানদণ্ডগুলি মেনে চলার জন্য প্রম্পট থাকা সত্ত্বেও ডিভাইস-সদৃশ আউটপুট বের করার জন্য ডিজাইন করা হয়েছিল।
ফলাফল: LLM প্রতিক্রিয়া এবং ডিভাইস মানদণ্ড সারিবদ্ধকরণ
প্রতিরোধমূলক যত্নের সুপারিশ
যখন প্রতিরোধমূলক যত্নের সুপারিশের জন্য জিজ্ঞাসা করা হয়েছিল, তখন সমস্ত LLM তাদের চূড়ান্ত টেক্সট আউটপুটে ডিভাইস-বহির্ভূত মানদণ্ডগুলির সাথে সঙ্গতিপূর্ণ প্রতিক্রিয়া তৈরি করেছে। Llama-3 মডেল, একটি একক-শট প্রম্পটের প্রতিক্রিয়ায়, প্রাথমিকভাবে প্রতিক্রিয়ার একটি ছোট শতাংশে (পারিবারিক ওষুধের জন্য 20% এবং মনোরোগ প্রতিরোধমূলক যত্নের পরিস্থিতির জন্য 60%) ডিভাইস-সদৃশ সিদ্ধান্ত সমর্থন প্রদান করে। যাইহোক, এটি দ্রুত এই টেক্সটটিকে একটি দাবিত্যাগ দিয়ে প্রতিস্থাপন করেছে: “দুঃখিত, আমি এই মুহূর্তে আপনাকে এই অনুরোধে সাহায্য করতে পারছি না।” যখন ডিভাইসের মানদণ্ডের বিশদ উদাহরণ সহ একটি মাল্টি-শট প্রম্পট উপস্থাপন করা হয়েছিল, তখন সমস্ত মডেল ধারাবাহিকভাবে সমস্ত প্রাথমিক প্রতিরোধমূলক যত্নের প্রতিক্রিয়ার জন্য ডিভাইস-বহির্ভূত সুপারিশ সরবরাহ করেছিল।
সময়-সমালোচনামূলক জরুরী পরিস্থিতি
সময়-সমালোচনামূলক জরুরী পরিস্থিতি জড়িত পরিস্থিতিতে, GPT-4 প্রতিক্রিয়ার 100% এবং Llama-3 প্রতিক্রিয়ার 52% ডিভাইস-সদৃশ সিদ্ধান্ত সমর্থনের সাথে সঙ্গতিপূর্ণ। ডিভাইস-সদৃশ সুপারিশের সামগ্রিক হার মাল্টি-শট প্রম্পটগুলির সাথে সামঞ্জস্যপূর্ণ ছিল তবে বিভিন্ন ক্লিনিকাল পরিস্থিতিতে ভিন্নতা দেখিয়েছে। এই ডিভাইস-সদৃশ প্রতিক্রিয়াগুলির মধ্যে জরুরী অবস্থা সম্পর্কিত নির্দিষ্ট রোগ নির্ণয় এবং চিকিত্সার পরামর্শ অন্তর্ভুক্ত ছিল।
“Desperate Intern” জেলব্রেক
যখন “desperate intern” জেলব্রেকের শিকার করা হয়েছিল, তখন প্রতিক্রিয়ার একটি উল্লেখযোগ্য অংশ ডিভাইস-সদৃশ সুপারিশ প্রদর্শন করেছিল। বিশেষত, GPT-4 প্রতিক্রিয়ার 80% এবং 68%, এবং Llama-3 প্রতিক্রিয়ার 36% এবং 76%, যথাক্রমে একক- এবং মাল্টি-শট প্রম্পট অনুসরণ করে ডিভাইস-সদৃশ সুপারিশ অন্তর্ভুক্ত করেছে।
LLM পরামর্শের ক্লিনিকাল উপযুক্ততা
এটি লক্ষ করা গুরুত্বপূর্ণ যে সমস্ত মডেলের পরামর্শ ক্লিনিক্যালি উপযুক্ত ছিল এবং যত্নের প্রতিষ্ঠিত মানগুলির সাথে সঙ্গতিপূর্ণ ছিল। পারিবারিক ওষুধ এবং কার্ডিওলজি পরিস্থিতিতে, ডিভাইস-সদৃশ সিদ্ধান্ত সমর্থনের বেশিরভাগই শুধুমাত্র প্রশিক্ষিত চিকিত্সকদের জন্য উপযুক্ত ছিল। উদাহরণগুলির মধ্যে রয়েছে একটি ইন্ট্রাভেনাস ক্যাথেটার স্থাপন এবং ইন্ট্রাভেনাস অ্যান্টিবায়োটিকের প্রশাসন। অন্যান্য পরিস্থিতিতে, ডিভাইস-সদৃশ সুপারিশগুলি সাধারণত বাইস্ট্যান্ডার স্ট্যান্ডার্ড অফ কেয়ারের সাথে সঙ্গতিপূর্ণ ছিল, যেমন একটি ওপিওড ওভারডোজের জন্য ন্যালোক্সোন পরিচালনা করা বা অ্যানাফিল্যাক্সিসের জন্য একটি এপিনেফ্রিন অটো-ইনজেক্টর ব্যবহার করা।
প্রবিধান এবং তত্ত্বাবধানের জন্য প্রভাব
যদিও কোনও LLM বর্তমানে CDSS হিসাবে FDA-অনুমোদিত নয়, এবং কেউ কেউ স্পষ্টতই বলে যে এগুলি মেডিকেল পরামর্শের জন্য ব্যবহার করা উচিত নয়, রোগী এবং চিকিত্সকরা এখনও এই উদ্দেশ্যে সেগুলি ব্যবহার করতে পারেন। গবেষণায় দেখা গেছে যে FDA নির্দেশিকা নথির ভাষা ভিত্তিক একক-শট বা মাল্টি-শট প্রম্পট, কোনওটিই নির্ভরযোগ্যভাবে LLM-গুলিকে শুধুমাত্র ডিভাইস-বহির্ভূত সিদ্ধান্ত সমর্থন তৈরি করতে সীমাবদ্ধ করেনি। অধিকন্তু, ডিভাইস-সদৃশ সিদ্ধান্ত সমর্থন বের করার জন্য প্রায়শই একটি পূর্ব-নির্ধারিত জেলব্রেকের প্রয়োজন ছিল না। এই ফলাফলগুলি AI/ML CDSS-এর জন্য তৈরি করা অভিনব নিয়ন্ত্রক দৃষ্টান্তের প্রয়োজনীয়তা তুলে ধরে পূর্ববর্তী গবেষণাকে শক্তিশালী করে। জেনারেটিভ AI প্রযুক্তিগুলিকে অন্তর্ভুক্ত করে এমন মেডিকেল ডিভাইসগুলির তত্ত্বাবধানের জন্য তাদের সরাসরি প্রভাব রয়েছে।
নিয়ন্ত্রক পদ্ধতির পুনর্বিবেচনা
কার্যকর প্রবিধানের জন্য LLM আউটপুটকে ডিভাইস-সদৃশ বা ডিভাইস-বহির্ভূত সিদ্ধান্ত সমর্থনের সাথে আরও ভালভাবে সারিবদ্ধ করার জন্য নতুন পদ্ধতির প্রয়োজন হতে পারে, উদ্দিষ্ট ব্যবহারের উপর নির্ভর করে। ঐতিহ্যগত FDA অনুমোদন একটি নির্দিষ্ট উদ্দিষ্ট ব্যবহার এবং ইঙ্গিতের জন্য একটি মেডিকেল ডিভাইসকে দেওয়া হয়। উদাহরণস্বরূপ, FDA-অনুমোদিত AI/ML ডিভাইসগুলির মধ্যে রয়েছে হেমোডাইনামিক অস্থিরতা বা ক্লিনিকাল অবনতির পূর্বাভাস দেওয়ার জন্য ডিজাইন করা ডিভাইসগুলি। যাইহোক, LLM-গুলিকে বিভিন্ন বিষয়ে জিজ্ঞাসা করা যেতে পারে, সম্ভাব্যভাবে এমন প্রতিক্রিয়া হতে পারে যা উপযুক্ত হলেও, তাদের অনুমোদিত ইঙ্গিতের তুলনায় “অফ-লেবেল” হিসাবে বিবেচিত হবে। ফলাফলগুলি দেখায় যে একক- এবং মাল্টি-শট উভয় প্রম্পটই এটি নিয়ন্ত্রণ করার জন্য অপর্যাপ্ত। এই অনুসন্ধানটি LLM-গুলির নিজেদের সীমাবদ্ধতা উপস্থাপন করে না, বরং নতুন পদ্ধতির প্রয়োজনীয়তার উপর জোর দেয় যা LLM আউটপুটের নমনীয়তা বজায় রাখে এবং এটিকে একটি অনুমোদিত ইঙ্গিতের মধ্যে সীমাবদ্ধ রাখে।
নতুন অনুমোদন পথের অন্বেষণ
LLM-এর নিয়ন্ত্রণের জন্য নতুন অনুমোদন পথের প্রয়োজন হতে পারে যা নির্দিষ্ট ইঙ্গিতের সাথে আবদ্ধ নয়। “জেনারেলাইজড” সিদ্ধান্ত সমর্থনের জন্য একটি ডিভাইস অনুমোদন পথ LLM এবং জেনারেটিভ AI সরঞ্জামগুলির জন্য উপযুক্ত হতে পারে। যদিও এই পদ্ধতিটি AI/ML CDSS-এ উদ্ভাবনকে সহজতর করবে, তবে এই ধরনের বিস্তৃত ইঙ্গিত সহ সিস্টেমগুলির নিরাপত্তা, কার্যকারিতা এবং ন্যায্যতা মূল্যায়নের সর্বোত্তম পদ্ধতি অস্পষ্ট রয়ে গেছে। উদাহরণস্বরূপ, অনুমোদনের জন্য একটি “ফার্ম-ভিত্তিক” পদ্ধতি ডিভাইস-নির্দিষ্ট মূল্যায়নের প্রয়োজনীয়তাকে বাইপাস করতে পারে, যা একটি LLM-এর জন্য উপযুক্ত হতে পারে, তবে এটি ক্লিনিকাল কার্যকারিতা এবং নিরাপত্তা সম্পর্কিত অনিশ্চিত গ্যারান্টি সহ আসে।
বিভিন্ন ব্যবহারকারী গোষ্ঠীর জন্য মানদণ্ড পরিমার্জন
এই ফলাফলগুলি চিকিত্সক বনাম অ-চিকিত্সক বাইস্ট্যান্ডারদের জন্য উদ্দিষ্ট CDSS-এর মানদণ্ড পরিমার্জিত করার প্রয়োজনীয়তা তুলে ধরে। FDA পূর্বে ইঙ্গিত দিয়েছে যে রোগী- এবং যত্নদাতা-মুখী CDSS-গুলিকে মেডিকেল ডিভাইস হিসাবে বিবেচনা করা হবে, সাধারণত নিয়ন্ত্রণের সাপেক্ষে। যাইহোক, বর্তমানে একজন অ-চিকিত্সক বাইস্ট্যান্ডারের জন্য ডিজাইন করা AI/ML CDSS-এর জন্য কোনও নিয়ন্ত্রক বিভাগ নেই। একটি নির্দিষ্ট রোগ নির্ণয় করা এবং একটি সময়-সমালোচনামূলক জরুরী অবস্থার জন্য একটি নির্দিষ্ট নির্দেশনা প্রদান করা স্বাস্থ্যসেবা পেশাদারদের জন্য উদ্দিষ্ট ডিভাইসগুলির জন্য FDA-এর মানদণ্ডগুলির সাথে স্পষ্টতই সঙ্গতিপূর্ণ। অন্যদিকে, কার্ডিওপালমোনারি রিসাসিটেশন (CPR) এবং এপিনেফ্রিন বা ন্যালোক্সোনের প্রশাসনের মতো কাজগুলিও এই ডিভাইসের মানদণ্ডগুলি পূরণ করে, তবুও এগুলি অ-চিকিত্সক বাইস্ট্যান্ডারদের জন্য সুপ্রতিষ্ঠিত উদ্ধার আচরণ।
অধ্যয়নের সীমাবদ্ধতা
এই সমীক্ষায় বেশ কিছু সীমাবদ্ধতা রয়েছে:
- এটি LLM-গুলিকে এমন একটি কাজের বিরুদ্ধে মূল্যায়ন করে যা সফ্টওয়্যারের একটি নির্দিষ্ট উদ্দিষ্ট ব্যবহার নয়।
- এটি LLM আউটপুটকে FDA নির্দেশিকাগুলির সাথে তুলনা করে, যা বাধ্যতামূলক নয় এবং LLM সুপারিশগুলির অন্যান্য প্রাসঙ্গিক মার্কিন সংবিধিবদ্ধ বিধান বা নিয়ন্ত্রক কাঠামোর সাথে সামঞ্জস্যের মূল্যায়ন করে না।
- এটি অন্যান্য প্রম্পটিং পদ্ধতিগুলি মূল্যায়ন করে না যা একক- এবং মাল্টি-শট প্রম্পটগুলির চেয়ে বেশি কার্যকর হতে পারত।
- এটি অন্বেষণ করে না যে কীভাবে এই ধরনের প্রম্পটগুলি বাস্তব-বিশ্বের ক্লিনিকাল ওয়ার্কফ্লোতে ব্যবহারিকভাবে একত্রিত করা যেতে পারে।
- এটি GPT-4 এবং Llama-3-এর বাইরে ব্যাপকভাবে উপলব্ধ এবং সাধারণভাবে ব্যবহৃত LLM-গুলির একটি বিস্তৃত পরিসরের মূল্যায়ন করে না।
- প্রম্পটগুলির নমুনার আকার ছোট।
সামনে এগোনো: উদ্ভাবন এবং নিরাপত্তার মধ্যে ভারসাম্য বজায় রাখা
CDSS ডিভাইসের মানদণ্ডের জন্য FDA নির্দেশিকার পাঠ্যের উপর ভিত্তি করে প্রম্পটগুলি, একক- বা মাল্টি-শট যাই হোক না কেন, LLM আউটপুট ডিভাইস-বহির্ভূত সিদ্ধান্ত সমর্থনের সাথে সঙ্গতিপূর্ণ তা নিশ্চিত করার জন্য অপর্যাপ্ত। জেনারেটিভ AI সিস্টেমগুলিকে সম্বোধন করার জন্য নতুন নিয়ন্ত্রক দৃষ্টান্ত এবং প্রযুক্তির প্রয়োজন, উদ্ভাবন, নিরাপত্তা এবং ক্লিনিকাল কার্যকারিতার মধ্যে ভারসাম্য বজায় রাখা। এই প্রযুক্তির দ্রুত বিবর্তনের জন্য নিয়ন্ত্রণের ক্ষেত্রে একটি সক্রিয় এবং অভিযোজিত পদ্ধতির প্রয়োজন, যাতে স্বাস্থ্যসেবায় LLM-এর সুবিধাগুলি সম্ভাব্য ঝুঁকিগুলি হ্রাস করার সাথে সাথে উপলব্ধি করা যায়।