AI Sumber Terbuka Saingi Gergasi dalam Diagnostik Perubatan

Kemaraan kecerdasan buatan (AI) yang tidak henti-henti terus membentuk semula industri, dan mungkin tiada tempat lain di mana pertaruhannya lebih tinggi, atau potensinya lebih mendalam, selain dalam bidang perubatan. Selama bertahun-tahun, model AI yang paling berkuasa, terutamanya model bahasa besar (LLM), yang mampu memproses dan menjana teks seperti manusia, sebahagian besarnya berada di sebalik tembok perlindungan gergasi teknologi. Sistem proprietari ini, seperti GPT-4 dari OpenAI yang dibincangkan secara meluas, menunjukkan kebolehan yang luar biasa, malah meluas ke dalam bidang diagnosis perubatan yang kompleks. Namun, sifat ‘kotak hitam’ mereka dan keperluan untuk menghantar maklumat sensitif ke pelayan luaran menimbulkan halangan besar untuk penggunaan yang meluas dan selamat dalam persekitaran penjagaan kesihatan, di mana privasi pesakit bukan sekadar keutamaan, tetapi satu mandat. Persoalan kritikal kekal: bolehkah dunia AI sumber terbuka yang sedang berkembang menyahut cabaran, menawarkan kuasa yang setanding tanpa menjejaskan kawalan dan kerahsiaan?

Penemuan terkini yang muncul dari dewan terhormat Harvard Medical School (HMS) menunjukkan jawapannya adalah ya yang bergema, menandakan titik perubahan yang berpotensi dalam aplikasi AI dalam persekitaran klinikal. Para penyelidik membandingkan dengan teliti model sumber terbuka terkemuka dengan rakan sejawat proprietarinya yang berprofil tinggi, menemui hasil yang boleh mendemokrasikan akses kepada alat bantuan diagnostik yang canggih.

Pesaing Baharu Memasuki Arena Diagnostik

Dalam satu kajian yang telah menarik perhatian komuniti perubatan dan teknologi, penyelidik HMS mengadu model sumber terbuka Llama 3.1 405B menentang GPT-4 yang hebat. Medan ujian adalah satu set 70 kajian kes perubatan mencabar yang dipilih dengan teliti. Ini bukanlah senario rutin; ia mewakili teka-teki diagnostik kompleks yang sering dihadapi dalam amalan klinikal. Objektifnya jelas: untuk menilai ketajaman diagnostik setiap model AI secara bersemuka.

Hasilnya, yang diterbitkan baru-baru ini, sangat menarik. Model Llama 3.1 405B, yang tersedia secara percuma untuk dimuat turun, diperiksa dan diubah suai oleh pengguna, menunjukkan ketepatan diagnostik setanding dengan, dan dalam beberapa metrik malah melebihi, GPT-4. Secara khusus, apabila menilai ketepatan cadangan diagnostik awal yang ditawarkan oleh setiap model, Llama 3.1 405B mempunyai kelebihan. Tambahan pula, apabila mempertimbangkan diagnosis akhir yang dicadangkan selepas memproses butiran kes, pesaing sumber terbuka itu sekali lagi membuktikan kehebatannya menentang penanda aras yang sedia ada.

Pencapaian ini penting bukan sahaja untuk prestasi itu sendiri, tetapi untuk apa yang diwakilinya. Buat pertama kalinya, alat sumber terbuka yang mudah diakses dan telus telah terbukti mampu beroperasi pada tahap tinggi yang sama seperti sistem sumber tertutup terkemuka dalam tugas diagnosis perubatan yang mencabar berdasarkan kajian kes. Arjun K. Manrai ’08, seorang profesor HMS yang menyelia penyelidikan itu, menyifatkan pariti dalam prestasi sebagai ‘agak luar biasa’, terutamanya memandangkan konteks sejarah.

Kelebihan Sumber Terbuka: Membuka Kunci Privasi Data dan Penyesuaian

Pengubah permainan sebenar yang diserlahkan oleh kajian Harvard terletak pada perbezaan asas antara model sumber terbuka dan proprietari: kebolehcapaian dan kawalan. Model proprietari seperti GPT-4 biasanya memerlukan pengguna menghantar data ke pelayan penyedia untuk diproses. Dalam penjagaan kesihatan, ini serta-merta menimbulkan kebimbangan. Maklumat pesakit – simptom, sejarah perubatan, keputusan ujian – adalah antara data paling sensitif yang boleh dibayangkan, dilindungi oleh peraturan ketat seperti HIPAA di Amerika Syarikat. Prospek menghantar data ini ke luar rangkaian selamat hospital, walaupun untuk potensi manfaat analisis AI lanjutan, telah menjadi penghalang utama.

Model sumber terbuka, seperti Llama 3.1 405B, secara asasnya mengubah dinamik ini. Kerana kod dan parameter model tersedia secara umum, institusi boleh memuat turun dan menggunakannya dalam infrastruktur selamat mereka sendiri.

  • Kedaulatan Data: Hospital boleh menjalankan AI sepenuhnya pada pelayan tempatan atau awan peribadi mereka. Data pesakit tidak perlu meninggalkan persekitaran terlindung institusi, dengan berkesan menghapuskan kebimbangan privasi yang berkaitan dengan penghantaran data luaran. Konsep ini sering dirujuk sebagai membawa ‘model ke data’, bukannya menghantar ‘data ke model’.
  • Keselamatan Dipertingkat: Mengekalkan proses secara dalaman mengurangkan permukaan serangan dengan ketara untuk potensi pelanggaran data yang berkaitan dengan penyedia AI pihak ketiga. Kawalan ke atas persekitaran operasi kekal sepenuhnya dengan institusi penjagaan kesihatan.
  • Ketelusan dan Kebolehauditan: Model sumber terbuka membolehkan penyelidik dan pakar klinik berpotensi memeriksa seni bina model dan, pada tahap tertentu, memahami proses membuat keputusannya dengan lebih baik daripada sistem proprietari yang legap. Ketelusan ini boleh memupuk kepercayaan yang lebih besar dan memudahkan penyahpepijatan atau penambahbaikan.

Thomas A. Buckley, seorang pelajar Ph.D. dalam program AI dalam Perubatan Harvard dan pengarang pertama kajian itu, menekankan kelebihan kritikal ini. ‘Model sumber terbuka membuka kunci penyelidikan saintifik baharu kerana ia boleh digunakan dalam rangkaian hospital sendiri,’ katanya. Keupayaan ini bergerak melangkaui potensi teori dan membuka pintu untuk aplikasi praktikal yang selamat.

Tambahan pula, sifat sumber terbuka membolehkan tahap penyesuaian yang belum pernah terjadi sebelumnya. Hospital dan kumpulan penyelidikan kini boleh menala halus model asas yang berkuasa ini menggunakan data pesakit khusus mereka sendiri.

  • Penalaan Khusus Populasi: Model boleh disesuaikan untuk mencerminkan demografi, penyakit lazim, dan cabaran kesihatan unik populasi tempatan atau serantau tertentu yang dilayani oleh sistem hospital dengan lebih baik.
  • Penjajaran Protokol: Tingkah laku AI boleh diselaraskan untuk sejajar dengan laluan diagnostik khusus hospital, protokol rawatan, atau standard pelaporan.
  • Aplikasi Khusus: Penyelidik boleh membangunkan versi model yang sangat khusus yang disesuaikan untuk domain perubatan tertentu, seperti sokongan interpretasi analisis imej radiologi, penyaringan laporan patologi, atau mengenal pasti corak penyakit jarang jumpa.

Buckley menghuraikan implikasi ini: ‘Penyelidik kini boleh menggunakan AI klinikal terkini secara langsung dengan data pesakit… Hospital boleh menggunakan data pesakit untuk membangunkan model tersuai (contohnya, untuk sejajar dengan populasi pesakit mereka sendiri).’ Potensi untuk alat AI yang ditempah khas ini, dibangunkan dengan selamat secara dalaman, mewakili lonjakan besar ke hadapan.

Konteks: Gelombang Kejutan AI dalam Kes Kompleks

Penyiasatan pasukan Harvard terhadap Llama 3.1 405B tidak dijalankan dalam vakum. Ia sebahagiannya diilhamkan oleh riak yang dicipta oleh penyelidikan terdahulu, terutamanya kertas kerja 2023 yang terkenal. Kajian itu mempamerkan kecekapan mengejutkan model GPT dalam menangani beberapa kes klinikal yang paling membingungkan yang diterbitkan dalam New England Journal of Medicine (NEJM) yang berprestij. ‘Rekod Kes Massachusetts General Hospital’ NEJM ini adalah legenda dalam kalangan perubatan – kes-kes yang rumit, sering membingungkan yang mencabar walaupun pakar klinik berpengalaman.

‘Kertas kerja ini mendapat banyak perhatian dan pada dasarnya menunjukkan bahawa model bahasa besar ini, ChatGPT, entah bagaimana boleh menyelesaikan kes-kes klinikal yang sangat mencabar ini, yang agak mengejutkan orang ramai,’ Buckley teringat. Idea bahawa AI, pada dasarnya mesin padanan corak kompleks yang dilatih pada sejumlah besar teks, boleh merungkai misteri diagnostik yang sering memerlukan intuisi dan pengalaman klinikal yang mendalam adalah menarik dan, bagi sesetengah pihak, meresahkan.

‘Kes-kes ini terkenal sukar,’ tambah Buckley. ‘Ia adalah beberapa kes paling mencabar yang dilihat di Mass General Hospital, jadi ia menakutkan para doktor, dan sama menakutkannya apabila model AI boleh melakukan perkara yang sama.’ Demonstrasi awal ini menggariskan potensi mentah LLM dalam perubatan tetapi juga memperkuat keperluan mendesak untuk menangani isu privasi dan kawalan yang wujud dalam sistem proprietari. Jika AI menjadi sehebat ini, memastikan ia boleh digunakan dengan selamat dan beretika dengan data pesakit sebenar menjadi amat penting.

Pengeluaran model Llama 3.1 405B Meta mewakili titik perubahan yang berpotensi. Skala model yang besar – ditunjukkan oleh ‘405B’nya, merujuk kepada 405 bilion parameter (pembolehubah yang diselaraskan oleh model semasa latihan untuk membuat ramalan) – menandakan tahap kecanggihan baharu dalam komuniti sumber terbuka. Skala besar ini mencadangkan ia mungkin memiliki kerumitan yang diperlukan untuk menyaingi prestasi model proprietari peringkat teratas seperti GPT-4. ‘Ia adalah kali pertama di mana kami mempertimbangkan, oh, mungkin ada sesuatu yang sangat berbeza berlaku dalam model sumber terbuka,’ Buckley menyatakan, menjelaskan motivasi untuk menguji Llama 3.1 405B dalam domain perubatan.

Merangka Masa Depan: Penyelidikan dan Integrasi Dunia Sebenar

Pengesahan bahawa model sumber terbuka berprestasi tinggi boleh dilaksanakan untuk tugas perubatan sensitif mempunyai implikasi yang mendalam. Seperti yang diserlahkan oleh Profesor Manrai, penyelidikan itu ‘membuka kunci dan membuka banyak kajian dan percubaan baharu.’ Keupayaan untuk bekerja secara langsung dengan data pesakit dalam rangkaian hospital yang selamat, tanpa halangan etika dan logistik perkongsian data luaran, menghapuskan satu halangan utama untuk penyelidikan AI klinikal.

Bayangkan kemungkinannya:

  • Sokongan Keputusan Masa Nyata: Alat AI disepadukan terus ke dalam sistem Rekod Kesihatan Elektronik (EHR), menganalisis data pesakit masuk dalam masa nyata untuk mencadangkan diagnosis berpotensi, menandakan nilai makmal kritikal, atau mengenal pasti interaksi ubat yang berpotensi, semuanya sementara data kekal selamat dalam sistem hospital.
  • Kitaran Penyelidikan Dipercepatkan: Penyelidik boleh menguji dan memperhalusi hipotesis AI dengan pantas menggunakan set data tempatan yang besar, berpotensi mempercepatkan penemuan penanda diagnostik baharu atau keberkesanan rawatan.
  • Pembangunan Alat Sangat Khusus: Pasukan boleh memberi tumpuan kepada membina pembantu AI untuk kepakaran perubatan khusus atau prosedur khusus yang kompleks, dilatih pada data dalaman yang sangat relevan.

Paradigma berubah, seperti yang diringkaskan oleh Manrai: ‘Dengan model sumber terbuka ini, anda boleh membawa model ke data, berbanding menghantar data anda ke model.’ Lokalisasi ini memperkasakan institusi penjagaan kesihatan dan penyelidik, memupuk inovasi sambil menegakkan standard privasi yang ketat.

Elemen Manusia yang Sangat Diperlukan: AI sebagai Pembantu Juruterbang, Bukan Kapten

Walaupun prestasi yang mengagumkan dan potensi yang menjanjikan alat AI seperti Llama 3.1 405B, para penyelidik yang terlibat cepat meredakan keterujaan dengan dos realisme yang penting. Kecerdasan buatan, tidak kira betapa canggihnya, belum lagi – dan mungkin tidak akan pernah – menjadi pengganti kepada pakar klinik manusia. Kedua-dua Manrai dan Buckley menekankan bahawa pengawasan manusia kekal amat penting.

Model AI, termasuk LLM, mempunyai batasan yang wujud:

  • Kekurangan Pemahaman Sebenar: Mereka cemerlang dalam pengecaman corak dan sintesis maklumat berdasarkan data latihan mereka, tetapi mereka kekurangan intuisi klinikal yang tulen, akal sehat, dan keupayaan untuk memahami nuansa konteks kehidupan pesakit, keadaan emosi, atau isyarat bukan lisan.
  • Potensi untuk Bias: Model AI boleh mewarisi bias yang terdapat dalam data latihan mereka, berpotensi membawa kepada cadangan atau diagnosis yang berat sebelah, terutamanya untuk kumpulan pesakit yang kurang diwakili. Model sumber terbuka menawarkan kelebihan yang berpotensi di sini, kerana data dan proses latihan kadangkala boleh diteliti dengan lebih teliti, tetapi risikonya tetap ada.
  • ‘Halusinasi’ dan Ralat: LLM diketahui kadang-kadang menjana maklumat yang kedengaran munasabah tetapi tidak betul (apa yang dipanggil ‘halusinasi’). Dalam konteks perubatan, kesilapan sedemikian boleh membawa akibat yang teruk.
  • Ketidakupayaan untuk Mengendalikan Kebaharuan: Walaupun mereka boleh memproses corak yang diketahui, AI mungkin bergelut dengan persembahan penyakit yang benar-benar baru atau gabungan simptom unik yang tidak diwakili dengan baik dalam data latihan mereka.

Oleh itu, peranan doktor dan profesional penjagaan kesihatan lain tidak berkurangan tetapi sebaliknya berubah. Mereka menjadi pengesah, penterjemah, dan pembuat keputusan muktamad yang penting. ‘Kolaborator klinikal kami sangat penting, kerana mereka boleh membaca apa yang dijana oleh model dan menilainya secara kualitatif,’ jelas Buckley. Output AI hanyalah cadangan, sekeping data untuk dinilai secara kritis dalam gambaran klinikal yang lebih luas. ‘Hasil ini hanya boleh dipercayai apabila anda boleh meminta ia dinilai oleh doktor.’

Manrai mengulangi sentimen ini, membayangkan AI bukan sebagai pendiagnosis autonomi, tetapi sebagai pembantu yang berharga. Dalam siaran akhbar sebelumnya, beliau merangka alat ini sebagai potensi ‘pembantu juruterbang yang tidak ternilai untuk pakar klinik yang sibuk,’ dengan syarat ia ‘digunakan dengan bijak dan digabungkan secara bertanggungjawab dalam infrastruktur kesihatan semasa.’ Kuncinya terletak pada integrasi yang bijaksana, di mana AI menambah keupayaan manusia – mungkin dengan meringkaskan sejarah pesakit yang luas dengan cepat, mencadangkan diagnosis pembezaan untuk kes kompleks, atau menandakan risiko berpotensi – bukannya cuba menggantikan pertimbangan pakar klinik.

‘Tetapi ia tetap penting bahawa doktor membantu memacu usaha ini untuk memastikan AI berfungsi untuk mereka,’ Manrai memberi amaran. Pembangunan dan penggunaan AI klinikal mestilah usaha kolaboratif, dibimbing oleh keperluan dan kepakaran mereka yang berada di barisan hadapan penjagaan pesakit, memastikan teknologi itu berkhidmat, bukannya menentukan, amalan perubatan. Kajian Harvard menunjukkan bahawa alat yang berkuasa dan selamat semakin tersedia; langkah kritikal seterusnya ialah memanfaatkannya secara bertanggungjawab.