Kardiyovasküler Önlemede Dil Modeli Performansı

Büyük dil modellerinin (LLM’ler) yükselişi, kardiyovasküler hastalık (KVH) önlemesi ile ilgili kamu sorularını ele almak için ilgi çekici olasılıklar sunmaktadır. İnsan benzeri bir şekilde anlayıp yanıt verme kapasitesine sahip olan bu modeller, giderek artan bir şekilde tıbbi bilgi kaynakları olarak kullanılmaktadır. Ancak, özellikle farklı dillerde sağladıkları bilgilerin güvenilirliği ve doğruluğu hakkında sorular devam etmektedir. Bu analiz, İngilizce ve Çince’deki KVH önleme sorgularını ele alma yeteneklerini özel olarak inceleyerek, çeşitli önde gelen LLM’lerin kapsamlı bir değerlendirmesine girmektedir.

LLM Performansının Değerlendirilmesi: Doğruluk ve Tutarlılık

Temel amacımız, önde gelen LLM’ler tarafından KVH önleme ile ilgili sorulara verildiğinde sağlanan yanıtların doğruluğunu değerlendirmekti. BARD (Google’ın dil modeli), ChatGPT-3.5 ve ChatGPT-4.0 (OpenAI’ın modelleri) ve ERNIE’ye (Baidu’nun modeli) odaklandık. Her bir LLM’ye 75 titizlikle hazırlanmış KVH önleme sorusu soruldu ve yanıtlar uygunluklarına göre değerlendirildi (uygun, sınırda veya uygunsuz olarak kategorize edildi).

İngilizce Dil Performansı

İngilizcede, LLM’ler dikkate değer bir doğruluk gösterdi. BARD %88.0 “uygun” derecesine ulaşırken, ChatGPT-3.5 %92.0 ve ChatGPT-4.0 %97.3 ile öne çıktı. Bu sonuçlar, LLM’lerin KVH önleme konusunda rehberlik arayan İngilizce konuşan kullanıcılara değerli bilgiler sağlayabileceğini göstermektedir.

Çince Dil Performansı

Analiz, LLM’lerin performansının değiştiği Çince dil sorgularına kadar uzatıldı. ERNIE %84.0 “uygun” derecesi elde ederken, ChatGPT-3.5 %88.0 ve ChatGPT-4.0 %85.3’e ulaştı. Sonuçlar genellikle pozitif olsa da, bu modellerde potansiyel bir dil önyargısına işaret ederek, İngilizce’ye kıyasla performansta hafif bir düşüş olduğunu da gösterdi.

Zamansal İyileşme ve Öz-Farkındalık

İlk doğruluğun ötesinde, LLM’lerin zaman içinde yanıtlarını geliştirme yeteneğini ve doğruluklarının öz-farkındalığını araştırdık. Bu, modellerin başlangıçta sağlanan optimal olmayan yanıtlara nasıl yanıt verdiğini ve istendiğinde hataları tanımlayıp düzeltebilip düzeltemediğini değerlendirmeyi içeriyordu.

Zaman İçinde Gelişmiş Yanıtlar

Analiz, LLM’lerin zamansal iyileşme gösterdiğini ortaya çıkardı. Başlangıçta optimal olmayan yanıtlarla sunulduğunda, BARD ve ChatGPT-3.5 %67 (sırasıyla 6/9 ve 4/6) oranında iyileşirken, ChatGPT-4.0 mükemmel %100 iyileşme oranına (2/2) ulaştı. Bu, LLM’lerin kullanıcı etkileşimlerinden ve geri bildirimlerden öğrendiğini ve zaman içinde daha doğru ve güvenilir bilgilere yol açtığını göstermektedir.

Doğruluğun Öz-Farkındalığı

Ayrıca LLM’lerin yanıtlarının doğruluğunu tanıma yeteneğini de inceledik. BARD ve ChatGPT-4.0 , ChatGPT-3.5’ten daha iyi performans göstererek, sağladıkları bilgilerin doğruluğunun daha iyi bir öz-farkındalığını gösterdi. Bu özellik, yanlış bilgilerin ciddi sonuçlara yol açabileceği tıbbi bağlamlarda özellikle değerlidir.

ERNIE’nin Çince’deki Performansı

Çince istemlerin analizi, ERNIE’nin zamansal gelişmelerde ve doğruluk öz-farkındalığında başardığını ortaya koydu. Bu, ERNIE’nin KVH önleme kılavuzu arayan Çince konuşan kullanıcılara doğru ve güvenilir bilgiler sağlamaya uygun olduğuna işaret ediyor.

LLM Sohbet Robotlarının Kapsamlı Değerlendirilmesi

Yaygın ve popüler LLM sohbet robotlarını içeren kapsamlı bir değerlendirme sağlamak için bu çalışma, OpenAI tarafından ChatGPT-3.5 ve ChatGPT-4.0, Google tarafından BARD ve Baidu tarafından ERNIE olmak üzere dört önde gelen modeli içeriyordu. İngilizce istemlerin değerlendirilmesi ChatGPT 3.5, ChatGPT 4 ve BARD’ı içeriyordu; Çince istemler için değerlendirme ChatGPT 3.5, ChatGPT 4 ve ERNIE’yi içeriyordu. Modeller, analiz sırasında bu parametrelerde ayarlamalar yapılmadan varsayılan yapılandırmaları ve sıcaklık ayarlarıyla kullanıldı.

Soru Üretimi ve Sohbet Robotu Yanıt Değerlendirmesi

Amerikan Kardiyoloji Koleji ve Amerikan Kalp Derneği, KVH önleme için risk faktörleri, tanı testleri ve tedavi seçeneklerinin yanı sıra hasta eğitimi ve kendi kendine yönetim stratejileri hakkında bilgiler içeren yönergeler ve öneriler sunar. İki deneyimli kardiyolog, KVH önleme ile ilgili sorular üreterek, bir hastanın bakış açısıyla alaka düzeyini ve anlaşılabilirliği sağlamak için bunları hastaların doktorlara nasıl soracağına benzer şekilde çerçeveledi. Bu hasta merkezli ve kılavuz tabanlı yaklaşım, çeşitli alanları kapsayan 300 sorudan oluşan son bir set ortaya çıkardı. Bu sorular daha sonra, geleneksel ve uluslararası birimlerin uygun şekilde kullanılmasını sağlayarak Çinceye çevrildi.

Körleştirme ve Rastgele Sıralı Değerlendirme

Derecelendiricilerin, farklı LLM Sohbet Robotları arasındaki yanıtın kökenini ayırt edememesini sağlamak için, sohbet robotuna özgü tüm özellikler manuel olarak gizlendi. Değerlendirme, körleştirilmiş ve rastgele sıralanmış şekilde yapıldı ve üç sohbet robotundan gelen yanıtlar soru seti içinde rastgele karıştırıldı. Üç sohbet robotundan gelen yanıtlar, son zamanlara ait önyargıyı hafifletmek için aralarında 48 saatlik bir temizleme aralığı ile üç kardiyolog tarafından kör bir şekilde değerlendirilmek üzere 1: 1: 1 oranında rastgele 3 tura atandı.

Doğruluk Değerlendirme Metodolojisi

Birincil sonuç, birincil KVH önleme sorularına yanıt vermede performanstı. Spesifik olarak, yanıtları değerlendirmek için iki adımlı bir yaklaşım kullanıldı. İlk adımda, bir kardiyolog paneli tüm LLM Sohbet Robotu tarafından oluşturulan yanıtları gözden geçirdi ve uzman görüş birliği ve yönergelerle ilişkili olarak bunları “uygun”, “sınırda” veya “uygunsuz” olarak derecelendirdi. İkinci adımda, bir çoğunluk konsensüs yaklaşımı kullanıldı ve her bir sohbet robotu yanıtı için nihai derecelendirme, üç derecelendirici arasında en yaygın derecelendirmeye dayandı. Üç derecelendirici arasında çoğunluk konsensüsünün elde edilemediği senaryolarda, nihai derecelendirmeye karar vermek için kıdemli bir kardiyologa danışıldı.

Temel Bulguların Analizi

Veriler, LLM sohbet robotunun genel olarak Çince istemlerden daha iyi İngilizce istemlerle performans gösterdiğini ortaya çıkardı. Özellikle, İngilizce istemler için BARD, ChatGPT-3.5 ve ChatGPT-4.0 benzer toplam puanlar gösterdi. ‘Uygun’ derecelendirme oranları karşılaştırılırken, ChatGPT-4.0, ChatGPT-3.5 ve Google Bard’a göre önemli ölçüde daha yüksek bir yüzdeye sahipti. Çince istemler için, ChatGPT3.5, ardından ChatGPT-4.0 ve Ernie daha yüksek bir toplam puana sahipti. Ancak, farklılıklar istatistiksel olarak anlamlı değildi. Benzer şekilde, ChatGPT-3.5, ChatGPT-4.0 ve ERNIE’ye kıyasla Çince istemler için daha yüksek bir ‘uygun derecelendirme’ oranına sahipti, ancak farklılıklar istatistiksel olarak anlamlı değildi.

KVH Önleme Alanlarındaki Performans

Analiz, farklı KVH önleme alanlarındaki “uygun” derecelendirmelere odaklandı. Dikkat çekici bir şekilde, ChatGPT-4.0 çoğu alanda sürekli olarak iyi performans gösterdi ve özellikle “dislipidemi”, “yaşam tarzı”, “biyobelirteç ve enflamasyon” ve “DM ve BHD” alanlarında yüksek notlar aldı. Bununla birlikte, BARD özellikle “yaşam tarzı” alanında ChatGPT4.0 ve ChatGPT-3.5’e kıyasla optimal olmayan bir performans sergiledi. Bulgular, üç LLM Sohbet Robotunun da “yaşam tarzı” alanında iyi performans gösterdiğini ve %100 “uygun” derecelendirmeye sahip olduğunu vurguladı (Ek Tablo S6). Ancak, bazı modeller belirli önleme alanlarında daha fazla etkililik göstererek diğer alanlarda performans farklılıkları gözlendi.

Sağlık Okuryazarlığı İçin Etkileri

Çalışmanın bulguları, kardiyovasküler sağlık okuryazarlığını iyileştirme çabaları için önemli etkiler taşımaktadır. Bireyler tıbbi bilgi için giderek artan bir şekilde çevrimiçi kaynaklara yöneldiğinden, LLM’ler KVH önleme anlayışını geliştirmek için değerli araçlar olarak hizmet etme potansiyeline sahiptir. Doğru ve erişilebilir bilgiler sağlayarak, LLM’ler bilgi boşluklarını giderebilir ve bireyleri sağlıkları hakkında bilinçli kararlar almaya teşvik edebilir.

Performanstaki Eşitsizlikler

Çalışma ayrıca LLM performansında farklı dillerde önemli eşitsizlikler ortaya çıkardı. LLM’lerin genellikle Çince istemlerden daha iyi İngilizce istemlerle performans göstermesi, bu modellerde potansiyel bir dil önyargısını vurgulamaktadır. Bu sorunu ele almak, LLM’lerin anadilleri ne olursa olsun, tüm bireyler için doğru tıbbi bilgilere eşit erişim sağlamak için çok önemlidir.

Dile Özgü Modellerin Rolü

ERNIE’nin Çince’deki performansının analizi, dile özgü LLM’lerin rolü hakkında değerli bilgiler sunmaktadır. ERNIE’nin, zamansal gelişiminde ve doğruluk öz-farkındalığındaki gücü, belirli dillere uyarlanmış modellerin dil nüanslarını ve kültürel bağlamları etkili bir şekilde ele alabileceğini göstermektedir. Tıbbi bilgilerin çeşitli popülasyonlara ulaştırılmasını optimize etmek için dile özgü LLM’lerin daha da geliştirilmesi ve iyileştirilmesi esastır.

Sınırlamalar ve Gelecek Yönelimler

Bu çalışma, LLM’lerin KVH önleme sorgularını ele alma yetenekleri hakkında değerli bilgiler sağlarken, belirli sınırlamaları kabul etmek esastır. Kullanılan sorular, KVH önleme açısından soruların küçük bir bölümünü temsil ediyordu. Bulguların genellenebilirliği, stokastik yanıtların etkisine tabidir. Ek olarak, LLM’lerin hızlı evrimi, güncellenmiş yinelemeleri ve ortaya çıkan modelleri barındırmak için devam eden araştırmalar gerektirmektedir. Gelecekteki çalışmalar, soru kapsamını genişletmeli, LLM’lerle farklı etkileşim kalıplarının etkisini araştırmalı ve tıbbi bağlamlarda kullanımlarıyla ilgili etik hususları araştırmalıdır.

Sonuç

Sonuç olarak, bu bulgular LLM’lerin kardiyovasküler sağlık konusundaki kamuoyunun anlayışını artırmak için araçlar olarak vaadini vurgularken, aynı zamanda tıbbi bilgilerin doğruluğunu, adaletini ve sorumluluk sahibi bir şekilde yayılmasını sağlamak için dikkatli bir değerlendirme ve devam eden iyileştirme ihtiyacını da vurgulamaktadır. İleriye dönük yol, sürekli karşılaştırmalı değerlendirmeler, dil önyargılarını ele almak ve doğru ve güvenilir KVH önleme kılavuzuna eşit erişimi teşvik etmek için dile özgü modellerin güçlü yönlerinden yararlanmayı içermektedir.