AI'nın Tıp Eğitimindeki Rolü

Giriş

Yapay zeka (AI) ve büyük dil modelleri (LLM) gibi teknolojilerdeki son gelişmeler, tıp eğitimi ve bilgi değerlendirme yöntemlerinde potansiyel olarak dönüştürücü değişikliklere yol açmıştır. Özellikle, bu gelişmeler tıbbi bilgilere erişimi kolaylaştırabilir ve değerlendirmeyi daha etkileşimli hale getirebilir.

Önceki araştırmalar, LLM’lerin Amerika Birleşik Devletleri Tıbbi Lisanslama Sınavı (USMLE) ve Japonya Tıbbi Lisanslama Sınavı (JMLE) gibi çeşitli tıbbi lisans sınavlarındaki performansını araştırmıştır, ancak bu sınavlar yapı ve içerik bakımından TUS’tan önemli ölçüde farklıdır. TUS, temel bilimler ve klinik bilimlere odaklanır ve özellikle Türkiye tıbbi bağlamına odaklanır; bu, LLM’lerin benzersiz bir değerlendirme ortamındaki yeteneklerini değerlendirmek için benzersiz bir fırsat sunar. Bu çalışma, dört önde gelen LLM’nin TUS’taki performansını değerlendirerek bu boşluğu doldurmayı amaçlamaktadır. Ek olarak, bu çalışma, bu bulguların müfredat tasarımı, AI destekli tıp eğitimi ve Türkiye’deki tıp değerlendirmesinin geleceği üzerindeki potansiyel etkilerini araştırmaktadır. Özellikle, LLM’lerin performansının, Türkiye tıp müfredatına göre uyarlanmış daha etkili eğitim kaynakları ve değerlendirme stratejilerinin geliştirilmesine nasıl bilgi sağlayabileceğini araştırıyoruz. Bu inceleme, yalnızca belirli bir dilin performansını anlamaya yardımcı olmakla kalmaz, aynı zamanda yapay zekanın küresel tıp eğitimi ve değerlendirmesine nasıl etkili bir şekilde entegre edileceğine dair daha geniş bir tartışmaya da katkıda bulunur.

Bu çalışmaların sonuçları, ChatGPT ve benzeri LLM’lerin tıp eğitimi ve bilgi değerlendirme süreçlerinde önemli bir rol oynayabileceğini göstermektedir. Tıbbi bilgi alımında ve değerlendirme yöntemlerinde yapay zeka ve LLM’ler, özellikle tıp eğitiminde olmak üzere yenilikçi yaklaşımların ve öğrenme yöntemlerinin geliştirilmesini sağlayabilir. Bu çalışma, ChatGPT 4, Gemini 1.5 Pro ve Cohere-Command R+’ın Türkiye’deki Tıpta Uzmanlık Eğitimi Giriş Sınavı’ndaki performansını değerlendirerek, LLM’lerin tıp eğitimi ve bilgi değerlendirme üzerindeki etkisini daha da araştırmayı amaçlamaktadır.

Bu çalışma, gelişmiş yapay zeka (AI) modellerinin (özellikle ChatGPT 4, Gemini 1.5 Pro, Command R+ ve Llama 3 70B) tıp eğitiminde ve değerlendirmesinde kullanımını, tıpta uzmanlık sınavı sorunlarını çözmedeki performanslarına odaklanarak araştırmaktadır. Çalışma, bu modellerin Türkiye’deki Tıpta Uzmanlık Eğitimi Giriş Sınavı sorularının kapsamlı ve sistematik bir analizini yapma yeteneklerini değerlendirerek, açıklama yeteneği ve doğruluk gibi faktörler dikkate alındığında, yapay zekanın tıptaki potansiyelini vurgulamaktadır. Çalışma bulguları, yapay zeka modellerinin tıp eğitimi ve değerlendirme süreçlerini önemli ölçüde kolaylaştırabileceğini ve yeni uygulama ve araştırma alanlarına kapı açabileceğini göstermektedir. Bu makalenin temel amacı, yapay zeka teknolojisindeki hızlı ilerlemeyi değerlendirmek ve farklı yapay zeka modellerinin yanıt verme yeteneklerini karşılaştırmaktır. Çalışma, ChatGPT 4, Gemini 1.5 Pro, Command R+ ve Llama 3 70B’nin 2021 Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı’nın ilk dönemindeki 240 sorudaki performansını karşılaştırmalı olarak analiz etmektedir.

Bu karşılaştırma, yapay zeka teknolojisinin gelişim yörüngesini ve farklılıklarını açıklığa kavuşturmayı amaçlamakta, özellikle tıp eğitimi ve sınav hazırlığı gibi uzmanlık alanlarındaki kullanışlılıklarına odaklanmaktadır. Nihai hedef, kullanıcıların özel ihtiyaçlarına en uygun öğrenme araçlarını seçmelerine yardımcı olacak içgörüler sağlamaktır.

Yöntem

Sorular LLM’lere Türkçe olarak sorulmuştur. Sorular, Öğrenci Seçme ve Yerleştirme Merkezi’nin resmi web sitesinden alınmıştır ve çoktan seçmeli (A’dan E’ye beş seçenekli) formatta olup, yalnızca bir en iyi yanıt bulunmaktadır. Yanıtlar LLM’ler tarafından Türkçe olarak sağlanmıştır.

Değerlendirme süreci, Öğrenci Seçme ve Yerleştirme Merkezi tarafından yayınlanan doğru yanıtlar temel alınarak yapılmıştır. Makalede şunlar belirtilmektedir: ‘Yapay zeka modellerinin sorularına verilen ‘doğru’ yanıtlar, Öğrenci Seçme ve Yerleştirme Merkezi tarafından yayınlanan yanıtlara göre tanımlanmıştır. Yalnızca soru metnindeki talimatlara göre doğru olduğu belirlenen yanıtlar ‘doğru’ olarak kabul edilmiştir.’ Soru ve yanıtların her ikisi de Türkçe olduğundan, değerlendirme süreci LLM’lerin Türkçe yanıtlarının Öğrenci Seçme ve Yerleştirme Merkezi tarafından sağlanan resmi Türkçe yanıt anahtarıyla karşılaştırılmasını içermektedir.

Tıp Eğitimi Veri Kümesi

Bu çalışma, yapay zeka modellerinin tıbbi bilgi ve vaka değerlendirmesindeki yeteneklerini test etmek için ChatGPT 4, Gemini 1.5 Pro, Command R+ ve Llama 3 70B’yi kullanmaktadır. Çalışma, 21 Mart 2021 tarihinde yapılan Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı’ndaki sorular üzerinde yapılmıştır. Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı, Öğrenci Seçme ve Yerleştirme Merkezi tarafından düzenlenen ve 240 sorudan oluşan bir sınavdır. İlk kategorideki temel bilgi soruları, tıp eğitimini tamamlamak için gereken bilgi ve etiği test etmektedir. İkinci kategori, birçok ölçüm analitik düşünme ve akıl yürütme yeteneğini kapsayan vaka sorularıdır.

Soru Zorluğu Sınıflandırması

Soruların zorluk seviyesi, Öğrenci Seçme ve Yerleştirme Merkezi tarafından yayınlanan resmi aday performans verilerine göre sınıflandırılmıştır. Özellikle, merkezin rapor ettiği her sorunun doğru cevap oranı, soruları beş zorluk seviyesine ayırmak için kullanılmıştır:

  • Seviye 1 (En kolay): Doğru cevap oranı %80 veya daha yüksek olan sorular.
  • Seviye 2: Doğru cevap oranı %60 ile %79.9 arasında olan sorular.
  • Seviye 3 (Orta): Doğru cevap oranı %40 ile %59.9 arasında olan sorular.
  • Seviye 4: Doğru cevap oranı %20 ile %39.9 arasında olan sorular.
  • Seviye 5 (En zor): Doğru cevap oranı %19.9 veya daha düşük olan sorular.

Yapay zeka modellerinin sorularına verilen ‘doğru’ yanıtlar, Öğrenci Seçme ve Yerleştirme Merkezi tarafından yayınlanan yanıtlara göre tanımlanmıştır. Yalnızca soru metnindeki talimatlara göre doğru olduğu belirlenen yanıtlar ‘doğru’ olarak kabul edilmiştir. Ek olarak, her sorunun zorluk seviyesi, Öğrenci Seçme ve Yerleştirme Merkezi tarafından yayınlanan doğru cevap oranına göre 1’den 5’e kadar sınıflandırılmıştır. Doğru cevap oranı %80 ve üzeri olan sorular en kolay (Seviye 1) olarak kabul edilirken, doğru cevap oranı %19.9 ve altında olan sorular en zor (Seviye 5) olarak kabul edilmiştir.

Bilgi ve Vaka Alanları

Türkiye’deki tıp mezunlarının uzmanlaşması için kritik bir adım olan Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı, adayların iki önemli alandaki bilgi ve vaka alanlarını değerlendirmektedir. Bu alanlar arasındaki ayrımı anlamak, yeterli hazırlık için hayati önem taşımaktadır. Bilgi alanı, adayların seçtikleri tıp alanındaki teorik anlayışlarını ve olgusal bilgilerini değerlendirmeye odaklanmaktadır. Temel kavram ve ilkelerin hakimiyetini test eder ve uzmanlıkla ilgili tıbbi bilgiler oluşturur. Temel tıp bilimleri (anatomi, biyokimya, fizyoloji vb.) ve klinik bilimler (dahiliye, cerrahi, pediatri vb.) gibi test edilen belirli tıp bilgisi alanını temsil eder. Vaka alanı ise, problem çözme, analitik düşünme, eleştirel düşünme, karar verme ve kavramları gerçek durumlara uygulama gibi bilgi uygulamalarının gerçek senaryolarını veya bağlamlarını temsil etmektedir.

İstek Mühendisliği

İstek mühendisliği, bir dil modelinden veya yapay zeka sisteminden belirli bir yanıt elde etmek için doğal dil isteklerini tasarlama ve ince ayarlama işlemidir. Nisan 2024’te, yanıtları toplamak için dil modellerini doğrudan kendi web arayüzleri aracılığıyla sorguladık.

Her modelin temel yeteneklerinin adil bir şekilde değerlendirilmesini sağlamak için, LLM’lere soruların sunulma şekline ilişkin sıkı bir metodolojik kontrol uygulanmıştır. Her soru ayrı ayrı girilmiş ve modellerin önceki etkileşimlere dayanarak öğrenmesini veya uyum sağlamasını önlemek için yeni bir soru sormadan önce oturum sıfırlanmıştır.

Veri Analizi

Tüm analizler Microsoft Office Excel ve Python yazılımı kullanılarak yapılmıştır. LLM’lerin farklı soru zorluklarındaki performanslarını karşılaştırmak için eşleştirilmemiş ki-kare testi yapılmıştır. İstatistiksel anlamlılığı belirlemek için p < 0.05 p-değer eşiği kullanılmıştır. Analiz, model doğruluğunun soru zorluk seviyelerine göre değişip değişmediğini değerlendirmiştir.

Etik Düşünceler

Bu çalışma yalnızca internette yayınlanan bilgileri kullanmakta ve insan denekleri içermemektedir. Bu nedenle, Başkent Üniversitesi Etik Kurulu’nun onayına gerek duyulmamıştır.

Sonuçlar

2021 Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı’nın ilk dönem temel tıp bilimleri sınavına katılan adayların ortalama doğru cevap sayısı 51,63’tür. Klinik tıp bilimleri sınavının ortalama doğru cevap sayısı 63,95’tir. Klinik tıp bilimleri sınavının ortalama doğru cevap sayısı temel tıp bilimleri sınavından daha yüksektir. Bu durumla paralel olarak, yapay zeka teknolojileri de klinik tıp bilimleri sınavını cevaplamada daha başarılı olmuştur.

Yapay Zeka Performansı

Yapay zeka platformlarının performansı, insan adaylarla aynı metrikler kullanılarak değerlendirilmiştir.

  • ChatGPT 4:

    ChatGPT 4, temel tıp bilimleri bölümünde ortalama 103 doğru cevap ve klinik tıp bilimleri bölümünde ortalama 110 doğru cevap almıştır. Bu, %88,75’lik genel bir doğruluğu temsil etmektedir ve her iki bölümdeki ortalama insan adayından önemli ölçüde daha iyidir (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B, temel tıp bilimleri bölümünde ortalama 95 doğru cevap ve klinik tıp bilimleri bölümünde ortalama 95 doğru cevap almıştır. Bu, %79,17’lik genel bir doğruluğu temsil etmektedir ve bu da ortalama insan performansından önemli ölçüde daha yüksektir (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro, temel tıp bilimleri bölümünde ortalama 94 doğru cevap ve klinik tıp bilimleri bölümünde ortalama 93 doğru cevap almıştır. Bu, %78,13’lük genel bir doğruluğu temsil etmektedir ve bu da ortalama insan performansından önemli ölçüde daha yüksektir (p < 0,01).

  • Command R+:

    Command R+, temel tıp bilimleri bölümünde ortalama 60 doğru cevap ve klinik tıp bilimleri bölümünde ortalama 60 doğru cevap almıştır. Bu, %50’lik genel bir doğruluğu temsil etmektedir ve bu da temel tıp bilimleri bölümündeki ortalama insan performansıyla önemli ölçüde farklı değildir (p = 0,12), ancak klinik tıp bilimleri bölümünde önemli ölçüde daha düşüktür (p < 0,05).

Yapay zeka platformlarının performansı, insan adaylarla aynı metrikler kullanılarak değerlendirilmiştir.

Şekil 3, farklı LLM’lerin soru zorluğuna göre doğruluğunu karşılaştırmaktadır- ChatGPT 4: En iyi performans gösteren model. Soru zorluğu arttıkça doğruluk artmakta ve en zorlu sorularda bile %70’e yaklaşmaktadır - Llama 3 70B: Orta derecede performans gösteren model. Soru zorluğu arttıkça doğruluk önce artmakta, sonra azalmaktadır. En zorlu sorularda doğruluğu yaklaşık %25’tir. Gemini 1.5 70B: Llama 3 70B’ye benzer bir performans göstermektedir. Soru zorluğu arttıkça doğruluk önce artmakta, sonra azalmaktadır. En zorlu sorularda doğruluğu yaklaşık %20’dir. Command R+: En düşük performans gösteren model. Doğruluğu soru zorluğu arttıkça azalmakta ve en zorlu sorularda yaklaşık %15 seviyesinde kalmaktadır

Özetle, ChatGPT 4 soru zorluğundan en az etkilenen modeldir ve genel olarak en yüksek doğruluğa sahiptir. Llama 3 70B ve Gemini 1.5 Pro orta derecede performans gösterirken, Command R+’ın başarı oranı diğer modellerden daha düşüktür. Soru zorluğu arttıkça modellerin doğruluğu azalmaktadır. Bu, LLM’lerin karmaşık soruları anlama ve doğru cevaplama konusunda hala geliştirilmesi gerektiğini göstermektedir

Tablo 1’de, ChatGPT 4 modeli %88,75’lik bir başarı oranıyla en iyi performans gösteren model olarak öne çıkmaktadır. Bu, soruları anlama ve doğru cevaplama konusunda sağlam bir yeteneğe sahip olduğunu göstermektedir. Llama 3 70B modeli %79,17’lik bir başarı oranıyla ikinci sırada yer almaktadır. ChatGPT 4 modelinin gerisinde kalsa da, soruları cevaplama konusunda yine de yüksek düzeyde bir ustalık sergilemektedir. Gemini 1.5 Pro modeli %78,13’lük bir başarı oranıyla onu yakından takip etmektedir. Performansı Llama 3 70B modeline yakın olup, güçlü bir soru cevaplama yeteneğine sahip olduğunu göstermektedir. Öte yandan, Command R+ modeli %50’lik bir başarı oranıyla diğer modellerin gerisinde kalmaktadır. Bu, belirli sorularda zorluk yaşayabileceğini veya performansı iyileştirmek için daha fazla ince ayar yapılması gerektiğini göstermektedir. Doğru cevapların farklı zorluk seviyelerinde dağılımı. Örneğin, tüm modeller kolay sorularda (zorluk seviyesi 1) iyi performans göstermiştir ve ChatGPT 4 modeli mükemmel bir puan almıştır. Orta zorluktaki sorularda (seviye 2 ve 3), ChatGPT 4 ve Llama 3 70B modelleri iyi performans göstermeye devam etmiştir.

Buna karşılık, Gemini 1.5 Pro modeli bazı zayıflıklar göstermeye başlamıştır. Zor sorularda (seviye 4 ve 5), tüm modellerin performansı düşmüştür ve Command R+ modeli en çok zorlanmıştır. Genel olarak, bu sonuçlar her yapay zeka modelinin güçlü ve zayıf yönleri hakkında değerli bilgiler sağlamakta ve gelecekteki geliştirme ve iyileştirme çabalarına bilgi sağlayabilmektedir

Tablo 3’te, temel tıp bilimlerindeki biyokimya, ChatGPT 4 için mükemmel bir puan almıştır ve bu alandaki soruları cevaplama konusundaki olağanüstü yeteneğini kanıtlamıştır. Llama 3 70B ve Gemini 1.5 Pro da iyi performans göstermiştir, ancak Command R+ %50’lik bir doğrulukla yetersiz performans göstermiştir. Farmakoloji, patoloji ve mikrobiyolojideki en iyi performans gösteren modeller (ChatGPT 4 ve Llama 3 70B), %81 ile %90 arasında değişen doğrulukla güçlü bir bilgi tutarlılığı sergilemiştir. Gemini 1.5 Pro ve Command R+ geride kalmıştır, ancak yine de iyi performans göstermiştir. Anatomi ve fizyoloji modellere bazı zorluklar sunmuştur. ChatGPT 4 ve Meta AI-Llama 3 70B iyi performans gösterirken, Gemini 1.5 Pro ve Command R+’ın doğruluğu %70’in altında olup yetersiz performans göstermiştir.

Klinik tıp bilimlerindeki pediatri, tüm modeller için çok önemlidir; ChatGPT 4’ün neredeyse mükemmel bir puan alması (%90) ile sonuçlanmıştır. Llama 3 70B onu yakından takip etmiştir ve hatta Command R+ %43’lük bir doğruluk elde etmiştir. Dahiliye ve genel cerrahi, en iyi modellerden daha iyi performans göstermiştir ve doğruluk %79 ile %90 arasındadır. Gemini 1.5 Pro ve Command R+ geride kalmıştır, ancak yine de iyi performans göstermiştir. Anestezi ve resüsitasyon, acil tıp, nöroloji ve dermatoloji gibi uzmanlık alanlarından daha az soru gönderilmiştir, ancak modeller genel olarak iyi performans göstermiştir. ChatGPT 4 ve Llama 3 70B bu alanlarda olağanüstü doğruluk sergilemiştir

Model karşılaştırmasıyla ilgili olarak, ChatGPT 4 çoğu alanda en iyi performans gösteren modeldir ve genel doğruluğu %88,75’tir. Temel ve klinik tıp bilimleri sorularını doğru bir şekilde cevaplama yeteneğinde güçlüdür. Llama 3 70B, %79,17’lik genel doğruluğuyla onu yakından takip etmektedir. ChatGPT 4’ün performansıyla tam olarak eşleşmese de, çeşitli alanlarda güçlü bir bilgi tutarlılığı sergilemektedir. Gemini 1.5 Pro ve Command R+ geride kalmıştır ve genel doğrulukları sırasıyla %78,13 ve %50’dir. Bazı alanlarda umut vaat etseler de, tüm alanlarda tutarlılığı korumakta zorlanmaktadırlar

Kısacası, ChatGPT 4 şu anda çeşitli alanlardaki tıp bilimi sorularını cevaplamak için en uygun modeldir. Gemini 1.5 Pro ve Command R+ potansiyel göstermektedir, ancak en iyi performans gösteren modellerle rekabet edebilmek için önemli ölçüde iyileştirilmesi gerekmektedir

Tablo 4’te, bilgi alanıyla ilgili olarak, ChatGPT 4 temel tıp bilimleri alanında %86,7’lik (85/98) bir doğrulukla diğer modellerden daha iyi performans göstermiştir. ChatGPT 4, klinik tıp bilimleri alanında %89,7’lik (61/68) bir doğrulukla tekrar en iyi performansı göstermiştir. Vaka alanıyla ilgili olarak, ChatGPT 4 temel tıp bilimleri alanında %81,8’lik (18/22) bir doğruluk elde etmiştir. Klinik tıp bilimleri alanında, ChatGPT 4 benzer bir performans sergilemiş ve %94,2’lik (49/52) bir doğruluk elde etmiştir

Modellerin ikili karşılaştırmaları, ChatGPT 4’ün her iki alanda ve soru türünde de diğer modellerden önemli ölçüde daha iyi performans gösterdiğini göstermektedir. Llama 3 70B ve Gemini 1.5 Pro benzer bir performans sergilerken, Command R+ geride kalmıştır. Bu analize dayanarak, ChatGPT 4’ün bilgi ve vaka alanlarında ve temel ve klinik tıp bilimleri alanlarında olağanüstü performans sergilediği sonucuna varabiliriz.

İstatistiksel Analiz

LLM’lerin performansı Microsoft Office Excel ve Python (sürüm 3.10.2) kullanılarak analiz edilmiştir. Modellerin farklı soru zorluk seviyelerindeki performansını karşılaştırmak için eşleştirilmemiş ki-kare testi yapılmıştır. Her yapay zeka modelinin doğru ve yanlış cevapları için zorluk seviyesine göre bir kontenjans tablosu oluşturulmuş ve zorluk seviyeleri genelinde performansta istatistiksel olarak anlamlı bir fark olup olmadığını belirlemek için ki-kare testi uygulanmıştır. İstatistiksel anlamlılığı belirlemek için <0,05’lik bir p-değer eşiği kullanılmıştır. ChatGPT 4’ün p-değeri 0,00028’dir ve p < 0,05’te anlamlıdır, bu da farklı zorluk seviyelerindeki performansta önemli bir fark olduğunu göstermektedir. Gemini 1.5 Pro’nun p-değeri 0,047’dir ve p < 0,05’te anlamlıdır, bu da farklı zorluk seviyelerindeki performansta önemli bir fark olduğunu göstermektedir. Command R+’ın p-değeri 0,197’dir ve p < 0,05’te anlamlı değildir, bu da farklı zorluk seviyelerindeki performansta önemli bir fark olmadığını göstermektedir. Llama 3 70B’nin p-değeri: 0,118, p-değeri: 0,118’dir ve p < 0,05’te anlamlı değildir, bu da farklı zorluk seviyelerindeki performansta önemli bir fark olmadığını göstermektedir.

ChatGPT 4 ve Gemini 1.5 Pro’nun doğruluğu, farklı soru zorluklarında istatistiksel olarak anlamlı farklılıklar göstermektedir ve bu da performanslarının soru zorluğu değiştikçe önemli ölçüde değiştiğini göstermektedir. Command R+ ve Llama 3 70B, zorluk seviyelerinde anlamlı bir performans farkı göstermemektedir ve bu da performansın soru zorluğundan bağımsız olarak daha tutarlı olduğunu göstermektedir. Bu sonuçlar, farklı modellerin farklı zorluklarla ilişkili karmaşıklıkları ve temaları ele alma konusunda farklı güçlü ve zayıf yönleri olabileceğini göstermektedir.

Tartışma

TUS, Türkiye’deki tıp mezunlarının uzmanlık eğitimi alma yolunda kritik bir ulusal sınavdır. Sınav, temel ve klinik bilimleri kapsayan çoktan seçmeli sorulardan oluşmaktadır ve uzmanlık programlarına yerleşmeyi belirleyen merkezi bir sıralama sistemine sahiptir

Büyük dil modellerinin TUS’taki performansını değerlendirirken, GPT-4 en iyi performans gösteren model olmuştur. Benzer şekilde, ChatGPT güçlü bir yapay zeka modelidir ve cerrahi alanında insan seviyesine yakın veya daha yüksek bir performans sergilemiş ve çoktan seçmeli SCORE ve Data-B sorularının sırasıyla %71’ini ve %68’ini doğru cevaplamıştır. Ek olarak, ChatGPT halk sağlığı sınavlarında iyi performans göstermiş, mevcut geçme oranlarını aşmış ve benzersiz içgörüler sunmuştur. Bu bulgular, GPT-4 ve ChatGPT’nin tıp değerlendirmesindeki olağanüstü performansını vurgulamakta, tıp eğitimini ve potansiyel tanısal yardımı geliştirme potansiyellerini sergilemektedir.

Tıp eğitimcileri ve sınav görevlileri için LLM’lerin giderek artan doğruluğu, sınav tasarımı ve değerlendirmesiyle ilgili önemli soruları gündeme getirmektedir. Yapay zeka modelleri standartlaştırılmış tıp sınavlarını yüksek doğrulukla çözebiliyorsa, gelecekteki değerlendirmelerin basit hatırlamanın ötesine geçen yüksek dereceli akıl yürütme ve klinik karar verme sorularını içermesi gerekebilir. Ek olarak, Türk tıp kurumları, öğrencilerin bireysel ihtiyaçlarına göre uyarlanmış öğrenme materyalleri sağlayan uyarlanabilir öğrenme sistemleri gibi yapay zeka destekli eğitim stratejilerini keşfedebilir.

Ulusal bir bakış açısıyla, bu çalışma yapay zekanın Türk tıp eğitimindeki giderek artan önemini vurgulamaktadır. Bu LLM’ler Türkçe tıp sorularında iyi performans gösterdiğinden, hizmetlerden yoksun bölgelerdeki öğrencilerin kaliteli eğitim kaynaklarına erişimindeki boşluğu doldurabilirler. Ek olarak, politika yapıcılar, yapay zeka modellerinin Türk sağlık profesyonelleri için sürekli tıp eğitimi ve yaşam boyu öğrenme programlarına nasıl entegre edilebileceğini düşünmelidir.

Sonuç olarak, ChatGPT-4 gibi yapay zeka modelleri olağanüstü doğruluk sergilerken, tıp eğitimindeki rolleri dikkatlice değerlendirilmelidir. Yapay zeka destekli öğrenmenin potansiyel faydaları büyüktür, ancak doğru uygulama, bu araçların sorumlu, etik bir şekilde ve insan uzmanlığıyla birlikte kullanılmasını sağlamayı gerektirmektedir.

Sınırlamalar

Bu çalışma, büyük dil modellerinin (LLM’ler) Türkiye Tıpta Uzmanlık Eğitimi Giriş Sınavı’ndaki (TUS) performansı hakkında değerli bilgiler sağlamaktadır, ancak sonuçları bağlamsallaştırmak ve gelecekteki araştırmalara rehberlik etmek için birkaç önemli sınırlamanın kabul edilmesi gerekmektedir. İlk olarak, bu çalışmada değerlendirilen yapay zeka modellerinin eğitim verilerinin TUS sorularını içerip içermediği belirsizdir. Geçmiş TUS soruları kamuya açık olduğundan, bu çalışmada kullanılan sorular modelin eğitim verilerinin bir parçası olabilir. Bu, modelin performansının gerçek anlayışı mı yoksa yalnızca belirli soruları ezberleme yeteneğini mi yansıttığı konusunda endişelere yol açmaktadır. Gelecekteki araştırmalar, yapay zeka modellerinin gerçek akıl yürütme yeteneği sergileyip sergilemediğini veya ezberlenmiş bilgilere dayanıp dayanmadığını değerlendirme yöntemleri geliştirmelidir.

İkinci olarak, yapay zeka modellerinin eğitim verilerinden kaynaklanan önyargılar sergileme potansiyeli vardır. Bu önyargılar, eğitim verilerindeki belirli tıbbi durumların, popülasyonların veya bakış açılarının dengesiz temsilinden kaynaklanabilir. Örneğin, her dilde mevcut eğitim verilerinin miktarı ve kalitesindeki farklılıklar nedeniyle, modelin Türkçe performansı İngilizce’den farklı olabilir. Ek olarak, bu modeller Türkiye’deki yerel tıbbi uygulamalar veya kültürel bağlam hakkında bilgi gerektiren soruları cevaplamada daha az doğru olabilir. Bu önyargılar, sonuçların genellenebilirliğini sınırlayabilir ve tıp eğitimi ve uygulamasında yapay zeka kullanımına ilişkin etik endişelere yol açabilir.

Üçüncü bir sınırlama, çalışmanın yalnızca çoktan seçmeli sorulara odaklanmasıdır. Gerçek dünyadaki klinik uygulamada, sağlık profesyonellerinin karmaşık vakaları akıl yürütme, belirsiz bulguları yorumlama ve belirsizlik altında karar verme becerilerine sahip olmaları gerekmektedir. Ek olarak, hastalara ve meslektaşlara teşhisleri, tedavi planlarını ve riskleri net ve şefkatli bir şekilde iletme yeteneği çok önemlidir. Yapay zeka modellerinin bu görevleri gerçekleştirme yeteneği henüz test edilmemiştir ve yetenekleri mevcut tasarımları ve eğitimleriyle sınırlı olabilir. Gelecekteki araştırmalar, yapay zeka modellerini klinik vaka simülasyonları ve açık uçlu değerlendirmeler gibi daha gerçekçi ayarlarda değerlendirmelidir.

Dördüncü olarak, çalışmada açık uçlu sorular yer almamıştır. Açık uçlu sorular, eleştirel düşünme, bilgi sentezi ve klinik akıl yürütme gibi daha yüksek dereceli bilişsel becerileri değerlendirmek için çok önemlidir. Bu tür sorular, listeden doğru seçeneği seçmek yerine tutarlı ve bağlamsal olarak alakalı yanıtlar üretme yeteneği gerektirmektedir. Yapay zeka modellerinin bu tür görevlerdeki performansı, çoktan seçmeli sorulardaki performansından önemli ölçüde farklı olabilir ve bu da gelecekteki araştırmalar için önemli bir alanı temsil etmektedir.

Beşinci bir sınırlama, yapay zeka modellerinin zaman baskısı altında test edilmemesidir. İnsan adaylar, sınav sırasında performanslarını etkileyebilecek sıkı zaman kısıtlamalarına tabidir. Aksine, bu çalışmadaki yapay zeka modelleri zaman baskısı altında tutulmamıştır ve bu da onlara zamanlı bir ortamın baskısı olmadan