IA e istruzione medica: TUS in Turchia

Introduzione

Negli ultimi anni, i progressi tecnologici nell’intelligenza artificiale (IA) e nei modelli linguistici di grandi dimensioni (LLM) hanno introdotto un potenziale cambiamento rivoluzionario nell’istruzione medica e nei metodi di valutazione della conoscenza. In particolare, questi sviluppi possono rendere le informazioni mediche più accessibili e le valutazioni più interattive.

Studi precedenti hanno esplorato le prestazioni degli LLM in vari esami di licenza medica, come lo United States Medical Licensing Examination (USMLE) e il Japanese Medical Licensing Examination (JMLE), ma questi esami differiscono significativamente dal TUS in termini di struttura e contenuti. Il TUS si concentra sulle scienze di base e cliniche con una particolare attenzione al contesto medico turco, il che offre un’opportunità unica per valutare le capacità degli LLM in un ambiente di valutazione distinto. Questo studio mira a colmare questa lacuna valutando le prestazioni di quattro LLM leader nel TUS. Inoltre, questo studio esplora le potenziali implicazioni di questi risultati per la progettazione del curriculum, la formazione medica assistita dall’IA e il futuro della valutazione medica in Turchia. In particolare, esaminiamo come le prestazioni degli LLM possono informare lo sviluppo di risorse educative e strategie di valutazione più efficaci su misura per il curriculum medico turco. Questa indagine non solo contribuisce alla comprensione delle prestazioni linguistiche specifiche, ma anche a una discussione più ampia su come integrare efficacemente l’IA nell’istruzione e nella valutazione medica a livello globale.

I risultati di questi studi suggeriscono che ChatGPT e LLM simili possono svolgere un ruolo importante nell’istruzione medica e nei processi di valutazione della conoscenza. L’intelligenza artificiale e gli LLM nel recupero di informazioni mediche e nei metodi di valutazione consentono lo sviluppo di approcci innovativi e metodi di apprendimento, soprattutto nell’istruzione medica. Questo studio mira a indagare ulteriormente l’impatto degli LLM sull’istruzione medica e sulla valutazione della conoscenza valutando le prestazioni di ChatGPT 4, Gemini 1.5 Pro e Cohere-Command R+ nell’esame di ammissione alla formazione specialistica medica in Turchia.

Questo studio esplora l’applicazione di modelli avanzati di intelligenza artificiale (IA), in particolare ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B, nell’istruzione e nella valutazione medica, concentrandosi sulle loro prestazioni nella risoluzione dei problemi degli esami di specializzazione medica. La ricerca valuta la capacità di questi modelli di condurre un’analisi completa e sistematica dei problemi dell’esame di ammissione alla formazione specialistica medica in Turchia, evidenziando il potenziale dell’IA in medicina quando si considerano fattori come le capacità interpretative e l’accuratezza. I risultati indicano che i modelli di IA possono facilitare in modo significativo i processi di istruzione e valutazione medica, aprendo le porte a nuove applicazioni e aree di ricerca. Lo scopo principale di questo documento è valutare i rapidi progressi nella tecnologia dell’IA econfrontare le capacità di risposta di diversi modelli di IA. Lo studio presenta un’analisi comparativa di ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B, valutandone le prestazioni su 240 domande dal primo semestre dell’esame di ammissione alla formazione specialistica medica in Turchia nel 2021.

Questo confronto mira a chiarire la traiettoria e le distinzioni delle tecnologie di IA, concentrandosi sulla loro utilità in settori specializzati come l’istruzione medica e la preparazione agli esami. L’obiettivo finale è fornire approfondimenti per aiutare gli utenti a scegliere gli strumenti di studio più adatti alle loro esigenze specifiche.

Metodi

Le domande sono state poste agli LLM in turco. Le domande sono state ottenute dal sito web ufficiale del Centro di selezione e collocamento degli studenti, in un formato a scelta multipla (con cinque opzioni, da A a E) con una sola risposta migliore. Le risposte sono state fornite dagli LLM in turco.

Il processo di valutazione si è basato sulle risposte corrette pubblicate dal Centro di selezione e collocamento degli studenti. L’articolo afferma: ‘La risposta “corretta” per le domande dei modelli di intelligenza artificiale è stata definita in base alle risposte pubblicate dal Centro di selezione e collocamento degli studenti. Solo le risposte identificate come corrette in base alle istruzioni nel testo della domanda sono state accettate come “corrette”.’ Poiché sia le domande che le risposte erano in turco, il processo di valutazione prevedeva il confronto delle risposte turche degli LLM con la chiave di risposta turca ufficiale fornita dal Centro di selezione e collocamento degli studenti.

Set di dati per l’istruzione medica

Questo studio utilizza ChatGPT 4, Gemini 1.5 Pro, Command R+ e Llama 3 70B per testare le capacità dei modelli di intelligenza artificiale nella conoscenza medica e nella valutazione dei casi. Lo studio è stato condotto sulle domande dell’esame di ammissione alla formazione specialistica medica in Turchia del 21 marzo 2021. L’esame di ammissione alla formazione specialistica medica in Turchia è un esame condotto dal Centro di selezione e collocamento degli studenti e comprende 240 domande. Le domande di conoscenza di base nella prima categoria testano le conoscenze e l’etica necessarie per completare l’istruzione medica. La seconda categoria sono le domande sui casi, che coprono una serie di malattie che misurano il pensiero analitico e le capacità di ragionamento.

Classificazione della difficoltà delle domande

I livelli di difficoltà delle domande sono stati classificati in base ai dati ufficiali sulle prestazioni dei candidati pubblicati dal Centro di selezione e collocamento degli studenti. Nello specifico, il tasso di risposta corretta riportato dal centro per ogni domanda è stato utilizzato per classificare le domande in cinque livelli di difficoltà:

  • Livello 1 (più facile): domande con un tasso di risposta corretta dell’80% o superiore.
  • Livello 2: domande con un tasso di risposta corretta compreso tra il 60% e il 79,9%.
  • Livello 3 (medio): domande con un tasso di risposta corretta compreso tra il 40% e il 59,9%.
  • Livello 4: domande con un tasso di risposta corretta compreso tra il 20% e il 39,9%.
  • Livello 5 (più difficile): domande con un tasso di risposta corretta del 19,9% o inferiore.

La risposta “corretta” per le domande dei modelli di intelligenza artificiale è stata definita in base alle risposte pubblicate dal Centro di selezione e collocamento degli studenti. Solo le risposte identificate come corrette in base alle istruzioni nel testo della domanda sono state accettate come “corrette”. Inoltre, il livello di difficoltà di ogni domanda è stato classificato da 1 a 5 in base al tasso di risposta corretta pubblicato dal Centro di selezione e collocamento degli studenti. Le domande con un tasso di risposta corretta dell’80% e superiore sono state considerate le più facili (Livello 1), mentre le domande con un tasso di risposta corretta del 19,9% e inferiore sono state considerate le più difficili (Livello 5).

Domini di conoscenza e casi

L’esame di ammissione alla formazione specialistica medica in Turchia, un passo fondamentale per i laureati in medicina in Turchia per specializzarsi, valuta la conoscenza dei candidati e i domini dei casi in due aree critiche. Comprendere la distinzione tra questi domini è essenziale per una preparazione completa. Il dominio della conoscenza si concentra sulla valutazione della comprensione teorica e delle conoscenze fattuali dei candidati nel campo medico prescelto. Valuta la padronanza dei concetti e dei principi fondamentali e stabilisce informazioni mediche relative alla specializzazione. Rappresenta l’area specifica della conoscenza medica che viene testata, come le scienze mediche di base (anatomia, biochimica, fisiologia, ecc.) e le scienze cliniche (medicina interna, chirurgia, pediatria, ecc.) Il dominio dei casi, d’altra parte, rappresenta scenari o situazioni reali in cui la conoscenza viene applicata, come la risoluzione dei problemi, il pensiero analitico, il pensiero critico, il processo decisionale e l’applicazione di concetti a situazioni reali.

Ingegneria dei prompt

L’ingegneria dei prompt è la progettazione e la messa a punto di prompt in linguaggio naturale per ottenere risposte specifiche da un modello linguistico o da un sistema di IA. Ad aprile 2024, abbiamo raccolto le risposte interrogando i modelli linguistici direttamente tramite le rispettive interfacce web.

Per garantire una valutazione equa delle capacità originali di ciascun modello, è stato implementato un rigoroso controllo metodologico nel modo in cui le domande venivano presentate agli LLM. Ogni domanda è stata inserita individualmente e la sessione è stata reimpostata prima della presentazione di una nuova domanda per impedire al modello di apprendere o adattarsi in base alle interazioni precedenti.

Analisi dei dati

Tutte le analisi sono state eseguite utilizzando Microsoft Office Excel e software Python. Per confrontare le prestazioni degli LLM su diversi livelli di difficoltà delle domande, sono stati eseguiti test del chi-quadrato non accoppiati. Una soglia di valore p di p < 0,05 è stata utilizzata per determinare la significatività statistica. L’analisi ha valutato se l’accuratezza del modello variava a seconda del livello di difficoltà della domanda.

Considerazioni etiche

Questo studio utilizza solo informazioni pubblicate su Internet e non coinvolge soggetti umani. Pertanto, non è richiesta l’approvazione del comitato etico dell’Università di Baskent.

Risultati

Il numero medio di risposte corrette per i candidati che hanno partecipato all’esame di scienze mediche di base della prima fase dell’esame di ammissione alla formazione specialistica medica in Turchia nel 2021 era di 51,63. Il numero medio di risposte corrette per l’esame di scienze mediche cliniche era di 63,95. Il numero medio di risposte corrette per l’esame di scienze mediche cliniche era superiore a quello dell’esame di scienze mediche di base. Parallelamente a questa situazione, la tecnologia dell’intelligenza artificiale ha risposto con maggiore successo all’esame di scienze mediche cliniche.

Prestazioni dell’IA

Le prestazioni delle piattaforme di IA sono state valutate utilizzando le stesse metriche dei candidati umani.

  • ChatGPT 4:

    ChatGPT 4 ha ottenuto un punteggio medio di 103 risposte corrette nella sezione di scienze mediche di base e un punteggio medio di 110 risposte corrette nella sezione di scienze mediche cliniche. Ciò rappresenta un’accuratezza complessiva dell’88,75%, significativamente superiore alle prestazioni medie dei candidati umani in entrambe le sezioni (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B ha ottenuto un punteggio medio di 95 risposte corrette nella sezione di scienze mediche di base e un punteggio medio di 95 risposte corrette nella sezione di scienze mediche cliniche. Ciò rappresenta un’accuratezza complessiva del 79,17%, che è anche significativamente superiore alle prestazioni medie umane (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ha ottenuto un punteggio medio di 94 risposte corrette nella sezione di scienze mediche di base e un punteggio medio di 93 risposte corrette nella sezione di scienze mediche cliniche. Ciò rappresenta un’accuratezza complessiva del 78,13%, che è significativamente superiore alle prestazioni medie umane (p < 0,01).

  • Command R+:

    Command R+ ha ottenuto un punteggio medio di 60 risposte corrette nella sezione di scienze mediche di base e un punteggio medio di 60 risposte corrette nella sezione di scienze mediche cliniche. Ciò rappresenta un’accuratezza complessiva del 50%, che non è significativamente diversa dalle prestazioni medie umane nella sezione di scienze mediche di base (p = 0,12), ma significativamente inferiore nella sezione di scienze mediche cliniche (p < 0,05).

Le prestazioni delle piattaforme di IA sono state valutate utilizzando le stesse metriche dei candidati umani.

La figura 3 confronta l’accuratezza di diversi LLM in base alla difficoltà delle domande - ChatGPT 4: il modello con le migliori prestazioni. L’accuratezza aumenta all’aumentare della difficoltà delle domande, raggiungendo quasi il 70% anche sulle domande più impegnative - Llama 3 70B: un modello con prestazioni moderate. L’accuratezza inizialmente aumenta e poi diminuisce all’aumentare della difficoltà delle domande. Ha un’accuratezza di circa il 25% sulle domande più impegnative. Gemini 1.5 70B: le sue prestazioni sono simili a Llama 3 70B. L’accuratezza inizialmente aumenta e poi diminuisce all’aumentare della difficoltà delle domande. Ha un’accuratezza di circa il 20% sulle domande più impegnative. Command R+: il modello con le prestazioni più basse. La sua accuratezza diminuisce all’aumentare della difficoltà delle domande e rimane intorno al 15% sulle domande più impegnative.

In sintesi, ChatGPT 4 è il modello meno influenzato dalla difficoltà delle domande e ha la più alta accuratezza complessiva. Llama 3 70B e Gemini 1.5 Pro hanno prestazioni moderate, mentre Command R+ ha una percentuale di successo inferiore rispetto agli altri modelli. L’accuratezza dei modelli diminuisce all’aumentare della difficoltà delle domande. Ciò suggerisce che gli LLM devono ancora migliorare nella comprensione e nella risposta corretta a domande complesse

Nella Tabella 1, il modello ChatGPT 4 si distingue come il modello con le migliori prestazioni con una percentuale di successo dell’88,75%. Ciò indica che ha una solida capacità di comprendere e rispondere accuratamente alle domande. Il modello Llama 3 70B si posiziona al secondo posto con una percentuale di successo del 79,17%. Sebbene sia leggermente indietro rispetto al modello ChatGPT 4, dimostra comunque un elevato livello di competenza nel rispondere alle domande. Il modello Gemini 1.5 Pro segue da vicino con una percentuale di successo del 78,13%. Le sue prestazioni sono paragonabili al modello Llama 3 70B, il che indica che ha forti capacità di rispondere alle domande. Il modello Command R+, d’altra parte, è indietro rispetto agli altri modelli con una percentuale di successo del 50%. Ciò suggerisce che potrebbe avere difficoltà con determinate domande o necessitare di un’ulteriore messa a punto per migliorare le prestazioni. La distribuzione delle risposte corrette su diversi livelli di difficoltà. Ad esempio, tutti i modelli hanno ottenuto buoni risultati su domande facili (livello di difficoltà 1), con il modello ChatGPT 4 che ha ottenuto un punteggio perfetto. Su domande di difficoltà moderata (livelli 2 e 3), i modelli ChatGPT 4 e Llama 3 70B hanno continuato a ottenere buoni risultati.

Al contrario, il modello Gemini 1.5 Pro ha iniziato a mostrare alcuni punti deboli. Su domande difficili (livelli 4 e 5), le prestazioni di tutti i modelli sono diminuite, con il modello Command R+ che ha avuto le maggiori difficoltà. Nel complesso, questi risultati forniscono preziose informazioni sui punti di forza e di debolezza di ciascun modello di IA e possono informare i futuri sforzi di sviluppo e miglioramento

Nella Tabella 3, la biochimica nelle scienze mediche di base ha ottenuto un punteggio perfetto da ChatGPT 4, a testimonianza della sua eccezionale capacità di rispondere alle domande in questo campo. Anche Llama 3 70B e Gemini 1.5 Pro hanno ottenuto buoni risultati, ma Command R+ ha fornito prestazioni scadenti con un’accuratezza del 50%. I modelli con le migliori prestazioni in farmacologia, patologia e microbiologia (ChatGPT 4 e Llama 3 70B) hanno mostrato una forte coerenza delle informazioni, con un’accuratezza compresa tra l’81% e il 90%. Gemini 1.5 Pro e Command R+ sono risultati inferiori, ma hanno comunque ottenuto buoni risultati. Anatomia e fisiologia hanno posto alcune sfide ai modelli. ChatGPT 4 e Meta AI-Llama 3 70B hanno ottenuto buoni risultati, mentre Gemini 1.5 Pro e Command R+ hanno fornito prestazioni scadenti con un’accuratezza inferiore al 70%.

La pediatria nelle scienze mediche cliniche è fondamentale per tutti i modelli, con ChatGPT 4 che ha ottenuto un punteggio quasi perfetto (90%). Llama 3 70B è seguito da vicino e persino Command R+ ha raggiunto un’accuratezza del 43%. Le prestazioni in medicina interna e chirurgia generale sono superiori al modello migliore, con un’accuratezza compresa tra il 79% e il 90%. Gemini 1.5 Pro e Command R+ sono risultati inferiori, ma hanno comunque ottenuto buoni risultati. Specialità come anestesia e rianimazione, medicina d’urgenza, neurologia e dermatologia hanno presentato meno domande, ma i modelli hanno ottenuto buoni risultati nel complesso. ChatGPT 4 e Llama 3 70B hanno dimostrato un’eccezionale accuratezza in questi campi

Per quanto riguarda il confronto dei modelli, ChatGPT 4 è il modello con le migliori prestazioni nella maggior parte dei campi, con un’accuratezza complessiva dell’88,75%. Il suo punto di forza risiede nella sua capacità di rispondere accuratamente a domande di scienze mediche di base e cliniche. Llama 3 70B segue da vicino con un’accuratezza complessiva del 79,17%. Sebbene non sia in grado di eguagliare completamente le prestazioni di ChatGPT 4, dimostra comunque una forte coerenza delle conoscenze in tutti i campi. Gemini 1.5 Pro e Command R+ sono risultati inferiori, con un’accuratezza complessiva rispettivamente del 78,13% e del 50%. Sebbene mostrino promesse in alcune aree, hanno difficoltà a mantenere la coerenza in tutti i campi

In breve, ChatGPT 4 è attualmente il modello più adatto per rispondere a domande di scienze mediche in tutti i campi. Gemini 1.5 Pro e Command R+ mostrano potenziale, ma richiedono miglioramenti significativi per competere con i modelli con le migliori prestazioni

Nella Tabella 4, per quanto riguarda il dominio della conoscenza, ChatGPT 4 ha dimostrato una maggiore accuratezza dell’86,7% (85/98) in scienze mediche di base rispetto ad altri modelli. ChatGPT 4 ha ottenuto ancora una volta le migliori prestazioni con un’accuratezza dell’89,7% (61/68) in scienze mediche cliniche. Per quanto riguarda il dominio dei casi, ChatGPT 4 ha dimostrato una maggiore accuratezza dell’81,8% (18/22) in scienze mediche di base. In scienze mediche cliniche, ChatGPT 4 ha ottenuto risultati simili con un’accuratezza del 94,2% (49/52)

Il confronto a coppie dei modelli mostra che ChatGPT 4 ha superato significativamente gli altri modelli in entrambi i domini e tipi di domande. Llama 3 70B e Gemini 1.5 Pro hanno fornito prestazioni simili, mentre Command R+ è risultato inferiore. In base a questa analisi, possiamo concludere che ChatGPT 4 ha mostrato prestazioni superiori sia nei domini della conoscenza che dei casi, nonché nelle scienze mediche di base e cliniche.

Analisi statistica

Le prestazioni degli LLM sono state analizzate utilizzando Microsoft Office Excel e Python (versione 3.10.2). Per confrontare le prestazioni dei modelli su diversi livelli di difficoltà delle domande, sono stati eseguiti test del chi-quadrato non accoppiati. Sono state create tabelle di contingenza di risposte corrette e errate per ogni modello di IA per livello di difficoltà ed è stato applicato un test del chi-quadrato per determinare se esistevano differenze statisticamente significative nelle prestazioni tra i livelli di difficoltà. È stata utilizzata una soglia di valore p < 0,05 per determinare la significatività statistica. Il valore p per ChatGPT 4 era 0,00028 ed era significativo a p < 0,05, indicando una differenza significativa nelle prestazioni tra i diversi livelli di difficoltà. Il valore p per Gemini 1.5 Pro era 0,047 ed era significativo a p < 0,05, indicando una differenza significativa nelle prestazioni tra i diversi livelli di difficoltà. Il valore p per Command R+ era 0,197 e non era significativo a p < 0,05, indicando che non esisteva una differenza significativa nelle prestazioni tra i diversi livelli di difficoltà. Il valore p per Llama 3 70B: 0,118, valore p: 0,118 e non era significativo a p < 0,05, indicando che non esisteva una differenza significativa nelle prestazioni tra i diversi livelli di difficoltà.

L’accuratezza di ChatGPT 4 e Gemini 1.5 Pro su diversi livelli di difficoltà delle domande ha mostrato differenze statisticamente significative, il che indica che le loro prestazioni variano significativamente in base alla difficoltà delle domande. Command R+ e Llama 3 70B non hanno mostrato differenze significative nelle prestazioni tra i livelli di difficoltà, il che indica prestazioni più coerenti indipendentemente dalla difficoltà delle domande. Questi risultati possono indicare che diversi modelli hanno diversi punti di forza e di debolezza nella gestione della complessità e degli argomenti associati a diversi livelli di difficoltà.

Discussione

Il TUS è un esame nazionale fondamentale per i laureati in medicina in Turchia che perseguono una formazione specialistica. L’esame comprende domande a scelta multipla che coprono le scienze di base e cliniche e dispone di un sistema di classificazione centralizzato che determina la classifica per i programmi di specializzazione

Nella valutazione delle prestazioni dei modelli linguistici di grandi dimensioni sul TUS, GPT-4 è emerso come il modello con le migliori prestazioni. Allo stesso modo, ChatGPT è un potente modello di IA che ha dimostrato prestazioni quasi o superiori a quelle umane in ambito chirurgico, rispondendo correttamente rispettivamente al 71% e al 68% delle domande a scelta multipla SCORE e Data-B. Inoltre, ChatGPT ha eccelso negli esami di sanità pubblica, superando gli attuali tassi di superamento e fornendo informazioni uniche. Questi risultati evidenziano le eccezionali prestazioni di GPT-4 e ChatGPT nelle valutazioni mediche, dimostrando il loro potenziale per migliorare l’istruzione medica e potenziali ausili diagnostici.

Per gli educatori e gli esaminatori medici, la crescente accuratezza degli LLM solleva importanti domande sulla progettazione e la valutazione degli esami. Se i modelli di IA possono risolvere esami medici standardizzati con elevata precisione, le future valutazioni potrebbero aver bisogno di incorporare domande di ragionamento e giudizio clinico di livello superiore che vadano oltre il semplice richiamo. Inoltre, le istituzioni mediche turche potrebbero esplorare strategie educative assistite dall’IA, come i sistemi di apprendimento adattivo che personalizzano i materiali di studio in base alle esigenze individuali degli studenti.

Da un punto di vista nazionale, questo studio evidenzia la crescente importanza dell’IA nell’istruzione medica turca. Poiché questi LLM hanno ottenuto buoni risultati con le domande mediche turche, possono colmare il divario di accesso alle risorse educative di qualità per gli studenti nelle aree svantaggiate. Inoltre, i responsabili politici dovrebbero considerare come integrare i modelli di IA nei programmi di formazione continua e apprendimento permanente per i professionisti sanitari turchi.

In conclusione, sebbene i modelli di IA come ChatGPT-4 dimostrino una notevole accuratezza, il loro ruolo nell’istruzione medica dovrebbe essere valutato attentamente. I potenziali vantaggi dell’apprendimento assistito dall’IA sono enormi, ma una corretta implementazione richiede di garantire che questi strumenti siano utilizzati in modo responsabile, etico e in combinazione con la competenza umana.

Limiti

Questo studio fornisce preziose informazioni sulle prestazioni dei modelli linguistici di grandi dimensioni (LLM) nell’esame di ammissione alla formazione specialistica medica in Turchia (TUS), ma è essenziale riconoscere diversi limiti importanti per contestualizzare i risultati e guidare le future ricerche. Innanzitutto, non è certo se i dati di addestramento dei modelli di IA valutati in questo studio includessero domande del TUS. Poiché le domande del TUS del passato sono disponibili pubblicamente, è possibile che le domande utilizzate in questo studio facessero parte dei dati di addestramento del modello. Ciò solleva preoccupazioni sul fatto che le prestazioni del modello riflettano una reale comprensione o semplicemente la capacità di memorizzare domande specifiche. Le future ricerche dovrebbero sviluppare metodi per valutare se i modelli di IA dimostrano reali capacità di ragionamento o si basano su informazioni memorizzate.

In secondo luogo, è possibile che i modelli di IA mostrino pregiudizi derivanti dai loro dati di addestramento. Questi pregiudizi possono derivare da rappresentazioni sbilanciate di determinate condizioni mediche, popolazioni o prospettive nei dati di addestramento. Ad esempio, le prestazioni dei modelli in turco possono differire da quelle in inglese a causa di differenze nella quantità e nella qualità dei dati di addestramento disponibili in ciascuna lingua. Inoltre, i modelli possono essere meno accurati nel rispondere a domande che richiedono la conoscenza delle pratiche mediche locali o del contesto culturale turco. Questi pregiudizi possono limitare la generalizzabilità dei risultati e sollevare preoccupazioni etiche sull’uso dell’IA nell’istruzione e nella pratica medica.

Un terzo limite è che lo studio si concentra solo su domande a scelta multipla. Nella pratica clinica reale, i professionisti sanitari devono possedere competenze come il ragionamento su casi complessi, l’interpretazione di risultati ambigui e il processo decisionale in condizioni di incertezza. Inoltre, la capacità di comunicare diagnosi, piani di trattamento e rischi in modo chiaro ed empatico a pazienti e colleghi è essenziale. La capacità dei modelli di IA di svolgere questi compiti non è stata testata e le loro capacità potrebbero essere limitate dalla loro progettazione e addestramento attuali. Le future ricerche dovrebbero valutare i modelli di IA in contesti più realistici, come simulazioni di casi clinici e valutazioni aperte.

Quarto, lo studio non ha incluso domande aperte. Le domande aperte sono essenziali per valutare le capacità cognitive di ordine superiore come il pensiero critico, la sintesi di informazioni e il ragionamento clinico. Questi tipi di domande richiedono la capacità di generare risposte coerenti e contestualmente rilevanti, piuttosto che limitarsi a selezionare l’opzione corretta da un elenco. Le prestazioni dei modelli di IA su tali compiti possono differire in modo significativo dalle loro prestazioni su domande a scelta multipla, il che rappresenta un’importante area per le future ricerche.

Un quinto limite è che i modelli di IA non sono stati testati sotto pressione temporale. I candidati umani sono soggetti a rigide limitazioni di tempo durante gli esami, il che può influire sulle loro prestazioni. Al contrario, i modelli di IA in questo studio non sono stati soggetti a pressioni temporali, il che ha permesso loro di rispondere alle domande senza lo stress di un ambiente temporizzato