Skip to main content
ChatGPT Articoli

In pronto soccorso sono meglio io

ChatGPT fa diagnosi, ma potrebbe essere un disastro

Josh Tamayo-Sarver

Emergency department, Good Samaritan hospital, San Jose (California), Vicepresidente In ect Health

By Giugno 2023Luglio 11th, 2023Nessun commento
fotografia del reportage di Claudio Colotti durante l'alluvione in Emilia Romagna
Fotografia di Claudio Colotti

ChatGPT ha recentemente superato l’esame di abilitazione alla professione medica negli Stati Uniti, ma usarlo per fare diagnosi nel mondo reale si rivelerebbe un disastro. Ecco cosa è successo quando un medico di pronto soccorso ha chiesto a ChatGPT di formulare una diagnosi ai suoi pazienti.

Alla notizia che ChatGPT aveva superato con successo l’esame di abilitazione alla professione medica negli Stati Uniti, ero curioso di sapere come si sarebbe comportato in una situazione clinica reale. Essendo un sostenitore dell’uso dell’intelligenza artificiale per migliorare la qualità e l’efficienza dell’assistenza sanitaria, volevo vedere come quest’ultima versione di ChatGPT potesse essere uno strumento per la mia pratica clinica.

Così, la scorsa settimana, alla fine dei miei abituali turni al pronto soccorso, ho reso anonime le mie note sulle anamnesi di 35-40 pazienti – in pratica, la descrizione medica dettagliata della storia clinica di ogni persona e dei sintomi che l’hanno portata al pronto soccorso – e le ho inserite in ChatGPT.

La domanda specifica che ho fatto a ChatGPT è stata: “Quali sono le diagnosi differenziali per questo paziente che si è presentato al dipartimento d’emergenza [inserire qui le informazioni sulla anamnesi della malattia attuale del paziente]?”.

I risultati sono stati interessanti, ma anche piuttosto inquietanti.

Il chatbot di OpenAI ha fatto un discreto lavoro nel far emergere diagnosi comuni che non avrei voluto perdere, a patto che tutto ciò che gli avevo detto fosse preciso e altamente dettagliato. Ad esempio, per diagnosticare correttamente a un paziente il “gomito della balia” (pronazione dolorosa del gomito, ndr) sono state necessarie circa 200 parole; per identificare la frattura blow-up della parete orbitaria di un altro paziente sono servite tutte le 600 parole della mia anamnesi.

Per circa la metà dei miei pazienti, ChatGPT ha suggerito sei possibili diagnosi. E la diagnosi “giusta” – o almeno quella che ritenevo giusta dopo una valutazione e un’indagine complete – era una delle sei proposte da ChatGPT. Non male. D’altra parte, nel contesto di un pronto soccorso anche una percentuale di successo del 50 per cento non è ammissibile.

La performance peggiore di ChatGPT si è verificata con una paziente di 21 anni arrivata al pronto soccorso con un dolore addominale al quadrante inferiore destro. Ho inserito la sua anamnesi in ChatGPT che ha subito for- nito una diagnosi differenziale di appendicite o cisti ovarica, tra le altre possibilità. Ma il ChatGPT ha mancato una diagnosi piuttosto importante per questa donna.

Si trattava di una gravidanza ectopica, in cui un feto malformato si sviluppa nelle tube di Falloppio e non nell’utero. Se diagnosticata troppo tardi, può essere fatale, con conseguente morte per emorragia interna. Fortunatamente per la mia paziente, siamo riusciti a portarla subito in sala operatoria per un intervento.

In particolare, quando era venuta al pronto soccorso, questa paziente non sapeva nemmeno di essere incinta. Non si tratta di uno scenario atipico, e spesso emerge solo dopo aver chiesto gentilmente informazioni: “È possibile che sia incinta?”. A volte la paziente risponde con qualcosa del tipo: “Non è possibile”. “Ma come fa a saperlo?”. Se con questa risposta alla nostra domanda esplorativa la paziente non sottintende che ha la spirale o una specifica condizione medica, è più probabile che ci stia dicendo che per una serie di motivi non vuole pensare di poter essere incinta. (Anche in questo caso, non si tratta di uno scenario raro: circa l’8 per cento delle gravidanze scoperte al pronto soccorso sono di donne che dichiarano di non essere sessualmente attive).

Ma esaminando le ipotesi diagnostiche di ChatGPT, ho verificato che niente poteva suggerire che la mia paziente fosse incinta. ChatGPT non sapeva nemmeno di doverlo chiedere.

Il mio timore è che innumerevoli persone stiano già usando ChatGPT per autodiagnosticarsi una malattia piuttosto che rivolgersi a un medico. Se la mia paziente in questo caso lo avesse fatto, la risposta di ChatGPT avrebbe potuto causare la sua morte.

ChatGPT ha anche sbagliato la diagnosi in diversi altri pazienti in condizioni pericolose per la vita. Ha suggerito correttamente che uno di loro aveva un tumore al cervello, ma non ha individuato altri due pazienti che avevano anch’essi un tumore. A un altro paziente con dolore addominale ha diagnosticato un calcolo renale, ma non ha previsto che in realtà il paziente aveva una rottura dell’aorta (e successivamente è deceduto sul tavolo operatorio).

ChatGPT fornisce risposte rapide sulla base della conoscenza recuperata con un processo simile a quello di Google. Ma nel mondo reale la maggior parte dei casi di pazienti non rientra tra i classici casi clinici.

In breve, ChatGPT ha funzionato piuttosto bene come strumento diagnostico quando gli ho passato delle informazioni precise e il paziente rientrava tra i casi clinici comuni.

ChatGPT fornisce risposte rapide sulla base della conoscenza recuperata con un processo simile a quello di Google. Ma nel mondo reale la maggior parte dei casi di pazienti non rientra tra i classici casi clinici.

Questo è probabilmente il motivo per cui ChatGPT ha “superato” i casi clinici all’esame di abilitazione all’esercizio della professione medica. Non perché sia “intelligente”, ma perché i casi classici dell’esame hanno una risposta deterministica che è già presente nel suo database. ChatGPT fornisce rapidamente le risposte in un formato di linguaggio naturale (questa è la parte veramente impressionante) ma sotto c’è un processo di recupero della conoscenza simile a quello di Google. Ma nel mondo reale la maggior parte dei casi di pazienti non rientra tra i classici casi clinici.

Il mio esperimento ha illustrato come gran parte di ogni incontro medico consista nel capire la corretta narrazione del paziente. Se qualcuno arriva al mio pronto soccorso dicendo che ha dolore al polso, ma non è dovuto a un incidente recente, potrebbe essere una reazione psicosomatica dopo che il nipote del paziente è caduto, o potrebbe essere dovuto a una malattia a trasmissione sessuale, o a qualcos’altro ancora. L’ars medica consiste nel trarre tutte le informazioni necessarie per costruire la giusta narrazione.

ChatGPT potrebbe comunque lavorare come assistente del medico, leggendo automaticamente gli appunti presi durante l’incontro con i pazienti e nel corso del trattamento e suggerendo delle difformità? È possibile. Ma il mio timore è che questo possa introdurre esiti ancora peggiori.

Se le note sul paziente non includono una domanda che non ho ancora posto, l’output di ChatGPT mi incoraggerà a continuare a non porre quella domanda. Come nel caso della mia giovane paziente che non sapeva di essere incinta. Se non mi fosse venuta subito in mente una possibile gravidanza ectopica, ChatGPT avrebbe continuato a confermare quell’omissione, restituendomi solo le cose che ritenevo ovvie – convalidando con entusiasmo i miei pregiudizi come lo yes-man più pericoloso del mondo.

Tutto ciò non suggerisce che l’intelligenza artificiale non abbia un posto potenzialmente utile in medicina: ce l’ha.

Come medico la mia conoscenza è limitata dal numero di pazienti che posso curare personalmente. Mi aspetto di vedere circa 10mila pazienti nella mia vita, ognuno dei quali ha una massa corporea, una pressione sanguigna, un’anamnesi familiare e così via – un’enorme varietà di caratteristiche di cui tengo traccia nella mia mente. Ogni essere umano ha innumerevoli variabili che sono rilevanti per la propria salute, ma come medico in carne e ossa che lavora in finestre di tempo definite, mi concentro sui diversi fattori che tendono a essere quelli “storicamente” più importanti.

Quindi, ad esempio, se esamino le analisi del sangue di un paziente e vedo livelli elevati di emoglobina glicata, diagnostico che probabilmente è ai primi stadi del diabete. Ma cosa succederebbe se potessi tenere traccia delle innumerevoli variabili relative alla salute della persona e confrontarla con altre persone simili per tutte le milioni di variabili, non solo in base all’emoglobina glicata? Forse allora potrei riconoscere che gli altri 100mila pazienti che assomigliavano a questo paziente che sto visitando hanno avuto un miglioramento della propria salute quando hanno iniziato a mangiare più broccoli.

Questo è lo spazio in cui l’utilità dell’intelligenza artificiale può migliorare, elaborando instancabilmente le innumerevoli caratteristiche di ogni paziente che ho trattato, e di ogni altro paziente trattato da ogni altro medico, fornendoci indicazioni importanti grazie all’ampiezza dello sguardo. In questo l’intelligenza artificiale può aiutare, ma prima dovrà essere alimentata da milioni di serie di dati sui pazienti portatori di tutte queste informazioni, di tutto ciò che i pazienti hanno fatto (per esempio prendere un determinato farmaco) e gli esiti.

Nel frattempo, è necessaria e urgente una visione molto più realistica da parte della Silicon Valley e del pubblico in generale di ciò che l’intelligenza artificiale sia in grado di fare ora – e dei suoi molti limiti, spesso pericolosi. Dobbiamo fare molta attenzione a riporre aspettative eccessive su programmi come ChatGPT perché, nel contesto della salute umana, possono essere letteralmente pericolosi per la vita.

 

Questo articolo è la traduzione dell’articolo di Josh Tamayo-Sarver pubblicato su Inflect Health – Medium con il titolo “I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients”. Per gentile concessione dell’autore, che ringraziamo per la sua disponibilità.