Skip to main content

Intelligenza artificiale

Ziad Obermeyer: l’intelligenza artificiale al servizio delle decisioni mediche. Federico Cabitza: intelligenza artificiale, una questione di prudenza.

Ziad Obermeyer: l’intelligenza artificiale al servizio delle decisioni mediche
Il report | Il video
Federico Cabitza: intelligenza artificiale, una questione di prudenza
Il report | Il video

Ziad Obermeyer: l’intelligenza artificiale al servizio delle decisioni mediche

“La medicina è piena di scelte difficili”. Si è aperta con queste parole la prima relazione della sessione di 4words 2018 dedicata al tema dell’intelligenza artificiale, tenuta da Ziad Obermeyer, assistant professor di Medicina d’urgenza al Brigham & Women’s hospital di Boston e assistant professor di Health care policy alla Harvard medical school. Il medico statunitense ha descritto il caso dei pazienti che si presentano al pronto soccorso lamentando dolore al petto, respiro corto, sudorazione o altri sintomi potenzialmente indicativi di un infarto del miocardio. “Per i medici è molto difficile identificare correttamente un evento in corso”, ha sottolineato. “Tuttavia, devono decidere rapidamente se sottoporre il paziente a test estremamente costosi o correre il rischio e mandarlo a casa”.

Purtroppo, molto spesso la scelta si rivela sbagliata. I livelli di performance in termini di valutazione del rischio di infarto del miocardio sono molto bassi: si fanno troppi esami e si ottengono pochi risultati. “Tra le persone testate – ha spiegato il medico di Boston – sono pochi quelli che vanno incontro a un reale beneficio clinico”. Dai qui la volontà di ottimizzare il meccanismo di stratificazione del rischio, processo in cui l’intelligenza artificiale potrebbe avere un ruolo fondamentale. Infatti, secondo Obermeyer, grazie a queste tecnologie sarà possibile ottenere valutazioni del rischio estremamente accurate, calcolate sulla base delle caratteristiche del singolo soggetto. Questo permetterebbe di ridurre del 40% il numero dei test effettuati – con un risparmio pari a un miliardo di dollari l’anno solo negli Stati Uniti – e del 60% quello degli infarti del miocardio non diagnosticati – con una possibile diminuzione del 20%-50% della mortalità associata.

Obermeyer ha quindi riportato i risultati di uno studio del suo gruppo di ricerca in cui si è utilizzato un algoritmo di machine learning per elaborare, attraverso l’analisi di 3201 variabili, il rischio di infarto miocardico dei soggetti giunti al Pronto Soccorso del Brigham & Women’s hospital. Sulla base del rischio predetto dall’algoritmo i pazienti sono stati poi divisi in dieci gruppi, per ognuno dei quali si è calcolato il numero di test realizzati (stress test o cateterismi cardiaci, entro una settimana dalla visita) e quello di rivascolarizzazioni effettuate (entro una settimana dal test). Per i soggetti inclusi nel decile caratterizzato dal rischio minore, la prescrizione di esami diagnostici è risultata associata a un vantaggio clinico solo nell’1,7% dei casi. “Traducendo questi dati in termini di rapporto costi-efficacia – ha spiegato Obermeyer – nel gruppo dei pazienti con un rischio minore questi test si associano a un costo annuo per vita salvata di quasi 600.000$, ben oltre la soglia di 100.000$ utilizzata in genere per definire un rapporto accettabile”.

Per quanto riguarda i pazienti più a rischio, invece, un vantaggio clinico è emerso nel 42% dei casi. “Tuttavia, se inseriamo nel nostro modello anche i pazienti non testati – spiega Obermeyer –, vediamo che solo il 17% di quelli considerati [dall’algoritmo] ad alto rischio viene sottoposto a test”. Analizzando outcome diversi dalla procedura di rivascolarizzazione, come ad esempio i livelli di troponina, è emerso che il 22% di questi pazienti presentava evidenze biologiche tipiche di un danno cardiaco. “Anche tra i soggetti non testati, quindi, il nostro modello è risultato in grado di individuare i soggetti a rischio di infarto del miocardio”, ha sottolineato Obermeyer. A conferma di ciò, il medico del Brigham & Women’s hospital ha presentato due grafici, uno relativo alla mortalità e uno alla presenza di aritmie potenzialmente letali (fibrillazione ventricolare e tachicardia ventricolare) in quella popolazione: entrambi mostravano un picco in relazione ai gruppi di soggetti ad alto rischio.

Obermeyer è poi passato a descrivere i dati relativi alla variabilità esistente tra i medici in termini di valutazione del rischio. “Ad alcuni clinici basta sentire la parola “petto” per decidere di sottoporre un paziente a uno stress test”, ha spiegato. “Abbiamo diviso i medici in cinque gruppi sulla base della loro propensione a prescrivere questi esami e analizzato le loro prestazioni rispetto ai rischi previsti dall’algoritmo”, ha spiegato Obermeyer. “È emerso che i medici che prescrivono il numero maggiore di test lo fanno fino a tre volte di più con i pazienti a basso rischio – un dato negativo – ma anche fino due volte di più con quelli ad alto rischio – un dato positivo”. L’obiettivo deve essere quindi quello di trovare il giusto compromesso tra le due tendenze. Ad esempio, i ricercatori hanno preso in considerazione i pazienti visitati dai medici che proponevano più test e realizzato una simulazione impostando il testing rate del gruppo di medici che lo faceva di meno, lasciando all’algoritmo il compito di identificare i soggetti ad alto rischio. “Così facendo, è stato possibile individuare il 55% di infarti miocardici in più”, ha spiegato Obermeyer.

Il medico del Brigham & Women’s hospital di Boston ha infine riassunto i punti più importanti della sua relazione: “Spesso si pensa all’intelligenza artificiale in termini di possibili applicazioni tecnologiche, mentre io credo che sia utile soprattutto ai fini di una maggiore comprensione”. Questi risultati, ad esempio, hanno permesso di capire che il processo di valutazione del rischio dei pazienti che presentano sintomi riconducibili a un infarto del miocardio determina un rapporto di costi-efficacia negativo. Le strategie utilizzate attualmente per risolvere questa situazione, come l’introduzione di incentivi o la modulazione dei prezzi delle procedure, non sono funzionali a migliorare la situazione: “Il problema sono i limiti cognitivi della mente umana, non i prezzi dei test”, ha sottolineato Obermeyer. In conclusione, dallo screening oncologico alla valutazione delle embolie polmonari, sono moltissime le situazioni in cui il potere predittivo del machine learning potrebbe risultare determinante. Sarà però necessario cambiare approccio nei confronti di queste tecnologie, spesso viste come strumenti utili solo a semplificare o a velocizzare il lavoro umano: “Questa potrebbe essere la peggiore delle ipotesi”, ha concluso il medico statunitense. “Non dovremmo porci l’obiettivo dell’automazione, ma quello della trasformazione”.

Report a cura di Fabio Ambrosino, Il Pensiero Scientifico Editore

Da leggere
Obermeyer Z, Emanuel EJ. Predicting the future—big data, machine learning, and clinical medicine. New Engl J Med 2016;375:1216.
Obermeyer Z, Lee TH. Lost in thought—The limits of the human mind and the future of medicine. New Engl J Med 2017;377:1209-11.

Video abstract


Federico Cabitza: intelligenza artificiale, una questione di prudenza

“La tecnologia dovrebbe farci vedere più lontano e più in profondità, ma lasciare a noi l’interpretazione di cosa vediamo”. Uno dei (diversi) concetti chiave che emergono dalla riflessione di Federico Cabitza su intelligenza artificiale, machine learning, interazione uomo-macchina che ha chiuso la quarta e ultima sezione del convegno 4words 2018. Una chiusura che, come l’intero progetto Forward, non coincide necessariamente con delle risposte definitive alle domande che ci si è posti, ma piuttosto con delle ulteriori domande che divengono l’apertura verso qualcos’altro.

Se molto si è detto e si continua a dire sui vantaggi che la medicina sembra poter trarre dall’applicazione dell’intelligenza artificiale (tra i due grandi poli della hipe, l’esagerazione, di stampo giornalistico, e della hope, la speranza, degli addetti ai lavori), meno invece si è riflettuto sui limiti e i “rischi” della stessa, e quindi sui dubbi che possono derivarne (il “terzo escluso” la cautela, la prudenza). A partire proprio dalla sua definizione, “intelligenza artificiale”, che in realtà altro non indica se non “l’automazione di compiti intelligenti”, compiti che – se eseguiti da un essere umano – gli avrebbero richiesto un qualche tipo di competenza e intelligenza. “Non quindi un’intelligenza nuova, differente, alternativa ‘che fa qualcosa per noi’, ma piuttosto ‘un fare’ che un’intelligenza (ossia noi) può apprezzare per i suoi servizi”, dichiara Cabitza, mettendo immediatamente l’accento sull’aspetto di semplificazione, automazione e efficientamento di qualcosa che ci aiuta nei compiti complessi o ci solleva da quelli gravosi e ripetitivi, e anticipando implicitamente la riflessione ulteriore e successiva su potenziamento sensoriale e potenziamento cognitivo.

Nonostante il grande interesse che l’argomento dell’intelligenza artificiale suscita, nonché le grandi speranze e progettualità che porta con sé (hipehope), attualmente in medicina, nella scala dei livelli di automazione in ambito di decisione proposta una ventina di anni fa da Parasuranam [1], non si va oltre il livello 4 di interazione tra macchina ed essere umano: a questo livello il sistema o seleziona e presenta al medico un insieme ristretto di opzioni (diagnostiche o prognostiche) o ne suggerisce una in alternativa (una diagnosi in particolare), lasciando però al medico, all’essere umano, la decisione finale. Tra il livello più basso 1 – in cui la macchina non dà alcuna assistenza e l’essere umano prende tutte le decisioni e compie tutte le azioni – e il livello più alto 10 – in cui la macchina decide tutto, agisce autonomamente e ignora l’essere umano – si pone il confine tra aumentazione delle capacità cognitive (livelli 2-4) e diminuzione/depotenziamento di quelle stesse capacità (livelli 5-9), con il progressivo dimenticarsi come si fanno le cose dovuto all’eccessivo ricorso ad un supporto che fa le cose meglio di noi, in maniera più accurata. Progressivo dimenticarsi che è una delle conseguenze inattese e non volute dell’adozione di sistemi a supporto delle decisioni di tipo “oracolare”[2]: sistemi sì molto accurati (e proprio di “mania dell’accuratezza” parlerà Cabitza nelle sue conclusioni), ma anche poco trasparenti e poco comprensibili nelle scelte che effettuano.

Da questo momento in avanti, Cabitza ricorre ad una serie di immagini e di metafore creative per provocare l’audience e far avanzare il ragionamento (anche) sui binari della “prudenza”, introducendo l’analogia tra aumentazione sensoriale e aumentazione cognitiva, secondo la quale quella stessa tecnologia che potenzia e amplifica i nostri sensi (si pensi allo stetoscopio, al microscopio, ai raggi x) può facilmente condurre a potenziare egualmente anche le nostre capacità interpretative e cognitive. Analogia che – stando a Cabitza – è “fuorviante e pericolosa”. Ma la riflessione scientifica su tecnologia amplificante e osservazione della natura non è di oggi. Già Galileo, nel 1610 – nel Sidereus Nuncius – potendo osservare e quindi descrivere la faccia visibile della luna grazie ad un primo rudimentale telescopio concludeva – da scienziato a tutti gli effetti – che una cosa è l’osservazione, altra l’interpretazione di ciò che si è potuto osservare anche se con i sensi infinitamente amplificati da una qualche tecnologia disponibile. D’altronde nella stessa immagine radiologica di un polmone due esperti possono interpretare quella stessa macchia scura come un tumore o un enfisema (come i “channels” mappati e descritti da Schiaparelli nell’osservazione del pianeta Marte, che diventano i “canals” osservati da Pickering sullo stesso pianeta due anni dopo). “Il punto è che l’elemento decisivo non risiede tanto nel senso della vista, potenziato dalla tecnologia, ma nell’interpretazione corretta del fenomeno osservato, nel capire cosa si sta osservando e inserirlo in un quadro di ‘sense making’ complessivo” conclude Cabitza.

Relativamente all’aumentazione, si tratta piuttosto di un’alleanza tra la macchina e l’essere umano in cui ciascuna parte dà il proprio contributo mettendo a disposizione ciò che sa fare meglio (come descritto bene dal Modello Centauro di Kasparov): intuizione, creatività, comunicazione il medico, ossia l’essere umano; capacità di calcolo, ricerca e reperimento di informazioni dettagliate all’interno di una enorme mole di dati la macchina. E sebbene questa risulti in grado di cogliere e rappresentare con estrema accuratezza alcuni dati ed elementi di un contesto esistenziale e clinico che un medico per esempio si trova ad affrontare, essa non potrà mai cogliere l’ampiezza della variabilità e l’ambiguità di quel contesto (come non è possibile per il bambino della “Pozza di Sant’Agostino” del Botticelli mettere tutto il mare nella piccola pozza fatta sulla riva). Anche gli algoritmi più potenti non possono eludere la variabili confondenti e le correlazioni spurie, delineando una semplice verità ossia che “il vero problema dell’applicazione della tecnologia informatica in medicina è quello dei dati, della loro accessibilità, qualità, validità e della cosiddetta ‘informatività clinicamente rilevante’”.

Cabitza, quindi, ci mette in guardia dal proiettare aspettative e abilità su sistemi che di fatto non sono intelligenti ma semplicemente in grado di leggere i dati che generano potendo addirittura introdurvi sia le risposte corrette sia i nostri bias (come Hans, il cavallo intelligente dell’ultima metafora creativa proposta). E per non cadere in questa tentazione va superata la mania dell’accuratezza, visto poi che proprio quell’accuratezza del 90% di cui i sistemi di intelligenza artificiale sono capaci, in alcune recenti ricerche, è stata migliorata da normali cani domestici (per il loro fiuto) e addirittura da piccioni allenati ad identificare neoplasie dalle mammografie o tumori al polmone!

Ma si può avanzare. Ossia, si può andare oltre i limiti e i rischi fin qui descritti. Superando due grandi ambiti informatici che poco comunicano tra loro: “l’interazione uomo-computer” (interazione dell’uomo con i dati) da una parte, e “l’intelligenza artificiale” dall’altra. Quando, infatti, il dato fornito al medico si delinea come una raccomandazione, un suggerimento, ossia “una scorciatoia cognitiva”, ecco prospettarsi un terzo ambito informatico, che è anche un nuovo terreno di correlazione, quello dell’interazione “uomo-intelligenza artificiale” dove l’approccio richiesto deve necessariamente essere di tipo sperimentale. Le tecnologie a supporto delle decisioni vengono così validate sul campo valutandone l’usabilità, ossia l’efficienza, l’efficacia e – non da ultima – la soddisfazione dell’uomo che con esse interagisce. Da ciò, infine, l’assoluta necessità di studi sperimentali in cui il confronto sia tra team di medici che utilizzano sistemi di intelligenza artificiale e team di medici che non li utilizzano, e non tra medico e intelligenza artificiale. Solo in questo modo potranno evidenziarsi differenze significative o meno, sia per i pazienti sia per i medici.

Report a cura di Manuela Baroncini, Il Pensiero Scientifico Editore

Bibliografia
[1] Parasuraman R, Sheridan TB, Wickens CD. A model for types and levels of human interaction with automation. IEEE Transactions on systems, man, and cybernetics-Part A. Systems and Humans 2000; 30: 286-97.
[2] Cabitza F, Rasoini R, Gensini GF. Unintended Consequences of Machine Learning in Medicine. JAMA 2017; 318: 517-8.

Da leggere
Cabitza F, Alderighi C, Rasoini R, Gensini GF. Potenziali conseguenze inattese dell’uso di sistemi di intelligenza artificiale oracolari in medicina. Recenti Prog Med 2017;108:397-401.

Video abstract