Skip to main content
ChatGPT Articoli

ChatGPT potrebbe rendere inutili le revisioni sistematiche?

Più che renderle inutili potrebbe migliorarle, se non ha le allucinazioni

Davide Petri

Dipartimento di ricerca traslazionale e delle nuove tecnologie in medicina e chirurgia, Università di Pisa

By Giugno 2023Nessun commento
fotografia del reportage di Claudio Colotti durante l'alluvione in Emilia Romagna
Fotografia di Claudio Colotti

Prima di provare a rispondere alla domanda espressa dal titolo, ho deciso di chiederlo al diretto interessato, il quale mi ha risposto (con molta umiltà devo dire): “I risultati forniti da un modello di intelligenza artificiale come me non sono equiparabili a una revisione sistematica condotta da ricercatori esperti”.

La prima versione di ChatGPT (OpenAI, San Francisco, CA) è stata rilasciata il 30 novembre 2022; si tratta di un large language model, un modello di intelligenza artificiale (Ia) addestrato con una grande mole di dati in grado di interagire, attraverso il linguaggio umano, con l’utente e di apprendere nuove conoscenze dal feedback ricevuto.

Dunque, uno strumento così potente e in grado di migliorarsi potrebbe mandare in pensione le revisioni sistematiche?

Le limitazioni

Le revisioni sistematiche sono strumenti alla base dell’evidence-based medicine, in grado di riassumere le evidenze disponibili su un determinato argomento e così anche ChatGPT presenta un ottimo livello di competenza; ad esempio, ha superato esami per studenti di medicina [1] ed è in grado di riassumere le nozioni acquisite in un testo. Le sue conoscenze non rappresentano però lo stato dell’arte in quanto il set di dati su cui ChatGPT è addestrato si ferma a settembre 2021; non rispetta, inoltre, uno dei punti chiave della definizione di revisione sistematica della Cochrane collaboration: “I metodi devono essere espliciti e riproducibili”. ChatGPT è stato addestrato su un set di dati sconosciuto, il che genera dubbi sulla trasparenza, accuratezza e sui possibili bias introdotti. Inoltre, con il susseguirsi delle versioni di ChatGPT, una risposta fornita da una versione potrebbe non corrispondere alla risposta ottenuta con un’altra. Ci sono quindi problemi di trasparenza, in aggiunta considerazioni etiche sull’authorship e sul valore dell’esperienza umana devono essere portate avanti parallelamente [2,3].

Riguardo alla trasparenza delle conoscenze di ChatGPT, è possibile interrogarlo sulle fonti delle quali si è servito, con il rischio però di incappare in “fake references”: dei veri e propri riferimenti bibliografici “falsi” forniti dal modello che non trovano riscontro nei database online. L’essenza stessa di ChatGPT, il suo essere un modello generativo, lo spinge a creare dei riferimenti plausibili (autori che hanno pubblicato lavori su argomenti simili, titoli pertinenti, fino addirittura alla generazione di codici doi) ma inesistenti. Haman e Skolnik, attraverso una prova empirica, hanno individuato il 66 per cento dei riferimenti come inesistenti [4].

L’essenza stessa di ChatGPT, il suo essere un modello generativo, lo spinge a creare dei riferimenti plausibili ma inesistenti.

Questo fenomeno è ormai abbastanza diffuso: su Twitter, alcuni bibliotecari hanno dichiarato di aver ricevuto da parte di numerosi studenti la richiesta di recupero di articoli scientifici forniti da ChatGPT che di fatto non esistevano. Uscendo per un attimo dall’ambito biomedico, di recente un avvocato americano ha portato in aula dei testi inesistenti suggeriti da ChatGPT [5].

Questi riferimenti fasulli vengono generati a seguito di fenomeni denominati “hallucinations” [6], delle vere e proprie allucinazioni artificiali che creano output plausibili ma inesistenti; derivano da bias, mancanza di comprensione del mondo reale o magari da una limitazione del set su cui il modello è stato addestrato.

Le funzioni

Ma non ci sono solo limitazioni, anzi. Nella conduzione di una revisione sistematica, ChatGPT può rivelarsi un alleato molto valido: dalla stesura dell’articolo, alla correzione dell’inglese fino a un prezioso supporto nelle singole fasi della revisione. Ad esempio, può rivelarsi molto utile nella formulazione del quesito di ricerca, è in grado di suggerire un’iniziale stringa di ricerca (attenzione però a non fidarsi ciecamente, è stato visto come alcuni termini MeSH di PubMed siano “allucinati”), ha una buona conoscenza dei caratteri booleani, può essere inoltre di aiuto nella conversione della stringa di ricerca da un database bibliografico all’altro.

Con l’avvento di GPT-4 e l’utilizzo dei plugin, ChatGPT ha ampliato il numero delle sue funzioni, ad esempio, ScholarAI mira a correggere il problema delle false citazioni fornendo il database Springer Nature a ChatGPT; altri plugin ancora come AskYourPdf e Chat with PDF consentono all’utente di fornire un file pdf a ChatGPT e poter chiedere qualsiasi cosa a riguardo: dal PICO a un riassunto, dall’estrazione dati alla loro analisi.

Nella sua forma attuale ChatGPT è un ottimo alleato nella creazione di una revisione sistematica, ma da utilizzarsi cum grano salis.

Se quindi per una rassegna sistematica è in grado di fornire un supporto notevole al revisore, nelle revisioni della letteratura non sistematiche, ChatGPT ha dimostrato di sapersela cavare egregiamente anche “in autonomia”. Uno studio lo ha testato per scrivere una revisione della letteratura scientifica sulle applicazioni del gemello digitale (digital twin) in ambito sanitario. Gli abstract ottenuti dai risultati della ricerca degli articoli pubblicati dal 2020 al 2022 sono stati forniti a ChatGPT con il compito di riassumerli e integrarli con altre conoscenze che aveva a priori [7]: il risultato è stato sorprendente con ChatGPT che ha redatto l’intero testo commentando i lavori forniti e integrandoli.

Dunque ChatGPT è uno strumento formidabile che in pochi mesi ha rivoluzionato il mondo del lavoro e non solo. Nella sua forma attuale si presenta come un ottimo alleato nella creazione di una revisione sistematica, ma da utilizzarsi cum grano salis.

Bibliografia
[1] Gilson A, Safranek CW, Huang T, et al. How does ChatGPT perform on the United States medical licensing examination? The implications of large language models for medical education and knowledge assessment. JMIR Med Educ 2023;9:e45312.
[2] O’Connor S. Open artificial intelligence platforms in nursing education: tools for academic progress or abuse? Nurse Educ Pract 2023;66:103537.
[3] Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove. Nature 2023;613:620-1.
[4] Haman M, Školník M. Using ChatGPT to conduct a literature review. Account Res 2023;1-3.
[5] Kathrin A. ChatGPT: US lawyer admits using Ai for case research. Bbc News, 27 maggio 2023.
[6] Homolak J. Croat Med J 2023;64:1-3.
[7] Aydın Ö, Karaarslan E. In Ö. Aydın (ed.), Emerging computer technologies 2 (pp. 22-31), 2022. Izmir Akademi Dernegi.