Durante gli ultimi anni molti test diagnostici e biomarker sono stati sviluppati e implementati nella pratica clinica. Si tratta di un campo di ricerca molto interessante nel contesto della medicina personalizzata. Il requisito fondamentale di un test diagnostico è l’accuratezza, cioè la capacità del test di discriminare correttamente il “non malato” dal “malato”. Questo potere discriminante o predittivo di un test dello stato di salute può essere quantificato con diverse misure tra cui la sensibilità, la specificità, il valore predittivo positivo e l’overall diagnostic accuracy.
Le misure di accuratezza stimano la probabilità con cui il test è capace di identificare i “veri malati” (qual è la probabilità di essere malato essendo il test positivo) e distinguerli dai “veri non malati” (qual è la probabilità di essere “non malato” se il test risulta negativo). Esse stimano, di conseguenza, quanto è il margine di errore in termini di “falsi positivi” e “falsi negativi” [1]. Come tutte le misure, hanno limiti di incertezza che vengono quantificati di solito con i cosiddetti limiti di confidenza, in genere al 95 per cento. L’interpretazione di tali misure non è sempre facile e, inoltre, varia in base a molti fattori tra cui il disegno dello studio e la prevalenza della condizione. I test diagnostici possono essere utilizzati sia in setting clinici sia in contesti di screening di popolazione. Quando si applica un test diagnostico, in sintesi, ci si serve di valori soglia per distinguere il “non malato” dal “malato”. È chiaro quindi che la potenziale misclassificazione tra “non malati” e “malati” – dovuta alle caratteristiche del test diagnostico – può avere importanti ripercussioni sia nella pratica clinica sia in termini di sanità pubblica e di costi sanitari.
Assenza o presenza di bpco?
Un esempio interessante è rappresentato dall’uso del rapporto fev1/fvc per fare diagnosi di broncopneumopatia cronica ostruttiva (bpco), che si ottiene dall’esame funzionale respiratorio attraverso la spirometria e definisce l’ostruzione delle vie aeree. Per molto tempo un valore di fev1/fvc inferiore del 70 per cento (dopo test di broncodilatazione) è stato utilizzato come discriminante tra assenza e presenza di bpco ed è stato raccomandato dalle linee guida internazionali Gold. Un grande dibattito è nato nella comunità scientifica sulle implicazioni dell’uso del valore “fisso” di questo rapporto [2]. È stato dimostrato in diversi studi, infatti, che questo valore produce un problema rilevante di misclassificazione in dipendenza dell’età del soggetto. Studi su popolazione sana non fumatrice hanno dimostrato che il rapporto fev1/fvc diminuisce all’aumentare dell’età e pertanto un valore fisso del rapporto per la diagnosi di bpco conduce a errori di sotto-notifica nella popolazione giovane e sovra-notifica nella popolazione anziana. Qual è il rischio per l’individuo? Un giovane con valore di fev1/fvc pari al 75 per cento potrebbe essere considerato sano sulla base di questo cut-off, mentre meriterebbe un’attenta valutazione e monitoraggio nel tempo. Viceversa, a molte persone anziane viene diagnosticata la bpco con un valore del fev1/fvc al di sotto del 70 per cento, che riflette invece la riduzione fisiologica della funzione polmonare. Questa sovra-diagnosi nell’età anziana può avere come conseguenza un uso inappropriato o non necessario di trattamenti farmacologici.
La proposta di diversi ricercatori esperti di bpco, critici verso le raccomandazioni Gold, è quella di sostituire il valore fisso di fev1/fvc inferiore al 70 per cento con un’altra misura da usare come discriminante: il quinto percentile più basso della distribuzione normale del rapporto stesso in relazione all’età. Un altro punto critico nella scelta del valore soglia e soprattutto nella sua interpretazione per distinguere il “non malato” dal “malato” è il valore di riferimento con cui esso viene confrontato. Nella bpco i valori di riferimento della funzione respiratoria, che sono fortemente legati ad altezza e peso dell’individuo, utilizzati per la diagnosi e la stima della prevalenza, sono stati per molto tempo quelli misurati su popolazioni statunitensi, quindi potenzialmente diverse per caratteristiche fisiche e biometriche da popolazioni di Paesi diversi.
È ben condivisa dalla comunità scientifica e medica la necessità di conoscere i limiti dei test utilizzati, in quanto un unico test diagnostico non è sufficiente per fare diagnosi e impostare il trattamento.
Riconoscere i limiti dei limiti
Quali sono le ripercussioni della misclassificazione prodotta dai test diagnostici dal punto di vista epidemiologico e di sanità pubblica?
Sempre in tema di bpco, è stato osservato come studi di popolazione basati sul cut-off fisso fev1/fvc inferiore del 70 per cento hanno portato a stime di prevalenza molto alte e diversificate tra Paesi. Sappiamo quanto le stime di prevalenza a livello di popolazione siano importanti per la programmazione sanitaria; sulla base di tali stime, infatti, si definiscono le risorse da impegnare con i relativi costi e si elaborano strumenti di misura della qualità dell’assistenza, ad esempio indicatori di appropriatezza d’uso di terapie farmacologiche. Anche in questo caso, quindi, emerge l’importanza della validità del test diagnostico e della scelta del cut-off.
In generale, nelle diverse discipline mediche, i valori soglia dei test diagnostici sono stabiliti sulla base di evidenze scientifiche che ne testano la validità. Va tenuto presente che il significato dei valori soglia può variare in diverse categorie di età, tra generi, e in presenza di condizioni patologiche concomitanti. È tuttavia ben condivisa dalla comunità scientifica e medica la necessità di conoscere i limiti dei test utilizzati in quanto un unico test diagnostico – sia esso un esame di laboratorio, sia una misura derivata da un test funzionale con specifica apparecchiatura, sia una valutazione della sintomatologia su base qualitativa (per esempio, questionari standardizzati) – non è sufficiente per fare diagnosi e impostare il trattamento. La diagnosi è frutto, infatti, di un uso integrato di informazioni (storia del paziente), valutazione clinica (esame obiettivo) e misure diagnostiche il più possibile tailored sulla problematica in studio.
Il tema dell’ottimale cut-off point di un test diagnostico è, infine, particolarmente rilevante in contesti di screening di popolazione. A seconda del tipo di screening, vanno valutate attentamente le conseguenze del compromesso tra avere un maggior numero di “falsi positivi” contro un maggior numero di “falsi negativi”. Un esempio ci viene da studi sull’uso dell’emoglobina glicata per la diagnosi di diabete mellito. Come discusso in una recente revisione sistematica [3], il valore considerato ottimale nell’ambito delle cure primarie è 6,5 per cento, sulla base dell’alto valore di specificità, ovvero della bassa probabilità di classificare erroneamente come “diabetici” i “non diabetici”. D’altro canto, secondo gli autori, abbassare il limite a 6,02 per cento potrebbe essere una valida soluzione nel caso di screening di popolazione, in quanto si aumenterebbe la “sensibilità”, ovvero la capacità dei test di identificare precocemente i nuovi casi di diabete.
Bibliografia
[1] Vali Y, Yang B, Olsen M, et al. Reporting of test comparisons in diagnostic accuracy studies: a literature review. Res Synth Methods 2021;12:357-67.
[2] Enright P, Brusasco V. Counterpoint: should we abandon fev1/fvc < 0,70 to detect airway obstruction? Yes. Chest 2010;138:1040-2, discussion 1042-4.
[3] Kaur G, Lakshmi PVM, Rastogi A, et al. Diagnostic accuracy of tests for type 2 diabetes and prediabetes: a systematic review and meta-analysis. PLoS One 2020;15:e0242415.