Skip to main content
Esiti Articoli

Un hazard ratio non si nega mai a nessuno

Riflessioni aperte sulla lettura della statistica dei benefici clinici

Paolo Bruzzi

Epidemiologo clinico

By Dicembre 2023Nessun commento
hazard ratio
Fotografia di Lorenzo De Simone

Uno dei principi fondamentali della pratica clinica è l’evidenza empirica. Questa si basa sull’utilizzo di prove scientifiche provenienti da studi clinici e ricerche precliniche. La raccolta e l’analisi statistica dei dati sono cruciali per trarre conclusioni affidabili e supportare decisioni cliniche informate. Tuttavia l’interpretazione dei risultati che si basano su principi statistici non è sempre di facile comprensione. Questo, nella decisione clinica, vale tanto per la prognosi, che è strettamente legata alle scelte terapeutiche, quanto per la diagnosi. Ad esempio, durante la pandemia covid abbiamo avuto prova  di come l’interpretazione dei risultati di un test si debba basare su calcoli statistici abbastanza complicati, perché la probabilità che un certo paziente con un test positivo (o negativo) sia realmente malato (o non malato) – che è il valore predittivo del test – dipende sia dall’accuratezza del test (sensibilità e specificità) che dalla probabilità a priori che il soggetto sia malato (sintomi, rischio di malattia, ecc.).

Come dico spesso agli oncologi e anche alle associazioni di pazienti, oggi, se uno vuol fare il paziente deve conoscere la statistica, perché i ragionamenti che portano alla decisione clinica si basano su principi e misure statistiche: si afferma, giustamente, che il paziente dovrebbe sempre partecipare consapevolmente alla decisione clinica, ma questo presuppone la sua comprensione di questi principi e del significato di queste misure, il che è spesso del tutto utopico (anche perché qualche volta neppure il medico che prescrive un certo comportamento ha questa comprensione).

In quest’ottica, l’errore storico della comunità clinica è stato quello di privilegiare la significatività statistica del risultato come strumento per comunicare, al suo interno e all’esterno, l’efficacia di un trattamento: un trattamento è significativamente efficace in funzione del valore della p, che esprime un concetto poco intuitivo, e soprattutto non è una misura dell’entità di efficacia di un trattamento. Il p-value è una probabilità che ci dice quanto le evidenze fornite dallo studio clinico siano compatibili con l’ipotesi di una totale inefficacia del trattamento (detta ipotesi nulla). Questo è curioso, perché in genere il trial non viene condotto partendo a priori dall’ipotesi che il trattamento sia totalmente inefficace ma, piuttosto, che sia superiore al placebo o al trattamento di riferimento in misura tale da giustificarne l’uso clinico.

Misure di efficacia in oncologia

Le industrie farmaceutiche puntano molto sul p-value come dimostrazione di efficacia, anche perché è ciò che le agenzie regolatorie stesse richiedono: la dimostrazione che il trattamento abbia un impatto, a prescindere da quanto sia rilevante. Tuttavia, la decisione clinica deve basarsi su quanto effettivamente il trattamento beneficia il paziente.

Negli ultimi anni, l’attenzione dei ricercatori e clinici e delle stesse società scientifiche di oncologia ha iniziato a orientarsi verso una valutazione “quantitativa” degli effetti di un trattamento, e si è quindi concentrata su due problemi: la scelta dell’endpoint, cioè della variabile di risposta da utilizzare per valutare l’efficacia di un trattamento antitumorale, e la scelta degli appropriati indicatori riassuntivi per misurare questa efficacia in termini quantitativi.

Riguardo al primo punto, è in corso da decenni un dibattito sull’opportunità di utilizzare come endpoint negli studi di efficacia in oncologia la sopravvivenza oppure altre variabili quali la risposta tumorale o il tempo a progressione (o a recidiva). Si tratta di un problema ancora aperto e oggetto di continue discussioni nei congressi, nei rapporti con le agenzie regolatorie e nella stesura delle linee guida cliniche.

Come dico spesso agli oncologi e anche alle associazioni di pazienti, oggi, se uno vuol fare il paziente deve conoscere la statistica, perché i ragionamenti che portano alla decisione clinica si basano su principi e misure statistiche.

Meno sviluppato è il dibattito sugli indicatori riassuntivi da utilizzare per fornire una misura sintetica degli effetti di un trattamento: i tre più utilizzati sono l’incremento nella sopravvivenza mediana o media, l’hazard ratio e la percentuale di pazienti vivi a lungo termine. Questi indicatori dicono “quanto fa” il trattamento. Non sono però intercambiabili, nel senso che a seconda dei meccanismi d’azione del trattamento e dei suoi effetti è più opportuno fare riferimento ad uno piuttosto che agli altri; e – soprattutto – le implicazioni per il paziente sono molto diverse.

Incremento nella sopravvivenza mediana o media

La distinzione tra l’incremento nella sopravvivenza mediana e media è importante nel contesto della valutazione dell’efficacia di un trattamento medico. La sopravvivenza mediana rappresenta il tempo oltre il quale il 50 per cento dei pazienti ha la probabilità di sopravvivere; ma l’incremento nella sopravvivenza mediana osservato con un trattamento è spesso interpretato, erroneamente, come l’incremento medio nella sopravvivenza, di cui beneficerebbero tutti i pazienti che ricevono quel trattamento (questo incremento è più difficile da calcolare ed è quindi poco utilizzato). Infatti, quando si parla di incremento nella sopravvivenza mediana si assume che il beneficio del trattamento sia distribuito in modo abbastanza uniforme tra tutti i pazienti. Invece, in molti casi (specie con i vecchi trattamenti chemioterapici), l’incremento nella sopravvivenza mediana fornisce una sovrastima del beneficio medio per la maggioranza dei pazienti, come nel caso delle curve che inizialmente si divaricano per poi riavvicinarsi (curve a banana).

In generale, in queste analisi si possono osservare risultati statisticamente significativi anche se l’effetto individuale del trattamento non è eccezionale. Ad esempio, un incremento di tre mesi nella sopravvivenza mediana può essere statisticamente significativo e portare il trattamento all’approvazione, ma potrebbe non rappresentare un beneficio clinicamente rilevante per molti pazienti. In passato c’è stata preoccupazione riguardo l’approvazione di farmaci associati con incrementi modesti nella sopravvivenza, come per esempio, nel caso di un trattamento per il carcinoma pancreatico che prolungava la sopravvivenza di 15 giorni.

Hazard ratio: uno strumento complesso nella valutazione degli effetti del trattamento

L’hazard ratio è una misura ampiamente utilizzata per riassumere gli effetti del trattamento, specialmente in ambito oncologico. Con il termine “hazard” si intende una velocità istantanea di trasformazione, di cambiamento di stato negli individui di una popolazione (come per esempio accade con l’incidenza di eventi quali il decesso o la progressione). È un concetto matematicamente complesso, ma ancora più complesso e difficile da rappresentare è l’hazard ratio, che è “la media dei rapporti istantanei tra le velocità di trasformazione” (hazard) di due gruppi di soggetti. L’hazard ratio fornisce un’indicazione relativa di quanto un gruppo sia a rischio rispetto all’altro, nei risultati della ricerca compare con l’acronimo HR.

Banalmente si dice che un HR di 1 indica che non c’è differenza tra i gruppi, mentre un HR inferiore a 1 suggerisce un minor rischio nel gruppo trattato rispetto al gruppo di controllo. Ma bisogna fare attenzione alle semplificazioni nell’interpretazione di questo indicatore che può essere fuorviante, specie quando utilizzato a sproposito: va infatti chiarito che il suo utilizzo presuppone che gli hazard ratio istantanei, di cui è la media, siano (relativamente) costanti: se non lo sono, come accade quando il rischio dell’evento è prima superiore in uno dei due gruppi a confronto e poi nell’altro, l’hazard ratio non ha alcun senso e non dovrebbe essere utilizzato. Questo accade, ad esempio, con i trapianti di midollo nelle neoplasie ematologiche, che comportano un iniziale incremento del rischio di morte, prima dei benefici a lungo termine. Bisogna però ricordare che anche quando può essere utilizzato, l’hazard ratio non tiene conto dell’andamento delle due curve di sopravvivenza nel tempo ma solo dell’ordine con cui avvengono gli eventi nei due gruppi a confronto: per cui benefici modesti sul piano quantitativo possono produrre hazard ratio apparentemente molto forti.

Nella valutazione dell’efficacia dei nuovi trattamenti si tende a privilegiare la significatività statistica e gli effetti precoci, e a preoccuparsi molto meno degli effetti complessivi di una terapia, in una prospettiva che rifletta le priorità del paziente e non solo quelle degli altri cosiddetti “stakeholders”.

Infine, hazard e rischio sono due indici statistici diversi (l’hazard non è una probabilità) [1]: quando si afferma che un HR di 0,5 indica una riduzione del 50 per cento della mortalità, bisogna chiarire che questo indica una riduzione del tasso di mortalità e non della probabilità di morte ad un certo tempo. Questo non fa molta differenza finché la mortalità cumulativa è bassa (fino al 20-30 per cento), ma cambia nettamente la prospettiva sull’efficacia del trattamento per mortalità cumulative superiori. Inoltre va spiegato che con l’hazard ratio non si prevede la possibilità di una guarigione, ma si misura di quanto è ridotta, con un trattamento, l’incidenza di un evento negativo – incidenza che può essere variabile nel tempo, ma che si assume non arrivare mai a 0. Ha quindi senso parlare di HR quanto le due curve (di sopravvivenza, o di sopravvivenza libera da un evento) si divaricano progressivamente nel tempo, come classicamente vediamo con le terapie adiuvanti nel tumore della mammella operato e ora anche nei tumori avanzati con molte terapie oncologiche a bersaglio molecolare. Un altro modo per interpretare l’hazard ratio è quello di considerare il suo inverso (1/HR) che indica, sia pur molto approssimativamente, l’allungamento proporzionale del tempo all’evento: in questa prospettiva HR di 0,5 suggerisce che con il trattamento in studio il tempo di sopravvivenza mediamente raddoppia, con un HR di 0,66 aumenta del 50 per cento e così via. Questa rappresentazione, anche se grossolana, aiuta a comunicare l’effetto del trattamento in termini più comprensibili.

L’immunoterapia e il cambio di paradigma

Sia la rappresentazione di un effetto del trattamento con l’incremento della sopravvivenza mediana o media, che l’utilizzo della hazard ratio presuppongono un effetto che coinvolge la maggioranza dei pazienti, che hanno lo stesso beneficio, assoluto o relativo. Ragionando su questo aspetto con l’oncologo Alberto Sobrero, li abbiamo inquadrati in una tipologia di effetti classificabili come “small for many”, per cui la maggior parte dei pazienti ha un beneficio dal trattamento, ma questo effetto è spesso modesto/moderato. Con l’immunoterapia, al contrario, osserviamo l’opposto. Nei primi studi di immunoterapia, nel melanoma metastatico, solo una piccola percentuale dei pazienti, circa il 10-15 per cento, mostrava un beneficio che però era molto importante perché si traduceva in una lunga sopravvivenza, fino a cinque o addirittura dieci anni. Da notare che né l’hazard ratio né l’incremento nella sopravvivenza mediana coglievano tale beneficio.

Questo tipo di effetti rappresenta un cambiamento fondamentale nel paradigma terapeutico nei tumori metastatici, perché si passa da una lotta contro il tempo, con l’inevitabile sconfitta, a una probabilità, seppur ridotta, di un successo completo con la guarigione, o almeno una remissione per un periodo molto prolungato. Questa prospettiva è stata definita da noi come “large for few” e la sua presenza può essere rilevante per le decisioni terapeutiche. Se da un lato una terapia convenzionale può offrire alla maggioranza dei pazienti benefici mediamente modesti, dall’altro l’immunoterapia apre uno spiraglio di opportunità, con la possibilità di risultati eccezionali. Un paziente potrebbe razionalmente scegliere la seconda opzione che gli dà una probabilità – seppur bassa – di guarigione. In qualche modo questa scelta ricorda la filosofia delle lotterie, dove si compra un biglietto per avere una piccola probabilità di un grosso guadagno, se il costo del biglietto non è eccessivo. Per il paziente il “costo” è un periodo (es. un anno) di terapia, e quindi la possibilità di guarire, che è un’alternativa più attraente rispetto a un effetto più probabile ma temporaneo, può spingere un paziente ad accettare un trattamento anche molto tossico.

È da notare che con la seconda generazione di farmaci immunoterapici, e soprattutto con i regimi di associazione, questa probabilità di beneficio è molto cresciuta, ma il tipo di beneficio si è modificato. Per cui oggi, nel valutare gli effetti di un trattamento chemio-immunoterapico, sarebbe opportuno cercare di valutare entrambi i tipi di effetto, lo “small for many” e il “large for few” (operazione molto complessa sul piano statistico).

Una interpretazione critica del beneficio clinico

Queste due prospettive sono fondamentali per una decisione clinica condivisa con il paziente, ma dovrebbero essere considerate anche in ambito regolatorio. Un trattamento che induce un prolungamento modesto della sopravvivenza, anche se nella maggioranza dei pazienti, e quindi è considerato non essenziale, non può essere equiparato a un trattamento che può risultare inutile nella maggioranza dei pazienti, ma che, in quei pochi pazienti in cui è utile, può indurre la guarigione o una sopravvivenza prolungata. Altrimenti, per lo stesso motivo sarebbero da proscrivere  tutta una serie di azioni cliniche a bassa probabilità di successo, come molti interventi chirurgici, ad esempio in emergenza, o attività rianimatorie, che invece vengono (giustamente) eseguite se  esiste una probabilità non nulla di “salvare la vita del paziente”.

Nonostante questi ragionamenti siano abbastanza scontati, nei congressi si osserva ancora un uso indiscriminato e talora  fuorviante dei tre indicatori riassuntivi di cui abbiamo discusso. In particolare, l’hazard ratio non è mai negato a nessuno, anche in situazioni in cui non ha senso dal punto di vista statistico e, di conseguenza, dal punto di vista clinico. Questo accade anche nelle riviste biomediche, comprese quelle più prestigiose, per cui in ogni trial oncologico si presentano la curva di sopravvivenza e  quella di progression-free survival, ognuna accompagnata dai tre indicatori riassuntivi, senza alcuna discussione della loro validità e del significato nello specifico contesto.

Questo atteggiamento è favorito dal fatto che per molti trial la prima pubblicazione avviene quando i dati sono ancora largamente immaturi, con tempi di follow-up così brevi da rendere impossibile capire il tipo e  soprattutto la rilevanza dei benefici derivanti dal trattamento sperimentale: basta che si sia ottenuta una p significativa! [2]. I motivi sono vari: da un lato, le aziende del farmaco hanno fretta di pubblicare i risultati per accelerare i tempi della autorizzazione all’immissione in commercio del farmaco; dall’altro, le riviste fanno a gara per pubblicare i trial più innovativi, con risultati più promettenti, che sono quelli che più interessano clinici e ricercatori. In quest’ottica, l’hazard ratio è molto utile, perché spesso sovrastima l’efficacia del trattamento  quando il follow-up è breve: infatti, nei primi mesi dopo la randomizzazione le curve (soprattutto di progression-free survival) possono divergere in modo promettente, ma questo non permette di prevedere quali saranno i benefici del trattamento sperimentale a medio/lungo termine, perché questi effetti iniziali potrebbero consolidarsi o incrementare, ma potrebbero invece esaurirsi in pochi mesi (come è spesso accaduto in passato).

In conclusione, nel mondo della ricerca clinica sopravvive la tendenza a privilegiare, nella valutazione dell’efficacia dei nuovi trattamenti, la significatività statistica e gli effetti precoci, e a preoccuparsi molto meno di valutare e descrivere gli effetti complessivi di una terapia, in una prospettiva che rifletta gli interessi e le priorità del paziente, e non solo quelli degli altri cosiddetti “stakeholders”.

 

Riferimenti
[1] In realtà, sul piano statistico, l’hazard rappresenta il limite della probabilità quando il tempo in cui viene calcolata tende a 0.
[2] Nei moderni trial oncologici la pianificazione statistica, riportata in voluminosi “Statistical analysis plan” e in decine di pagine del protocollo, è diventata molto complessa e raffinata.  Tuttavia è interamente concentrata sulla salvaguardia della validità dei vari test di significatività (analisi intermedie e per sottogruppi, endpoint multipli) attraverso appropriate correzioni e procedure gerarchiche che però non salvaguardano le stime di efficacia, he non sembrano interessare, e che invece restano esposte al rischio di gravi distorsioni dovute alla molteplicità di analisi.