La chiave della scoperta è l’allineamento tra un evento interessante e un osservatore interessato. George E.P. Box
La statistica moderna ha come obiettivo quello di sintetizzare i dati e identificare dei parametri che possano stabilire le caratteristiche e i comportamenti delle misure rilevate. Disporre di un elevato numero di osservazioni riduce la loro variabilità e migliora la precisione dei parametri stimati. In questo contesto, risulta chiaro come per trattare il tema della rarità non si possa ricorrere agli approcci statistici standard: usare dei valori di sintesi in presenza di piccoli numeri potrebbe non essere adeguato, la rarità prima di essere sintetizzata deve essere indagata ed esplorata. Uno degli elementi chiave da considerare quando si affronta il tema della rarità è la sua relatività: esistono delle singolarità anche all’interno di specifiche popolazioni. È questo il caso degli outlier, osservazioni anomale che presentano dei comportamenti estremamente diversi rispetto al contesto in cui sono state rilevate. Ne sono un esempio i pazienti oncologici che mostrano una regressione spontanea dalla malattia [1].
Sebbene il problema dell’identificazione degli outlier sia stato ampiamente studiato nei campi del data mining e della statistica, come affrontarlo rimane un tema dibattuto. Per molto tempo si è ipotizzato che gli outlier fossero dei segnali di disturbo, dei rumori, dovuti esclusivamente a errori nei dati o a eventi casuali, e quindi, una volta individuati, andassero eliminati o sostituiti.
Gli outlier potranno servire per indagare le eccezionalità, trasformando in melodia quello che fino ad oggi è stato considerato rumore.
Un’area di ricerca recente pone nuovi interrogativi sulla provenienza di questi valori, ipotizzando una distribuzione non omogenea dei dati e l’esistenza di cluster di outlier, ovvero di piccoli gruppi di valori anomali che sono simili tra loro, ma marcatamente diversi da tutta la popolazione. Per poterli descrivere e analizzare si possono utilizzare dei metodi specifici [2]. È questo il caso della teoria dei valori estremi, branca della statistica che si occupa delle deviazioni estreme, le “code”, della distribuzione di probabilità. L’analisi dei valori estremi è ampiamente utilizzata nelle diverse aree scientifiche per la predizione di eventi e la valutazione di rischi che hanno bassa probabilità e alto impatto, come terremoti, uragani o crolli del mercato finanziario. Nella scienza medica l’utilizzo di tali tecniche, seppur scarso, è in via di sviluppo e ha messo in luce strumenti importanti al fine della programmazione sanitaria, quali la possibilità di predire la mortalità per influenza o di individuare il rischio di longevità [3,4]. In ambito farmacologico è stato mostrato l’uso della teoria dei valori estremi per rilevare problemi di sicurezza rari già nella fase di sperimentazione clinica, senza dover attendere l’insorgenza di eventi avversi gravi nei dati postmarketing [5].
Gli outlier sono, quindi, una possibile fonte di informazione e nei prossimi anni approcci statistici innovativi potranno essere sviluppati e implementati per indagare le eccezionalità, trasformando in melodia quello che fino ad oggi è stato considerato rumore.
Bibliografia
[1] Frenkel M, Gross S, Popper Giveon A, et al. Living outliers: experiences, insights and narratives of exceptional survivors of incurable cancer. Future Oncol 2015;11:1741-9.
[2] Aggarwal, CC. Outlier analysis. Cham: Springer, 2013.
[3] Thomas M, Lemaitre M, Wilson ML, et al. Applications of extreme value theory in public health. PLoS One 2016;11:e0159312.
[4] Bravo JM, Corte-Real P. Modeling longevity risk using extreme value theory: an empirical investigation using Portuguese and Spanish population data. March 2012.
[5] Southworth H. Predicting potential liver toxicity from phase 2 data: a case study with ximelagatran. Stat Med 2014;33:2914-23.