Si sente sempre più spesso parlare di big data, delle loro potenzialità e di come in futuro cambieranno le nostre vite. Tuttavia, un grande volume di dati non corrisponde automaticamente a una migliore qualità delle inferenze e delle applicazioni che da queste derivano. Rischi legati alla presenza di bias nella selezione, nella raccolta e nell’interpretazione dei dati minacciano continuamente la validità delle conclusioni di una ricerca. Di questi limiti e delle loro implicazioni abbiamo parlato con Paolo Vineis, docente di Environmental Epidemiology all’Imperial College London impegnato nello studio delle relazioni esistenti tra parametri ambientali complessi e vari outcome di salute.
Infatti, che si tratti di poche informazioni ricavate da milioni di persone o di milioni di informazioni ricavate da poche persone, l’utilizzo dei big data presenta sempre dei limiti che dipendono dalla natura stessa dei dati. Ad esempio, in ambito epidemiologico essi sono particolarmente utili in quanto permettono di fare una fotografia, spesso istantanea, di un dato fenomeno in un dato momento, ma non consentono invece di cogliere gli aspetti legati alla storia delle interazioni tra gli organismi e l’ambiente.
Ma non solo, spesso sono presenti bias legati alla selezione del campione, falsi positivi e ipotesi causali che non reggono alla verifica sperimentale. “L’uso dei big data è problematico e richiede cautela nell’interpretazione”, suggerisce Vineis. È necessaria, conclude l’epidemiologo, una validazione dei dati da parte di fonti esterne, al fine di non giungere a inferenze causali sbagliate che potrebbero determinare una sottrazione di risorse a interventi di dimostrata efficacia.