Statcheck: Quando i Bot "Correggono" gli Accademici

Sai quella sensazione quando stai per consegnare il rapporto e il tuo collega arriva di corsa al tuo tavolo urlando che ha trovato un errore nel tuo documento? Da un lato è utile, così il capo non ti vede ancora confondere “loro/lì”. Dall’altro… che seccatura.

Negli ultimi mesi, anche gli scienziati hanno provato le stesse emozioni contrastanti con statcheck, una nuova applicazione che scansiona studi psicologici per individuare errori. E proprio come quel collega “utile”, è il modo in cui è stata presentata che ha creato qualche nervosismo.

Cominciamo con ciò che fa esattamente statcheck. Sam Schwarzkopf, un neuroscienziato presso l’University College di Londra e autore del blog scientifico NeuroNeurotico, lo paragona a un correttore di bozze per le statistiche. “La maggior parte degli errori individuati da statcheck sono probabilmente insignificanti”, spiega via email. “Quindi è un po’ fastidioso vedere l’errore, ma non fa davvero molto male.” Ad esempio, una svista. È ottimo coglierla, ma non è drammatico.

Tuttavia, quando statcheck segnala errori “che potrebbero modificare le conclusioni”, è come trovare un errore che “cambierebbe il significato della frase”, dice Schwarzkopf. Ma ciò non significa che questi errori statistici stiano cambiando i risultati. “Scommetterei che la maggior parte di questi errori sono probabilmente sviste e non cambiano effettivamente le conclusioni”, afferma Schwarzkopf. “In molti casi si può capire dai risultati, sia i numeri che i grafici, che le conclusioni sono corrette e il test statistico è semplicemente riportato in modo errato.” Naturalmente, ci saranno casi in cui c’è un errore effettivo, che significherebbe che c’è stato un errore di calcolo effettivo, o che i numeri sono stati falsificati. In entrambi i casi, sarebbe necessario un controllo manuale, vecchio stile.

Sembra fantastico, vero? Un modo per consentire agli accademici di verificare la loro ricerca prima della presentazione e contribuire a ottenere risultati più accurati. Ma l’enorme rilascio di statcheck è stato un po’ più drammatico: sono stati analizzati 50.000 articoli su PubPeer (una piattaforma online che consente ai ricercatori di condividere e discutere articoli pubblicati) utilizzando statcheck, e di conseguenza sono stati segnalati con report generati automaticamente, anche se il report diceva semplicemente che non ci sono errori.

Non tutti erano entusiasti che il loro lavoro fosse analizzato e commentato senza invito, specialmente in un forum in cui un commento su un articolo significa generalmente che è stato trovato un errore. Un avviso che segnala che l’articolo è stato analizzato da statcheck potrebbe portare a un’interpretazione errata, in altre parole.

Ed è importante ricordare che statcheck non è certo un pezzo di intelligenza artificiale perfetto. “Poiché statcheck è un algoritmo automatico, non sarà mai preciso quanto un controllo manuale”, dice Michéle Nuijten via email. Nuijten è una dottoranda presso l’Università di Tilburg nei Paesi Bassi e ha contribuito a creare statcheck. “A causa degli errori che statcheck commette, è sempre necessario controllare manualmente eventuali incongruenze individuate da statcheck, prima di trarre conclusioni significative.” Sia Nuijten che Chris Hartgerink (il ricercatore che ha analizzato e riportato sugli articoli di PubPeer) erano chiari nel sottolineare che statcheck aveva difetti ed errori. Il manuale di statcheck include anche dettagliate liste di ciò che statcheck non può fare.

Il punto su cui Schwarzkopf insiste è che individuare errori nelle statistiche è un ottimo avvertimento, ma non racconta necessariamente la storia dei dati. L’articolo riporta che uno su otto articoli conteneva un errore che potrebbe aver influenzato la conclusione statistica, il che potrebbe farci tutti sbiancare temendo che la scienza sia sbagliata, che il nero sia il bianco e che nessuno sia da fidarsi. Ma statcheck non ci dice quanti errori hanno effettivamente influenzato le conclusioni degli studi. Segnala solo possibili gravi incongruenze.

Schwarzkopf avverte che non dobbiamo preoccuparci che tutti questi errori significhino false conclusioni. “La stragrande maggioranza di questi uno su otto errori sono probabilmente insignificanti perché sono dovuti a sviste piuttosto che a veri errori di calcolo dei risultati”, afferma. “È certamente utile individuare tali errori, ma non invalidano le interpretazioni dei risultati. L’unico modo per distinguere se un errore è dovuto a una svista o a un vero errore di calcolo è guardare i dati stessi e riprodurre le statistiche.” In altre parole, dobbiamo assicurarci che gli autori e le pubblicazioni controllino (e ricontrollino) le statistiche prima della pubblicazione e, soprattutto, siano in grado di replicare i risultati.

E sebbene alcuni scienziati non fossero entusiasti di vedere il loro lavoro analizzato o segnalato su PubPeer, è giusto dire che i ricercatori troveranno un sollievo nell’usare la tecnologia di statcheck per rivedere il proprio lavoro, cosa che ora possono fare facilmente su http://statcheck.io.

Altri Libri Bellissimi: