L’automazione della scienza dei dati

Software in grado di scoprire corrispondenze nei dati e scrivere un rapporto sulle loro scoperte potrebbero semplificare l’analisi di questi dati da parte delle aziende.

di Tom Simonite

Che la vostra professione consista nel combattere il cancro, pubblicare annunci online, o governare un paese, gli impiegati in grado di dissezionare e spiegare dati complessi sono divenuti indispensabili

Ora, un gruppo di ricercatori supportato da Google sta sviluppando software in grado di automatizzare alcune delle operazioni eseguite da questi scienziati dei dati, nella speranza di diffondere queste competenze e renderle più convenienti. Una volta immessi i dati grezzi, il software di “statistica automatizzata” produce un rapporto fatto di parole e grafici per descrivere le tendenze matematiche identificate.

“Non è pensato per rimpiazzare esattamente quello che uno statistico è in grado di fare, ma può essere molto utile”, dice Zoubin Ghahramani, professore di ingegneria dell’informazione presso l’Università di Cambridge, che ha sviluppato il software. “Alle volte identifica dei trend differenti rispetto a quelli presentati da un normale esperto di statistica”, aggiunge.

I computer possono aver reso banale l’esecuzione di complesse operazioni matematiche su grandi raccolte di dati, e la vendita di software per l’analisi dei dati è un business in crescita. La creatività e l’esperienza umana è però ancora richiesta nella scelta e nell’implementazione grado di spiegare i risultati di questi insiemi di dati.

Lo statistico automatico è solo uno di una serie di utili strumenti in via di sviluppo per automatizzare parte di questa esperienza. Quando, ad esempio, il sistema è stato interrogato su un decennio di dati riguardanti i viaggi aerei, il risultato è stato un rapporto di nove pagine con quattro spiegazioni matematiche sui trend osservati e sulla loro possibile utilità nella produzione di previsioni.

Ghahramani ha recentemente ricevuto da parte di Google un grant di $750,000 a supporto del progetto. Quest’anno, una versione dello statistico automatico sarà disponibile online. Ghahramani esplorerà l’ipotesi di lanciare una versione commerciale, continuando nel mentre la sua ricerca.

Lo statistico automatico fa affidamento su una grande raccolta di tecniche statistiche che possono essere combinate come mattoni per creare modelli matematici, spiega Ghahramani. Il software applica anzitutto il metodo più semplice sui dati; seleziona quindi le tecniche che meglio possono spiegare i dati per un turno successivo di sperimentazioni, aggiungendo ulteriori tecniche matematiche ed esaminandone gli effetti. Il modello migliore viene infine utilizzato per generare il rapporto scritto finale.

I rapporti si concentrano rigorosamente sui dati, non su quanto accade nel mondo reale.

Pur riuscendo ad escogitare un sistema per descrivere matematicamente il regolare aumento nel traffico aereo estivo, ad esempio, lo statistico automatico non ha saputo motivare questo fenomeno con l’inizio delle ferie. Ciononostante, spiega Ghahramani, il sistema offre ugualmente un utile punto di partenza per un analista umano che volesse offrire interpretazioni simili in analisi future.

Un rapporto pubblicato lo scorso anno dalla Royal Statistical Society del Regno Unito parlava di un’allarmante carenza di analisti e statistici come conseguenza della crescente domanda di competenze simili da parte di ogni settore industriale. Nel 2014, LinkedIn ha riportato che i membri del suo servizio con competenze nel campo della statistica avevano maggiori probabilità di trovare un nuovo impiego o attirare l’attenzione di reclutatori.

Se lo statistico automatico si trasformerà in un prodotto commerciale, si unirà a un denso campo di servizi che mirano ad aiutare le società a ottenere i risultati migliori dai loro dati.

Una società di nome Skytree ha recentemente introdotto quello che sostiene essere il primo strumento commerciale in grado di selezionare automaticamente il modello migliore per spiegare un particolare insieme di dati. A differenza dello statistico automatico, “l’automodeler” non può produrre un rapporto scritto del suo lavoro. Gli assicuratori e le società di carte di credito sono alcuni dei clienti che fanno uso di questo servizio per rilevare casi di frode.

Secondo il chief scientist della Skytree, Alex Gray, anche professore associato presso la Georgia Tech, lo statistico automatico sarebbe un interessante progetto di ricerca, ma il metodo utilizzato non sarebbe abbastanza efficiente da gestire grandi quantità di dati.

Un’altra società, la Narrative Science, offre un servizio che converte dati numerici in rapporti leggibili (vedi “Il nuovo lavoro a Wall Street per i robot giornalisti“). Il cofondatore, Kristian Hammond, che è anche professore presso la Northwestern University, sostiene che lo statistico automatico potrebbe aiutare gli scienziati dei dati a essere più efficienti nel loro lavoro. I suoi rapporti, però, non sarebbero particolarmente utili per chi non è esperto di statistica. La maggior parte delle persone non vuole saperne di modelli matematici, spiega Hammond. “Vogliono sapere se possono risparmiare denaro dimezzando le attività in fabbrica fra le ore 1:00 e 6:00”.

(MO)

Related Posts
Total
0
Share