L’ intelligenza artificiale impara leggendo l’intero web senza sosta

Diffbot sta costruendo il più grande grafo di conoscenza mai realizzato grazie al riconoscimento delle immagini e l’elaborazione del linguaggio naturale applicati a miliardi di pagine web.

di Will Douglas Heaven

A luglio, GPT-3, l’ultimo modello linguistico di OpenAI ha stupito con la sua capacità di sfornare paragrafi che sembrano scritti da un essere umano. C’è chi ha iniziato a mostrare come GPT-3 potesse anche completare automaticamente il codice o riempire spazi vuoti nei fogli di calcolo. Il dipendente di Twitter Paul Katsen, per esempio, ha mostrato un foglio di calcolo con le colonne compilate da GPT-3. L’unico limite, non marginale, è che i dati inseriti sono inesatti: la popolazione del Michigan non è mai stata di 10,3 milioni e l’Alaska è diventata uno stato nel 1959.

I modelli di linguaggio come GPT-3 sono imitazioni di ottimo livello, ma non hanno coscienza piena di quanto dicono. “Sono davvero bravi a generare storie sugli unicorni”, afferma Mike Tung, CEO della startup Diffbot di Stanford, “ma non sono addestrati alla concretezza”. Questo è un problema se vogliamo che le AI siano affidabili. Ecco perché Diffbot adotta un approccio diverso. Sta costruendo un’intelligenza artificiale che legge ogni pagina dell’intero web pubblico, in più lingue, ed estrae quanti più fatti possibile da quelle pagine.

Come GPT-3, il sistema di Diffbot impara attingendo online a enormi quantità di testo scritto da persone. Ma invece di usare questi dati per addestrare un modello linguistico, Diffbot trasforma ciò che legge in una serie di fattoidi in tre parti che mettono in relazione una caratteristica con un’altra: soggetto, verbo, oggetto.

Nel caso della mia biografia, per esempio, Diffbot scopre che Will Douglas Heaven è un giornalista; Will Douglas Heaven lavora a “MIT Technology Review”; “MIT Technology Review” è una società di media e così via. Ciascuno di questi fatti si unisce a miliardi di altri in una rete di estesa e interconnessa, nota come grafo della conoscenza.

Questa funzione esiste da decenni ed è alla base della prima ricerca sull’AI. Ma la costruzione e la manutenzione dei grafi di conoscenza è stata generalmente eseguita a mano, il che è ovviamente un’operazione complessa. Ciò ha anche impedito a Tim Berners-Lee di realizzare quello che ha chiamato il web semantico, che avrebbe incluso informazioni per le macchine oltre che per gli esseri umani, in modo che i bot potessero prenotare i nostri voli, fare i nostri acquisti o dare risposte più intelligenti alle domande rispetto ai motori di ricerca.

Alcuni anni fa, anche Google ha iniziato a utilizzare i grafi di conoscenza. Se si cerca “Katy Perry” si ottiene una casella accanto ai risultati di ricerca principali che informano che Katy Perry è una cantautrice americana con brani musicali ascoltabili su YouTube, Spotify e Deezer. Si può vedere che è sposata con Orlando Bloom, ha 35 anni e una serie di altri dati. Invece di fornire un elenco di link a pagine su Katy Perry, sono presentate alcune notizie su di lei tratte dal suo grafo di conoscenza.

Ma Google lo fa solo per i suoi termini di ricerca più popolari. Diffbot vuole farlo per tutto. Automatizzando completamente il processo di costruzione, Diffbot è stato in grado di costruire quello che potrebbe essere il più grande grafo di conoscenza mai realizzato. Insieme a Google e Microsoft, è una delle sole tre aziende statunitensi che esegue la scansione dell’intero Web pubblico. 

“La scansione del Web ha sicuramente un senso”, afferma Victoria Lin, ricercatrice di Salesforce che si occupa di elaborazione del linguaggio naturale e rappresentazione della conoscenza, “per creare un’ampia base di conoscenze”.  Heiko Paulheim dell’Università di Mannheim in Germania concorda: “L’automazione è l’unico modo per costruire grafi di conoscenza su larga scala”. 

Navigatore senza sosta

Per raccogliere i suoi dati, l’AI di Diffbot legge il web come farebbe un essere umano, ma molto più velocemente. Utilizzando una versione all’avanguardia del browser Chrome, l’AI visualizza i pixel grezzi di una pagina Web e utilizza algoritmi di riconoscimento delle immagini per classificare la pagina all’interno di 20 tipi diversi, inclusi video, immagine, articolo, evento e argomento di discussione. Inoltre, identifica gli elementi chiave sulla pagina, come titolo, autore, descrizione del prodotto o prezzo, e utilizza l’elaborazione del linguaggio naturale per estrarre fatti da qualsiasi testo.

Ogni fattoide suddiviso in tre parti viene aggiunto al grafo di conoscenza. Diffbot estrae fatti da pagine scritte in qualsiasi lingua, il che significa che può rispondere a domande su Katy Perry, per esempio, utilizzando dati tratti da articoli in cinese o arabo anche se non contengono il termine “Katy Perry”.

Navigare sul Web come un essere umano consente all’AI di vedere gli stessi fatti che vediamo noi. Significa anche che ha dovuto imparare a navigare sul web come noi. Diffbot esegue la scansione del Web ininterrottamente e ricostruisce il proprio grafo di conoscenza ogni quattro o cinque giorni. Secondo Tung, l’AI aggiunge da 100 a 150 milioni di entità ogni mese quando nuove persone compaiono online, vengono create aziende e lanciati prodotti. Utilizza più algoritmi di apprendimento automatico per fondere nuovi fatti con quelli vecchi, creando nuove connessioni o sovrascrivendo quelli obsoleti. Diffbot deve aggiungere nuovo hardware al proprio data center man mano che il grafo di conoscenza cresce.

I ricercatori possono accedere gratuitamente al grafo di conoscenza di Diffbot, che comunque ha anche circa 400 clienti paganti. Il motore di ricerca DuckDuckGo lo utilizza per generare i propri box simili a Google. Snapchat lo impiega per estrarre i punti salienti dalle pagine di notizie. La popolare app di wedding planner Zola se ne serve per aiutare le persone a creare liste di nozze, inserendo immagini e prezzi. Il NASDAQ, che fornisce informazioni sul mercato azionario, lo sfrutta per la ricerca finanziaria.

Adidas e Nike lo usano persino per cercare sul web scarpe contraffatte. Un motore di ricerca restituirà un lungo elenco di siti che menzionano le scarpe da ginnastica Nike, ma Diffbot consente di capire quali di queste aziende vendono effettivamente queste scarpe. A oggi, per interagire con Diffbot è necessario un codice. Tung, tuttavia, prevede di aggiungere un’interfaccia in linguaggio naturale. In definitiva, vuole costruire quello che chiama un “sistema di risposta universale alle domande sui fatti”: un’intelligenza artificiale che potrebbe rispondere a quasi tutto ciò che gli si chiede, con riferimenti alle fonti per sostenere la sua risposta.

Tung e Lin concordano sul fatto che questo tipo di intelligenza artificiale non può essere costruito solo con modelli linguistici. Meglio ancora sarebbe combinare le tecnologie, utilizzando un modello di linguaggio come GPT-3 per creare un front-end simile a quello umano per un bot tuttofare. Comunque, anche un’intelligenza artificiale che espone i fatti in modo chiaro non è necessariamente intelligente. “Non stiamo cercando di definire cosa sia l’intelligenza, o qualcosa del genere”, dice Tung. “Stiamo solo cercando di costruire qualcosa di utile”.

Immagine di: Ms Tech

(rp)

Related Posts
Total
0
Share