Skip to main content
Stephanie Arnett/MIT Technology Review | Getty, Public Domain

L’azienda di ricerca Exa vuole utilizzare la tecnologia dei grandi modelli linguistici per domare il selvatico web.

Una startup chiamata Exa sta proponendo una nuova versione della ricerca generativa . Utilizza la tecnologia dei grandi modelli linguistici per restituire elenchi di risultati che, a suo dire, sono più precisi di quelli dei suoi rivali, tra cui Google e OpenAI. L’obiettivo è trasformare il caotico groviglio di pagine web di Internet in una sorta di directory, con risultati specifici e precisi.

Exa fornisce già il suo motore di ricerca come servizio back-end alle aziende che desiderano costruirci sopra le proprie applicazioni. Oggi lancia la prima versione consumer di questo motore di ricerca, chiamato Websets.

“Il web è una raccolta di dati, ma è un casino”, dice il cofondatore e CEO di Exa Will Bryk. “C’è un video di Joe Rogan qui, un articolo dell‘Atlantic là. Non c’è organizzazione. Ma il sogno è che il web sia come un database”.

Websets si rivolge a utenti esperti che hanno bisogno di cercare cose che gli altri motori di ricerca non sono in grado di trovare, come tipi di persone o aziende. Se si chiede “startup che producono hardware futuristico”, si ottiene un elenco di aziende specifiche lungo centinaia di pagine, piuttosto che link a pagine web che menzionano tali termini. Google non può fare questo, dice Bryk: “Ci sono molti casi d’uso preziosi per gli investitori, i reclutatori o chiunque voglia qualsiasi tipo di dati dal web”.

Le cose si sono mosse velocemente da quando, nel 2021, MIT Technology Review ha dato la notizia che i ricercatori di Google stavano esplorando l’uso di grandi modelli linguistici in un nuovo tipo di motore di ricerca. L’idea ha subito attirato critiche feroci. Ma le aziende tecnologiche non ne hanno tenuto conto. A tre anni di distanza, giganti come Google e Microsoft si contendono una fetta di questa nuova tendenza con una serie di nuovi arrivati come Perplexity e OpenAI, che ha lanciato ChatGPT Search in ottobre.

Exa non sta (ancora) cercando di superare nessuna di queste aziende. Sta invece proponendo qualcosa di nuovo. La maggior parte delle altre aziende di ricerca avvolge grandi modelli linguistici nei motori di ricerca esistenti, utilizzando i modelli per analizzare la query dell’utente e poi riassumere i risultati. Ma i motori di ricerca stessi non sono cambiati molto. Perplexity continua a indirizzare le sue query a Google Search o a Bing, per esempio. Pensate ai motori di ricerca AI di oggi come a un panino con pane fresco ma ripieno stantio.

Più che parole chiave

Exa fornisce agli utenti elenchi di link già noti, ma utilizza la tecnologia dei modelli linguistici di grandi dimensioni per reinventare il modo in cui viene effettuata la ricerca stessa. Ecco l’idea di base: Google lavora scandagliando il web e costruendo un vasto indice di parole chiave che vengono poi abbinate alle query degli utenti. Exa effettua il crawling del web e codifica i contenuti delle pagine web in un formato noto come embedding, che può essere elaborato da modelli linguistici di grandi dimensioni.

Gli embeddings trasformano le parole in numeri in modo tale che parole con significati simili diventino numeri con valori simili. In effetti, questo permette a Exa di catturare il significato del testo delle pagine web, non solo le parole chiave.

Una schermata di Websets che mostra i risultati della ricerca: "aziende; startup; con sede negli Stati Uniti; focus sulla sanità; co-fondatore tecnico".

Una schermata di Websets che mostra i risultati della ricerca: “aziende; startup; con sede negli Stati Uniti; focus sulla sanità; co-fondatore tecnico”.

I modelli linguistici di grandi dimensioni utilizzano gli embeddings per prevedere le parole successive in una frase. Il motore di ricerca di Exa predice il link successivo. Digitate “startup che producono hardware futuristico” e il modello vi proporrà i link (reali) che potrebbero seguire questa frase.

L’approccio di Exa ha però un costo. La codifica delle pagine piuttosto che l’indicizzazione delle parole chiave è lenta e costosa. Secondo Bryk, Exa ha codificato circa un miliardo di pagine web. Si tratta di una cifra minima rispetto a Google, che ne ha indicizzate circa mille miliardi. Ma Bryk non lo vede come un problema: “Non è necessario incorporare l’intero web per essere utili”, dice. (Curiosità: “exa” significa un 1 seguito da 18 0 e “googol” significa un 1 seguito da 100 0).

Websets è molto lento nel restituire i risultati. A volte una ricerca può richiedere diversi minuti. Ma Bryk sostiene che ne vale la pena. “Molti dei nostri clienti hanno iniziato a chiedere migliaia di risultati, o decine di migliaia”, dice. “E non avevano problemi ad andare a prendere una tazza di caffè e tornare con un elenco enorme”.

“Trovo Exa più utile quando non so esattamente cosa sto cercando”, dice Andrew Gao, uno studente di informatica dell’Università di Stanford che ha utilizzato il motore di ricerca. “Per esempio, la query ‘un interessante blog post sui LLM in finanza’ funziona meglio su Exa che su Perplexity”. Ma i due motori di ricerca sono adatti a cose diverse, dice lo studente: “Li uso entrambi per scopi diversi”.

“Penso che le incorporazioni siano un ottimo modo per rappresentare entità come persone, luoghi e cose del mondo reale”, afferma Mike Tung, CEO di Diffbot, un’azienda che utilizza i grafi di conoscenza per costruire un altro tipo di motore di ricerca. Ma nota che si perdono molte informazioni se si cerca di incorporare intere frasi o pagine di testo: “Rappresentare Guerra e Pace come un unico embedding perderebbe quasi tutti gli eventi specifici accaduti in quella storia, lasciando solo un senso generale del genere e del periodo”.

Bryk riconosce che Exa è un lavoro in corso. E sottolinea anche altri limiti. Exa non è all’altezza dei motori di ricerca rivali se si vuole cercare solo una singola informazione, come il nome del fidanzato di Taylor Swift o chi è Will Bryk: “Dà un sacco di persone polacche, perché il mio cognome è polacco e gli embeddings non riescono a trovare parole chiave esatte”, dice.

Per ora Exa aggira il problema reinserendo le parole chiave nel mix quando sono necessarie. Ma Bryk è ottimista: “Stiamo coprendo le lacune del metodo di embedding fino a quando il metodo di embedding non diventerà così buono da non aver bisogno di coprire le lacune”.