SARAH ROGERS/MITTR

Perché AI Overviews di Google sbaglia

La nuova funzione di ricerca AI di Google è un disastro. Perché ci dice di mangiare sassi e pizza collosa? Si può rimediare?

Quando all’inizio del mese Google ha annunciato il lancio della sua funzione di ricerca alimentata dall’intelligenza artificiale, l’azienda ha promesso che “Google farà le ricerche al posto vostro”. La nuova funzione, chiamata AI Overviews, fornisce brevi riassunti generati dall’intelligenza artificiale che evidenziano le informazioni chiave e i link in cima ai risultati di ricerca.

Purtroppo, i sistemi di intelligenza artificiale sono intrinsecamente inaffidabili. A pochi giorni dall’uscita di AI Overviews negli Stati Uniti, gli utenti hanno condiviso esempi di risposte a dir poco strane. L’AI suggeriva agli utenti di aggiungere colla alla pizza o di mangiare almeno una piccola pietra al giorno, e che l’ex presidente degli Stati Uniti Andrew Johnson aveva conseguito lauree tra il 1947 e il 2012, nonostante fosse morto nel 1875.

Giovedì Liz Reid, responsabile di Google Search, ha annunciato che l’azienda ha apportato miglioramenti tecnici al sistema per diminuire la probabilità di generare risposte errate, compresi migliori meccanismi di rilevamento delle query nonsense. Inoltre, sta limitando l’inclusione di contenuti satirici, umoristici e generati dagli utenti nelle risposte, poiché tale materiale potrebbe risultare in consigli fuorvianti.

Ma perché AI Overviews restituisce informazioni inaffidabili e potenzialmente pericolose? E cosa si può fare per risolvere il problema?

Come funziona AI Overviews?

Per capire perché i motori di ricerca alimentati dall’intelligenza artificiale sbagliano, dobbiamo vedere come sono stati ottimizzati per funzionare. Sappiamo che AI Overviews utilizza un nuovo modello di intelligenza artificiale generativa in Gemini, la famiglia di grandi modelli linguistici (LLM) di Google, che è stato personalizzato per Google Search. Questo modello è stato integrato con i principali sistemi di classificazione web di Google e progettato per estrarre risultati pertinenti dal suo indice di siti web.

La maggior parte dei LLM si limita a prevedere la parola (o il token) successiva in una sequenza, il che li fa apparire fluenti ma li rende anche inclini a sbagliare. Non hanno una verità di base su cui basarsi, ma scelgono ogni parola solo sulla base di un calcolo statistico. Questo porta ad avere allucinazioni. È probabile che il modello Gemini in AI Overviews aggiri questo problema utilizzando una tecnica di intelligenza artificiale chiamata retrieval-augmented generation (RAG), che consente a un LLM di controllare fonti specifiche al di fuori dei dati su cui è stato addestrato, come ad esempio alcune pagine web, afferma Chirag Shah, professore dell’Università di Washington specializzato nella ricerca online.

Una volta che l’utente inserisce una domanda, questa viene confrontata con i documenti che costituiscono le fonti di informazione del sistema e viene generata una risposta. Poiché il sistema è in grado di associare la query originale a parti specifiche delle pagine web, è in grado di citare da dove ha tratto la risposta, cosa che i normali LLM non possono fare.

Uno dei principali vantaggi di RAG è che le risposte che genera alle domande dell’utente dovrebbero essere più aggiornate, più accurate e più pertinenti rispetto a quelle di un modello tipico che si limita a generare una risposta basata sui dati di addestramento. Questa tecnica viene spesso utilizzata per cercare di evitare che i LLM abbiano delle allucinazioni. (Un portavoce di Google non ha voluto confermare se AI Overviews utilizza RAG).

Allora perché restituisce risposte sbagliate?

Ma la RAG è tutt’altro che infallibile. Affinché un LLM che utilizza la RAG ottenga una buona risposta, deve sia recuperare correttamente le informazioni sia generare correttamente la risposta. Una risposta sbagliata si ottiene quando una o entrambe le parti del processo falliscono.

Nel caso della raccomandazione di AI Overviews di una ricetta per la pizza che contiene colla, tratta da un post scherzoso su Reddit, è probabile che il post sia apparso pertinente alla domanda originale dell’utente sul fatto che il formaggio non si attacca alla pizza, ma qualcosa è andato storto nel processo di recupero, dice Shah. “Il fatto che sia pertinente non significa che sia giusto, e la parte del processo di generazione non lo mette in dubbio”, spiega Shah.

Allo stesso modo, se un sistema RAG si imbatte in informazioni contrastanti, come un manuale di politica e una versione aggiornata dello stesso manuale, non è in grado di capire da quale versione trarre la risposta. Al contrario, può combinare le informazioni di entrambe per creare una risposta potenzialmente fuorviante.

“Il modello linguistico di grandi dimensioni genera un linguaggio fluente sulla base delle fonti fornite, ma un linguaggio fluente non equivale a un’informazione corretta”, spiega Suzan Verberne, docente dell’Università di Leiden specializzata nell’elaborazione del linguaggio naturale.

Quanto più specifico è un argomento, tanto più alta è la possibilità di disinformazione nell’output di un modello linguistico di grandi dimensioni, afferma l’autrice, aggiungendo: “Questo è un problema nel settore medico, ma anche in quello educativo e scientifico”.

Secondo il portavoce di Google, in molti casi quando AI Overviews restituisce risposte errate è perché non ci sono molte informazioni di alta qualità disponibili sul web da mostrare per la query, oppure perché la query corrisponde maggiormente a siti satirici o a post scherzosi.

Il portavoce afferma che la stragrande maggioranza delle volte AI Overviews fornisce informazioni di alta qualità e che molti degli esempi di risposte sbagliate erano in risposta a query non comuni, aggiungendo che i contenuti di AI Overviews potenzialmente dannosi, osceni o altrimenti inaccettabili sono stati generati in risposta a meno di una query unica su 7 milioni. Google sta continuando a rimuovere AI Overviews da alcune query, in conformità con le sue politiche sui contenuti.

Non si tratta solo di cattivi dati di allenamento

Sebbene l’errore della colla per pizza sia un buon esempio di un caso in cui l’intelligenza artificiale ha indicato una fonte inaffidabile, il sistema può anche generare informazioni errate da fonti effettivamente corrette. Melanie Mitchell, ricercatrice di intelligenza artificiale presso il Santa Fe Institute del Nuovo Messico, ha cercato su Google “Quanti presidenti musulmani hanno avuto gli Stati Uniti?”. AI Overviews ha risposto: “Gli Stati Uniti hanno avuto un presidente musulmano, Barack Hussein Obama”.

Barack Obama non è musulmano, il che rende errata la risposta di AI Overviews, che ha tratto le sue informazioni da un capitolo di un libro accademico intitolato Barack Hussein Obama: Il primo presidente musulmano d’America? Quindi il sistema di intelligenza artificiale non solo non ha colto il senso del saggio, ma lo ha interpretato nel modo esattamente opposto a quello previsto, spiega Mitchell. “L’intelligenza artificiale ha alcuni problemi: uno è trovare una buona fonte che non sia uno scherzo, l’altro è interpretare correttamente ciò che la fonte sta dicendo”, aggiunge Mitchell. “È una cosa che i sistemi di intelligenza artificiale hanno difficoltà a fare, ed è importante notare che anche quando trova una buona fonte, può comunque commettere degli errori”.

Il problema può essere risolto?

In definitiva, sappiamo che i sistemi di intelligenza artificiale sono inaffidabili e che, finché utilizzeranno la probabilità per generare il testo parola per parola, l’allucinazione sarà sempre un rischio. E anche se AI Overviews probabilmente migliorerà man mano che Google la perfezionerà dietro le quinte, non potremo mai essere certi che sarà accurata al 100%.

Google ha dichiarato che sta aggiungendo restrizioni di attivazione per le query in cui AI Overviews non si è rivelato particolarmente utile e ha aggiunto ulteriori “perfezionamenti di attivazione” per le query relative alla salute. Secondo Verberne, l’azienda potrebbe aggiungere una fase al processo di reperimento delle informazioni per segnalare una query a rischio e far sì che il sistema si rifiuti di generare una risposta in questi casi. Google non intende utilizzare AI Overviews per argomenti espliciti o pericolosi, o per query che indicano una situazione di vulnerabilità, afferma il portavoce dell’azienda.

Tecniche come l’apprendimento per rinforzo dal feedback umano, che incorpora tale feedback nell’addestramento di un LLM, possono anche contribuire a migliorare la qualità delle sue risposte.

Allo stesso modo, i LLM potrebbero essere addestrati specificamente con il compito di identificare quando una domanda non può essere risolta e potrebbe anche essere utile istruirli a valutare attentamente la qualità di un documento recuperato prima di generare una risposta, dice Verbene: “Un’istruzione adeguata aiuta molto!”.

Sebbene Google abbia aggiunto un’etichetta alle risposte di AI Overviews che recita “L’AI generativa è sperimentale”, dovrebbe prendere in considerazione l’idea di rendere molto più chiaro che la funzione è in fase beta e sottolineare che non è pronta a fornire risposte completamente affidabili, afferma Shah. “Finché non sarà più in fase beta – e al momento lo è sicuramente e lo sarà ancora per un po’ – dovrebbe essere completamente facoltativa. Non dovrebbe essere imposto come parte della ricerca principale”.

Related Posts
Total
0
Share