Programmi per scoprire i testi generati dall’IA? Troppo semplice ingannarli

I sistemi di intelligenza artificiale che pretendono di rilevare il testo generato dall’intelligenza artificiale hanno prestazioni scadenti. E non ci vuole molto per superarli.

A poche settimane dal lancio di ChatGPT, si temeva che gli studenti avrebbero usato il chatbot per scrivere saggi accettabili in pochi secondi. In risposta a questi timori, le startup hanno iniziato a creare prodotti che promettono di individuare se un testo è stato scritto da un essere umano o da una macchina. 

Il problema è che è relativamente semplice ingannare questi strumenti ed evitare di essere scoperti, secondo una nuova ricerca non ancora sottoposta a peer review.  

Debora Weber-Wulff, docente di media e informatica presso l’Università di Scienze Applicate HTW di Berlino, ha lavorato con un gruppo di ricercatori di diverse università per valutare la capacità di 14 strumenti, tra cui Turnitin, GPT Zero e Compilatio, di rilevare un testo scritto da ChatGPT di OpenAI.

La maggior parte di questi strumenti funziona cercando i segni distintivi del testo generato dall’IA, tra cui la ripetizione, e calcolando poi la probabilità che il testo sia stato generato dall’IA. Ma il team ha scoperto che tutti gli strumenti testati hanno faticato a rilevare il testo generato da ChatGPT che era stato leggermente riorganizzato dagli esseri umani e offuscato da uno strumento di parafrasi, suggerendo che tutto ciò che gli studenti devono fare è adattare leggermente i saggi generati dall’IA per superare i rilevatori.  

“Questi strumenti non funzionano”, afferma Weber-Wulff. “Non fanno quello che dicono di fare. Non sono rilevatori di IA”. 

I ricercatori hanno valutato gli strumenti scrivendo brevi saggi di livello universitario su una varietà di argomenti, tra cui ingegneria civile, informatica, economia, storia, linguistica e letteratura. Hanno scritto loro stessi i saggi per essere certi che il testo non fosse già online, il che avrebbe significato che poteva essere già stato usato per addestrare ChatGPT. 

Poi ogni ricercatore ha scritto un testo aggiuntivo in bosniaco, ceco, tedesco, lettone, slovacco, spagnolo o svedese. Questi testi sono stati passati attraverso lo strumento di traduzione AI DeepL o Google Translate per tradurli in inglese.  

Il team ha poi utilizzato ChatGPT per generare due testi aggiuntivi ciascuno, che hanno leggermente modificato nel tentativo di nascondere che erano stati generati dall’intelligenza artificiale. Una serie è stata modificata manualmente dai ricercatori, che hanno riordinato le frasi e scambiato le parole, mentre un’altra è stata riscritta utilizzando uno strumento di parafrasi AI chiamato Quillbot. Alla fine, i ricercatori hanno avuto a disposizione 54 documenti su cui testare gli strumenti di rilevamento. 

I ricercatori hanno scoperto che, mentre gli strumenti erano bravi a identificare il testo scritto da un essere umano (con un’accuratezza media del 96%), se la cavavano peggio quando si trattava di individuare il testo generato dall’intelligenza artificiale, soprattutto quando era stato modificato. Sebbene gli strumenti abbiano identificato il testo ChatGPT con una precisione del 74%, questa è scesa al 42% quando il testo generato da ChatGPT è stato leggermente modificato. 

Questo tipo di studi evidenzia anche quanto siano obsoleti gli attuali metodi di valutazione del lavoro degli studenti da parte delle università, afferma Vitomir Kovanović, docente che sviluppa modelli di apprendimento automatico e di intelligenza artificiale presso la University of South Australia, che non è stato coinvolto nel progetto.

Daphne Ippolito, ricercatrice senior di Google specializzata nella generazione del linguaggio naturale, che non ha lavorato al progetto, solleva un’altra preoccupazione.

“Se i sistemi di rilevamento automatico devono essere impiegati in ambito educativo, è fondamentale capire il loro tasso di falsi positivi, poiché accusare erroneamente uno studente di aver imbrogliato può avere conseguenze disastrose per la sua carriera accademica”, spiega l’autrice. “Anche il tasso di falsi negativi è importante, perché se troppi testi generati dall’IA passano per scritti da esseri umani, il sistema di rilevamento non è utile”.

Compilatio, che produce uno degli strumenti testati dai ricercatori, afferma che è importante ricordare che il suo sistema indica solo i passaggi sospetti, che classifica come potenziali plagi o contenuti potenzialmente generati dall’IA.

“Spetta alle scuole e agli insegnanti che valutano i documenti analizzati convalidare o imputare le conoscenze effettivamente acquisite dall’autore del documento, ad esempio mettendo in atto ulteriori strumenti di indagine come l’interrogazione orale, delle domande aggiuntive in un ambiente controllato in classe ecc.”, ha detto un portavoce di Compilatio.

“In questo modo, gli strumenti di Compilatio fanno parte di un vero e proprio approccio didattico che incoraggia l’apprendimento di buone pratiche di ricerca, scrittura e citazione. Il software Compilatio è un aiuto alla correzione, non un correttore”, ha aggiunto il portavoce. GPT Zero non ha risposto a una richiesta di commento.

“Il nostro modello di rilevamento si basa sulle notevoli differenze tra la natura più idiosincratica e imprevedibile della scrittura umana e i segni distintivi molto prevedibili del testo generato dall’intelligenza artificiale”, spiega Annie Chechitelli, Chief Product Officer di Turnitin. 

“Tuttavia, la nostra funzione di rilevamento della scrittura AI si limita ad avvisare l’utente della presenza della scrittura AI, evidenziando le aree in cui potrebbe essere necessaria un’ulteriore discussione. Non determina l’uso appropriato o inappropriato degli strumenti di scrittura AI, né se tale uso costituisca un imbroglio o una cattiva condotta in base alla valutazione e alle istruzioni fornite dall’insegnante”.

Sappiamo da tempo che gli strumenti destinati a rilevare il testo scritto dall’intelligenza artificiale non sempre funzionano come dovrebbero. All’inizio di quest’anno, OpenAI ha presentato uno strumento progettato per rilevare il testo prodotto da ChatGPT, ammettendo che segnalava solo il 26% del testo scritto dall’AI come “probabilmente scritto dall’AI”. OpenAI ha indicato a MIT Technology Review una sezione del suo sito web dedicata alle considerazioni per gli insegnanti, in cui si avverte che gli strumenti progettati per rilevare i contenuti generati dall’IA sono “tutt’altro che infallibili”.

Tuttavia, questi insuccessi non hanno impedito alle aziende di lanciare prodotti che promettono di fare il loro lavoro, afferma Tom Goldstein, professore presso l’Università del Maryland, che non ha partecipato alla ricerca.

“Molti di essi non sono molto precisi, ma non sono nemmeno un disastro completo”, aggiunge, sottolineando che Turnitin è riuscito a raggiungere una certa accuratezza di rilevamento con un tasso di falsi positivi piuttosto basso. Sebbene gli studi che mettono in luce le carenze dei cosiddetti sistemi di rilevamento del testo da parte dell’intelligenza artificiale siano molto importanti, sarebbe stato utile ampliare l’ambito dello studio agli strumenti di intelligenza artificiale al di là di ChatGPT, afferma Sasha Luccioni, ricercatrice della startup di intelligenza artificiale Hugging Face.

Per Kovanović, l’idea di cercare di individuare un testo scritto dall’intelligenza artificiale è sbagliata.

“Non cercate di individuare l’IA – afferma – ma fate in modo che l’uso dell’IA non sia il problema”.

Related Posts
Total
0
Share