Skip to main content
WAI KEEN VONG

Una rete neurale addestrata sulle esperienze di un singolo bambino è riuscita ad apprendere una delle componenti fondamentali del linguaggio: come abbinare le parole agli oggetti che rappresentano.

I bambini umani sono molto più bravi ad apprendere anche dei migliori modelli linguistici di grandi dimensioni. Per essere in grado di scrivere in un inglese passabile, ChatGPT ha dovuto essere addestrato su serie di dati enormi che contengono milioni o addirittura un trilione di parole. I bambini, invece, hanno accesso solo a una minima parte di questi dati, eppure a tre anni comunicano in modi piuttosto sofisticati.

Un gruppo di ricercatori della New York University si è chiesto se l’intelligenza artificiale potesse imparare come un bambino. Che cosa potrebbe fare un modello di intelligenza artificiale quando gli viene fornito un insieme di dati molto più piccolo, come le immagini e i suoni percepiti da un singolo bambino che impara a parlare?

Molto, a quanto pare. Il modello di intelligenza artificiale è riuscito ad abbinare le parole agli oggetti che rappresentano.  “Ci sono abbastanza dati anche in questa piccola parte dell’esperienza del bambino da permettere un vero apprendimento delle parole”, afferma Brenden Lake, scienziato cognitivo computazionale della New York University e autore dello studio. Questo lavoro, pubblicato oggi su Science, non solo fornisce indicazioni su come i bambini imparano, ma potrebbe anche portare a migliori modelli di intelligenza artificiale.

Per questo esperimento, i ricercatori si sono basati su 61 ore di video provenienti da una telecamera da casco indossata da un bambino che vive vicino ad Adelaide, in Australia. Il bambino, Sam, ha indossato la telecamera a intervalli regolari per un anno e mezzo, da quando aveva sei mesi fino a poco dopo il suo secondo compleanno. La telecamera ha catturato le cose che Sam guardava e a cui prestava attenzione durante circa l’1% delle sue ore di veglia. Ha registrato i due gatti di Sam, i suoi genitori, la sua culla e i suoi giocattoli, la sua casa, i suoi pasti e molto altro ancora. “Questo set di dati era assolutamente unico”, spiega Lake. “È la migliore finestra che abbiamo mai avuto su ciò a cui ha accesso un singolo bambino”.

Per addestrare il modello, Lake e i suoi colleghi hanno utilizzato 600.000 fotogrammi video abbinati alle frasi pronunciate dai genitori di Sam o da altre persone presenti nella stanza al momento dell’acquisizione dell’immagine: in tutto 37.500 “enunciati”. A volte le parole e gli oggetti corrispondevano. A volte non corrispondevano. Ad esempio, in un fotogramma, Sam guarda un selezionatore di forme e un genitore dice: “Ti piace la corda”. In un altro, una mano di adulto copre alcuni blocchi e un genitore dice: “Anche tu vuoi i blocchi”.

Per gentile concessione del padre di Sam

Il team ha fornito al modello due indicazioni. Quando gli oggetti e le parole ricorrono insieme, è segno che potrebbero essere collegati. Ma quando un oggetto e una parola non si trovano insieme, è segno che probabilmente non corrispondono. “Quindi abbiamo questa sorta di avvicinamento e allontanamento che si verifica all’interno del modello”, spiega Wai Keen Vong, scienziato cognitivo computazionale della New York University e autore dello studio. “La speranza è che nei dati ci sia un numero sufficiente di casi in cui quando il genitore pronuncia la parola ‘palla’, il bambino vede una palla”.

Abbinare le parole agli oggetti che rappresentano può sembrare un compito semplice, ma non lo è affatto. Per dare un’idea della portata del problema, immaginate il soggiorno di una famiglia con bambini piccoli. È dotato di tutti i normali mobili da salotto, ma anche di disordine infantile. Il pavimento è pieno di giocattoli. I pastelli sono sparsi sul tavolino. C’è una tazza per la merenda sul davanzale e del bucato su una sedia. Se un bambino sente la parola “palla”, potrebbe riferirsi a una palla. Ma potrebbe anche riferirsi a qualsiasi altro giocattolo, o al divano, o a un paio di pantaloni, o alla forma di un oggetto, o al suo colore, o all’ora del giorno. “C’è un numero infinito di significati possibili per ogni parola”, dice Lake.

Il problema è talmente intrattabile che alcuni psicologi dell’età evolutiva hanno sostenuto che i bambini devono nascere con una comprensione innata del funzionamento del linguaggio per poterlo apprendere così rapidamente.  Ma lo studio suggerisce che alcune parti del linguaggio possono essere apprese da un insieme molto ristretto di esperienze anche senza questa capacità innata, afferma Jess Sullivan, psicologa dello sviluppo presso la Skidmore University, che faceva parte del team che ha raccolto i dati della telecamera del casco di Sam ma non è stata coinvolta nel nuovo studio. “Questo, per me, scuote davvero la mia visione del mondo”.

Ma Sullivan sottolinea che la capacità di abbinare le parole agli oggetti che rappresentano, pur essendo un problema di apprendimento difficile, è solo una parte di ciò che costituisce il linguaggio. Ci sono anche regole che governano il modo in cui le parole vengono messe insieme. Il vostro cane potrebbe conoscere le parole “palla” o “passeggiata”, ma questo non significa che sia in grado di capire l’inglese. E potrebbe essere che la capacità innata di linguaggio dei bambini vada oltre il vocabolario. Potrebbe influenzare il modo in cui si muovono nel mondo, o ciò a cui prestano attenzione, o il modo in cui rispondono al linguaggio. “Non credo che lo studio avrebbe funzionato se i bambini non avessero creato l’insieme di dati da cui la rete neurale stava imparando”, afferma l’autrice.

BRENDEN LAKE

Il prossimo passo di Lake e dei suoi colleghi è cercare di capire di cosa hanno bisogno per far sì che l’apprendimento del modello replichi più fedelmente l’apprendimento precoce del linguaggio nei bambini. “C’è ancora del lavoro da fare per cercare di ottenere un modello con capacità del tutto simili a quelle di un bambino di due anni”, dice Lake. Questo potrebbe significare fornire più dati. La figlia di Lake, che ora ha 18 mesi, fa parte della prossima coorte di bambini che forniranno questi dati. Indossa una telecamera a caschetto per alcune ore alla settimana. Forse il modello ha bisogno di prestare attenzione allo sguardo dei genitori o di avere un senso della solidità degli oggetti, cosa che i bambini colgono intuitivamente. Creare modelli in grado di imparare come i bambini aiuterà i ricercatori a comprendere meglio l’apprendimento e lo sviluppo umano.

I modelli di intelligenza artificiale in grado di cogliere alcuni dei modi in cui gli esseri umani apprendono il linguaggio potrebbero essere molto più efficienti nell’apprendimento; potrebbero comportarsi più come gli esseri umani e meno come “un complesso motore statistico per la corrispondenza dei modelli”, come il linguista Noam Chomsky e i suoi colleghi una volta descrissero i large language models come ChatGPT. “I sistemi di intelligenza artificiale sono ancora fragili e privi di buon senso”, afferma Howard Shrobe, che gestisce il programma della Defense Advanced Research Projects Agency del governo statunitense che ha contribuito a finanziare il team di Lake. Ma un’intelligenza artificiale in grado di imparare come un bambino potrebbe essere in grado di comprendere il significato, rispondere a nuove situazioni e imparare da nuove esperienze. L’obiettivo è portare l’intelligenza artificiale a un passo dall’intelligenza umana.