L’approccio semplificato rende più facile capire come le reti neurali producano i propri output.
Una modifica al funzionamento dei neuroni artificiali nelle reti neurali potrebbe rendere le IA più facili da decifrare.
I neuroni artificiali, i mattoni fondamentali delle reti neurali profonde, sono sopravvissuti quasi immutati per decenni. Sebbene queste reti diano all’intelligenza artificiale moderna la sua potenza, sono anche imperscrutabili.
I neuroni artificiali esistenti, utilizzati in modelli linguistici di grandi dimensioni come il GPT4, funzionano assorbendo un gran numero di input, sommandoli e convertendo la somma in un output utilizzando un’altra operazione matematica all’interno del neurone. Le combinazioni di questi neuroni costituiscono le reti neurali e il loro funzionamento combinato può essere difficile da decodificare.
Ma il nuovo modo di combinare i neuroni funziona in modo leggermente diverso. Una parte della complessità dei neuroni esistenti viene semplificata e spostata all’esterno dei neuroni. All’interno, i nuovi neuroni sommano semplicemente i loro input e producono un output, senza bisogno di operazioni nascoste aggiuntive. Le reti di neuroni di questo tipo sono chiamate reti di Kolmogorov-Arnold (KAN), dal nome dei matematici russi che le hanno ispirate.
La semplificazione, studiata in dettaglio da un gruppo guidato da ricercatori del MIT, potrebbe rendere più facile capire perché le reti neurali producono determinati output, aiutare a verificare le loro decisioni e persino sondare i pregiudizi. I dati preliminari suggeriscono anche che, man mano che le KAN vengono ingrandite, la loro precisione aumenta più rapidamente rispetto alle reti costruite con neuroni tradizionali.
“È un lavoro interessante”, afferma Andrew Wilson, che studia le basi dell’apprendimento automatico alla New York University. “È bello che le persone stiano cercando di ripensare fondamentalmente la progettazione di queste [reti]”.
Gli elementi di base delle KAN sono stati proposti negli anni ’90 e i ricercatori hanno continuato a costruire versioni semplici di queste reti. Ma il team guidato dal MIT ha portato avanti l’idea, mostrando come costruire e addestrare KAN più grandi, eseguendo test empirici su di esse e analizzando alcune KAN per dimostrare come la loro capacità di risolvere problemi possa essere interpretata dagli esseri umani. “Abbiamo rivitalizzato questa idea”, ha detto il membro del team Ziming Liu, dottorando nel laboratorio di Max Tegmark al MIT. “E, si spera, con l’interpretabilità… non [dovremo] più pensare che le reti neurali siano scatole nere”.
Sebbene sia ancora agli inizi, il lavoro del team sulle KAN sta attirando l’attenzione. Sono nate pagine GitHub che mostrano come utilizzare le KAN per una miriade di applicazioni, come il riconoscimento delle immagini e la risoluzione di problemi di fluidodinamica.
Trovare la formula
L’attuale progresso è avvenuto quando Liu e i colleghi del MIT, del Caltech e di altri istituti stavano cercando di capire il funzionamento interno delle reti neurali artificiali standard.
Oggi, quasi tutti i tipi di IA, compresi quelli utilizzati per costruire grandi modelli linguistici e sistemi di riconoscimento delle immagini, includono sotto-reti note come MLP (multilayer perceptron). In un MLP, i neuroni artificiali sono disposti in “strati” densi e interconnessi. Ogni neurone ha al suo interno una cosa chiamata “funzione di attivazione”, un’operazione matematica che riceve una serie di input e li trasforma in un modo prestabilito in un output.
In un MLP, ogni neurone artificiale riceve gli input da tutti i neuroni dello strato precedente e moltiplica ogni input con un “peso” corrispondente (un numero che indica l’importanza di quell’input). Questi input ponderati vengono sommati e inviati alla funzione di attivazione all’interno del neurone per generare un output, che viene poi trasmesso ai neuroni dello strato successivo. Un MLP impara a distinguere tra immagini di cani e gatti, ad esempio, scegliendo i valori corretti per i pesi degli ingressi di tutti i neuroni. La funzione di attivazione è fissa e non cambia durante l’addestramento.
Una volta addestrati, tutti i neuroni di una MLP e le loro connessioni agiscono essenzialmente come un’altra funzione che prende un input (ad esempio, decine di migliaia di pixel in un’immagine) e produce l’output desiderato (ad esempio, 0 per gatto e 1 per cane). Capire l’aspetto di questa funzione, cioè la sua forma matematica, è una parte importante per capire perché produce un certo risultato. Ad esempio, perché etichetta una persona come meritevole di credito, considerati i dati sulla sua situazione finanziaria? Ma le MLP sono scatole nere. Il reverse-engineering della rete è quasi impossibile per compiti complessi come il riconoscimento delle immagini.
E anche quando Liu e colleghi hanno cercato di decodificare una MLP per compiti più semplici che prevedevano l’uso di dati “sintetici” su misura, hanno avuto difficoltà.
“Se non riusciamo nemmeno a interpretare questi set di dati sintetici delle reti neurali, allora non abbiamo speranze di affrontare i set di dati del mondo reale”, afferma Liu. “Abbiamo trovato molto difficile cercare di capire queste reti neurali. Volevamo cambiare l’architettura”.
Mappare la matematica
Il cambiamento principale è stato quello di eliminare la funzione di attivazione fissa e introdurre una funzione molto più semplice da apprendere per trasformare ogni ingresso prima che entri nel neurone.
A differenza della funzione di attivazione di un neurone MLP, che riceve numerosi input, ogni funzione semplice all’esterno del neurone KAN riceve un solo numero e ne emette un altro. Ora, durante l’addestramento, invece di imparare i singoli pesi, come avviene in un MLP, il KAN impara semplicemente a rappresentare ogni funzione semplice. In un articolo pubblicato quest’anno sul server di preprint ArXiv, Liu e colleghi hanno dimostrato che queste semplici funzioni esterne ai neuroni sono molto più facili da interpretare, rendendo possibile ricostruire la forma matematica della funzione appresa dall’intera KAN.
Il team, tuttavia, ha testato l’interpretabilità delle KAN solo su serie di dati semplici e sintetici, non su problemi del mondo reale, come il riconoscimento delle immagini, che sono più complicati. “Stiamo lentamente spingendo il limite”, dice Liu. “L’interpretabilità può essere un compito molto impegnativo”.
Liu e colleghi hanno anche dimostrato che le KAN diventano più precise nei loro compiti con l’aumentare delle dimensioni più velocemente di quanto non facciano le MLP. Il team ha dimostrato il risultato a livello teorico e lo ha dimostrato empiricamente per compiti legati alla scienza (come l’apprendimento dell’approssimazione di funzioni rilevanti per la fisica). “Non è ancora chiaro se questa osservazione si estenderà ai compiti standard di apprendimento automatico, ma almeno per i compiti scientifici sembra promettente”, afferma Liu.
Liu riconosce che le KAN presentano un importante svantaggio: l’addestramento di una KAN richiede più tempo e potenza di calcolo rispetto a quello di una MLP.
“Questo limita l’efficienza applicativa delle KAN su insiemi di dati di grandi dimensioni e compiti complessi”, afferma Di Zhang, della Xi’an Jiaotong-Liverpool University di Suzhou, in Cina. Ma suggerisce che algoritmi più efficienti e acceleratori hardware potrebbero aiutare.
Anil Ananthaswamy è un giornalista scientifico e autore che scrive di fisica, neuroscienze computazionali e apprendimento automatico. Il suo nuovo libro, WHY MACHINES LEARN: The Elegant Math Behind Modern AI, è stato pubblicato a luglio da Dutton (Penguin Random House US).