Il nuovo approccio creativo potrebbe portare a un hardware di apprendimento automatico più efficiente dal punto di vista energetico.
Su un tavolo del suo laboratorio all’Università della Pennsylvania, il fisico Sam Dillavou ha collegato una serie di breadboard attraverso una rete di fili colorati. La configurazione sembra quella di un progetto di elettronica domestica fai-da-te, e non particolarmente elegante. Ma questo assemblaggio senza pretese, che contiene 32 resistenze variabili, può imparare a ordinare i dati come un modello di apprendimento automatico.
Sebbene la sua capacità attuale sia rudimentale, la speranza è che il prototipo offra un’alternativa a basso consumo ai chip dell’unità di elaborazione grafica (GPU), che consumano molta energia, ampiamente utilizzati nell’apprendimento automatico.
“Ogni resistore è semplice e non ha alcun significato di per sé”, spiega Dillavou. “Ma quando li si inserisce in una rete, è possibile addestrarli a fare una serie di cose”.
Un compito svolto dal circuito: classificare i fiori in base a proprietà come la lunghezza e la larghezza dei petali. Quando sono state fornite le misure dei fiori, il circuito è stato in grado di classificarli in tre specie di iris. Questo tipo di attività è noto come problema di classificazione “lineare”, perché quando le informazioni sull’iris vengono tracciate su un grafico, i dati possono essere suddivisi in modo netto nelle categorie corrette utilizzando linee rette. In pratica, i ricercatori hanno rappresentato le misure dei fiori come tensioni, che hanno inserito nel circuito. Il circuito ha poi prodotto una tensione di uscita, che corrispondeva a una delle tre specie.
Si tratta di un modo fondamentalmente diverso di codificare i dati rispetto all’approccio utilizzato nelle GPU, che rappresentano le informazioni come 1 e 0 binari. In questo circuito, le informazioni possono assumere una tensione massima o minima o qualsiasi altra cosa intermedia. Il circuito ha classificato 120 iris con una precisione del 95%.
Ora il team è riuscito a far eseguire al circuito un problema più complesso. In un preprint attualmente in fase di revisione, i ricercatori hanno dimostrato che è in grado di eseguire un’operazione logica nota come XOR, in cui il circuito prende due numeri binari e determina se gli ingressi sono uguali. Si tratta di un compito di classificazione “non lineare”, spiega Dillavou, e “le non linearità sono la salsa segreta di tutto l’apprendimento automatico”.
Le loro dimostrazioni sono una passeggiata per i dispositivi che utilizzate ogni giorno. Ma non è questo il punto: Dillavou e i suoi colleghi hanno costruito questo circuito come uno sforzo esplorativo per trovare progetti di calcolo migliori. L’industria informatica si trova ad affrontare una sfida esistenziale nel tentativo di fornire macchine sempre più potenti. Tra il 2012 e il 2018, la potenza di calcolo richiesta per i modelli di IA all’avanguardia è aumentata di 300.000 volte. Oggi, l’addestramento di un modello linguistico di grandi dimensioni richiede una quantità di energia pari al consumo annuo di oltre cento abitazioni statunitensi. Dillavou spera che il suo progetto offra un approccio alternativo e più efficiente dal punto di vista energetico per costruire IA più veloci.
Formazione a coppie
Per svolgere correttamente i suoi vari compiti, il circuito richiede un addestramento, proprio come i modelli di apprendimento automatico che girano sui chip di calcolo convenzionali. ChatGPT, per esempio, ha imparato a generare testo dal suono umano dopo che gli sono state mostrate molte istanze di testo umano reale; il circuito ha imparato a prevedere quali misure corrispondono a quale tipo di iris dopo che gli sono state mostrate misure di fiori etichettate con le loro specie.
L’addestramento del dispositivo prevede l’utilizzo di un secondo circuito identico per “istruire” il primo dispositivo. Entrambi i circuiti partono con gli stessi valori di resistenza per ciascuna delle 32 resistenze variabili. Dillavou alimenta entrambi i circuiti con gli stessi ingressi – una tensione corrispondente, ad esempio, alla larghezza dei petali – e regola la tensione di uscita del secondo circuito in modo che corrisponda alla specie corretta. Il primo circuito riceve un feedback dal secondo ed entrambi i circuiti regolano le loro resistenze in modo da convergere sugli stessi valori. Il ciclo ricomincia con un nuovo ingresso, finché i circuiti non si sono stabilizzati su una serie di livelli di resistenza che producono l’uscita corretta per gli esempi di addestramento. In sostanza, il team addestra il dispositivo con un metodo noto come apprendimento supervisionato, in cui un modello di intelligenza artificiale impara dai dati etichettati per prevedere le etichette dei nuovi esempi.
Secondo Dillavou, può essere utile pensare alla corrente elettrica nel circuito come all’acqua che scorre in una rete di tubi. Le equazioni che regolano il flusso di fluidi sono analoghe a quelle che regolano il flusso di elettroni e la tensione. La tensione corrisponde alla pressione del fluido, mentre la resistenza elettrica corrisponde al diametro del tubo. Durante l’addestramento, i diversi “tubi” della rete regolano il loro diametro in varie parti della rete per ottenere la pressione di uscita desiderata. All’inizio, infatti, il team aveva pensato di costruire il circuito con tubi d’acqua piuttosto che con l’elettronica.
Per Dillavou, un aspetto affascinante del circuito è quello che chiama “apprendimento emergente”. In un essere umano, “ogni neurone fa le sue cose”, dice. “E poi, come fenomeno emergente, si impara. Hai dei comportamenti. Si va in bicicletta”. Nel circuito la situazione è simile. Ogni resistore si regola secondo una semplice regola, ma collettivamente “trova” la risposta a una domanda più complicata senza alcuna istruzione esplicita.
Un potenziale vantaggio energetico
Il prototipo di Dillavou si qualifica come un tipo di computer analogico, che codifica le informazioni lungo un continuum di valori invece degli 1 e 0 discreti utilizzati nei circuiti digitali. I primi computer erano analogici, ma le loro controparti digitali li hanno soppiantati dopo che gli ingegneri hanno sviluppato tecniche di fabbricazione per spremere più transistor sui chip digitali per aumentarne la velocità. Tuttavia, gli esperti sanno da tempo che i computer analogici, pur aumentando la loro potenza di calcolo, offrono una migliore efficienza energetica rispetto a quelli digitali, afferma Aatmesh Shrivastava, ingegnere elettrico della Northeastern University. “I vantaggi in termini di efficienza energetica non sono in discussione”, afferma. Tuttavia, aggiunge, i segnali analogici sono molto più rumorosi di quelli digitali, il che li rende poco adatti a qualsiasi compito di calcolo che richieda un’elevata precisione.
In pratica, il circuito di Dillavou non ha ancora superato i chip digitali in termini di efficienza energetica. Il suo team stima che il suo progetto utilizzi circa 5-20 picojoule per ogni resistore per generare una singola uscita, dove ogni resistore rappresenta un singolo parametro di una rete neurale. Secondo Dillavou, si tratta di un’efficienza pari a circa un decimo di quella dei più moderni chip di intelligenza artificiale. Ma la promessa dell’approccio analogico è quella di scalare il circuito per aumentare il numero di resistenze e quindi la potenza di calcolo.
Spiega il potenziale risparmio energetico in questo modo: i chip digitali come le GPU consumano energia per ogni operazione, quindi un chip in grado di eseguire più operazioni al secondo significa semplicemente un chip che consuma più energia al secondo. Al contrario, il consumo energetico del suo computer analogico si basa sul tempo di accensione. Se il computer dovesse essere due volte più veloce, diventerebbe anche due volte più efficiente dal punto di vista energetico.
Il circuito di Dillavou è anche un tipo di computer neuromorfico, cioè ispirato al cervello. Come altri schemi neuromorfici, il circuito dei ricercatori non funziona secondo istruzioni dall’alto verso il basso come un computer convenzionale. Al contrario, i resistori regolano i loro valori in risposta a un feedback esterno, con un approccio dal basso verso l’alto, simile al modo in cui i neuroni rispondono agli stimoli. Inoltre, il dispositivo non ha un componente dedicato alla memoria. Questo potrebbe offrire un altro vantaggio in termini di efficienza energetica, dato che un computer convenzionale spende una quantità significativa di energia per trasferire i dati tra il processore e la memoria.
Sebbene i ricercatori abbiano già costruito una varietà di macchine neuromorfiche basate su materiali e progetti diversi, i progetti tecnologicamente più maturi sono costruiti su chip semiconduttori. Un esempio è il computer neuromorfico Loihi 2 di Intel, a cui l’azienda ha iniziato a dare accesso a ricercatori governativi, accademici e industriali nel 2021. DeepSouth, una macchina neuromorfa basata su chip dell’Università di Western Sydney, progettata per essere in grado di simulare le sinapsi del cervello umano su scala, dovrebbe entrare in funzione quest’anno.
Anche l’industria dell’apprendimento automatico ha mostrato interesse per il calcolo neuromorfico basato su chip, con una startup di San Francisco chiamata Rain Neuromorphics che ha raccolto 25 milioni di dollari a febbraio. Tuttavia, i ricercatori non hanno ancora trovato un’applicazione commerciale in cui il calcolo neuromorfico dimostri definitivamente un vantaggio rispetto ai computer tradizionali. Nel frattempo, ricercatori come il team di Dillavou stanno proponendo nuovi schemi per far progredire il campo. Alcuni esponenti dell’industria hanno espresso interesse per il suo circuito. “La gente è interessata soprattutto all’aspetto dell’efficienza energetica”, dice Dillavou.
Ma il loro progetto è ancora un prototipo e i risparmi energetici non sono confermati. Per le dimostrazioni, il team ha mantenuto il circuito su breadboard perché è “il più facile da lavorare e il più veloce per cambiare le cose”, dice Dillavou, ma il formato soffre di ogni sorta di inefficienza. I ricercatori stanno testando il loro dispositivo su circuiti stampati per migliorarne l’efficienza energetica e hanno in programma di scalare il progetto in modo che possa eseguire compiti più complicati. Resta da vedere se la loro idea intelligente potrà prendere piede fuori dal laboratorio.