A cosa serve una rete neurale quantizzata, e quanto è importante

Le reti neurali quantizzate consentono applicazioni di machine learning più accurate su dispositivi già in vendita

Nella sua forma più semplice, una rete neurale si manifesta semplicemente come una serie di strati. C’è un livello di input, un livello di output e uno o più livelli nascosti tra i due.

Quando si parla di deep learning, dunque, si intende una rete neurale con più di tre livelli: la parola “deep” indica più livelli intermedi.

Ogni livello contiene nodi e ogni nodo è interconnesso con uno o più nodi nel livello inferiore. Quindi, in poche parole, le informazioni entrano nel neurale dal livello di input, viaggiano attraverso i livelli nascosti ed escono da uno dei nodi di output.

Cosa sono una rete neurale quantizzata e una rete neurale binaria?

Per determinare come le informazioni viaggiano attraverso la rete, gli sviluppatori utilizzano pesi e bias, parametri all’interno di un nodo che influenzeranno i dati mentre si spostano attraverso la rete. I pesi sono coefficienti. Più intricato è il peso, più precisa è una rete, ma più diventa computazionalmente intensiva.

Ciascun nodo utilizza anche una funzione di attivazione per determinare come trasformare il valore di input. Pertanto, per migliorare le prestazioni, gli sviluppatori possono utilizzare reti neurali quantizzate, che utilizzano pesi di precisione inferiori.

La rete neurale quantizzata più efficiente sarebbe una rete neurale binarizzata (BNN), che utilizza solo due valori come peso e attivazione: +1 e -1. Di conseguenza, un BNN richiede pochissima potenza di calcolo ma è anche il meno accurato.

Perché le reti neurali profondamente quantizzate sono importanti?

La sfida del settore era trovare un modo per semplificare le reti neurali per eseguire operazioni di inferenza sui microcontrollori senza sacrificare l’accuratezza al punto da rendere la rete inutile.

Per risolvere questo problema, i ricercatori della ST e dell’Università di Salerno, in Italia, hanno lavorato su reti neurali profondamente quantizzate.

I DQNN utilizzano solo pesi piccoli (da 1 bit a 8 bit) e possono contenere strutture ibride con solo alcuni livelli binarizzati mentre altri utilizzano un quantizzatore a virgola mobile con larghezza di bit maggiore. Il documento di ricerca realizzato dalla ST e dai ricercatori universitari ha mostrato quale struttura ibrida potrebbe offrire il miglior risultato ottenendo il minor footprint di RAM e ROM.

La nuova versione di STM32Cube.AI è il risultato diretto di questi sforzi di ricerca. In effetti, la versione 7.2 ST supporta reti neurali profondamente quantizzate per beneficiare dell’efficienza dei livelli binarizzati senza distruggere l’accuratezza.

Gli sviluppatori possono utilizzare framework di QKeras o Larq, tra gli altri, per pre-addestrare la propria rete prima di elaborarla tramite X-CUBE-AI.

Il passaggio a un DQNN aiuterà a risparmiare l’utilizzo della memoria, consentendo così agli ingegneri di scegliere dispositivi più convenienti o utilizzare un microcontrollore per l’intero sistema invece di più componenti. STM32Cube.AI continua quindi a portare capacità di inferenza più potenti alle piattaforme di edge computing.

Da un’applicazione demo alle tendenze di mercato

ST e Schneider Electric hanno collaborato a una recente applicazione per il conteggio delle persone che ha sfruttato un DQNN.

Il sistema ha eseguito l’inferenza su un STM32H7 elaborando le immagini del sensore termico per determinare se le persone hanno attraversato una linea immaginaria e in quale direzione decidere se stavano entrando o uscendo.

La scelta dei componenti è notevole perché ha promosso una distinta base relativamente bassa. Invece di passare a un processore più costoso, Schneider ha utilizzato una rete neurale profondamente quantizzata per ridurre significativamente la memoria e l’utilizzo della CPU, riducendo così l’ingombro dell’applicazione e aprendo la porta a una soluzione più conveniente.

Entrambe le società hanno presentato la demo durante la conferenza TinyML lo scorso marzo 2022.

Come superare l’hype dell’apprendimento automatico ai margini?

ST è stato il primo produttore di MCU a fornire una soluzione come STM32Cube.AI e le prestazioni del nostro strumento continuano a essere di alto livello, secondo i benchmark MLCommons.

Come mostra questo ultimo passaggio da un documento accademico a una versione software, il motivo alla base delle prestazioni ottenute è la priorità data alla ricerca che ha un impatto sulle applicazioni del mondo reale.

Si tratta di rendere l’AI pratica e accessibile invece di una parola d’ordine. Gli analisti di mercato di Gartner anticipano che le aziende che lavorano sull’AI incorporata subiranno presto una “disillusione”.

Il recente annuncio e l’applicazione demo con Schneider mostrano che, in virtù della priorità data alla ricerca, ST ha superato questa pendenza essendo al centro di applicazioni pratiche e ottimizzazioni ponderate.

Related Posts
Total
1
Share