Una nuova tecnica di apprendimento per rinforzo promette sviluppi futuri

L’idea è che se al robot venisse insegnato da subito a prevedere i limiti della sua azione in un ambiente, si eliminerebbe immediatamente una parte significativa delle prove fallite che la macchina si trova a eseguire.

di Karen Hao

Quando si guarda una sedia, indipendentemente dalla forma e dal colore, si sa che ci si può sedere su di essa. Quando un pesce è in acqua, indipendentemente dalla sua posizione, sa di poter nuotare. Questa è nota come teoria della “affordance”, un termine coniato dallo psicologo James J. Gibson. La parola significa che quando gli esseri intelligenti guardano il mondo percepiscono non solo gli oggetti e le loro relazioni, ma anche le loro possibilità.

In altre parole, la sedia “offre” la possibilità di sedersi. L’acqua “offre” la possibilità di nuotare. La teoria è in grado di spiegare solo parzialmente perché l’intelligenza animale è così generalizzabile: spesso si sa all’istante come interagire con nuovi oggetti perché ne riconosciamo le possibilità.

I ricercatori di DeepMind stanno usando questo concetto per sviluppare  un nuovo approccio all’apprendimento per rinforzo. Nella teoria tipica, un agente apprende attraverso prove ed errori, a partire dal presupposto che qualsiasi azione sia possibile. Un robot che impara a spostarsi dal punto A al punto B, per esempio, supporrà che possa muoversi attraverso pareti o mobili fino a quando ripetuti fallimenti non gli dimostreranno il contrario. Se questa impossibilità gli venisse insegnata in partenza, il suo processo di apprendimento sarebbe più efficiente e lo aiuterebbe a generalizzare le conoscenze in diversi ambienti.

I ricercatori hanno creato un semplice scenario virtuale, in cui un agente virtuale si trova in un ambiente 2D con un muro al centro e si muove per capire cosa l’ambiente gli permette di fare. Il robot ha alcuni semplici obiettivi da raggiungere attraverso l’apprendimento per rinforzo, come spostare una certa quantità a destra a sinistra. A differenze delle macchine che non avevano fatto un training per capire cosa potevano fare e non fare, questi robot si scontravano inevitabilmente con il muro.

Il lavoro è ancora agli inizi, quindi i ricercatori hanno utilizzato solo un ambiente semplice e obiettivi altrettanto semplici da raggiungere. Ma la loro speranza è che gli esperimenti iniziali aiuteranno a gettare le basi teoriche per estendere l’idea fino ad azioni molto più complesse. 

A loro parere, in futuro questa tecnica consentirà a un robot di valutare rapidamente se, per esempio, può versare liquido in una tazza. Avendo sviluppato una comprensione generale di quali oggetti offrono la possibilità di trattenere liquidi e quali no, non dovrà girare ripetutamente la tazza e versare liquidi su tutto il tavolo per imparare a raggiungere il suo obiettivo.

Immagine di: Ms Tech / Pixabay

Related Posts
Total
0
Share