Skip to main content

AlphaStar ha utilizzato l’apprendimento per rinforzo per elaborare nuove strategie per conquistare pianeti nel popolare gioco di guerra galattica.

di Karen Hao

Nel gennaio di quest’anno, DeepMind ha annunciato di aver raggiunto un traguardo storico nella sua ricerca di intelligenza generale artificiale. Aveva progettato un sistema di IA, chiamato AlphaStar, che batteva due giocatori professionisti a StarCraft II, un popolare videogioco sulla guerra galattica.

Si è trattato di una vera impresa. StarCaft II è estremamente complesso, con 10 alla 26ima scelte per ogni mossa. È anche un gioco di informazioni imperfette e non ci sono strategie definite per vincere. Il risultato ha segnato un nuovo livello di intelligenza artificiale.

Ora DeepMind, una consociata di Alphabet, sta rilasciando un aggiornamento. AlphaStar supera la stragrande maggioranza dei giocatori attivi di StarCraft, dimostrando una strategia molto più raffinata di prima. I risultati, pubblicati su “Nature”, potrebbero avere importanti implicazioni per applicazioni che vanno dalla traduzione automatica agli assistenti digitali o persino alla pianificazione militare.

StarCraft II è un gioco di strategia in tempo reale, basato su sfide uno contro uno. Un giocatore deve scegliere una delle tre razze umane o aliene – Protoss, Terran o Zerg – e alternare la raccolta di risorse, la costruzione di infrastrutture e armi e l’attacco all’avversario per vincere la partita. Ogni gara ha abilità e limiti unici che influenzano la strategia vincente, quindi i giocatori generalmente scelgono sfide individuali.

AlphaStar ha utilizzato l’apprendimento per rinforzo, in cui un algoritmo apprende attraverso prove ed errori, per padroneggiare il gioco nelle diverse situazioni. “Questo è davvero importante perché significa che lo stesso tipo di strategia può in linea di principio essere applicato ad altri domini”, ha dichiarato in una conferenza stampa David Silver, il principale ricercatore di DeepMind. L’intelligenza artificiale ha anche raggiunto un grado superiore al 99,8 per cento dei giocatori attivi nella lega online ufficiale.

Per raggiungere tale flessibilità, il team di DeepMind ha modificato una tecnica comunemente definita auto-gioco, in cui un algoritmo di apprendimento del rinforzo gioca contro se stesso per apprendere più velocemente. DeepMind notoriamente ha usato questa tecnica per allenare AlphaGo Zero, il programma che ha auto-appreso, senza alcun input umano, come battere i migliori giocatori nell’antico gioco di Go. Il gruppo lo ha anche usato nella versione preliminare di AlphaStar.

Nella modalità di auto-gioco, entrambe le versioni dell’algoritmo sono programmate per massimizzare le loro possibilità di vincita. Ma i ricercatori hanno scoperto che ciò non ha portato alla elaborazione di algoritmi più avanzati. Un tipo di gioco così aperto rischiava di far precipitare l’algoritmo in strategie specifiche che avrebbero funzionato solo in determinate condizioni.

AlphaStar risponde a un attacco di un altro giocatore.Per gentile concessione di DeepMind

Prendendo ispirazione dal modo in cui i giocatori di StarCraft II si allenano l’uno con l’altro, i ricercatori hanno invece programmato uno degli algoritmi per evidenziare i difetti dell’altro piuttosto che massimizzare le proprie possibilità di vincita.

“È un po’ come chiedere a un amico di giocare contro di te”, ha dichiarato Oriol Vinyals, il principale ricercatore del progetto. “Questi amici dovrebbero mostrarti quali sono i tuoi punti deboli, per farti diventare più forte”. Il metodo ha prodotto algoritmi molto più generalizzabili che potrebbero adattarsi a una più ampia gamma di scenari di gioco.

I ricercatori ritengono che le capacità di sviluppo e coordinamento della strategia di AlphaStar potrebbero essere applicate a molti altri problemi. “Abbiamo scelto StarCraft […] perché ritenevamo che rispecchiasse molte sfide che si presentano nel mondo reale”, ha affermato Silver. Queste applicazioni, ha continuato, potrebbero includere assistenti digitali, auto a guida autonoma o altre macchine che devono interagire con gli esseri umani.

Ma AlphaStar dimostra anche i limiti significativi dell’IA. Per esempio, per raggiungere lo stesso livello di abilità è necessario molto più allenamento rispetto a un giocatore umano. Questo software di apprendimento è ancora molto lontano dall’essere tradotto in prodotti robotici d’alto livello o applicazioni del mondo reale.

Immagine: AlphaStar combatte contro avversari umani. Per gentile concessione di DeepMind

(rp)