Didi introduce un nuovo algoritmo per gestire le richieste dei clienti

La rivale di Uber sta conducendo test su un algoritmo di apprendimento per rinforzo che dovrebbe garantire un servizio più efficiente.

di Karen Hao

Didi, l’equivalente cinese di Uber, sta testando in alcune città un nuovo algoritmo per l’abbinamento dei conducenti ai passeggeri.

Il sistema di abbinamento sfrutta l’apprendimento per rinforzo, una tecnica di apprendimento automatico che si affida a penalità e ricompense per fare in modo che gli “agenti” raggiungano un determinato obiettivo. In questo caso, gli agenti sono i conducenti, mentre le ricompense sono i pagamenti per il completamento di una corsa.

L’attuale algoritmo della società è composto da due parti: un sistema di previsione che anticipa i cambiamenti delle chiamate dei clienti nel tempo, e un sistema di abbinamento che, sulla base di quelle previsioni, assegna i conducenti alle corse.

Questo algoritmo, finora, ha servito bene la società; ciononostante, può essere ancora migliorato. Quando cambiano gli equilibri fra la domanda dei clienti e la risposta dei conducenti disponibili, così anche il modello di previsione va modificato, riaddestrato perché continui a effettuare previsioni accurate.

Il passaggio ad un sistema rinforzato risolverebbe questo problema collassando entrambe le parti del vecchio algoritmo in un unico elemento: con ciascun elemento di dati successivo, l’algoritmo impara a dislocare i conducenti in maniera più efficiente. Questo approccio permette al sistema di continuare ad evolversi in risposta al cambiamento fra domanda e servizio, senza alcun bisogno di essere sottoposto a un nuovo addestramento. Test di confronto A/B fra i due algoritmi in una manciata di città hanno confermato che il nuovo algoritmo offre i risultati più efficienti.

Didi intende implementare gradualmente il nuovo sistema nelle città della Cina, anche se non è ancora chiara la tempistica. Tony Qin, capo della ricerca IA presso la divisione USA della società, ci ha detto che la società potrebbe continuare a condurre test A/B fra i suoi algoritmi presso città differenti per utilizzare quello che darà i risultati migliori. Secondo Qin, l’algoritmo di apprendimento per rinforzo potrebbe anche rivelarsi svantaggioso in alcuni casi. Il tutto dipende dalla domanda e risposta di ciascuna città. Nel frattempo, la società sta sviluppando un altro algoritmo basato su questa tecnologia ma impostato su agenti e ricompense differenti.

(MO)

Related Posts
Total
0
Share