IN CHE MODO L’AGENTE57 DI DEEPMIND HA SUPERATO GLI UMANI IN 57 GIOCHI ATARI

In un articolo pubblicato da DeepMind, un team di scienziati della divisione di ricerca britannica di Alphabet ha affermato che Agent57 – il primo agente di apprendimento per rinforzo profondo – ha superato gli umani in tutti i 57 giochi Atari 2600 nel set di dati Arcade Learning Environment.

Agent57 combina un algoritmo per esplorare in modo efficiente un meta controller che adatta l’esplorazione insieme al comportamento dell’agente lungo rispetto a quello a breve termine. I coautori dello studio hanno scritto: “Con Agent57, siamo riusciti a costruire un agente più generalmente intelligente che ha prestazioni superiori all’uomo su tutti i compiti del benchmark Atari57. Agent57 è stato in grado di scalare con quantità crescenti di calcolo: più si è allenato, più alto è il suo punteggio. “

Con quest’ultimo sviluppo, Agent57 può essere ulteriormente utilizzato per generare modelli decisionali di intelligenza artificiale (AI) più capaci che il mondo ha in questo momento. I nuovi modelli potrebbero essere una benedizione per diverse organizzazioni che possono sfruttarlo per aumentare la produttività e semplificare varie operazioni attraverso l’automazione del posto di lavoro. Ciò consentirà all’intelligenza artificiale di svolgere non solo piccole attività ripetitive, ma anche di improvvisare secondo il suo ambiente.

Secondo i ricercatori, Arcade Learning Environment è stato selezionato come piattaforma per valutare il design dell’agente e la sua competenza in una vasta gamma di giochi. Per questo motivo, i giochi Atari 2600 sono stati selezionati, in quanto forniscono un ambiente che si ritiene sia stimolante e coinvolgente per i giocatori umani.

In precedenza, un sistema di OpenAI e DeepMind mostrava prestazioni elevate in giochi come Pong ed Enduro. Non è tutto, dato che MuZero di DeepMind è stato in grado di superare i punteggi più elevati ottenuti dagli umani in 51 partite. Tuttavia, è la prima volta che un algoritmo è stato in grado di raggiungere un punteggio assoluto in 57 giochi in un Arcade Learning Environment.

Per ottenere i risultati desiderati, il team di ricercatori ha eseguito contemporaneamente il processo Agent57 su più computer e l’apprendimento per rinforzo (RL) insieme all’aiuto di software basato sull’intelligenza artificiale a cui è stato assegnato il compito di ottenere il massimo rendimento. In precedenza, RL ha contribuito ad aumentare le prestazioni di diversi giochi. Ad esempio, gli OpenAI Five di OpenAI e gli stessi AlphaStar RL di DeepMind battono rispettivamente il 99,4% dei giocatori Dota 2 e il 99,8% dei giocatori StarCraft 2 su server pubblici. Tuttavia, i ricercatori non li hanno definiti punteggi perfetti.

Diversi problemi sono stati osservati da loro, come l’esplorazione e la dimenticanza catastrofica, nonché agenti che non sono stati in grado di muoversi ulteriormente durante la ricerca del modello attraverso dati casuali. L’IT includeva anche la dimenticanza delle informazioni apprese in precedenza quando veniva fornita loro una nuova informazione. I ricercatori hanno anche trovato problematico assegnare crediti per risultati positivi o negativi.

Per superare questi ostacoli, il team ha sviluppato una tecnica Never Give Up (NGU) che fornisce un segnale con una ricompensa generata internamente sensibile per due livelli, come il breve termine limitato a un episodio e il lungo termine che attraversa diversi episodi . Il team ha anche usato una memoria episodica per insegnare all’NGU diverse politiche da sfruttare ed esplorare. Alla NGU è stato insegnato come ottenere il punteggio più alto, mantenendo la politica di sfruttamento come barriera.

Agent57 è stato progettato per raccogliere da numerosi feed di attori in un repository centralizzato che uno studente può campionare. Il repository comprende transizioni sequenziali utilizzate per la potatura regolare direttamente derivate dai processi degli attori. Questo attore elabora copie indipendenti dell’ambiente di gioco.

Il team di ricerca ha utilizzato due diversi modelli di intelligenza artificiale per determinare come un agente esegue un determinato compito con una politica definita (exploit / explore). Ciò ha consentito all’agente di individuare l’ambiente riconoscendo la ricompensa che segue la politica. Il team includeva anche un meta-controller per l’esecuzione indipendente su ciascun attore in grado di selezionare in modo adattivo le politiche da eseguire durante il periodo di formazione e valutazione.

esperimenti
Per determinare la vera abilità di Agent57, il team di ricercatori lo ha confrontato con i principali algoritmi, tra cui MuZero e R2D2. Secondo la squadra, MuZero ha segnato la media più alta di 5661,84 e la mediana di 2381,51 in tutte e 57 le partite, ma non è riuscito a segnare in maniera massiccia con partite come Venture. Agent57 ha mostrato prestazioni medie migliori rispetto a R2D2 (96.93) e MuZero (89.92). Ci sono voluti cinque miliardi di frame per battere le prestazioni umane in 51 partite insieme a 78 miliardi di frame per battere gli umani nel gioco Skiing.
Secondo i ricercatori, utilizzando il meta-controller, le prestazioni sono state migliorate del 20% rispetto a R2D2, anche in episodi a lungo termine come Skiing e Solaris. Gli agenti hanno ricevuto informazioni per un periodo più lungo per apprendere il feedback necessario.

Di ihal