Inteligencia artifical logra superar videojuegos de los ochentas

Un sistema de inteligencia artificial (IA) ha logrado dominar los videojuegos clásicos de la década de 1980, incluidos los títulos icónicos de Atari como Montezuma’s Revenge, Pitfall y Freeway.

Según sus creadores, los algoritmos en los que se basa la IA podrían algún día usarse para ayudar a los robots a navegar en entornos del mundo real, como las zonas de desastre.

- Publicidad-

Al igual que las zonas de desastre, muchos juegos de “exploración dura” presentan una serie de obstáculos que se deben evitar y caminos que se deben recorrer para llegar a un destino o meta. Los intentos anteriores de crear una IA capaz de resolver este tipo de juegos han fracasado debido a las complejidades de la exploración libre.

Por ejemplo, muchas IA utilizan el aprendizaje por refuerzo, que implica recompensar las acciones exitosas, para completar una tarea. El problema con este enfoque es que las recompensas tienden a ser muy escasas, lo que dificulta que un sistema logre su objetivo.

Por ejemplo, si se requiere que un robot realice una serie de acciones complejas para llegar a una ubicación específica, y es recompensado solo al llegar a su destino, entonces no recibe retroalimentación con respecto a los muchos pasos individuales que debe tomar en el camino.

- Publicidad -

Los investigadores pueden ofrecer recompensas más “densas”, como recompensar cada paso que da un robot en la dirección correcta, pero esto puede hacer que se dirija directamente a su objetivo y no evite los peligros que puedan estar en el camino.

La única forma de resolver esto es creando una IA que pueda explorar activamente su entorno. Sin embargo, en la revista Nature, los creadores de esta nueva IA explican que “dos problemas importantes han obstaculizado la capacidad de exploración de los algoritmos anteriores”.

- Publicidad -

El primero de ellos se conoce como desapego, que ocurre cuando un sistema no mantiene un registro de las áreas que ha olvidado explorar. Por ejemplo, cuando un robot llega a una bifurcación en el camino, debe elegir un camino y descartar el otro. El desapego se refiere a la incapacidad de un sistema para recordar más tarde que había un camino alternativo que aún valdría la pena explorar.

Incluso si una IA pudiera recordar esas oportunidades perdidas, aún se encontraría con un problema llamado descarrilamiento, por el cual se desviaría continuamente por su propio impulso de seguir explorando. En lugar de regresar directamente a esa prometedora bifurcación en la carretera, investiga cada calle lateral que encuentra en el camino y, por lo tanto, nunca regresa a la bifurcación.

Para superar todos estos problemas, los investigadores crearon una “familia de algoritmos” a la que llamaron Go-Explore. En pocas palabras, este sistema funciona archivando continuamente cada estado que encuentra, lo que le permite recordar las rutas que eligió descartar en cada punto del videojuego. Entonces es capaz de regresar inmediatamente a cualquiera de estos prometedores estados salvados, superando así tanto el desapego como el descarrilamiento.

Como consecuencia, Go-Explore pudo superar el puntaje humano promedio en Pitfall, un juego en el que los algoritmos anteriores no lograron obtener ningún punto. También logró una puntuación de 1,7 millones en La venganza de Montezuma, rompiendo el insignificante récord mundial humano de 1,2 millones de puntos.

Con información de IFL Science