OpenAI hizo un sistema IA basado en la curiosidad

La inteligencia artificial (IA) puede generar exploraciones sintéticas de cáncer cerebral, traducir simultáneamente entre idiomas y enseñar a los robots a manipular objetos con destreza humana. La ultima investigación de OpenAI demuestra que también puede llegar a ser bastante bueno jugando videojuegos.

Sin embargo es relevante estudiar qué es lo que hace que el ser humano siga jugando un videojuego después de horas.

Esta pregunta es quizás demasiado amplia para dar una sola respuesta, pero si se tiene que resumir por qué una persona puede aceptar esa próxima búsqueda, saltar a un nuevo nivel o jugar solo un turno más, la explicación más simple podría ser “curiosidad”: Sólo para ver qué pasa después. Y resulta que, la curiosidad también es un motivador muy efectivo cuando se enseña a la Inteligencia Artificial (IA) a jugar videojuegos.

La investigación publicada esta semana por el laboratorio de inteligencia artificial OpenAI, con sede en San Francisco y respaldada por Elon Musk, Reid Hoffman y Peter Thiel, explica cómo un agente de inteligencia artificial con curiosidad superó a sus predecesores en el juego clásico de Atari de 1984, Montezuma’s Revenge.

La organización ha desarrollado una RND, un método basado en la predicción para el fomento del aprendizaje de agentes de refuerzo para explorar su medio ambiente a través de la curiosidad, que por primera vez supera el rendimiento humano promedio en el videojuego mencionado anteriormente. RND logró un rendimiento de vanguardia, encuentra periódicamente las 24 salas y resuelve el primer nivel sin usar demostraciones ni tener acceso al estado subyacente del juego.

Convertirse en experto en Montezuma’s Revenge no es un hito equivalente a ganar en videojuegos como Go o Dota 2, sin embargo aun así constituye un avance notable. 

Como señaló OpenAI en una publicación que acompaña al blog, Montezuma’s Revenge es muy difícil de dominar por los algoritmos de aprendizaje automático. Fue el único título de Atari 2600 en frustrar la red Deep Q-Learning de la filial de Google DeepMind en 2015, que obtuvo un 0 por ciento de la puntuación humana promedio (4.7K).

La razón de la dificultad del juego es una falta de coincidencia entre la forma en que se juega y la forma en que los agentes de IA aprenden, lo que también revela un punto ciego en la visión del mundo del aprendizaje automático.

Por lo general, los agentes de inteligencia artificial dependen de un método de entrenamiento llamado aprendizaje por refuerzo para dominar los videojuegos. En este paradigma, los agentes son objeto de dumping en el mundo virtual, y son recompensados ​​por algunos resultados, como aumentar su puntuación por ejemplo, y penalizados por otros, como perder una vida. El agente comienza a jugar el juego al azar, pero aprende a mejorar su estrategia a través de prueba y error. El aprendizaje por refuerzo a menudo se considera un método clave para construir robots más inteligentes.

El problema con la venganza de Montezuma es que no proporciona recompensas regulares para el agente de IA. Es un juego de plataformas en el que los jugadores tienen que explorar una pirámide subterránea, esquivar las trampas y los enemigos mientras recolectan llaves que desbloquean puertas y elementos especiales. Si estuvieras entrenando a un agente de inteligencia artificial para vencer el juego, podrías recompensarlo por mantenerte vivo y recolectar claves, pero ¿cómo lo enseñas a guardar ciertas claves para ciertos elementos y usarlos para superar las trampas y completar el nivel?

La respuesta: curiosidad.

“La curiosidad impulsa al agente a descubrir nuevas salas y encontrar formas de aumentar la puntuación en el juego, y esta recompensa extrínseca lo impulsa a volver a visitar esas salas más adelante en el entrenamiento”, explicó OpenAI. “La curiosidad nos brinda una forma más fácil de enseñar a los agentes a interactuar con cualquier entorno, en lugar de hacerlo a través de una función de recompensa específica de la tarea diseñada extensivamente que esperamos corresponda a la resolución de una tarea. Un agente que utiliza una función de recompensa genérica no específica a las particularidades de un entorno puede adquirir un nivel básico de competencia en una amplia gama de entornos, lo que da como resultado la capacidad del agente para determinar qué comportamientos existen incluso en ausencia de recompensas cuidadosamente diseñadas”.

La siguiente visualización ofrecida por la publicación de blog muestra el progreso del experimento a menor escala en el descubrimiento de las habitaciones. La curiosidad impulsa al agente a descubrir nuevas salas y encontrar formas de aumentar la puntuación en el juego, y esta recompensa extrínseca lo impulsa a volver a visitar esas salas más adelante en el entrenamiento.

En la investigación de OpenAI, su agente fue recompensado no solo por saltar pits, sino por explorar nuevas partes en la pirámide. Esto llevó a un rendimiento mejor que el humano, con el bot obteniendo una puntuación media de 10.000 en nueve carreras, en comparación con una puntuación humana promedio de 4.000. En una carrera, incluso completó el primero de los nueve niveles del juego.

Sin embargo los expertos reconocen que aun hay mucho por estudiar y hacer respecto a esta tecnología. “Definitivamente todavía hay mucho trabajo por hacer”, expresa Harrison Edwards de OpenAI. “Pero lo que tenemos en este momento es un sistema que puede explorar muchas habitaciones, obtener muchas recompensas y, en ocasiones, superar el primer nivel”.

La curiosidad te absorbe


OpenAI está lejos del primer laboratorio para probar este enfoque, y los investigadores de AI han aprovechado el concepto de “curiosidad” como motivación durante décadas. También lo han aplicado a la Venganza de Montezuma antes, aunque nunca con tanto éxito sin enseñar a la IA a aprender de los ejemplos humanos.

Sin embargo, aunque la teoría general aquí está bien establecida, la creación de soluciones específicas sigue siendo un desafío. Por ejemplo, la curiosidad basada en la predicción solo es útil cuando se aprende a jugar ciertos tipos de juegos. Funciona para videojuegos como Mario, por ejemplo, donde hay grandes niveles para explorar, llenos de jefes y enemigos nunca antes vistos. Pero para juegos más simples como Pong, los agentes de la IA prefieren jugar mítines largos en lugar de vencer a sus oponentes.

Sin embargo RND abordo orto problema común en los aprendizaje de refuerzo: el llamado problema de la televisión ruidosa, en el cual un agente de inteligencia artificial programado para buscar nuevas experiencias se puede atascar en busca de patrones aleatorios, como, por ejemplo, la estatica en una TV. Esto se debe a que el sentido de lo que es “interesante” y “nuevo” de estos agentes proviene de su capacidad para predecir el futuro. Antes de que realicen una determinada acción, predicen cómo se verá el juego después. Si adivinan correctamente, es probable que hayan visto esta parte del juego antes. Este mecanismo se conoce como “error de predicción”.

No obstante debido a que el ruido estático es impredecible, el resultado es que cualquier agente de inteligencia artificial que se enfrenta a un estímulo similarmente impredecible queda hipnotizado. OpenAI compara el problema con los jugadores humanos que son adictos a las máquinas tragamonedas, incapaces de separarse porque no saben qué sucederá después.

“Como un jugador en una máquina tragamonedas atraída por los resultados casuales, el agente a veces queda atrapado por su curiosidad”, escribió OpenAI. “El agente encuentra una fuente de aleatoriedad en el entorno y sigue observándolo, siempre experimentando una alta recompensa intrínseca por tales transiciones”.

Esta nueva investigación de OpenAI evita este problema al variar la forma en que la IA predice el futuro. La metodología exacta, llamada Random Network Distillation (RND) es compleja, pero Edwards y su colega Yuri Burda lo comparan con el ocultamiento de un secreto que la IA puede encontrar en cada pantalla del juego. Ese secreto es aleatorio y sin sentido pero motiva al agente a explorar sin dejarlo vulnerable a la trampa de lo impredecible.

Más importante aún, el software no requiere muchos cálculos, lo cual es increíblemente importante. Estos métodos de aprendizaje de refuerzo se basan en enormes cantidades de datos para capacitar a los agentes de IA el bot de OpenAI, por ejemplo, tuvo que jugar a Montezuma’s Revenge por el equivalente en tiempo real de tres años, por lo que cada paso del viaje debe ser lo más rápido posible.

Arthur Juliani, ingeniero de software de Unity y experto en aprendizaje automático, dice que esto es lo que hace que el trabajo de OpenAI sea impresionante. “El método que utilizan es bastante simple y, por lo tanto, sorprendentemente efectivo”, expresó Juliani. “En realidad, es mucho más simple que otros métodos de exploración que se han aplicado al juego en el pasado (y [que] no han llevado a resultados tan impresionantes)”.

Juliani, además, expresa que dadas las similitudes entre los diferentes niveles en la Venganza de Montezuma, el trabajo de OpenAI es “esencialmente equivalente” a resolver el juego, pero agrega que “el hecho de que no puedan vencer constantemente el primer nivel significa que todavía queda un desafío abierto”. También se pregunta si su enfoque funcionará en juegos 3D, donde las características visuales son más sutiles y una vista en primera persona ocluye gran parte del mundo.

“En los escenarios donde se requiere exploración, pero las diferencias entre las partes del entorno son más sutiles, es posible que el método no funcione tan bien”, dice Juliani.

Pero, ¿por qué necesitamos agentes de inteligencia artificial que sean curiosos en primer lugar? 

La razón principal es que la curiosidad ayuda a las computadoras a aprender por sí mismas.

La mayoría de los enfoques de aprendizaje automático implementados hoy se pueden dividir en dos campos: en el primero, las máquinas aprenden alimentan de pilas de datos, resolviendo patrones que pueden aplicar a problemas similares; y en el segundo, se ubican en un entorno y son recompensados ​​por lograr ciertos resultados utilizando el aprendizaje por refuerzo.

Ambos enfoques son efectivos en tareas específicas, pero también requieren mucho trabajo humano, ya sea etiquetando los datos de entrenamiento o diseñando funciones de recompensa para entornos virtuales. Al dar a los sistemas de IA un incentivo intrínseco para explorar, parte de este trabajo se elimina y los humanos pasan menos tiempo sosteniendo las manos de su agente de IA.

Edwards y Burda de OpenAI enfatizan que este tipo de sistema de aprendizaje impulsado por la curiosidad es mucho mejor para construir programas de computadora que tienen que operar en el mundo real. Después de todo, en realidad, como en la Venganza de Montezuma, las recompensas inmediatas a menudo son escasas, y necesitamos trabajar, aprender y explorar durante largos períodos de tiempo antes de recibir algo a cambio. La curiosidad nos ayuda a seguir adelante, y quizás también pueda ayudar a las computadoras

La entrada OpenAI hizo un sistema IA basado en la curiosidad se publicó primero en Bitcoin.es tu portal de información de criptomonedas.

La entrada OpenAI hizo un sistema IA basado en la curiosidad aparece primero en Que es Bitcoin.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *