Ready Player Two: Inteligencia Artificial y Videojuegos

@whoisgallifrey
Jun 19, 2017
7 min read

Waka Waka IA Si hay una noticia que nos hace sentir que la singularidad está cerca, es saber que una inteligencia artificial logró el récord absoluto en Mrs.Pacman. Aclaremos algo, inteligencia artificial como tal (una que pueda ser multiproposito y generalizada) todavia no existe, pero tiene mas punch para que quieras leer de que se trata esto, que si te digo vamos a hablar de "agentes artificiales", "machine learning" o "algoritmos" (que te genera ese deja vú de materia del secundario que era un plomazo). Con una mística computacional similar a la curiosidad del Y2K, (para los más jóvenes, ese momento en que íbamos a cambiar de 1999 al 2000 y se vaticinaba un corchazo masivo de sistemas informáticos), los investigadores de Microsoft se preguntaban qué pasaría cuando el contador llegara al millón de puntos.

Desde 1982, año en que Mrs. Pac-Man vio la luz (fun fact: nació como “Crazy Otto” una copia no autorizada de PacMan), nadie pudo lograr ese récord. Con una habilidad técnica solo superada por su capacidad para conseguir que les financien proyectos (hay que tener coraje para plantarse y pedir fondos para platinar el Pac-Man), los científicos de Maluuba decidieron que la respuesta era crear una horda de algoritmos inteligentes que comieran pastillas hasta decodificar el secreto del éxito. #DecileNoALasDrogas. Masterear Mrs.Pac-Man no es tarea sencilla, se necesitaban múltiples agentes inteligentes que pudieran balancear los objetivos a veces contradictorios de limpiar las pastillas, evitar los fantasmas que se mueven erráticamente, entender los cambios de escenarios y maximizar los puntos con las frutas de bonus.

Spoiler alert, cuando llegaron al millon no hubo mensaje oculto de los desarrolladores ni ningún easter egg revelador de un secreto oculto en binario, simplemente el contador se reseteo volviendo a cero, y este milestone de la IA no pasó de ser un desenlace anticlimático.

Pantalla del algoritmo de aprendizaje automatico y los agentes artificiales diseñado por Maluuba.

Inky, Blinky y DeepMind La elección de este clásico no es caprichosa ni porque sean fans nostálgicos de Atari, sorprendentemente, muchos desarrollos de IA encontraron en los juegos una forma de aprendizaje, y en PacMan un desafío particularmente difícil de superar. De hecho, DeepMind, la startup de IA adquirida por Google, fue una de los pioneras en este camino, diseñando algoritmos capaces de jugar varios clásicos de Atari (mirala jugar breakout y sentite manco) que aprendian a ser cada vez mejores mientras más repetían los juegos.

Este tipo de aprendizaje se llama “reinforced learning” (RL), y es una técnica de machine learning (ML, aprendizaje automático en criollo), que a su vez es uno de los enfoques posibles dentro del estudio de la inteligencia artificial. Esta técnica opera permitiendo que las máquinas exploren hasta determinar el comportamiento ideal en un contexto específico, con el objetivo de lograr el máximo rendimiento en su performance. Para que el agente pueda aprender, necesita un feedback simple que recompense el comportamiento deseado, esto se llama “reinforced signal” ( señal que no sirve para llamar a Batman, que como todos sabemos, es un científico). Básicamente, el aprendizaje por refuerzo es el esquema del palo y la zanahoria en versión inteligencia artificial, implica aprender por repetición después de darse varios frentazos (casi casi como todos aprendimos a pasar ese infierno en 8 bits llamado Circus Charlie), decidiendo en cada escenario el mejor curso de acción. Cuando esta forma de operar se repite, el problema se conoce como un Proceso de Decisión de Markov (MDP), que es una extensión de las llamadas Cadenas de Markov, pero con múltiples cursos de acción posibles y recompensas variables. Al algoritmo de DeepMind , conocido como “Deep Q-network” solo se le había dado la instrucción de maximizar el puntaje, Go Fetch. En el caso de Breakout, el algoritmo tartamudeó hasta que encontró una táctica óptima para responder a toda velocidad y con precisión sobrehumana al desafío, cavar un túnel diagonal cerca de la pared. Esto sorprendió a los mismísimos desarrolladores del juego, ni siquiera ellos habian previsto esa solucion.

Si bien no pudo obtener el score máximo en PacMan, Google DeepMind aprendió a jugar varios clásicos de Atari combinando el reinforced learning con redes neurales profundas. A su vez mediante esta técnica crearon AlphaGo, una IA destinada a aprender a jugar Go, un juego de estrategia de mesa, infinitesimalmente más complejo que el ajedrez y donde la intuición tiene un rol importante. El año pasado, en un hito en nuestra carrera hacia Skynet, AlphaGo le ganó a Lee Sedol, hasta entonces, el maestro Pokemon supremo de Go en el mundo, con dieciocho campeonatos mundiales bajo el cinturón.

Epic Fail, la expresion de Lee Sedol al perder frente a AlphaGo no tiene precio. Hola Skynet!

Elemental mi querido Watson Pero no solo de retrogaming viven las IA, basta recordar que en el 2011 Watson destronó a los campeones en Jeopardy!, el programa de televisión de preguntas y respuestas. Bueno, pero si los buscadores todos los días responden preguntas, dónde está la magia en que una computadora gane un quiz? Elemental, mi querido lector!

Jeopardy! se caracteriza por presentar las preguntas como problemas de deducción e inferencia a través de pistas, de ahí que impliquen un razonamiento totalmente diferente a la mecánica de devolver información, además requiere pensamiento estratégico a la hora de apostar puntos en cada clave. Watson nace como la apuesta de IBM a la inteligencia artificial, pero por suerte en nada se parece a la mítica HAL de 2001 Odisea del Espacio (fun fact, sostienen los rumores que HAL recibe su nombre de ser mejor que IBM, de ahí que sus letras están una por encima de su competidora, aunque Kubrick y Clarke siempre lo negaran). Watson puede entender datos en todas sus formas, aprender y razonar, pero su punto fuerte es interactuar con gente, proveyendo recomendaciones personalizadas al usuario basadas en su personalidad, tono y emoción. Por eso, una de las principales aplicaciones comerciales para la que se provee, es la creación de “chatbots”, robots capaces de mantener diálogos con humanos. Antes de que grites Terminator! tranquila Sara Connor, baja el arma que el principal uso de estos chatbots es en atención al cliente, donde funcionan como agentes virtuales para interactuar con los usuarios. Más preocupante es que en una simulación entre bots para enseñarles a negociar, (cosa en la que parece son particularmente hábiles), las IA desecharon el lenguaje humano y procedieron a crear uno propio. Así que ya sabes, todavia no llegaron los T-1000 pero la próxima vez que te comuniques con un chat de atención al cliente no es mala idea someterlo a un pequeño test de Turing. Grand Theft Auto: AI City Grand Theft Auto es el hijo prodigio de Rockstar y uno de los títulos masivos más polémicos. Si pensabas que con sus toneladas de violencia gráfica, humor irreverente y

diálogos no aptos para menores GTA no tenía chances de ser educativo, sorprendentemente la redención le llega de la mano del transporte autonomo. Parece una locura, porque como todo gamer puede testimoniar, si hay algo que se rompe en GTA (además de muchos brazos y piernas), son las reglas de tránsito. Nadie que corra de una misión a otra por Los Santos se va a detener por una minucia como un semáforo en rojo, entonces ?Cómo puede ser que sirva para los educar a los autos inteligentes? En un paper de la Universidad de Princeton explican que usando una técnica de machine learning llamada “convolutional neural network”, fueron capaces de emular la visión humana, detectar signos de tránsito y estimar la distancia hasta ellos, basándose en imágenes individuales. Para entrenar a esa red desarrollaron un método para recolectar datos de Grand Theft Auto 5. Aprovechando el inmenso mapa y trafico de la ciudad de Los Santos, con este método pudieron ensamblar un

dataset de 1.4 millones de imágenes, con y sin señales de “Pare”, a lo largo de distintos ambientes, condiciones climáticas y horas del día. La red neural entrenada con esos datos puede detectar el 95.5% de las paradas dentro de un rango de 20 metros, con una tasa de falsos positivos de 5.6% y un error promedio en la distancia 1.2m a 2.4m. Esta diversidad de ambientes es ideal para entrenar a una IA en un entorno lo más cercano posible a lo real, sin los costos y peligros de hacerlo. Los juegos están alcanzando un niveles de realismo en la simulación que permiten hacer este entrenamiento. Como señala Mark Schmidt, profesor en British Columbia, en el Doom original todas las paredes eran iguales, por lo que era fácil predecir que era una pared y que no de acuerdo a la textura, pero en cambio en el mundo real, cada pared puede ser completamente diferente, de ahí el potencial que estos mundos virtuales tienen. Pero cuál es la ventaja de usar mundos virtuales en vez de la realidad misma? Los videojuegos le permiten a los investigadores crear imágenes etiquetadas mucho más rápido y barato que si trabajaran con fotos reales, donde tienen que etiquetar manualmente cada objeto y elemento de la imagen para que la máquina lo pueda “ver”. En cambio, en los videojuegos, esta clasificación ya viene inserta en el código, desde su

construcción los objetos ya están etiquetados y rotulados, por lo que solo se precisa una interfaz que interprete los comandos que el juego envía a la placa de video, ya que obviamente el código fuente está protegido por propiedad intelectual, y los estudios no estarian dispuesto a develar por el bien de la ciencia. ?O si? Creepers vs. algoritmos: Minecraft y el proyecto MALMO Minecraft es un fenómeno que no necesita presentación, salvo que hayas vivido los últimos años aislado en una caverna donde no llega el wifi. Se trata de una simulación masiva de un mundo en cuadraditos que son como los Lego virtuales para esta

generación de nativos digitales, donde se puede crear y recrear miles de entornos y objetos. Con millones de jugadores alrededor de todo el mundo, de más está decir que genera millones de dólares en ingresos, a tal punto, que ha sido objeto frecuente de ataques informáticos a sus servidores. Project Malmo pone el mundo de Minecraft a disposición de los científicos como campo de pruebas para investigaciones en inteligencia artificial. Se trata de un mod para la versión de Java, y un código que ayuda a los agentes artificiales a sentir y actuar dentro del entorno de Minecraft, que corren en Windows, Linux, o Mac OS, y con la flexibilidad de que los agentes se pueden programar en cualquier lenguaje. Al ser un mundo virtual tan flexible, permite que los agentes artificiales (hasta donde sabemos no hay parentesco con el agente Smith de Matrix) pueda aprender desde tareas sencillas, como la mejor estrategia para escalar una montaña, hasta extensas habilidades de colaboración para construir cooperativamente.

Después de este recorrido, parece que el futuro de la inteligencia artificial viene unido muy de cerca con los mundos virtuales cada vez más extensos y complejos. Estamos haciendo con esta nota una apología pro videojuegos? Por supuesto que sí! Sentite libre de ir corriendo a decirle a tus viejos que no perdias el tiempo en los fichines sino que estabas haciendo reinforced learning, y aprendiendo de inteligencia artificial. De nada!

#Videogames #inteligenciaartificial #mundosvirtuales #MachineLearning

Geekylegal

Ready Player Two: Inteligencia Artificial y Videojuegos

Recent Posts

Comments