
Las máquinas han demostrado su superioridad en juegos individuales como el ajedrez y el go, e incluso el póquer, pero en las complejas versiones multijugador del juego de cartas, los humanos han conservado su ventaja…. hasta ahora. Una evolución del último agente de la IA hacia los profesionales de póquer de flummox de forma individual ahora los está derrotando decisivamente en partidas de seis personas al estilo de los campeonatos.
Como se documenta en un artículo publicado hoy en la revista Science, la colaboración CMU/Facebook que ellos llaman Pluribus supera de forma fiable a cinco jugadores de póquer profesionales en el mismo juego, o a uno de ellos enfrentado a cinco copias independientes de sí mismo. Es un gran salto adelante en la capacidad de las máquinas y, sorprendentemente, también es mucho más eficiente que los agentes anteriores.
El póquer uno a uno es un juego extraño, y no uno simple, pero la naturaleza de suma cero de él (lo que pierdas, lo que pierdas, lo consigue el otro jugador) lo hace susceptible a ciertas estrategias en las que una computadora capaz de calcular lo suficiente puede ponerse a sí misma en una ventaja. Pero si se añaden cuatro jugadores más a la mezcla, las cosas se vuelven muy complejas, muy rápidas.
Con seis jugadores, las posibilidades de manos, apuestas y posibles resultados son tan numerosas que es imposible dar cuenta de todas ellas, especialmente en un minuto o menos. Sería como intentar documentar exhaustivamente cada grano de arena en una playa entre olas.
Sin embargo, con más de 10.000 manos jugadas con los campeones, Pluribus logró ganar dinero a un ritmo constante, sin dejar al descubierto ningún tipo de debilidades o hábitos que sus oponentes pudieran aprovechar. ¿Cuál es el secreto? Aleatoriedad consistente.
Hasta las computadoras se arrepienten
Pluribus fue entrenado, como muchos agentes de inteligencia artificial que juegan hoy en día, no estudiando cómo juegan los humanos, sino jugando contra sí mismo. Al principio esto es probablemente como ver a los niños, o para el caso de mí, jugar al póquer – errores constantes, pero al menos la IA y los niños aprenden de ellos.
El programa de entrenamiento usó algo llamado minimización del arrepentimiento contrafáctico de Monte Carlo. Suena como cuando tomas whisky para desayunar después de perder tu camisa en el casino, y en cierto modo lo es – estilo de aprendizaje a máquina.
La minimización del arrepentimiento sólo significa que cuando el sistema terminaría una mano (contra sí mismo, recuerde), entonces jugaría esa mano de nuevo de diferentes maneras, explorando lo que podría haber sucedido si la hubiera marcado aquí en vez de levantada, doblada en vez de llamada y así sucesivamente. (Porque realmente no sucedió, es contrafáctico.)
Un árbol de Monte Carlo es una forma de organizar y evaluar muchas posibilidades, similar a trepar un árbol de ellas rama por rama y observar la calidad de cada hoja que encuentras, y luego escoger la mejor una vez que piensas que has trepado lo suficiente.
Si lo hace con anticipación (esto se hace en el ajedrez, por ejemplo), está buscando la mejor jugada para elegir. Pero si lo combinas con la función de arrepentimiento, estás mirando un catálogo de posibles formas en que el juego podría haber ido y observando cuál habría tenido el mejor resultado.
Por lo tanto, la minimización del arrepentimiento contrafáctico de Monte Carlo es sólo una manera de investigar sistemáticamente lo que podría haber ocurrido si la computadora hubiera actuado de manera diferente, y ajustar su modelo de cómo jugar en consecuencia.
Por supuesto, el número de juegos es casi infinito si quieres considerar qué pasaría si hubieras apostado $101 en lugar de $100, o si hubieras ganado esa gran mano si hubieras tenido un pateador de ocho en lugar de siete. En esto también se encuentra el arrepentimiento infinito, el tipo de arrepentimiento que te mantiene en la cama en la habitación del hotel hasta después del almuerzo.
La verdad es que estos pequeños cambios son tan poco importantes que la posibilidad puede ser básicamente ignorada por completo. Nunca importará realmente que usted apueste un dólar extra – así que cualquier apuesta dentro de, digamos, 70 y 130 puede ser considerada exactamente igual por la computadora. Lo mismo ocurre con las cartas – ya sea que el gato sea un corazón o una pala no importa, excepto en situaciones muy específicas (y usualmente obvias), por lo que el 99.999% de las veces las manos pueden ser consideradas equivalentes.
Esta “abstracción” de las secuencias de juego y el “cubo” de posibilidades reduce en gran medida las posibilidades que tiene que considerar Pluribus. También ayuda a mantener la carga de cálculo baja; Pluribus fue entrenado en un bastidor de servidor de 64 núcleos relativamente ordinario durante una semana, mientras que otros modelos podrían tardar años de procesador en clusters de alta potencia. Incluso se ejecuta en un equipo (ciertamente robusto) con dos CPUs y 128 gigabytes de RAM.
Aleatorio como un zorro
El entrenamiento produce lo que el equipo llama un “plano” de cómo jugar que es fundamentalmente fuerte y que probablemente vencería a muchos jugadores. Pero una debilidad de los modelos de IA es que desarrollan tendencias que pueden ser detectadas y explotadas.
En el artículo de Facebook sobre Pluribus, ofrece el ejemplo de dos ordenadores que juegan con piedra, papel y tijera. Uno escoge al azar mientras que el otro siempre escoge piedra. Teóricamente ambos ganarían la misma cantidad de juegos. Pero si la computadora probara la estrategia del rock en un humano, comenzaría a perder con rapidez y nunca se detendría.
Como ejemplo simple en el póquer, tal vez una serie particular de apuestas siempre hace que la computadora vaya a por todas, independientemente de su mano. Si un jugador puede detectar esa serie, puede llevar el ordenador a la ciudad cuando quiera. Encontrar y prevenir estas roderas es importante para crear un agente de juego que pueda vencer a los humanos ingeniosos y observadores.
Para hacer esto Pluribus hace un par de cosas. En primer lugar, ha modificado las versiones de su proyecto para ponerlo en juego en caso de que el juego se incline hacia el plegado, la llamada o la elevación. Diferentes estrategias para diferentes juegos significan que es menos predecible, y puede cambiar en un minuto si los patrones de apuestas cambian y la mano pasa de ser una llamada a ser un farol.
También realiza una breve pero exhaustiva búsqueda introspectiva sobre cómo jugaría si tuviera cualquier otra mano, desde una gran nada hasta una escalera de color, y sobre cómo apostaría. Luego elige su apuesta en el contexto de todos ellos, cuidando de hacerlo de tal manera que no apunte a ninguno en particular. Dada la misma mano y la misma jugada de nuevo, Pluribus no elegiría la misma apuesta, sino que la variaría para permanecer impredecible.
Estas estrategias contribuyen a la “aleatoriedad consistente” a la que aludí anteriormente, y que formaban parte de la capacidad del modelo para vencer de forma lenta pero fiable a algunos de los mejores jugadores del mundo.
El lamento del ser humano
Hay demasiadas manos para apuntar a una o 10 en particular que indican el poder que Pluribus estaba ejerciendo en el juego. El póquer es un juego de habilidad, suerte y determinación, en el que los ganadores emergen después de sólo docenas o cientos de manos.
Y aquí hay que decir que el montaje experimental no refleja del todo un juego de póquer común para seis personas. A diferencia de un juego real, el recuento de fichas no se mantiene como un total continuo – por cada mano, a cada jugador se le dieron 10.000 fichas para que las usara a su antojo, y para ganar o perder se le dieron 10.000 en la siguiente mano también.
Obviamente, esto limita las estrategias a largo plazo posibles y, de hecho, “el bot no buscaba debilidades en sus oponentes que pudiera explotar”, dijo el científico de investigación de AI de Facebook Noam Brown. Verdaderamente Pluribus vivía en el momento como pocos humanos pueden hacerlo.
Pero el simple hecho de que no basara su juego en observaciones a largo plazo de los hábitos o estilos individuales de sus oponentes no significa que su estrategia fuera superficial. Por el contrario, es discutiblemente más impresionante, y arroja el juego bajo una luz diferente, que exista una estrategia ganadora que no se base en indicios de comportamiento o en la explotación de las debilidades individuales.
Sin embargo, los profesionales a los que el implacable Pluribus les quitó el dinero del almuerzo eran buenos deportistas. Elogiaron el juego de alto nivel del sistema, su validación de las técnicas existentes y el uso inventivo de otras nuevas. He aquí una selección de los lamentos de los humanos caídos:
Fui uno de los primeros jugadores en probar el bot, así que pude ver sus versiones anteriores. El bot pasó de ser un jugador mediocre a competir con los mejores jugadores del mundo en pocas semanas. Su mayor fortaleza es su capacidad para utilizar estrategias mixtas. Eso es lo mismo que los humanos intentan hacer. Es una cuestión de ejecución para los humanos – hacer esto de una manera perfectamente aleatoria y hacerlo de manera consistente. También fue satisfactorio ver que muchas de las estrategias que emplea el bot son cosas que ya hacemos en el póquer al más alto nivel. Tener sus estrategias más o menos confirmadas como correctas por una supercomputadora es una buena sensación. -Darren Elias
Fue increíblemente fascinante poder jugar contra el bot de póquer y ver algunas de las estrategias que eligió. Hubo varias jugadas que los humanos simplemente no están haciendo en absoluto, especialmente en relación con su tamaño de apuesta. -Michael ‘Gags’ Gagliano
Cada vez que juego con el bot, siento que estoy aprendiendo algo nuevo para incorporarlo a mi juego. Como humanos creo que tendemos a simplificar demasiado el juego para nosotros mismos, haciendo que las estrategias sean más fáciles de adoptar y recordar. El bot no toma ninguno de estos atajos y tiene un árbol de juego inmensamente complicado y equilibrado para cada decisión. -Jimmy Chou
En un juego que, la mayoría de las veces, te recompensará cuando exhibes disciplina mental, concentración y consistencia, y ciertamente te castigará cuando te falte alguno de los tres, competir durante horas y horas contra un robot de IA que obviamente no tiene que preocuparse por estas deficiencias es una tarea agotadora. Los tecnicismos y las profundas complejidades de la habilidad de póquer del bot de la IA eran notables, pero lo que subestimé fue su fuerza más transparente – su implacable consistencia. -…Sean Ruane.
Vencer a los humanos en el póquer es sólo el comienzo. Por muy buen jugador que sea, Pluribus es más importante que nada una demostración de que un agente de IA puede lograr un rendimiento sobrehumano en algo tan complicado como el póquer de seis jugadores.
“Muchas interacciones en el mundo real, como los mercados financieros, las subastas y la navegación de tráfico, pueden ser modeladas de manera similar como interacciones multiagente con comunicación y colusión limitadas entre los participantes”, escribe FacebooK en su blog.
Comments
0 comments
Twitter
RSS