Nueva Inteligencia Artificial de Google supera al antiguo AlphaGo de 2015

Nueva Inteligencia Artificial de Google supera al antiguo AlphaGo de 2015
Imagen/ES interesante

El nuevo sistema de Inteligencia Artificial de la compañía Google, es tan bueno que aprende sin necesitar de un humano, superando por mucho al programa AlphaGo de 2015, informa ‘South China Morning Post’.

DeepMind ha presentado la última versión de su programa Go-playing, AlphaGo, una IA tan poderosa que aprendió el juego chino ‘Go’ en tan solo 3 días, lo que el humano necesitó siglos.

Llamado AlphaGo Zero, el programa de IA ha sido aclamado como un avance importante porque aprendió el antiguo juego de tablero chino desde cero, sin ayuda humana y también derrotó a su antecesor AlphaGo con un puntaje de 100 a 0. Situación diferente cuando en juegos contra la versión de 2015, AlphaGo le ganó a Lee Sedol, el gran maestro de Corea del Sur.

La hazaña marca un hito en el camino hacia las IA de uso general que pueden hacer algo más que derrotar a los humanos en los juegos de mesa. Debido a que AlphaGo Zero aprende por sí solo de una pizarra en blanco, sus talentos ahora podrían encausarse hacia la solución de problemas del mundo real.

“Para nosotros, AlphaGo no solo se trata de ganar el juego de Go”, dijo Demis Hassabis, CEO de DeepMind e investigador del equipo. “También es un gran paso para nosotros en la construcción de estos algoritmos de propósito general”, añade.

Por ejemplo, DeepMind, está aplicando a AlphaGo Zero en el análisis de proteínas, un desafío científico que podría dar con el descubrimiento de nuevos fármacos.

El aprendizaje de AlphaGo Zero

Las versiones anteriores de AlphaGo aprendieron sus movimientos entrenando en miles de juegos interpretados por aficionados y profesionales humanos.

AlphaGo Zero no tuvo esa ayuda. En cambio, aprendió puramente jugando a sí mismo millones de veces. Comenzó colocando piedras en el tablero Go al azar, pero mejoró rápidamente a medida que descubrió estrategias ganadoras.

El programa acumula su habilidad a través de un procedimiento llamado ‘aprendizaje por refuerzo’. Es el mismo método que, un codo raspado por un lado, y las rodillas rojizas por el otro, ayudan a los humanos a dominar el arte de andar en bicicleta.

En el corazón del programa se encuentra un grupo de “neuronas” de software que están conectadas entre sí para formar una red neuronal artificial.

Para cada vuelta del juego, la red observa las posiciones de las piezas en el tablero ‘Go’ y calcula qué movimientos se pueden hacer a continuación y la probabilidad de que conduzcan a una victoria. Después de cada juego, actualiza su red neuronal, por lo que es un jugador más fuerte para la próxima pelea.

Aunque es mucho mejor que las versiones anteriores, AlphaGo Zero es un programa más simple y domina el juego más rápido a pesar de entrenar con menos datos y correr con una computadora más pequeña.