Aunque mucho se habla del concepto de inteligencia artificial (IA), en realidad se trata más de un cúmulo de buenas intenciones que de un avance real en este campo. Esto podría estar cambiando gracias a nuevas tecnologías emergentes, que parecieran desafiar los límites conocidos en el campo de algoritmos autónomos.
¿Qué es GATO y qué lo hace diferente de otras IA?
La compañía norteamericana DeepMind presentó recientemente una nueva tecnología de inteligencia artificial (IA) de tipo “generalista”, que ha denominado GATO. Esta compañía, dedicada al avance de la IA y con varios programas en marcha, tiene como objetivo ofrecer nuevas ideas y mejoras en aprendizaje automático, ingeniería, simulación e infraestructura informática.[1]
Según los científicos a cargo del proyecto GATO, que operan en el laboratorio de inteligencia artificial de Alphabet, el mismo grupo propietario de Google, este modelo tiene nuevas capacidades autónomas muy relevantes, como jugar videojuegos de Atari, subtitular imágenes, chatear y apilar bloques con un brazo robótico real. Según sus creadores, GATO puede realizar hasta 604 tareas diferentes e, incluso, muchas de ellas simultáneas.
DeepMind explica que GATO está capacitado en una gran cantidad de conjuntos de datos de imágenes, de lenguaje natural y otros que comprenden la experiencia del agente en entornos simulados y del mundo real.
Nando de Freitas, uno de los principales investigadores de DeepMind y coautor del artículo sobre GATO, publicó en su cuenta de Twitter “¡El juego ha terminado!”, sugiriendo que el camino de GATO hacia la inteligencia artificial general y autónoma (IAG o AGI, por sus siglas en inglés) es una realidad indiscutible.[2]
GATO, como todos los sistemas de IA, aprende con el ejemplo, incorporando miles de millones de palabras, imágenes del mundo real y entornos simulados, pulsaciones de botones, torsión de articulaciones y más, en forma de fichas.
La desventaja es que GATO no realiza las tareas tan bien como aquellos modelos que solo pueden ejercer una acción. Los robots aún tienen que aprender “sentido común” sobre cómo funciona el mundo a partir de texto, explica Jacob Andreas, profesor asistente en el MIT, especialista en inteligencia artificial y procesamiento del lenguaje natural y del habla, en un reciente artículo de la revista MIT Technology Review.[3]
Igualmente, una rigurosa revisión realizada por científicos de la misma institución, encontró que la arquitectura de GATO no es tan diferente a la de muchos de los sistemas de IA que se usan en la actualidad.[4] Sin embargo, presenta un gran avance: funciona como una red multimodal, multitarea y multicorporación, lo que significa que la misma red (es decir, una única arquitectura con un único conjunto de pesos) puede realizar todas las tareas, a pesar de implicar intrínsecamente diferentes tipos de entradas y salidas.[5]
La diferencia con otras IA
Los sistemas de inteligencias artificiales disponibles en el mercado, y que ya se encuentran adaptados a la vida digital, son buenos realizando una tarea específica. Algunos se han hecho famosos por batir al mejor de los humanos en juegos tan complejos como el ajedrez o el Go, mientras que otros pasan desapercibidos, aunque estén presentes en nuestro día a día, como el algoritmo de Spotify, que genera recomendaciones musicales automáticamente con gran precisión.[6]
La denominada IA que se encuentra disponible actualmente se conoce como inteligencia artificial débil o estrecha y es eficiente si se trata de procesar grandes volúmenes de información de una manera específica. Pero esa misma IA capaz de ganar en Go al campeón del mundo no puede hacer otra cosa que no sea jugar este juego.
Es así como la principal diferencia de GATO frente a estas otras IA es su capacidad para desarrollar de forma eficiente y funcional múltiples tareas, de tal manera que queda demostrada la versatilidad de las arquitecturas basadas en transformadores para el aprendizaje automático y se evidencia la forma en que dichas arquitecturas se pueden adaptar a una variedad de tareas.
En ese sentido, muchas redes neuronales especializadas, que existen en los laboratorios, pueden jugar, traducir texto, subtitular imágenes, entre otras actividades. GATO tiene la capacidad para realizar todas estas tareas por sí mismo, utilizando un único conjunto de datos y una arquitectura relativamente simple. Esto se opone a las redes especializadas que requieren la integración de múltiples módulos para trabajar en conjunto, cuya integración depende del problema a resolver.
Los resultados de GATO también respaldan los hallazgos anteriores de otros científicos, que afirman que el entrenamiento a partir de datos de diferente naturaleza puede dar como resultado un mejor aprendizaje de la información que se proporciona.
El contexto que aportan los humanos
Tal y como ocurre con el anuncio de nuevas tecnologías de inteligencia artificial, es pertinente preguntarse si este desarrollo, o cualquier otro futuro, podría superar la inteligencia humana.
Al respecto, tal y como lo analizamos en artículos anteriores, en el libro Framers. La virtud humana en la era digital, escrito por Kenneth Cukier, Viktor Mayer y Francis de Véricourt, los autores afirman que la capacidad de darle sentido a la información es el punto de inflexión entre las máquinas y los humanos.[7]
Para los investigadores, solo las personas pueden formular nuevas preguntas en un mismo contexto y cambiar el marco de referencia; es decir que establecer marcos de interpretación es una cualidad exclusiva de los seres humanos: creamos modelos mentales que utilizamos para entender los problemas más complejos o las actividades más disruptivas, aquellas que demandan creatividad, pensamiento crítico e innovación.
“Nuestras mentes están repletas de marcos. Así es como pensamos. Los marcos pueden ser simples o sofisticados, precisos o imprecisos. Pero todos capturan algún aspecto de la realidad. Y Gracias a ellos podemos explicar, centrarnos y decidir”. [8]
La democracia es un marco, como también lo es una monarquía; la religión es un marco, como también lo es el humanismo secular; el Estado de derecho es un marco, como también lo es la noción de actuar correctamente; la igualdad racial es un marco, como también lo es el racismo.
El problema con las máquinas, los robots, los algoritmos y los sistemas de inteligencia artificial es que son incapaces de enmarcar de forma correcta. Esta visión de los autores mencionados es compartida, desde 1969, por John McCarthy, uno de los promotores del concepto inteligencia artificial. Al respecto, McCarthy publicó un artículo denominado “Ciertos problemas filosóficos desde la perspectiva de la inteligencia artificial”, en el que puso en evidencia que el mayor problema que enfrentaba la nación tecnología se fundaba en el plano filosófico, pues, en palabras del autor, existía una incapacidad para “definir marcos o contextos”.[9]
El filósofo y científico cognitivo Daniel Dennett coincide, igualmente, con estos planteamientos y en un artículo titulado “Ruedas Cognitivas. El problema del marco de la inteligencia artificial”, explicó cómo mediante un experimento empleó todos los recursos que estuvieran a su alcance para que un robot tomará una decisión adecuada en un contexto particular; sin embargo, todos sus esfuerzos fueron en vano. El autor concluye que:
“Las máquinas son capaces de realizar una gran cantidad de cálculos lógicos y de procesar un gran abanico de datos, pero definitivamente no pueden enmarcar.
Enmarcar, es decir, capturar parte de la esencia de la realidad a través de un modelo mental con el fin de trazar un plan de acción efectivo, es una capacidad humana exclusiva, no de las máquinas”.[10]
En conclusión, la nueva tecnología desarrollada por Alphabet, a través del laboratorio DeepMind, y que recibe el nombre de GATO, individualmente no logró demostrar ser superior a otras tecnologías de IA existentes. Sin embargo, al ejecutar múltiples tareas diferentes, demostró por primera vez que es posible un tipo de IA generalista, simulando de una forma mucho más cercana el pensamiento propio de cerebro humano. No obstante, tal y como lo explican Cukier, Mayer y Véricourt en el libro Framers, la capacidad para crear mapas mentales, contextos y marcos sigue siendo exclusiva de los humamos, al menos por ahora.