El plan para reemplazar el test de Turing por las "olimpiadas de Turing"

¿Cuándo un robot es tan inteligente como un humano? Cuando puede armar un mueble de Ikea.

|
06 Febrero 2015, 8:44pm

​Imagen: I K O/Flickr

El test de Turing ya no sirve para su propósito. De hecho quizás nunca sirvió. Cuando Alan Turing introdujo la idea en  ​un paper de 1950, lo sugirió como un ejercicio filosófico que exploraba la pregunta "¿Pueden pensar las maquinas?" en vez de ser una evaluación práctica de la inteligencia artificial (o AI por sus siglas en inglés).

Pero desde entonces se ha transformado en un punto de referencia para los robots y su inteligencia. El concepto es simple: si un programa computacional logra no ser reconocido como tal cuando se enfrenta a un humano en una conversación de texto, pasa la prueba.

El problema es que no es realmente una prueba de inteligencia. El año pasado  ​la prueba fue superada por un chatbot relativamente tozco que pretendía ser un niño ucraniano de 13 años.

Durante el fin de semana un grupo de expertos en inteligencia artificial se reunieron para discutir  ​cómo avanzar más allá del test de Turing, en el marco de la conferencia AAAI de inteligencia artificial en Austin, Texas. Asumieron la tarea de elaborar un "campeonato de Turing" con un nuevo conjunto de desafíos que ayuden a desarrollar la investigación de AI.

Gary Marcus, un profesor de psicología en NYU y jefe de la conferencia, me dijo que hay un consenso general que el test de Turing llegó a su fecha de vencimiento. "Mi argumento es que realmente es un ejercicio de engaño y fraude" dijo.

Cómo demostró el chatbot de Eugene Goostman que ganó el año pasado, es relativamente fácil que un bot le gane al sistema, por ejemplo al pretender que el inglés no es su lenguaje principal o simplemente haciendo uso de estrategias muy humanas como cambiar el tema de la conversación. Lo que debe pasar es que el bot engañe a un ser humano para que crea que está frente a otro humano, lo que no es el engaño más difícil de lograr.

El conjunto de nuevos desafíos serán unas olimpiadas de Turing más que una simple prueba de Turing

La idea de este grupo de trabajo es desarrollar una serie de desafíos que puedan evaluar diferentes tipos de inteligencia, más allá de las habilidades comunicativas de los chatbots. "Hay muchos aspectos en que la inteligencia artificial ha progresado últimamente y queremos desafiarlos también, como la visión, el reconocimiento del habla, el procesamiento de lenguaje natural y más" me dijo Francesca Rossi, una profesora de ciencia computacional en la universidad de Padua en Italia, quien habló conmigo a través de Skype junto a Manuela Veloso, profesora de ciencia computacional y robótica en la universidad Carnegie Mellon.

El conjunto de nuevos desafíos serán unas olimpiadas de Turing más que una simple prueba de Turing.

Un desafío que el grupo considera es lo que Marcus define como el "test de Ikea". Suena como el remate de un chiste: ¿Cuándo sabes que una máquina es más inteligente que un humano? Cuando puede seguir las instrucciones para armas muebles. Esa es la idea.

El robot debe ser capaz de ver las partes, interpretar las instrucciones y eventualmente tener las habilidades motoras para unir las piezas. Le pregunté a Marcus si esta tarea requiere de un robot físico. "Bueno, un robot físico guiado por un programa de AI" dijo y agregó que esto tiene varias etapas y podría comenzar con simulaciones antes de empezar con robots reales. "Para ser el ganador debes hacerlo con un robot de verdad y objetos de verdad". Veloso agregó que podrían considerar la colaboración humana cómo un elemento de este desafío.

Otra tarea propuesta es el esquema de Winograd, una prueba basada en el lenguaje que requiere algo como el sentido común de los humanos. Fue propuestos por el científico computacional Hector Levesque en  ​un paper del 2011 y el año pasado la compañía norteamericana de software Nuance anunció el patrocinio del​ desafío anual de esquemas de Winograd.

Los esquemas de Winograd le dan una frase a los participantes, luego formulan una simple pregunta sobre esa frase. Levesque da un ejemplo:

El trofeo no cabe dentro de la maleta café porque es muy grande. ¿Qué es muy grande? (¿El trofeo o la maleta?)

Estas preguntas son muy fáciles para los humanos, pero requieren una comprensión del lenguaje relativamente profunda. Marcus las describe como "frases que no puedes entender a menos que entiendas el mundo". Fundamentalmente no son preguntas googleables.

Una tercera prueba fue sugerida por Marcus en  ​un artículo para el New Yorker. El propuso pedirle a un computador que viera un video que no haya visto antes y hacerle preguntas sobre el. Cosas como "¿Por qué Rusia invadió Crimea? o ¿Por qué Walter White quiso matar a Jessie?". Me dijo que Fei-Fei Li, director del laboratorio de AI de Stanford, tuvo una idea similar utilizando imágenes y han decidido unir sus fuerzas para crear un evento en el que una maquina pueda responder "preguntas periodísticas" sobre imágenes, video y audio.

Estas respuestas son fáciles para los humanos si es que prestan atención, pero recibir datos en un formato y responder preguntas en otro requiere comprensión real. No puedes mentir como un chatbot que cambia de tema esperando que nadie se de cuenta.

¿Cuándo sabes que una máquina es más inteligente que un humano? Cuando puede seguir las instrucciones para armas muebles.

Otras ideas que salieron del encuentro fue desafiar a una AI a jugar un nuevo videojuego como si fuera un niño de 12 años, o decirle a un profesor digital que aprenda un nuevo tópico y lo enseñe igual (o mejor) que un humano.

El grupo espera lanzar el primer campeonato el próximo año luego de una segunda conferencia en Buenos Aires el próximo mes de Julio. Planean comenzar con tres o cuatro pruebas y agregar más con el tiempo.

"No creemos que el mismo programa computacional haga las cuatro cosas al mismo tiempo durante la primera versión" dice Veloso. Hasta ahora, el completar sólo una tarea es algo muy difícil. Después de todo la idea es impulsar la investigación de la inteligencia artificial.

"Incluso para cada categoría podemos crear desafíos que vayan creciendo en dificultad" dice Rossi. Con la prueba de los vídeos se puede comenzar con una selección restringida y luego ir ampliando.

Marcus sugiere ajustar lo que significa el superar las pruebas. ¿Un computador tiene que ser como un niño, una persona normal o un experto en el tema para ser considerado ganador? Estos niveles pueden ser ajustados para monitorear el progreso. "Es ciertamente posible que haya un rendimiento superhumano" dice Marcus. "Podemos imaginar fácilmente que el desafío de Ikea sea solucionado por un robot que arme cosas mucho mejor que un humano". Tiene razón, pero esta no es necesariamente la vara más alta.

Un gran desafío para los organizadores es definir las reglas de las pruebas. Rossi y Veloso dicen que quieren unir a la comunidad técnica para proponer las reglas iniciales y darle posibilidad a los participantes y otros interesados en poder comentar antes de la definición final. Como presidente de la federación internacional RoboCup (un encuentro anual de fútbol para robots), Veloso tiene experiencia en esta área.

Si bien todos esperan que los robots con inteligencia artificial superen las pruebas en algún momento, esto realmente es un incentivo para llegar a otra meta. "Lo importante de la prueba no es pasar la prueba" dice Rossi. "Lo importante es avanzar en la inteligencia artificial; hacer que las maquinas sean más inteligentes".

Quizás algún día veamos un robot que es capaz de armar la mesa donde va tu televisor, reunir los episodios que te has perdido y hacer unos cuantos juegos de palabras contigo. En este punto tendremos que comenzar a pensar  ​cuánto queremos incentivar el avance de la inteligencia artificial.