Inicio TECNOLOGIA Chat GPT ha superado el Test de Turing

Chat GPT ha superado el Test de Turing

Un estudio sugiere que GPT-4.5 puede hacerse pasar por humano mejor que muchos humanos… ¿estamos preparados para esto?

El test de Turing es una famosa prueba ideada por el matemático británico Alan Turing en 1950 para evaluar si una máquina puede imitar el comportamiento humano. Consiste en una conversación por texto entre un evaluador humano y dos interlocutores —uno humano y otro una inteligencia artificial— sin que el evaluador sepa quién es quién. Si la máquina logra engañar al evaluador con éxito, se dice que “ha pasado” el test. Este experimento no mide inteligencia en sentido estricto, sino la capacidad de una IA para imitar la conversación humana de forma creíble.

En un nuevo estudio que aún espera revisión por pares, el modelo de lenguaje GPT-4.5 de OpenAI ha logrado superar con éxito el test de Turing, engañando a los humanos en un sorprendente 73 % de los casos cuando se le asignaba una personalidad. El experimento, diseñado por investigadores del laboratorio de Lenguaje y Cognición de la Universidad de California en San Diego, pone de relieve lo sofisticadas que se han vuelto las IA conversacionales.

El estudio empleó una versión moderna del test de Turing, en la que cerca de 300 participantes interactuaban en línea con dos interlocutores: uno humano y uno artificial. Su tarea era identificar quién era la persona real. Durante ocho rondas, los voluntarios fueron asignados aleatoriamente como interrogadores o como uno de los dos «testigos», uno de los cuales era siempre una IA. Los modelos evaluados incluyeron GPT-4.5, GPT-4o, el LLaMA 3.1-405B de Meta y el veterano chatbot ELIZA, creado hace más de 80 años.

El factor decisivo en el éxito de GPT-4.5 fue el uso de lo que los investigadores llaman «prompts con personalidad». En este tipo de instrucciones, a la IA se le pedía adoptar una identidad específica, como la de un joven experto en internet y cultura popular. Con esta estrategia, el modelo de OpenAI no solo superó el test, sino que fue confundido con un humano mucho más a menudo que los propios humanos. De hecho, los evaluadores fallaron en distinguir entre personas reales y GPT-4.5 con una tasa de error mayor que si hubieran elegido al azar.

Cameron Jones, autor principal del estudio, escribió en X (antes Twitter): «Las personas no fueron mejores que el azar para distinguir humanos de GPT-4.5 y LLaMA cuando usaban personalidad. ¡Y 4.5 fue juzgado como humano incluso más veces que los humanos reales!»

La diferencia entre usar o no una personalidad resultó ser crítica. Sin ese «disfraz», GPT-4.5 solo engañó al 36 % de los participantes. GPT-4o, la versión que actualmente impulsa a ChatGPT, obtuvo apenas un 21 % de aciertos sin personalidad asignada. Increíblemente, incluso el arcaico ELIZA lo superó con un 23 %. Esto sugiere que no solo importa la tecnología detrás del modelo, sino también cómo se le instruye a presentarse.

El test de Turing, aunque emblemático, no es necesariamente una prueba definitiva de inteligencia artificial. Como recordó el ingeniero de software de Google, François Chollet, en declaraciones a Nature en 2023: «No fue concebido como una prueba literal para aplicarla directamente a las máquinas, sino más bien como un experimento mental.» Aun así, su valor simbólico sigue siendo potente.

Los modelos de lenguaje, o LLMs por sus siglas en inglés, están diseñados para predecir palabras en función de grandes cantidades de texto humano. Su dominio del lenguaje es tal que incluso cuando no comprenden completamente una pregunta, pueden generar respuestas plausibles. Esto los convierte en expertos en la imitación, aunque no necesariamente en la comprensión real. Por eso, muchos expertos se preguntan si el test de Turing sigue siendo una medida útil de inteligencia artificial, o si más bien está obsoleto en una era de IA cada vez más avanzada.

Para Cameron Jones, el estudio no resuelve la pregunta de si las IA piensan como los humanos. «Creo que es una cuestión muy compleja», escribió. «Pero en general, esto debe considerarse como una pieza más del rompecabezas sobre el tipo de inteligencia que muestran los modelos de lenguaje.»

Lo que sí le parece preocupante es otra cosa: «Creo que los resultados muestran que los modelos de lenguaje pueden sustituir a personas en interacciones cortas sin que nadie lo note.» Esto podría tener consecuencias en el ámbito laboral, la seguridad digital y, en general, en cómo nos relacionamos como sociedad.

El test de Turing, concluye Jones, no solo examina a las máquinas, sino también a los humanos: nuestros prejuicios, expectativas y capacidad para adaptarnos a nuevas tecnologías. En un mundo donde las inteligencias artificiales se vuelven cada vez más convincentes, quizá también debamos redefinir qué significa ser “humano”.