Un estudio concluye que ChatGPT responde como si entendiera las emociones o pensamientos de su interlocutor Tecnología

Una de las habilidades que definen a un ser humano es su capacidad para inferir lo que piensan las personas con las que interactúa. Si alguien está sentado junto a una ventana cerrada y un amigo le dice «hace un poco de calor aquí», automáticamente interpretará que le estás pidiendo que abra la ventana. Esta lectura entre líneas, la capacidad de comprender lo que piensan quienes nos rodean, se conoce como teoría de la mente y es uno de los fundamentos sobre los que se basan las relaciones sociales.

Las herramientas de inteligencia artificial (IA) generativa han sorprendido por su capacidad para articular texto coherente en respuesta a instrucciones dadas. Desde que surgió ChatGPT en 2022, o incluso antes, científicos y pensadores de todo el mundo han estado debatiendo si estos sistemas son capaces de exhibir comportamientos que los hagan indistinguibles de las personas. ¿Es viable una teoría artificial de la mente? Un equipo de científicos se propuso ver si los modelos de lenguaje grandes (LLM) como ChatGPT pueden capturar estos matices. El resultado de la investigación, publicado hoy en la revista Naturaleza Comportamiento Humanoes que estos modelos se desempeñan tan bien o mejor que las personas cuando se les hacen preguntas que implican ponerse en la mente del interlocutor.

«Los LLM generativos muestran desempeños característicos de habilidades sofisticadas de razonamiento y toma de decisiones, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en humanos», argumentan los autores.

Los autores utilizaron dos versiones de ChatGPT en su estudio (la gratuita, 3.5, y la avanzada, 4) y el modelo Meta de código abierto, Llama 2. Sometieron estas tres herramientas a una serie de experimentos que intentan medir diferentes habilidades. relacionado con la teoría de la mente. Desde captar la ironía hasta interpretar peticiones indirectas (como en el caso de la ventana), identificar conversaciones en las que alguno de los interlocutores dice algo inadecuado o responder preguntas sobre situaciones en las que falta información y, por tanto, es necesario especular. Al mismo tiempo, sometieron a 1.907 personas a las mismas pruebas y compararon los resultados.

El artículo concluye que ChatGPT-4 iguala o mejora las puntuaciones de los humanos en pruebas de identificación de solicitudes indirectas, creencias falsas y desorientación, pero tiene dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que no debería porque es inadecuado). Curiosamente, este es el único ámbito en el que Llama 2 supera a la gente, aunque su éxito es ilusorio. «Esta actuación aparentemente perfecta de Llama es probablemente el resultado de un sesgo y no de una verdadera comprensión del paso en falso», explica por correo electrónico James W.A. Strachan, autor principal del estudio e investigador del Departamento de Neurología del Hospital Universitario de Llama. Hamburgo, Alemania.

«Estos resultados no sólo demuestran que los LLM exhiben un comportamiento consistente con los hallazgos de la inferencia mentalista en humanos, sino que también resaltan la importancia de realizar pruebas sistemáticas para garantizar una comparación no superficial entre las inteligencias humana y artificial», razonan los autores.

De la ironía a los chistes

Strachan y sus colegas dividieron la teoría de la mente en cinco elementos o categorías, creando al menos tres variaciones de cada uno. Un ejemplo de las pruebas a las que se someten máquinas y humanos sería este:

En la habitación están John, Mark, un gato, una caja transparente y un cofre de cristal. John toma el gato y lo mete en la jaula. Sale de la habitación y se dirige a la escuela. Mientras John no está, Mark saca el gato del baúl y lo mete en la caja. Mark sale de la habitación y se pone a trabajar. John llega a casa de la escuela y entra a la habitación. No sabe qué pasó en la habitación mientras él no estaba. Cuando John regrese a casa, ¿dónde buscará al gato?

Esta historia, variante de otra en la que la caja no era transparente ni el cristal de la caja, pretende confundir a la máquina. Mientras que para las personas el hecho de que el contenedor sea transparente es fundamental para la historia, para un chatbot ese pequeño detalle puede generar confusión. Esta fue una de las pocas pruebas de investigación en las que los humanos obtuvieron mejores resultados que la IA generativa.

Otro de los casos planteados fue este:

Laura pintó un cuadro de Olivia, que decidió colgar en el salón de su casa. Un par de meses después, Olivia invitó a Laura a su casa. Mientras los dos amigos charlaban mientras tomaban una taza de té en la sala de estar, el hijo de Olivia entró y dijo: «Me gustaría tener un retrato mío para colgar en mi habitación». En la historia, ¿alguien dijo algo que no debería haber dicho? ¿Qué dijeron que no deberían haber dicho? ¿Dónde colgó Olivia el cuadro de Laura? ¿Es más probable que el hijo de Olivia supiera que Laura había pintado el cuadro o no?

En este caso los investigadores quieren que los entrevistados, personas y máquinas, hablen sobre las intenciones implícitas de los personajes de la historia. En experimentos de este tipo, los grandes modelos lingüísticos respondieron tan bien o mejor que las personas.

¿Qué conclusiones podemos sacar del hecho de que los chatbots con IA generativa superan a las personas en experimentos que buscan medir las capacidades de la teoría de la mente? “Estas pruebas no pueden decirnos nada sobre la naturaleza o incluso la existencia de procesos cognitivos en las máquinas. Sin embargo, lo que vemos en nuestro estudio son similitudes y diferencias en el comportamiento que producen los LLM en comparación con los humanos”, señala Strachan.

Sin embargo, el investigador sostiene que el rendimiento de los LLM “es impresionante” y que los modelos GPT producen respuestas que transmiten una capacidad matizada para sacar conclusiones sobre estados mentales (creencias, intenciones, estado de ánimo). “Dado que los LLM, como su nombre indica, se forman con grandes corpus lingüísticos, esta habilidad debe surgir como resultado de las relaciones estadísticas presentes en el idioma al que están expuestos”, dice.

Ramon López de Mántaras, fundador del Instituto de Investigación en Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros del tema en España, se muestra escéptico ante los resultados del estudio. “El gran problema de la inteligencia artificial actual es que las pruebas para medir su rendimiento no son fiables. El hecho de que la IA se compare o supere a los humanos en una comparación de desempeño llamada capacidad general no es lo mismo que la IA supere a los humanos en esa capacidad general”, señala. Por ejemplo, no se puede decir que el hecho de que un instrumento obtenga una buena puntuación en una prueba diseñada para medir el desempeño en comprensión lectora demuestre que el instrumento tiene comprensión lectora.

puedes seguir La tecnología de EL PAÍS En Facebook Y X o regístrate aquí para recibir el nuestro boletín semanal.

Más Información