Grabaciones de la vida de un niño de un año entrenan a una IA para aprender palabras

Desde el nacimiento, los niños comienzan a recibir estímulos visuales y auditivos, fundamentales para aprender algo esencial en su vida: el lenguaje. Entre los seis y los nueve meses empiezan a hablar, asociando sonidos con objetos y conceptos del mundo real. Cuando llegan a los dos años, suelen tener un vocabulario de unas 300 palabras. Pero ¿cómo se desarrolla este proceso de aprendizaje? Un equipo de investigadores de la Universidad de Nueva York estudió grabaciones de la vida diaria de un bebé durante su primer año de vida para encontrar la respuesta. El experimento no sólo confirmó la conexión entre la representación visual y la lingüística -es decir, lo que se ve y la palabra que le corresponde- sino que también contribuyó al desarrollo de un modelo de inteligencia artificial (IA), que logró reconocer diferentes objetos en un manera similar a cómo lo hacen los niños.

“Los grandes sistemas de IA se entrenan y funcionan con cantidades astronómicas de datos. Estamos hablando de miles de millones de palabras para poder desarrollar un sistema lingüístico», explica Wai Keen Vong, doctor en psicología e informática, que coordinó el estudio publicado el jueves en la revista Ciencia. «Sin embargo, los humanos sólo necesitan unos pocos miles de palabras para construir un sistema de comunicación eficiente», añade. De este contraste surgió el interés de investigar si una inteligencia artificial sería capaz de aprender hablar del mismo modo que los niños: observando su entorno, escuchando a las personas que les rodean y uniendo los puntos entre lo que ven y oyen.

La adquisición temprana del lenguaje es un tema ampliamente debatido para el cual se han propuesto varias hipótesis. Tradicionalmente, este tipo de estudios se han realizado en entornos de laboratorio controlados, lo que da como resultado hallazgos que a menudo no se extrapolan de manera efectiva a contextos más dinámicos y variados del mundo real. “La novedad de este análisis radica en el hecho de que pudimos trabajar con datos de primera mano, derivados de una situación de aprendizaje real”, subraya Vong.

Para ello, el equipo de Vong analizó 61 horas de la vida de Sam, un niño australiano que durante un año y medio -de los seis a los 25 meses de edad- usó un casco con una cámara que registraba las interacciones que tenía con sus padres y abuelos todos los días. De hecho, durante el experimento, sólo registró el 1% de su tiempo de vigilia. Pese a ello, se crearon cientos de imágenes que reproducen exactamente lo que vio el niño, acompañadas de las expresiones lingüísticas de sus familiares, que explicaban la naturaleza de los objetos que lo rodeaban. “Por ejemplo, durante la comida, la cámara en su cabeza grababa la imagen de una cuchara, al mismo tiempo su madre le preguntaba algo relacionado con ese utensilio. Y así sucesivamente, con decenas de objetos cotidianos”, explica Vong.

La conexión entre estos dos medios casi nunca es obvia. De hecho, el investigador reconoce que parte del desafío para los niños es comprender exactamente qué palabra está asociada al objeto con el que interactúan. “La mayoría de las veces, los padres no etiquetan todos los artículos. Por cada pelota que Sam miraba, sus padres no le decían «esto es una pelota», «mira la pelota». Escuchó las palabras en un contexto natural y la dificultad es comprender, en una frase más o menos larga, qué palabra corresponde al objeto redondo con el que estaba jugando”, subraya Vong.

Entrena una IA como un niño

Tras observar el comportamiento del niño, los investigadores pudieron confirmar que había aprendido el significado de las palabras conectando el estímulo visual -es decir, la imagen que se le presentaba- con la respuesta de sus familiares, que repetían la palabra correspondiente. Con estos resultados pasamos a la segunda fase del experimento: probar si una inteligencia artificial sería capaz de aprender a reconocer objetos de la misma forma que Sam.

El modelo de inteligencia artificial, llamado CVCL (La perspectiva del niño sobre el aprendizaje contrastivo., aprendizaje contrastivo desde la perspectiva del niño), fue entrenado con 64 categorías visuales -herramientas, juguetes, animales, entre otros- y con la transcripción de lo que Sam sentía al mirar esos objetos. Una vez creada esta base de datos, los investigadores comenzaron a realizar pruebas para ver si la IA podía identificar las imágenes. Según Vong, el modelo, con información sensorial limitada y mecanismos de aprendizaje relativamente genéricos, proporciona una base computacional para estudiar cómo los niños adquieren sus primeras palabras y cómo esas palabras pueden conectarse con el mundo visual.

«Descubrimos que CVCL puede aprender a establecer conexiones entre imágenes y texto a partir de fragmentos limitados de la experiencia de un solo niño», señalan los autores en el estudio. En algunos casos los objetos aparecían sobre un fondo blanco, mientras que en otros en un entorno con múltiples estímulos. De hecho, la precisión de clasificación del modelo fue del 61,6% y se mantuvo alta incluso cuando se introdujeron en el sistema otras imágenes además de las grabaciones de Sam, en las que la IA no había sido entrenada. «Los resultados confirman nuestra hipótesis de que con sólo dos impulsos, es decir, lo que el niño ve y lo que oye, es posible obtener y acelerar este tipo de aprendizaje», subraya Vong.

Estudia cómo se origina la palabra.

Antonio Rodríguez Fornells, investigador del Instituto de Neurociencia de la Universidad de Barcelona, subraya el aspecto innovador del estudio, que abre el camino para comprender, a través de simulaciones computacionales, cuáles son los mecanismos mínimos de aprendizaje que utilizan los niños para afrontar el reto. desafíos del aprendizaje de un idioma: “Estudios previos sobre niños en psicología del desarrollo aportan información clave con experimentos muy novedosos, pero la falta de estudios de neurociencia o neuroimagen sobre ellos (debido a la dificultad de aplicar estas técnicas en niños) no lo permite mucho progreso”. en neurociencia para aclarar los mecanismos cerebrales que apoyan estos procesos de adquisición del lenguaje”, explica este neurocientífico.

Además, reconoce que las simulaciones propuestas en el artículo respaldan algunas teorías del lenguaje propuestas previamente. «Entre ellos, mecanismos simples de aprendizaje asociativo (que permiten conectar imágenes y palabras) en un entorno de aprendizaje natural (como el que experimentan los niños al nacer y en los primeros meses de vida) son simplemente suficientes para poder aprender estas relaciones. y generalizar el contenido del significado”, añade Rodríguez Fornells.

Aun así, el estudio tiene algunas limitaciones. El modelo CVCL se entrenó con grabaciones de una única cámara montada en la cabeza de un solo niño y se aprendió mediante transcripciones de voz en lugar de habla directa, que omite matices importantes como la entonación y el énfasis. “Hay que recordar también que el aprendizaje del modelo era pasivo, basado en grabaciones, sin interacción activa con el entorno, lo que difiere de cómo aprenden los niños en entornos reales”, reconocen los autores de la investigación.

puedes seguir SUJETO En Facebook, X Y Instagramo regístrate aquí para recibirlo nuestro boletín semanal.

Más Información