SomosNLP: La larga marcha de un grupo de voluntarios para crear un ChatGPT hispano: “Un modelo formado en español sería increíble”

“La pregunta es ‘dame una receta típica peruana’ y luego te la doy”, dice María Grandury, fundadora de la organización de voluntariado SomosNLP. Grandury describe una acción mundana para los nuevos chatbots creados con inteligencia artificial (IA). Esta simple petición, sin embargo, implica un enorme trabajo preliminar, en gran parte automatizado, pero también humano.

Esta pregunta necesita al menos tres elementos básicos: primero, una base de datos que incluya recetas peruanas en español, obtenidas de Internet. En segundo lugar, una lista de preguntas y respuestas que le permite al modelo aprender qué responder cuando se le pregunta sobre una receta peruana. Y tercero, un chequeo que permite revisar la respuesta y saber si es correcta.

Esta sencilla explicación de tres pasos esconde una enorme variedad de opciones, donde la financiación es clave. Las grandes empresas de Silicon Valley y las inglesas lo dominan todo con diferencia. ¿Qué hacen otros idiomas? Lo intentamos, a diferentes niveles. También se supone que el español es un idioma dominante, pero en realidad no lo es tanto. El reto de conseguir que una máquina aprenda a responder cualquier pregunta en español (no un puñado, centrada en un solo tema) es enormemente complejo.

El primer paso fundamental es recopilar cantidades masivas de texto para entrenar lo que se llama un modelo fundamental. «No tenemos mucho texto, pero en los últimos tres años ha habido más, la comunidad ha crecido y han surgido iniciativas gubernamentales», dice Grandury. Se refiere sobre todo a Alia, un modelo impulsado por el Gobierno español y del que el ministro José Luis Escrivá declaró a EL PAÍS que «abrirá las puertas a una nueva generación de productos tecnológicos enriquecidos con el vasto patrimonio lingüístico del español y el lenguas cooficiales».

El modelo es una parte que requiere muchos datos originales pero también muchos cálculos. Por eso es imprescindible el acuerdo del Gobierno con el SuperCentro de Computación de Barcelona y con IBM. Pero con esto sólo hay un modelo que puede escribir el texto a partir de una frase inicial, no a partir de una pregunta. Pero los chats que se han popularizado son precisamente de preguntas y respuestas. Estas instrucciones no existen en español, al menos públicamente. Aquí es donde entra SomosNLP (NLP por sus siglas en inglés de Natural Language Processing), que busca reunir recursos para que mejore la presencia del español en la inteligencia artificial: “De las bases de datos con instrucciones, sólo las que son públicas lo son en inglés. Lo que normalmente se hace es tomarlos y traducirlos”, dice Grandury. “Lo que vamos a hacer definitivamente es crear el mayor corpus abierto de instrucciones en español hasta el momento”, añade.

Grandury, de 26 años, originario de Ponferrada, ya tiene experiencia en el difícil camino de crear un modelo que se pueda fabricar en español. Tras licenciarse en matemáticas y física por la Universidad de Oviedo y trabajar brevemente en Berlín, fichó por Clibrain. En el verano de 2023, Clibrain “quería ser el referente mundial de la inteligencia artificial en español” y su cofundadora, Elena González-Blanco, era “el referente mundial de la inteligencia artificial en español”, según titulares de prensa. Incluso lanzaron un modelo con nombre español como Lince. Hoy Clibrain cerró.

“Lince funcionó bien, había que hacerlo más accesible, por ejemplo con una interfaz. Aunque sea costoso, tenerlo disponible para la gente”, dice Grandury, refiriéndose a la potencia de cálculo necesaria para que un modelo esté disponible en Internet para responder a las preguntas de los usuarios.

Francia ya tiene su líder

Mientras tanto, Francia ha creado una empresa nacional con Mistral que compite a escala global. «Él muestra «La IA europea apunta a los gigantes tecnológicos estadounidenses», titula el periódico New York Times en abril. Su director ejecutivo, el francés Arthur Mensch, de 31 años, ex empleado de Google, afirmó: «Estos patrones dan forma a nuestra comprensión cultural del mundo, y los valores franceses y estadounidenses difieren de manera sutil pero importante».

La brecha de financiación sigue siendo enorme: OpenAI ha realizado inversiones por valor de 13.000 millones de dólares; Mistral, 540 millones. La plantilla de Mistral está en inglés, pero aparentemente hay un esfuerzo por incluir más contenido en francés: al menos literatura francesa del siglo XIX, que ya no está protegida por derechos de autor, según el New York Times.

Grandury conoció a gente de Mistral poco después de lanzar su modelo. “Ya no importaban mucho. Les pregunté si se habían formado con textos en francés o español. ‘Puede ser’, me dijeron”, sin aclarar ningún detalle. «La gente no habla», añade.

El presidente francés, Emmanuel Macron, recibe a Mensch. El presidente español, Pedro Sánchez, anunció el nuevo modelo Alia y se reunió con el español Darío Gil, vicepresidente de IBM. A falta de empresas poderosas, los españoles bien situados pueden ayudar. Probablemente ayude en Francia que uno de los “padres de la inteligencia artificial” sea el francés Yann LeCun, científico jefe de inteligencia artificial en Meta.

Hoy conocí a Darío Gil, vicepresidente de @IBM y director mundial de @IBMResearch.

Hemos decidido colaborar con la multinacional tecnológica para desarrollar modelos de lenguaje de inteligencia artificial en español y lenguas cooficiales, tal y como anunciamos en el pasado MWC.

España apuesta por… pic.twitter.com/DwxzSBF3Ad

— Pedro Sánchez (@sanchezcastejon) 5 de abril de 2024

La ventaja del inglés es que Internet está en inglés. El español y el francés deben buscar y negociar con muchas instituciones para alimentar sus modelos, al igual que lenguas más pequeñas como el español cooficial o las lenguas precolombinas de América Latina.

Somos NLP no tiene la capacidad de entrenar estos modelos, pero puede organizar esfuerzos voluntarios, como un hackatón, para recopilar pares de preguntas y respuestas generales. ¿Qué motiva a cientos de voluntarios a realizar estos esfuerzos para mejorar la IA en español? “Entras a formar parte de una gran comunidad internacional de personas con los mismos intereses que tú, y sabes que, a medida que aprendes y te expones, aportas tu granito de arena a un objetivo común: colaborar en la preservación de tu lengua y cultura. ”, dice Grandury.

Alrededor de 20 equipos de cinco personas crearon 200.000 instrucciones en tan solo unos días. Puede crear preguntas y respuestas con código de bases de datos de temas específicos. “Hay pdfs, webs sobre temas legales o refugiados en conversaciones en grupos abiertos de Telegram. Cuando tienes muchos datos, puedes crear automáticamente pares de preguntas y respuestas sobre ese texto. Luego lo envías a un espacio de escritura y ahora los humanos, las personas de cada equipo, verifican si tienen sentido. Es mucho más rápido porque ya no es necesario leer y buscar una pregunta y su respuesta», afirma Grandury. Los humanos somos como profesores de idiomas del chatbotsquienes señalan errores y aciertos y los corrigen para mejorar sus respuestas.

El objetivo de SomosNLP es crear 10 millones de preguntas y respuestas originales en español. «Seguiría siendo un tercio del mayor corpus sintético en inglés», afirma Grandury. En SomosNLP el trabajo actualmente es estrictamente voluntario. Sólo algunos patrocinios para sus acciones, como el uso de servidores o premios, provienen, entre otros, de la empresa Hugging Face, construida alrededor de una comunidad que trabaja en inteligencia artificial de forma abierta.

👋 Les presento este mini avatar con el que queremos explicar de forma didáctica temas importantes en los que trabajamos @mintradigital

Hoy nos explica por qué es imprescindible contar con un modelo lingüístico en español y en las lenguas cooficiales como el que estamos preparando: #ALIA 👇 pic.twitter.com/N5UYMLUyim

— José Luis Escrivá (@joseluisescriva) 7 de mayo de 2024

Las grandes empresas de Silicon Valley no revelan cómo realizan este proceso. En enero de 2023 se supo que OpenAI había pagado a miles de trabajadores en Kenia para que escribieran respuestas demasiado tóxicas para que el chatbot aprendiera a no darlas. Pero casi no hay más detalles: «No sabemos hasta qué punto automatizan la creación de preguntas», dice Grandury. “Luego está gran parte de la parte humana en la que ni siquiera gestionamos remotamente la misma cantidad de datos. «Imaginar cuántas personas están registradas allí es impensable».

Meta acaba de lanzar su nuevo modelo Llama 3. En un documento titulado Nuestro enfoque responsable hacia Meta AI y Meta Llama 3, la empresa dedica 3.000 palabras a explicar los pasos, a menudo en colaboración con humanos, para no dar respuestas políticamente incorrectas. Pero no dicen cómo hicieron todo el proceso anterior.

¿Por qué no usar ChatGPT en español?

Una pregunta recurrente es por qué no utilizar las plantillas que ya existen y que responden bien en español. Además de cuestiones estratégicas, culturales y abiertas, es difícil que un modelo creado originalmente en inglés pueda distinguir variantes dialectales del español.

«El truco no sería tomar un modelo multilingüe y ajustarlo, sino tomar uno entrenado en español y luego ajustarlo con datos en español, eso sería increíble», dice Grandury. ¿Cómo notarías las diferencias? “Hay cosas más sutiles en el lenguaje, como cómo te expresas si tienes un C1 o C2 o si usas expresiones coloquiales o más elaboradas”.

El objetivo inmediato del modelo impulsado por el Gobierno es dar a empresas y organizaciones algo muy español para sus necesidades concretas: es fácil afinar un modelo para que sólo responda a accidentes de trabajo en España, seguros de coche o darse de alta en tales una universidad. «La tendencia es avanzar hacia modelos especializados: el jurídico, por ejemplo, para aprender también a hablar más con ese tipo de lenguaje», explica Grandury.

Si bien el objetivo final es pasar a un chat general como ChatGPT, no será un camino fácil: “No lo haremos solos”, aclara por si acaso.

puedes seguir La tecnología de EL PAÍS En Facebook Y X o regístrate aquí para recibir el nuestro boletín semanal.

Regístrate para continuar leyendo

Leer sin límites

Más Información