lunes, mayo 27

OpenAI lanza herramienta de audio capaz de clonar voces humanas | Tecnología

Clona de forma fiable la voz humana con un tamaño de muestra de solo 15 segundos. Eso es lo que logra la última herramienta de IA creada por OpenAI, la empresa que cautivó al mundo con ChatGPT, su programa de lenguaje generativo de IA.

“Hoy compartimos información y resultados preliminares de una vista previa a pequeña escala de un modelo llamado Voice Engine, que utiliza texto y una única muestra de audio de 15 segundos para generar un habla natural que se parece mucho al hablante original. Es notable que un modelo pequeño con una sola muestra de 15 segundos pueda crear voces emotivas y realistas”, dijo en un comunicado la compañía dirigida por Sam Altman.

Todo lo que el usuario tiene que hacer es proporcionar esa muestra. Una vez que el programa Voice Engine lo tenga, podrás hacer que lea cualquier texto que proporciones en el timbre y tono de esa voz. Ni siquiera es necesario que el texto esté en el mismo idioma. Un hablante nativo de español puede dar el ejemplo en su idioma y luego pedirle al programa que lea texto en inglés, chino u otros idiomas con su voz.

También se puede utilizar directamente para la traducción de audio. Además, cuando se utiliza para traducir, Voice Engine conserva el acento nativo del hablante original: por ejemplo, generar inglés con una muestra de audio de un hablante de francés produciría un habla con acento francés.

Uso limitado

Por ahora, la empresa prefiere lanzar una prueba a pequeña escala en lugar de facilitar el acceso generalizado a la herramienta, como hizo con ChatGPT, porque es consciente del riesgo de suplantación de identidad. Con la herramienta solo necesitas grabar 15 segundos de alguien hacerse con su voz.

«Estamos adoptando un enfoque cauteloso e informado hacia una publicación más amplia debido al posible uso indebido de voces sintéticas», dice OpenAI. “Esperamos iniciar un diálogo sobre el uso responsable de las voces sintéticas y cómo la sociedad puede adaptarse a estas nuevas capacidades. “Con base en estas conversaciones y los resultados de estas pruebas a pequeña escala, tomaremos una decisión más informada sobre si implementar esta tecnología a gran escala y cómo hacerlo”, añade.

OpenAI cree que antes de generalizar el acceso a la nueva herramienta es necesario tomar decisiones sobre una serie de aspectos. Por ejemplo, pide eliminar gradualmente la autenticación de voz como medida de seguridad para acceder a cuentas bancarias y otra información sensible, ya que ya no sería segura.

También cree que es necesario explorar políticas para proteger el uso de las voces de los individuos en la inteligencia artificial. El riesgo de manipulación y desinformación es particularmente alto en el caso de figuras públicas, incluidos los políticos.

Por lo tanto, también es necesario educar al público para que comprenda las capacidades y limitaciones de las tecnologías de IA, incluida la posibilidad de contenido engañoso de IA.

Otra propuesta que pone sobre la mesa es acelerar el desarrollo y la adopción de técnicas para rastrear el origen de los contenidos audiovisuales, de modo que siempre quede claro cuándo se está interactuando con una persona real o con una inteligencia artificial.

“Es importante que la gente de todo el mundo comprenda hacia dónde se dirige esta tecnología, ya sea que finalmente la utilicemos a gran escala o no. Esperamos continuar las conversaciones sobre los desafíos y oportunidades de las voces sintéticas con formuladores de políticas, investigadores, desarrolladores y creativos”, concluye OpenAI.

En su carrera de innovaciones, OpenAI ha lanzado herramientas no sólo para el lenguaje, sino también para la generación de imágenes y vídeos. El mes pasado presentó Sora, una revolucionaria herramienta de vídeo que sólo necesitaba texto para crear un vídeo corto con el contenido y estilo requeridos.

puedes seguir La tecnología de EL PAÍS En Facebook Y X o regístrate aquí para recibir el nuestro boletín semanal.