¿Alexa, Google o Siri escuchan nuestras conversaciones?

“Alexa, pon la alarma a las ocho”, “Alexa, reproduce la película oppenheimer” o “Alexa, dime cómo estará el tiempo en Semana Santa”. Todas estas interacciones con el altavoz inteligente quedan grabadas y están disponibles para cualquier usuario que las solicite a Amazon. Así lo hizo la criminóloga María Aperador. Su sorpresa fue descubrir que unos audios no estaban precedidos por la palabra de activación, «Alexa», y así lo informó hace unos días en un vídeo en TikTok e Instagram que se volvió viral. ¿Como es posible?

La política de Amazon es clara en este punto: no se almacena ni envía audio a la nube a menos que el dispositivo detecte la palabra de activación. La empresa lo confirma. Y añaden que el usuario sabrá cuando Alexa envía su petición a la nube mediante una luz indicadora azul o un sonido del altavoz.

En este sentido, David Arroyo, investigador del CSIC especializado en ciberseguridad y datos, ofrece una alternativa: “El sistema que tienen sólo se activa cuando alguien dice la palabra de activación. Pero, por diversos motivos, puede contener falsos positivos. Lo que deberíamos ver es qué tan resistente a los elementos perturbadores es la interpretación de esa palabra desencadenante”.

Los sistemas de aprendizaje automático para la interpretación del habla, como los que utilizan los altavoces de Alexa o Google o Apple, incorporan elementos dispares para mejorar su funcionamiento. Pero aún así, no es una tarea fácil. “Estos sistemas están diseñados para identificar todo aquello que constituye elementos de variabilidad debido a la pronunciación”, explica Arroyo en referencia a diferentes acentos y formas de hablar, pero también a cambios en la resonancia o reverberación de la habitación en la que se encuentra. dispositivo. «Debemos saber en detalle cuál es la precisión y la tasa de falsos positivos del algoritmo que utiliza específicamente Amazon».

EL PAÍS habló con María Aperador para saber más sobre las grabaciones, que duran aproximadamente 6 segundos. Son fragmentos de conversaciones casuales, ya sean suyas o de personas que estuvieron en su casa. La criminóloga no revisó los más de 500 archivos de audio que le envió Amazon, pero de los aproximadamente 50 que escuchó, encontró dos que no tenían ninguna palabra desencadenante.

Un estudio realizado por investigadores de la Universidad del Ruhr en Bochum y el Instituto Max Planck para la Seguridad y la Privacidad destaca la importancia de las activaciones accidentales en los altavoces inteligentes. Tras analizar 11 dispositivos de ocho fabricantes diferentes, publicaron información sobre más de 1.000 activaciones inadvertidas. “Estamos hablando de sistemas de reconocimiento de voz que, según cómo se implementen, pueden funcionar mejor o peor”, afirma Josep Albors, director de investigación y sensibilización de la firma de ciberseguridad ESET España, sobre la posibilidad de falsos positivos.

Cómo los hablantes detectan la palabra de activación

Para activarse cuando escuchan la palabra «Alexa», «Ok, Google» o «Hey, Siri», los parlantes inteligentes cuentan con un sistema que rastrea constantemente ese término. “En definitiva son dispositivos que están escuchando constantemente. Pero también lo hacen los teléfonos inteligentes o muchos intercomunicadores. No es exclusivo de Alexa”, afirma Albors.

Arroyo también hace esta valoración. “Cuando pones el altavoz en modo de espera activo, significa que está absorbiendo constantemente lo que estás hablando. No lo registra. Pero el algoritmo lo está procesando, porque tiene que ver qué palabras se dicen”.

Se trata de un algoritmo que funciona localmente, en el propio dispositivo, buscando los patrones acústicos correspondientes a la palabra de activación. En Amazon señalan que su tecnología se basa únicamente en información de ondas sonoras para detectar el término. Además, señalan que el altavoz también permite activarlo mediante un botón, lo que evitaría la monitorización del sonido. En el caso de las grabaciones, que se producen cuando se activa el dispositivo, los usuarios pueden optar por no almacenarlas en sus opciones de privacidad.

¿Cuál es el problema con este seguimiento permanente de palabras desencadenantes? Los dos especialistas en ciberseguridad coinciden en que si se procesara el sonido para extraer datos más allá de las búsquedas de palabras clave, los problemas de privacidad serían muy graves. Pero también coinciden en que no hay pruebas de que esto sea cierto. “Hay muchos intereses para que esto no suceda, porque supondría la pérdida de confianza en todos los dispositivos y un perjuicio económico muy considerable para estas empresas”, afirma Albors.

puedes seguir La tecnología de EL PAÍS En Facebook Y X o regístrate aquí para recibir el nuestro boletín semanal.

Más Información