Decenas de millones de personas usan parlantes inteligentes y su software de voz para jugar juegos, encontrar música o buscar trivialidades. Millones más se resisten a invitar a los dispositivos y sus poderosos micrófonos a sus hogares por la preocupación de que alguien pueda estar escuchando.
A veces, así es.
Amazon.com Inc. emplea a miles de personas en todo el mundo para ayudar a mejorar el asistente digital Alexa que alimenta su línea de parlantes Echo. El equipo escucha las grabaciones de voz capturadas en los hogares y oficinas de los propietarios de Echo. Las grabaciones se transcriben, se anotan y luego se devuelven al software como parte de un esfuerzo por eliminar las brechas en la comprensión de Alexa del lenguaje humano y ayudarlo a responder mejor a los comandos.
El proceso de revisión de voz de Alexa, descripto por siete personas que han trabajado en el programa, pone en evidencia el rol humano que a menudo se pasa por alto en la formación de algoritmos de software. En los materiales de marketing, Amazon dice que Alexa «vive en la nube y siempre se está volviendo más inteligente». Pero al igual que muchas herramientas de software creadas para aprender de la experiencia, los humanos están siendo parte de la enseñanza.
El equipo está compuesto por una combinación de contratistas y empleados de tiempo completo de Amazon que trabajan en puestos remotos de Boston a Costa Rica, India y Rumania, según los empleados, que firmaron acuerdos de confidencialidad que les impiden hablar públicamente sobre el programa. Trabajan nueve horas al día, y cada revisor analiza hasta 1.000 clips de audio por turno, según dos trabajadores de la oficina de Amazon en Bucarest, que ocupa los tres pisos superiores del edificio Globalworth en el prometedor barrio Pipera de la capital de Rumania. Las modernas instalaciones se destacan en medio de la infraestructura desmoronada y no tienen ningún letrero exterior que anuncie la presencia de Amazon.
El trabajo es sobre todo rutinario. Un trabajador de Boston dijo que buscó datos de voz acumulados para expresiones específicas como «Taylor Swift» y los anotó para indicar que el buscador se refería a la cantante. De vez en cuando, los oyentes recogen cosas que los propietarios de Echo probablemente preferirían conservar en privado: una mujer que canta mal en la ducha, por ejemplo, o un niño que grita por ayuda. Los equipos utilizan salas de chat internas para compartir archivos cuando necesitan ayuda para analizar una palabra confusa o cuando encuentran una grabación divertida.
A veces escuchan grabaciones que encuentran molestas, o posiblemente criminales. Dos de los trabajadores dijeron que recogieron lo que creen que fue un asalto sexual. Cuando algo así sucede, pueden compartir la experiencia en la sala de chat interna como una forma de aliviar el estrés. Amazon dice que hay procedimientos establecidos a seguir cuando los trabajadores escuchan algo preocupante, pero dos empleados con sede en Rumania dijeron que, después de solicitar orientación para tales casos, se les dijo que no era tarea de Amazon interferir.
«Tomamos en serio la seguridad y la privacidad de la información personal de nuestros clientes», dijo un portavoz de Amazon en un comunicado enviado por correo electrónico. «Solo anotamos una muestra extremadamente pequeña de las grabaciones de voz de Alexa para mejorar la experiencia del cliente. Por ejemplo, esta información nos ayuda a capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural, para que Alexa pueda comprender mejor sus solicitudes y garantizar que el servicio funcione bien para todos».
«Tenemos estrictas garantías técnicas y operativas, y tenemos una política de tolerancia cero para el abuso de nuestro sistema. Los empleados no tienen acceso directo a la información que puede identificar a la persona o cuenta como parte de este flujo de trabajo. Toda la información se trata con alta confidencialidad y utilizamos la autenticación de múltiples factores para restringir el acceso, el cifrado del servicio y las auditorías de nuestro entorno de control para protegerlo».
Amazon, en sus materiales de marketing y políticas de privacidad, no dice explícitamente que humanos están escuchando las grabaciones de algunas conversaciones recogidas por Alexa. «Usamos sus solicitudes a Alexa para capacitar a nuestros sistemas de reconocimiento de voz y comprensión del lenguaje natural», dice la compañía en una lista de preguntas frecuentes.
En la configuración de privacidad de Alexa, la empresa ofrece a los usuarios la opción de desactivar el uso de sus grabaciones de voz para el desarrollo de nuevas funciones. Una captura de pantalla revisada por Bloomberg muestra que las grabaciones enviadas a los auditores de Alexa no proporcionan el nombre completo ni la dirección del usuario, sino que están asociadas con un número de cuenta, así como con el nombre y el número de serie del dispositivo.
The Intercept informó a principios de este año que los empleados de Ring, propiedad de Amazon, identifican manualmente los vehículos y las personas en los videos capturados por las cámaras de vigilancia de la empresa, un esfuerzo por capacitar mejor al software para que haga ese trabajo.
«Uno no necesariamente piensa que otro ser humano esté escuchando lo que le está diciendo a su parlante inteligente en la intimidad de su hogar», dijo Florian Schaub, un profesor de la Universidad de Michigan que ha investigado temas de privacidad relacionados con los parlantes inteligentes. «Creo que hemos estado condicionados a la [suposición] de que estas máquinas solo están haciendo un mágico aprendizaje automático. Pero el hecho es que todavía hay procesamiento manual involucrado».
«Si eso es un problema de privacidad o no, depende de cuán cautelosos sean Amazon y otras compañías en cuanto al tipo de información que han anotado manualmente y cómo presentan esa información a alguien», agregó.
Cuando el Echo debutó en 2014, el altavoz inteligente cilíndrico de Amazon popularizó rápidamente el uso de software de voz en el hogar. En poco tiempo, Alphabet Inc. lanzó su propia versión, llamada Google Home, seguido por HomePod de Apple Inc. Varias compañías también venden sus propios dispositivos en China. Según la firma de investigaciones Canalys, los consumidores compraron 78 millones de altavoces inteligentes el año pasado. Millones más usan software de voz para interactuar con asistentes digitales en sus teléfonos inteligentes.
El software de Alexa está diseñado para grabar continuamente fragmentos de audio, escuchando una palabra de alerta. Eso es «Alexa» de forma predeterminada, pero la gente puede cambiarlo a «Echo» o «computadora». Cuando se detecta la palabra de activación, el anillo de luz en la parte superior del Echo se vuelve azul, lo que indica que el dispositivo está grabando y transmitiendo un comando a los servidores de Amazon
La mayoría de los sistemas modernos de reconocimiento de voz se basan en redes neuronales modeladas en el cerebro humano. El software aprende sobre la marcha, al detectar patrones en medio de vastas cantidades de datos. Los algoritmos que impulsan el Echo y otros altavoces inteligentes utilizan modelos de probabilidad para realizar conjeturas informadas. Si alguien le pregunta a Alexa si hay un lugar griego cerca, los algoritmos saben que el usuario probablemente está buscando un restaurante, no una iglesia o un centro cultural.
Pero a veces Alexa se equivoca, especialmente cuando se enfrenta a una nueva jerga, coloquialismos regionales o idiomas distintos del inglés. En francés, «avec sa», «con él» o «con ella», puede confundir al software para que piense que alguien está usando la palabra de alerta de Alexa. «Hecho», en español el participio del verbo «hacer» o el sustantivo sinónimo de «acontecimiento», a veces se malinterpreta como Echo. Y así. Es por eso que Amazon reclutó ayudantes humanos para llenar los vacíos que los algoritmos no detectaron.
Siri, de Apple, también tiene ayudantes humanos, que trabajan para evaluar si la interpretación de las solicitudes del asistente digital se alinea con lo que dijo la persona. Las grabaciones que revisan carecen de información de identificación personal y se almacenan durante seis meses vinculados a un identificador aleatorio, según un documento de seguridad de Apple. Después de eso, los datos se eliminan de su información de identificación aleatoria, pero se pueden almacenar por períodos más largos para mejorar el reconocimiento de voz de Siri.
En Google, algunos empleados pueden acceder a algunos fragmentos de audio de su Asistente para ayudar a capacitar y mejorar el producto, pero no está asociado con ninguna información de identificación personal y el audio está distorsionado, según la compañía.
Un reciente aviso de empleo en Amazon, buscando un gerente de control de calidad para Alexa Data Services en Bucarest, describe el papel que juegan los humanos: «Todos los días ella [Alexa] escucha a miles de personas que hablan con ella sobre diferentes temas y diferentes idiomas, y necesita nuestra ayuda para darle sentido a todo». El anuncio continúa: «Este es un manejo de big data como nunca lo has visto. Estamos creando, etiquetando, curando y analizando vastas cantidades de palabras a diario».
El proceso de revisión de Amazon para datos de voz comienza cuando Alexa extrae una pequeña muestra aleatoria de las grabaciones de voz de los clientes y envía los archivos de audio a los empleados y contratistas remotos, según una persona familiarizada con el diseño del programa.
Algunos revisores de Alexa tienen la tarea de transcribir los comandos de los usuarios, comparar las grabaciones con la transcripción automática de Alexa, por ejemplo, o anotar la interacción entre el usuario y la máquina. ¿Qué preguntó la persona? ¿Alexa proporcionó una respuesta efectiva?
Otros notan todo lo que el altavoz capta, incluidas las conversaciones de fondo, incluso cuando los niños están hablando. A veces, los oyentes escuchan a los usuarios discutir detalles privados como nombres o datos bancarios; en tales casos, se supone que deben marcar un cuadro de diálogo que indica «datos críticos». Luego pasan al siguiente archivo de audio.
Según el sitio web de Amazon, no se almacena audio a menos que Echo detecte la palabra de activación o se active presionando un botón. Pero a veces, Alexa parece comenzar a grabar sin ningún aviso en absoluto, y los archivos de audio comienzan con una televisión ruidosa o un ruido ininteligible. Ya sea que la activación sea errónea o no, los revisores deben transcribirla. Una de las personas dijo que cada uno de los auditores transcribe hasta 100 grabaciones por día en las que Alexa no recibe un comando de activación o se activa por accidente.
De acuerdo con dos de los revisores, en los hogares de todo el mundo, los propietarios de Echo especulan con frecuencia acerca de quién podría estar escuchando. «¿Trabajas para la NSA?», preguntan. «Alexa, ¿alguien más nos está escuchando?».
Por Matt Day, Giles Turner y Natalia Drozdiak (Bloomberg)