Google es muy bueno para descifrar lo que dice un usuario, pero ¿es bueno saber quién lo dice? Solo mire la  tecnología actual de altavoces inteligentes, que puede ser fácilmente engañada.

Google podría tener una solución bastante simple, sin embargo. Sus investigadores han creado un sistema de aprendizaje profundo que puede seleccionar voces. Lo hace mirando literalmente las caras de las personas cuando están hablando.

Cómo separa Google las voces de una multitud

En primer lugar, los investigadores capacitaron a su sistema para reconocer a personas individuales que hablan solos. Después de lo cual crearon ruido virtual, agregando a otras personas para formar una multitud falsa, como una forma de enseñar a la inteligencia artificial a separar varias pistas de audio en distintas partes y, por lo tanto, permitir que el sistema reconozca cuál es cuál.

Los resultados son asombrosos. Como se ve en el siguiente video, la IA puede separar las voces de dos comediantes independientes, incluso si sus discursos individuales se superponen, y lo hace con sólo mirar sus rostros. El truco funciona incluso si las caras de los comediantes se ven solo parcialmente, como cuando está ligeramente bloqueado por un micrófono.

La investigación de Google se detalla en un documento titulado «Looking to Listen at the Cocktail Party», llamado así por el efecto de cóctel en el que las personas pueden enfocarse en una fuente de audio a pesar del ruido y las distracciones que la rodean.

«Nuestro método funciona en videos ordinarios con una única pista de audio, y todo lo que se requiere del usuario es seleccionar la cara de la persona en el video que quiere escuchar, o hacer que dicha persona sea seleccionada algorítmicamente en función del contexto, «escriben los investigadores en un blog posterior.

Puede ser útil?

Los investigadores aún están tratando de determinar cómo se puede implementar esta tecnología en los productos de Google, pero eso no debería demorar en contemplarse. El candidato más obvio son los servicios de video como Hangouts o Duo, que pueden integrar esta función para amplificar la voz de una persona cuando habla en contra del ruido abrumador de la multitud. También existen grandes implicaciones para la accesibilidad, como señala Engadget : el seguimiento de voz con alimentación de IA puede llevar a audífonos asistidos por cámara que pueden hacer que una voz sea más fuerte cuando están delante del usuario.

Sin embargo, también hay implicaciones de privacidad. Imagine que la tecnología avanza lo suficiente hasta el punto en que es capaz de identificar una voz específica de una calle bulliciosa en una ciudad urbana como Nueva York. Combinado con cámaras de seguridad, la nueva tecnología de Google sirve otro combustible más para el pánico por la seguridad. El tiempo, sin embargo, dirá.