Escuchar lo que alguien está diciendo cuando hay cientos de personas hablando al mismo tiempo parece algo imposible, pero nada lo es para una inteligencia artificial bien entrenada.
El reconocimiento de voz ha avanzado mucho en los últimos años, pero sigue siendo complejo separar uno de otro, algo que debe conseguirse bien en sectores tan relevantes como en las traducciones simultáneas. Lo ideal es que si varias personas están hablando al mismo tiempo, un sistema sea capaz de traducir lo que cada una de ellas ha dicho, sin mezclarlas.
Ahora tenemos buenas noticias en este sentido. Los investigadores de Google han estado trabajando para aislar las fuentes de audio en conversaciones entre varias personas, y en este vídeo se puede ver el resultado:
Los investigadores de Google han desarrollado un sistema de aprendizaje automático que puede seleccionar sonidos específicos como el habla en un video. No solamente consigue aislar palabras habladas de fuentes de audio de fondo como el ruido ambiental (aunque también puede hacerlo), sino que separa completamente el habla de dos personas que hablan simultáneamente.
De momento solo lo ha conseguido con pocas personas, dos, tal y como se puede ver en el vídeo, pero nada impide que ese número vaya aumentando con el tiempo, por lo que una cámara de seguridad que consiga escuchar la conversación de alguien específico en una estación de tren no parece un futuro tan lejano…