El equipo de investigación de Baidu compartió detalles sobre los logros de su nueva IA, que ha logrado superar con creces a la versión anterior.
El año pasado, Baidu compartió un informe sobre el potencial de Deep Voice 2, que podía aprender en menos de 30 minutos, rasgos característicos de una voz, para clonarla. Ahora rompen esa marca, ya que la nueva IA puede clonar un voz en apenas unos segundos, aprendiendo características a partir de una muestra, con apenas unas pocas expresiones.
Para lograr esto, utilizaron dos métodos de entrenamientos diferentes, que se detallan en la imagen:
Uno de los métodos es más complejo y requiere más tiempo e inversión, pero los resultados son de gran calidad. Y el otro, no requiere tantos recursos, pero una calidad de audio inferior.
Aún así, los dos enfoques reflejan buen rendimiento, en diferentes escenarios, y superan notablemente a los procedimientos anteriores. Podemos escuchar algunas muestras de audio en estas demos que han compartido Github, que corresponden a los diferentes métodos empleados.
Además, han señalado que tiene la capacidad de intercambiar rasgos de la voz, como por ejemplo, el acento o el sexo. Es decir, puede cambiar una voz masculina a femenina, o cambiar el acento británico a uno americano.
Podemos ver todos los aspectos técnicos aplicados en esta nueva IA de Baidu, en este enlace.