Microsoft ha revelado un nuevo sistema de inteligencia artificial capaz de imitar cualquier voz de manera perfecta con tan sólo un audio de muestra de 3 segundos.
La nueva creación del gigante tecnológico, VALL-E, fue creada con la capacidad de sintetizar el audio de una persona una vez que su voz es aprendida. Además, es capaz de generar entonaciones para dar un efecto más realista.
El equipo responsable en la creación de VALL-E señala que esta IA puede ser utilizada en situaciones donde se requiera generar voz en alta calidad a partir de texto.
Además de que también tiene potencial en combinación con otras IA, como GPT3 para la creación de nuevo contenido de audio.
Para su entrenamiento, Microsoft utilizó la biblioteca de audio “LibriLight” de Meta, que contiene unas 60,000 horas de habla en inglés de más de 7,000 personas distintas, extraídas en su mayoría de audiolibros de dominio público de LibriVox.
Por ahora este sistema está en pruebas que son estrictamente clasificadas, ya que existe el riesgo de que sea empleado con otros fines, justo como pasó con la tecnología que dio paso a los deepfake, lo que ha ocasionado estafas y algunos otros problemas más.
También te puede interesar: La inteligencia artificial podría entender mejor a la gente que los doctores