Vall-E, la IA de Microsoft

Microsoft presentó a Vall-E, aseguran que supera a todo lo que existe en términos de imitación de voz.

Ante la aparición de diferentes sistemas de IA (inteligencia artificial), Microsoft presentó a Vall-E, que aseguran, supera significativamente a lo que existe hasta ahora en términos de imitación de voz. Por otro lado, se ha traspasado la línea de suplantar la identificación de voz. ¿Quién va a querer pagar en un futuro a los actores?, ¿hasta dónde va a llegar la inteligencia artificial?

¿Qué es Vall-E?

Vall-E es la última IA lanzada por Microsoft que puede imitar la voz de cualquier persona en solo 3 segundos. Un modelo de lenguaje de códec neuronal impulsado por este tipo de inteligencia. Excelente para sintetizar voces humanas.

Se creó a partir de una tecnología de IA anterior llamada EnCodec. Sin embargo, Vall-E funciona de manera diferente a las herramientas conocidas de texto a voz.

Las opciones de conversión de texto a voz que existen funcionan mediante manipulación de formas de onda para crear voz. Pero Vall-E puede generar códigos de códec de audio reales a partir de mensajes de texto y acústicos.

Funcionamiento

Vall-E debe escuchar una muestra de una persona hablando (debe durar al menos tres segundos). Luego analizará la forma en que suena su voz, y luego, la desglosará en lo que se llama “fichas acústicas”.

Con estos tokens acústicos, se puede dar a Vall-E un mensaje de texto. En él podrá generar un clip de audio que diga el mensaje mientras mantiene los patrones vocales del orador. Además, puede imitar el entorno acústico del audio de muestra, y producir variaciones de la voz, ajustando las indicaciones utilizadas al generar el resultado.

Combinación con GPT-3

Vall-E también puede usarse para la creación de contenido de audio combinándolo con otras herramientas de IA, como el modelo de chat humano GPT-3. La compañía anunció que va a implementar ChatGPT dentro de sus soluciones. La finalidad es que la propia ChatGPT sea capaz de ofrecer resultados de voz una vez haya integrado este modelo.

El software Vall-E fue entrenado en 60,000 horas de inglés. Bastan tres segundos de metraje para hacer un fake que no solo dice palabras que no es su modelo a seguir. Sino que también adivina el tono de la voz de su colega de carne y hueso, así como la emoción con la que lee determinado texto.

Sin embargo, algunos ejemplos lo desmienten. Hay los que imitan muy bien una voz determinada, pero también en algunos resulta evidente que se trata de una falsificación.

De momento, Vall-E no está disponible para el público. Para muchos, se trata de una herramienta para difundir noticias falsas; por esta razón, legisladores de varios países no ven con buenos ojos a estos generadores de IA.

Se espera que las empresas involucradas en el desarrollo de Vall-E eviten el uso indebido de sus algoritmos; están obligadas a publicar cualquier contenido sintético relacionado, además, se implementarán medidas restrictivas tanto en la Unión Europea y Gran Bretaña, como en países norteamericanos.

Aunque la aprensión está justificada, la nueva tecnología es muy tentadora. Por ejemplo, en la biblioteca de Apple puedes encontrar audiolibros con las palabras “Narrado por Apple Books”. Lo que significa que la lectura fue realizada por inteligencia artificial. Entonces, ¿por qué pagar a los actores, cuando se puede pagar una sola vez el software?

Dado que Vall-E podría sintetizar el habla del hablante, puede conllevar riesgos por su mal uso. Como falsificar la identificación de voz o hacerse pasar por un hablante específico. No obstante, es posible construir un modelo de detección para identificar un clip sintetizado por Vall-E.

RPJMConsultoría

Vall-E, la IA de Microsoft

Entradas recientes

Comments