OpenAI anuncia una nueva tecnología para clonar la voz a partir de un audio de 15 segundos

Por: Nastya Bobkova | 30.03.2024, 05:00

OpenAI ha presentado una nueva herramienta innovadora llamada Voice Engine, que puede clonar la voz de cualquier persona a partir de una muestra de audio de 15 segundos.

Esto es lo que sabemos

Voice Engine analiza una breve señal de audio y crea un habla natural con "voces emotivas y realistas". Esta innovadora tecnología, basada en la actual API de síntesis de voz de OpenAI, puede ser útil para diversos fines: audiolibros, traducción de idiomas y ayuda a personas con trastornos del habla.

OpenAI reconoce los graves riesgos que entraña el uso de esta tecnología, incluida la posibilidad de que sea utilizada indebidamente por personas sin escrúpulos. Por ello, la empresa está trabajando activamente para garantizar la privacidad y la seguridad y está aplicando una serie de medidas, como la marca de agua y la supervisión proactiva del uso del sistema.

Según el anuncio, Voice Engine sigue en fase de preestreno, pero la empresa ya ha llevado a cabo con éxito programas piloto que demuestran el potencial de Voice Engine. El programa piloto se llevó a cabo en la Universidad de Brown, donde se utilizó para ayudar a pacientes con deficiencias del habla.

Según OpenAI, su Motor de Voz se pondrá en marcha mientras se recogen las opiniones de los socios y se cumple una política que prohíbe el uso de voz clonada sin el consentimiento de la persona. Además, tienen previsto crear una "lista de voces prohibidas" para evitar abusos.

¿Cuánto cuesta?

El coste estimado del uso de Voice Engine es de unos 15 dólares por millón de caracteres, lo que equivale aproximadamente a 162.500 palabras.

Fuente: Engadget

Inteligencia artificial