Microsoft desvela herramientas de clonación de voz y dipfake

Por: Bohdan Kaminskyi | 16.11.2023, 16:35

Microsoft

En la conferencia Ignite, Microsoft anunció un servicio para crear avatares fotorrealistas de personas con animación de labios según un texto dado. También mostró una herramienta de clonación de voz por muestra de audio.

Esto es lo que sabemos

El nuevo servicio de avatares de texto a voz Azure AI Speech permite subir una foto de una persona y componer un guión. A partir de ahí, se genera un vídeo de un avatar que habla.

Los dobles digitales pueden hablar varios idiomas. En los guiones, pueden utilizar modelos de inteligencia artificial como el GPT-3.5 de OpenAI para responder a las preguntas de los clientes fuera de los guiones.

Otra función de voz personal puede recrear la voz de un usuario en cuestión de segundos. Requiere una grabación de audio de un minuto.

La empresa sugiere utilizar Personal voice para crear asistentes de voz personalizados, doblar contenidos a diferentes idiomas y crear narraciones personalizadas para historias, audiolibros y podcasts.

Según Microsoft, ambas herramientas estarán disponibles para un número limitado de usuarios y sólo para determinados escenarios. Además, los clientes deberán dar su consentimiento explícito para que se utilicen su voz y su imagen.

Con ello se pretende limitar el posible uso indebido de la tecnología para crear dipfakes sin el conocimiento de las personas. Microsoft afirma que está adoptando un enfoque responsable de la ética de la IA.

Fuente: Microsoft, Microsoft