Resemble AI lanza DramaBox, un modelo de habla controlable a nivel de director, hoy en Hugging Face

ON-0,15%
PROMPT-2,60%
IN0,02%

Beating, Resemble AI lanzó hoy DramaBox, un modelo de generación de voz, en Hugging Face. El modelo ofrece una controlabilidad a nivel de director mediante una sintaxis de prompts separada: los usuarios introducen el diálogo entre comillas y, al mismo tiempo, especifican indicaciones de escena como suspiros, pausas o susurros fuera de las comillas. El modelo convierte estas indicaciones en un habla con inflexiones emocionales en lugar de “leerlas” en voz alta.

DramaBox admite clonación de voz en zero-shot con solo 10 segundos de audio de referencia e incluso permite indicaciones en lenguaje natural para definir la edad del personaje, el acento y la emoción. Genera audio de calidad de estudio en estéreo a 48 kHz. Todo el audio generado incluye una marca de agua Perth invisible, resistente a la compresión MP3 y a la edición de audio estándar, para evitar el uso indebido de deepfakes.

Aviso legal: La información en esta página puede provenir de fuentes de terceros y es solo para referencia. No representa las opiniones ni puntos de vista de Gate y no constituye asesoramiento financiero, de inversión ni legal. El comercio de activos virtuales implica un alto riesgo. No te bases únicamente en la información presentada en esta página para tomar decisiones. Para más detalles, consulta el Aviso legal.
Comentar
0/400
Sin comentarios