Beating, Resemble AI lanzó hoy DramaBox, un modelo de generación de voz, en Hugging Face. El modelo ofrece una controlabilidad a nivel de director mediante una sintaxis de prompts separada: los usuarios introducen el diálogo entre comillas y, al mismo tiempo, especifican indicaciones de escena como suspiros, pausas o susurros fuera de las comillas. El modelo convierte estas indicaciones en un habla con inflexiones emocionales en lugar de “leerlas” en voz alta.
DramaBox admite clonación de voz en zero-shot con solo 10 segundos de audio de referencia e incluso permite indicaciones en lenguaje natural para definir la edad del personaje, el acento y la emoción. Genera audio de calidad de estudio en estéreo a 48 kHz. Todo el audio generado incluye una marca de agua Perth invisible, resistente a la compresión MP3 y a la edición de audio estándar, para evitar el uso indebido de deepfakes.