Theo Beating, Resemble AI đã phát hành DramaBox, một mô hình tạo lời thoại, trên Hugging Face vào hôm nay. Mô hình có khả năng kiểm soát cấp độ đạo diễn thông qua cú pháp prompt tách riêng—người dùng nhập thoại trong dấu ngoặc kép, đồng thời chỉ định các chỉ dẫn sân khấu như thở dài, ngắt quãng hoặc thì thầm nằm ngoài dấu ngoặc kép. Mô hình chuyển các chỉ dẫn này thành lời thoại có sắc thái cảm xúc thay vì đọc chúng thành tiếng.
DramaBox hỗ trợ tạo giọng nói theo yêu cầu từ đầu (zero-shot voice cloning) chỉ với 10 giây dữ liệu âm thanh tham chiếu và cho phép dùng prompt bằng ngôn ngữ tự nhiên để thiết lập tuổi nhân vật, giọng địa phương và cảm xúc. Âm thanh đầu ra đạt chất lượng studio stereo 48kHz. Tất cả âm thanh được tạo đều có watermark Perth vô hình, chống chịu tốt với nén MP3 và các thao tác chỉnh sửa âm thanh tiêu chuẩn nhằm ngăn lạm dụng deepfake.