根據 Beating,Resemble AI 今天在 Hugging Face 發布了 DramaBox,一款語音生成模型。該模型透過分離式提示語法,具備類導演層級的可控性——使用者在引號中輸入對話內容,同時在引號之外指定舞台指示,例如嘆氣、停頓或耳語。模型會將這些指示以帶有情緒的語音來呈現,而不是把它們逐字朗讀出來。
DramaBox 支援零樣本語音複製,只需 10 秒的參考音訊,並允許使用自然語言提示來設定角色年齡、口音與情緒。輸出為 48kHz 立體聲的錄音室品質音訊。所有生成音訊都包含一個不可見的 Perth 水印,且具備抗 MP3 壓縮與標準音訊編輯能力,以防止深度偽造被濫用。
Related News