文字生成音频


AudioLCM:浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型
AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13 新闻资讯
432

TangoFlux:高效的文本到音频生成模型,3.7秒就能生成30秒音频!
TangoFlux 是一种高效的文本到音频生成模型,具有 515M 参数,能够在单个 A40 GPU 上生成长达 30 秒的 44.1kHz 立体声音频,仅需 3.7 秒。该模型通过引入一种新颖的框架——C...
2025-01-02 新闻资讯
445