文字生成音频

AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13
新闻资讯
432

TangoFlux 是一种高效的文本到音频生成模型,具有 515M 参数,能够在单个 A40 GPU 上生成长达 30 秒的 44.1kHz 立体声音频,仅需 3.7 秒。该模型通过引入一种新颖的框架——C...
2025-01-02
新闻资讯
445