阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

站长之家 2024-04-26 20:08:00新闻资讯
102

阿里云宣布,EMO模型成功在通义APP中上线,并且完全开放给所有用户免费使用。

如今,在通义千问APP内,用户只需简单三步操作:选择模版、上传照片、生成视频,即可轻松实现照片中人物演戏唱歌的神奇效果。

通义APP首批上线了多达80个EMO模板,涵盖了热门歌曲、网络热梗等多种内容。用户可以选择预置的音频来生成视频,但目前暂不支持用户自定义音频。

阿里AI模型EMO.png

EMO模型是通义实验室精心研发的AI模型,其背后的肖像说话技术正是当前AIGC领域的热门话题。与传统的Talking Head技术相比,EMO模型采用了创新的弱控制设计,无需对人脸、人头或身体部分进行繁琐的3D建模,即可轻松驱动肖像开口说话。这不仅大大降低了视频生成的成本,还显著提升了视频的质量。

EMO模型具备强大的学习能力,能够编码人类表达情绪的能力。它能够将音频内容与人物的表情、嘴型精准匹配,甚至能将音频的语气特征和情绪色彩细腻地反映到人物的微表情上,使得生成的视频更加生动逼真。

自2月底通义实验室公布相关论文以来,EMO模型便受到了广泛关注,成为继Sora之后最受瞩目的AI模型之一。未来,EMO技术有望在数字人、数字教育、影视制作、虚拟陪伴、电商直播等众多领域发挥巨大潜力。

通义APP一直致力于为用户提供前沿模型的免费体验。除了EMO模型外,通义APP还推出了众多现象级应用,如“全民舞王”、“兵马俑跳科目三”、“金毛跳舞”等,这些应用背后的模型也均出自通义实验室。此外,通义APP还不断推出实用功能,如超长文档解析、AI编码助手、AI会议助手等,为用户提供全方位的超级AI助手服务。

体验地址https://www.zhanid.com/daohang/tongyiqianwen.html

通义千问 AI
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

AudioLCM:浙江大学与阿里巴巴联合推出的高质量文本到音频生成模型
AudioLCM 是一种基于一致性模型(Consistency Models, CMs)和潜在扩散模型(LDMs)的新型文本到音频生成模型。该模型通过集成一致性模型到生成过程中,并引入多步常微分方程(mul...
2025-01-13 新闻资讯
112

LongWriter:清华大学数据挖掘研究组(THUDM)开源的超长文本生成模型
LongWriter是由清华大学数据挖掘研究组(THUDM)开发的开源语言模型,旨在让大型语言模型(LLMs)能够生成超长文本。通过引入一种基于代理的“计划-写作”方法,LongWriter将复杂...
2025-01-09 新闻资讯
133

LatentSync:字节跳动开源的视频人物唇部动作与音频精准同步模型
LatentSync是一项由字节跳动联合北京交通大学提出的创新技术,它代表了一种新型的唇部同步框架。该框架基于音频条件潜在扩散模型,旨在实现视频中人物唇部动作与音频的精准同...
2025-01-06 新闻资讯
190

Python调用豆包API实现文档处理的实例详解
豆包大模型的API以其低廉的价格和强大的处理能力,为这一需求提供了有力的支持。本文将详细介绍如何在Linux服务器上配置和使用豆包大模型的API,以处理200万字的文档。通过具...
2025-01-06 编程技术
154

CAP4D:基于MMDM的4D虚拟头像生成模型
CAP4D是一种基于形变多视角扩散模型(MMDM)的新技术,旨在通过任意数量的参考图像生成逼真的4D(动态3D)头像。该模型采用双阶段方法,首先利用MMDM生成不同视角和表情的图像,然...
2024-12-27 新闻资讯
151

Allegro-TI2V:Rhymes AI开发的一款先进文本图像到视频生成模型
Allegro-TI2V是Rhymes AI开发的一款先进文本-图像到视频生成模型。它利用深度学习技术,将用户输入的文本提示和初始图像转化为连续的视频内容。Allegro-TI2V的发布标志着AI技...
2024-11-29 新闻资讯
172