阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话

站长之家 2024-04-26 20:08:00新闻资讯
260

阿里云宣布,EMO模型成功在通义APP中上线,并且完全开放给所有用户免费使用。

如今,在通义千问APP内,用户只需简单三步操作:选择模版、上传照片、生成视频,即可轻松实现照片中人物演戏唱歌的神奇效果。

通义APP首批上线了多达80个EMO模板,涵盖了热门歌曲、网络热梗等多种内容。用户可以选择预置的音频来生成视频,但目前暂不支持用户自定义音频。

阿里AI模型EMO.png

EMO模型是通义实验室精心研发的AI模型,其背后的肖像说话技术正是当前AIGC领域的热门话题。与传统的Talking Head技术相比,EMO模型采用了创新的弱控制设计,无需对人脸、人头或身体部分进行繁琐的3D建模,即可轻松驱动肖像开口说话。这不仅大大降低了视频生成的成本,还显著提升了视频的质量。

EMO模型具备强大的学习能力,能够编码人类表达情绪的能力。它能够将音频内容与人物的表情、嘴型精准匹配,甚至能将音频的语气特征和情绪色彩细腻地反映到人物的微表情上,使得生成的视频更加生动逼真。

自2月底通义实验室公布相关论文以来,EMO模型便受到了广泛关注,成为继Sora之后最受瞩目的AI模型之一。未来,EMO技术有望在数字人、数字教育、影视制作、虚拟陪伴、电商直播等众多领域发挥巨大潜力。

通义APP一直致力于为用户提供前沿模型的免费体验。除了EMO模型外,通义APP还推出了众多现象级应用,如“全民舞王”、“兵马俑跳科目三”、“金毛跳舞”等,这些应用背后的模型也均出自通义实验室。此外,通义APP还不断推出实用功能,如超长文档解析、AI编码助手、AI会议助手等,为用户提供全方位的超级AI助手服务。

体验地址https://www.zhanid.com/daohang/tongyiqianwen.html

通义千问 AI
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Matrix-Game:基于17B参数的开源交互式世界生成大模型
Matrix-Game是昆仑万维开源的交互式世界生成大模型,项目基于先进的扩散模型技术,能够根据用户输入的键盘指令和鼠标操作生成连贯、可控的互动视频,在Minecraft等游戏环境中...
2025-05-16 新闻资讯
237

DreamFit:字节跳动开源的轻量级服装为中心的人体生成模型
DreamFit 是由字节跳动团队开发的开源轻量级服装为中心的人体生成模型,专注于通过AI技术实现高质量服装生成、虚拟试穿和创意换装。该项目采用创新的轻量化架构,结合自适应注...
2025-05-15 新闻资讯
245

Insert Anything:基于上下文感知扩散变换器的图像插入解决方案
Insert Anything是由浙江大学、哈佛大学与南洋理工大学联合开发的开源图像编辑框架,专注于通过上下文感知扩散变换器(Diffusion Transformer, DiT)实现图像内容的精准插入。...
2025-05-09 新闻资讯
259

ACE-Step:ACE Studio 和 StepFun开源的音乐生成基础模型
ACE-Step 是一个革命性的开源音乐生成基础模型,旨在通过其全面的架构设计克服现有方法的局限性,并在音乐生成领域实现最先进的性能。该项目由 ACE Studio 和 StepFun 共同领...
2025-05-07 新闻资讯
302

LiveCC:字节跳动与新加坡国立大学联合开源的实时视频解说大模型
LiveCC是一个开源的实时视频解说大模型,由字节跳动与新加坡国立大学合作推出。该项目基于Qwen2-VL-7B模型开发,通过大规模流式语音文本学习,实现了视频内容的实时理解与解说...
2025-04-27 新闻资讯
286

Describe Anything:开源的图像与视频本地化描述模型
Describe Anything是一个开创性的开源项目,由NVIDIA、UC Berkeley和UCSF等机构的研究人员共同开发。该项目旨在创建一个能够理解和描述图像和视频中特定区域的模型,为用户提...
2025-04-25 新闻资讯
382