开源AI工具(ChatAnything):用文本描述生成虚拟角色

站长之家 2023-11-22 15:31:55新闻资讯
58

南开大学与字节跳动研究人员合作推出了一项引人注目的研究,发布了一种名为ChatAnything的全新AI框架。该框架专注于通过在线方式生成基于大型语言模型(LLM)的角色的拟人化形象,从而创造具有定制视觉外观、个性和语调的人物。

简答的说,ChatAnything是一个创新的产品,利用语言模型技术为LLM角色创建具有视觉外观、个性和语调的拟人化角色。通过混合语音和外观生成概念,用户只需几个文本输入即可定制角色。该产品采用面部标志控制和评估数据集,通过像素级引导实现更高的人类面部特征生成率。ChatAnything支持文本和图像输入,为用户提供创造独特虚拟角色的自由度。

ChatAnything.png

研究团队充分利用了LLMs的上下文学习能力,通过精心设计的系统提示生成具有个性的拟人化形象。他们提出了两个创新概念:混合声音(MoV)和扩散混合(MoD),以实现声音和外观的多样生成。MoV使用文本到语音(TTS)算法生成预定义音调,根据用户提供的文本描述选择最匹配的音调。而MoD则结合了文本到图像生成技术和说话头算法,简化了生成交互式对象的过程。

然而,研究人员在使用当前模型生成的拟人化对象时遇到了一个挑战,即这些对象通常无法被预先训练的面部关键点检测器检测到,导致面部运动生成失败。为了解决这个问题,他们在图像生成过程中引入了像素级的引导,注入人脸关键点,显著提高了面部关键点检测率,从而实现了基于生成的语音内容的自动面部动画。

ChatAnything2.png

研究人员在论文中详细讨论了大型语言模型(LLMs)的最新进展以及它们在上下文学习方面的能力,将它们置于学术讨论的前沿。他们强调了需要一个能够生成具有定制个性、语音和视觉外观的LLM增强人物的框架的重要性。对于个性生成,他们利用LLMs的上下文学习能力,使用文本到语音(TTS)API创建了一个声音模块池,MoV模块根据用户文本输入选择音调。

研究人员进一步介绍了ChatAnything框架的四个主要模块,包括LLM控制模块、肖像初始化器、文本到语音模块混合和动作生成模块。他们通过引入扩散模型、语音变换器和结构控制,创建了一个模块化和灵活的系统。为了验证引导扩散的有效性,研究人员创建了一个包含不同类别提示的验证数据集,并使用预训练的面部关键点检测器评估了面部关键点检测率,展示了他们提出的方法的影响。

ChatAnything框架为生成具有拟人特征的LLM增强人物提供了全面的解决方案。研究人员在解决面部关键点检测方面提出了创新性的解决方案,并在验证数据集中取得了令人鼓舞的结果。这项工作为将生成模型与说话头算法相结合以及改善数据分布的对齐提供了未来研究的可能性。

相关连接:

项目地址:https://chatanything.github.io

相关论文:https://arxiv.org/abs/2311.06772

作者:AI_Fox https://www.bilibili.com/read/cv27716378/?jump_opus=1

ai工具
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Buzz:开源免费的离线AI音频转录和翻译工具
Buzz是一款开源免费的离线AI音频转录和翻译工具,致力于为用户提供高效、安全且便捷的音频处理解决方案。其核心基于OpenAI的Whisper模型,支持多种语言,无需网络连接即可对个...
2024-11-04 新闻资讯
158

站长必备:几款能够快速提升网站SEO优化效果的AI工具推荐
在当今数字化时代,网站的搜索引擎优化(SEO)已经成为每个站长必须面对的重要课题。随着人工智能(AI)技术的发展,越来越多的AI工具开始应用于SEO领域,极大地提升了优化效...
2024-07-24 站长之家
157

Pic Copilot推出AI虚拟试衣工具,革新服饰电商视觉营销
在电商视觉营销领域,阿里国际旗下的Pic Copilot近日推出了一款创新的AI虚拟试衣工具,旨在帮助服饰商家大幅降低商品展示的拍摄成本。这一突破性工具的亮相,预示着服饰电商行...
2024-05-15 新闻资讯
100

微信发布桌面效率AI工具小微助手 支持类ChatGPT在线聊天问答功能
​微信最近发布了一款名为“小微助手”的桌面AI效率工具,旨在通过自然语言处理技术,提升用户在电脑上的工作效率。这款工具不仅支持Windows和Mac操作系统,还具备以下特点:搜...
2024-04-25 新闻资讯
73

Google Maps 引入 AI 工具:概述餐厅 / 景点特色、增强本地人推荐内容等
3 月 28 日消息,谷歌公司近日发布新闻稿,宣布为 Google Maps 应用引入 3 项改进,让你的夏日旅行更轻松。Google Maps 本次更新最值得关注的改进在于借助 Google AI,可以基...
2024-03-28 新闻资讯
45

OptimizerAI:可为AI视频自动配音 还将支持立体声
OptimizerAI是一款专门为视频自动生成音效的AI工具,可以通过文字提示创造出适用于各种场景的声音和音效。用户可以利用这个平台生成适用于多种应用场景的声音效果。
2024-03-11 新闻资讯
92