开源项目


Matrix-Game:基于17B参数的开源交互式世界生成大模型
Matrix-Game是昆仑万维开源的交互式世界生成大模型,项目基于先进的扩散模型技术,能够根据用户输入的键盘指令和鼠标操作生成连贯、可控的互动视频,在Minecraft等游戏环境中...
2025-05-16 新闻资讯
216

FaceShot:同济大学开源的一款无需训练的跨角色肖像动画生成框架
FaceShot是由同济大学研究团队开发并开源的一款创新型肖像动画框架,该项目在ICLR2025会议上正式发布并引起学术界广泛关注。作为计算机视觉领域的前沿研究成果,FaceShot突破...
2025-05-16 新闻资讯
220

Muyan-TTS:高效零样本语音合成与播客级长文本朗读技术
Muyan-TTS是一款开源文本转语音(TTS)模型,专为播客、有声书及长视频场景设计。该模型基于大规模预训练技术,具备零样本语音合成能力,可在0.33秒内生成1秒高质量音频,并支...
2025-05-13 新闻资讯
227

字节跳动开源深度研究框架DeerFlow
字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow,这一举措迅速引发了AI研究领域的广泛关注。作为一款基于LangChain和LangGraph框架构建的智能研究助手,Dee...
2025-05-10 新闻资讯
255

Insert Anything:基于上下文感知扩散变换器的图像插入解决方案
Insert Anything是由浙江大学、哈佛大学与南洋理工大学联合开发的开源图像编辑框架,专注于通过上下文感知扩散变换器(Diffusion Transformer, DiT)实现图像内容的精准插入。...
2025-05-09 新闻资讯
251

Oli:开源的终端AI编程助手,支持云API和本地LLM
Oli是一个开源的终端AI编程助手,旨在通过结合云API与本地大语言模型(LLM)的强大能力,为开发者提供高效、灵活的编码辅助工具。其核心目标是简化开发流程,提升编码效率,并...
2025-05-09 新闻资讯
252

ICEdit - 基于大规模扩散变换器的零样本指令驱动图像编辑框架
一、ICEdit是什么?ICEdit是由浙江大学与哈佛大学联合研发的开源图像编辑框架,旨在通过自然语言指令实现高效、高精度的图像内容修改。其核心创新在于利用大规模扩散变换器(...
2025-05-08 新闻资讯
272

Cobra:基于广泛上下文参考的开源高效漫画线稿上色框架
Cobra是由清华大学、香港中文大学与腾讯ARC实验室联合开发的开源项目,旨在解决漫画产业中基于参考图像的线稿上色难题。该项目通过创新的算法架构和高效的处理流程,实现了对...
2025-05-07 新闻资讯
263

Kimi-Audio:月之暗面开源的高性能语音处理工具包
Kimi-Audio是一个由月之暗面(Moonshot AI)开源的高性能语音处理工具包。它集成了语音识别(ASR)、语音合成(TTS)、语音增强、声纹识别等多种语音处理功能,旨在为开发者提...
2025-04-27 新闻资讯
545

Kimi-VL:月之暗面开源的多模态视觉语言模型
Kimi-VL是由月之暗面(MoonshotAI)团队开发的一款高效开源的多模态视觉语言模型(Vision-Language Model, VLM)。该模型采用了混合专家(Mixture-of-Experts, MoE)架构,旨在...
2025-04-25 新闻资讯
361

Describe Anything:开源的图像与视频本地化描述模型
Describe Anything是一个开创性的开源项目,由NVIDIA、UC Berkeley和UCSF等机构的研究人员共同开发。该项目旨在创建一个能够理解和描述图像和视频中特定区域的模型,为用户提...
2025-04-25 新闻资讯
378

UI-TARS:字节跳动开源的多模态智能任务执行框架
UI-TARS是字节跳动人工智能实验室研发的多模态智能任务执行框架,其核心目标是解决虚拟环境中(如游戏、元宇宙、数字孪生系统)的自主决策问题。与传统AI代理(如基于规则的系...
2025-04-23 新闻资讯
311

AI Playground:英特尔推出的开源生成式人工智能(GenAI)开发与创作平台
AI Playground是英特尔推出的开源生成式人工智能(GenAI)开发与创作平台,旨在通过本地化部署和硬件加速能力,为用户提供从图像生成、增强到智能对话的一站式AI解决方案。其...
2025-04-22 新闻资讯
293

InstantCharacter:基于扩散变换器的可扩展角色定制化框架
InstantCharacter是由腾讯混元和InstantX团队联合推出的一个开源项目,致力于解决多轮文生图场景中角色一致性这一技术难题。通过构建一个创新的扩散变换器(Diffusion Transf...
2025-04-19 新闻资讯
316

Orpheus-TTS:一款基于Llama - 3b的开源文本到语音(TTS)转换系统
Orpheus - TTS是一个开源的文本到语音转换(TTS)系统,它构建于Llama - 3b骨干网络之上。该项目旨在展示大型语言模型(LLM)在语音合成方面的新兴能力。Orpheus - TTS的出现...
2025-04-19 新闻资讯
275