开源项目

Matrix-Game是昆仑万维开源的交互式世界生成大模型,项目基于先进的扩散模型技术,能够根据用户输入的键盘指令和鼠标操作生成连贯、可控的互动视频,在Minecraft等游戏环境中...
2025-05-16
新闻资讯
216

FaceShot是由同济大学研究团队开发并开源的一款创新型肖像动画框架,该项目在ICLR2025会议上正式发布并引起学术界广泛关注。作为计算机视觉领域的前沿研究成果,FaceShot突破...
2025-05-16
新闻资讯
220

Muyan-TTS是一款开源文本转语音(TTS)模型,专为播客、有声书及长视频场景设计。该模型基于大规模预训练技术,具备零样本语音合成能力,可在0.33秒内生成1秒高质量音频,并支...
2025-05-13
新闻资讯
227

字节跳动宣布正式开源其全新研发的社区驱动深度研究框架 DeerFlow,这一举措迅速引发了AI研究领域的广泛关注。作为一款基于LangChain和LangGraph框架构建的智能研究助手,Dee...
2025-05-10
新闻资讯
255

Insert Anything是由浙江大学、哈佛大学与南洋理工大学联合开发的开源图像编辑框架,专注于通过上下文感知扩散变换器(Diffusion Transformer, DiT)实现图像内容的精准插入。...
2025-05-09
新闻资讯
251

Oli是一个开源的终端AI编程助手,旨在通过结合云API与本地大语言模型(LLM)的强大能力,为开发者提供高效、灵活的编码辅助工具。其核心目标是简化开发流程,提升编码效率,并...
2025-05-09
新闻资讯
252

一、ICEdit是什么?ICEdit是由浙江大学与哈佛大学联合研发的开源图像编辑框架,旨在通过自然语言指令实现高效、高精度的图像内容修改。其核心创新在于利用大规模扩散变换器(...
2025-05-08
新闻资讯
272

Cobra是由清华大学、香港中文大学与腾讯ARC实验室联合开发的开源项目,旨在解决漫画产业中基于参考图像的线稿上色难题。该项目通过创新的算法架构和高效的处理流程,实现了对...
2025-05-07
新闻资讯
263

Kimi-Audio是一个由月之暗面(Moonshot AI)开源的高性能语音处理工具包。它集成了语音识别(ASR)、语音合成(TTS)、语音增强、声纹识别等多种语音处理功能,旨在为开发者提...
2025-04-27
新闻资讯
545

Kimi-VL是由月之暗面(MoonshotAI)团队开发的一款高效开源的多模态视觉语言模型(Vision-Language Model, VLM)。该模型采用了混合专家(Mixture-of-Experts, MoE)架构,旨在...
2025-04-25
新闻资讯
361

Describe Anything是一个开创性的开源项目,由NVIDIA、UC Berkeley和UCSF等机构的研究人员共同开发。该项目旨在创建一个能够理解和描述图像和视频中特定区域的模型,为用户提...
2025-04-25
新闻资讯
378

UI-TARS是字节跳动人工智能实验室研发的多模态智能任务执行框架,其核心目标是解决虚拟环境中(如游戏、元宇宙、数字孪生系统)的自主决策问题。与传统AI代理(如基于规则的系...
2025-04-23
新闻资讯
311

AI Playground是英特尔推出的开源生成式人工智能(GenAI)开发与创作平台,旨在通过本地化部署和硬件加速能力,为用户提供从图像生成、增强到智能对话的一站式AI解决方案。其...
2025-04-22
新闻资讯
293

InstantCharacter是由腾讯混元和InstantX团队联合推出的一个开源项目,致力于解决多轮文生图场景中角色一致性这一技术难题。通过构建一个创新的扩散变换器(Diffusion Transf...
2025-04-19
新闻资讯
316

Orpheus - TTS是一个开源的文本到语音转换(TTS)系统,它构建于Llama - 3b骨干网络之上。该项目旨在展示大型语言模型(LLM)在语音合成方面的新兴能力。Orpheus - TTS的出现...
2025-04-19
新闻资讯
275