
MetaStone-S1 是北京元石科技推出的反射生成式大模型,其核心创新在于提出了"反思型生成范式"(reflective generative paradigm),通过统一框架实现了推理生成与过程评估的协同...
2025-07-09
新闻资讯
237

Gen-CLI是一个开源的命令行编程工具,旨在为国内开发者提供类似于谷歌Gemini-CLI的AI辅助编程体验。该项目基于开源的Gemini-CLI进行改造,通过调用硅基流动(SiliconCloud)平台...
2025-07-09
新闻资讯
229

PreenCut 是一款基于大语言模型(LLM)的开源视频剪辑工具,旨在通过AI技术彻底革新传统视频剪辑中素材处理效率低下、语义关联识别困难的痛点。与传统剪辑软件依赖时间轴手动操...
2025-07-08
新闻资讯
263

Agent Zero是一个革命性的开源AI代理框架,不同于传统的预编程AI工具,Agent Zero被设计为一个"个人化、有机(organic)的智能体框架",其核心理念是与用户共同成长和学习。这个...
2025-07-08
新闻资讯
233

EarthMind 是由意大利特伦托大学、德国柏林工业大学、慕尼黑工业大学以及保加利亚INSAIT研究院联合开发的开源多模态大模型项目,专门针对地球观测(Earth Observation, EO)数据...
2025-07-07
新闻资讯
233

MOSS-TTSD 是由上海创智学院、复旦大学和模思智能的OpenMOSS团队联合推出的一个开源的文本到口语对话生成模型,专为多人对话场景设计,能够将完整的对话脚本直接转换为自然流...
2025-07-07
新闻资讯
242

Magnitude 是一个基于视觉人工智能(Vision AI)的开源浏览器自动化工具,旨在让用户通过自然语言控制浏览器界面。它不仅可以理解网页界面内容,还能根据用户的指令执行精准操作...
2025-07-04
新闻资讯
276

Gemma 是由Google DeepMind主导开发的一系列轻量级开源AI模型,该项目基于谷歌旗舰模型Gemini的技术架构,旨在为开发者、研究人员及企业提供高性能、低部署门槛的AI工具。
2025-07-04
新闻资讯
263

GLM-4.1V-Thinking 是由智谱AI(Zhipu AI)与清华大学联合研发的开源视觉语言大模型(Vision-Language Model, VLM),专注于提升AI系统在复杂认知任务中的推理能力。该项目包...
2025-07-04
新闻资讯
259

VideoLingo 是是一款开源的全自动视频翻译与本地化工具,旨在通过人工智能技术解决跨语言视频内容传播的障碍。它集成了语音识别、大语言模型翻译、字幕优化和文本转语音(TTS...
2025-07-03
新闻资讯
269

MirrorMe 是由阿里通义实验室开发的一款实时、高保真、可控的音频驱动肖像动画框架,该项目旨在解决当前音频驱动肖像动画领域存在的高延迟、时间一致性差、身份保持困难和控制...
2025-07-03
新闻资讯
272

BlenderFusion 是由谷歌DeepMind团队开发的一项革命性技术,它能够将普通的2D照片转换成完全可编辑的3D场景。它能够精确控制图片中每个物体的位置、角度、大小,改变颜色材质...
2025-07-03
新闻资讯
262

ML-Master 是由上海交通大学人工智能学院Agents团队开发的一款面向机器学习(Machine Learning)的AI专家智能体系统,旨在通过创新的"探索-推理深度融合"范式,实现AI系统自主...
2025-07-02
新闻资讯
281

XVerse 是字节跳动AI实验室开源的一款创新性多主体可控文本到图像生成框架,旨在解决传统扩散变换器(DiTs)在多主题生成场景中面临的身份混淆和属性纠缠问题。该项目基于先进的...
2025-07-02
新闻资讯
299

ThinkSound是什么ThinkSound 是阿里巴巴通义实验室开源的一款多模态音频生成与编辑模型,它首次将"思维链"(Chain-of-Thought, CoT)推理机制引入多模态音频生成领域,构建了...
2025-07-02
新闻资讯
321