BrushEdit:腾讯、清华大学等联合推出的一体化图像编辑与修复技术

原创 2025-01-01 10:06:11新闻资讯
440

在图像编辑和修复领域,技术的不断进步正在改变我们的工作方式。随着人工智能技术的飞速发展,图像编辑不再局限于传统的专业软件,而是变得更加智能化和便捷化。BrushEdit,作为一款由腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,正引领着这一变革。

BrushEdit.webp

BrushEdit是什么

BrushEdit是腾讯、北京大学、香港中文大学及清华大学联合推出的先进图像编辑框架,是BrushNet模型的高级迭代版本。它结合了多模态大型语言模型(MLLMs)和双分支图像修复模型,实现了基于指令引导的图像编辑和修复。BrushEdit支持用户用自然语言指令进行自由形式的、多轮交互式的编辑操作,能够处理添加、移除物体等大幅度修改,同时保持背景的连贯性和编辑效果的自然性。

功能特色

指令引导的图像编辑

BrushEdit的最大特色之一是其支持用户通过自然语言指令进行图像编辑。这意味着用户不再需要掌握复杂的图像编辑工具或技能,只需用自然语言描述想要进行的编辑操作,BrushEdit即可自动完成。例如,用户可以说“在照片中添加一个花环”,BrushEdit就会智能地在照片中添加一个花环,并确保其与背景无缝融合。

多轮交互式编辑

BrushEdit支持用户在编辑过程中进行多轮交互,逐步调整和完善编辑结果。这意味着用户可以在编辑过程中随时修改编辑指令或调整编辑区域,以达到最佳的编辑效果。这种多轮交互的方式极大地提高了编辑的灵活性和用户体验。

自由形式掩码编辑

BrushEdit允许用户自由绘制掩码指定编辑区域,无需精确的分割工具。用户可以用简单的画笔工具在图像上绘制掩码,BrushEdit即可识别并处理该区域。这种方式使得用户能够更自由地控制编辑区域,实现更精细的编辑效果。

背景和前景处理

BrushEdit能够区分编辑区域(前景)和非编辑区域(背景),确保编辑操作不影响图像的非目标部分。这意味着在进行图像编辑时,BrushEdit会自动保留背景信息,只修改用户指定的前景区域,从而确保编辑后的图像仍然保持背景的连贯性和自然性。

图像修复

BrushEdit还具备强大的图像修复功能。它可以自动填充和修复图像中的缺失或指定区域,如去除不需要的物体或填补空洞。这使得BrushEdit在图像修复领域也具有广泛的应用前景。

BrushEdit4.webp

技术细节

多模态大型语言模型(MLLMs)

BrushEdit采用了预训练的多模态大型语言模型(MLLMs)来解析用户的自由形式编辑指令。MLLMs能够识别编辑类型和目标对象,并根据这些信息生成编辑后的图像目标描述。这种基于语言模型的方式极大地提高了BrushEdit对用户指令的理解能力和响应速度。

双分支图像修复模型

BrushEdit采用了双分支图像修复模型来处理图像编辑和修复任务。一个分支负责处理掩码区域的图像生成,另一个分支处理未掩码区域的背景信息。这种双分支架构使得BrushEdit能够同时处理前景和背景信息,从而实现高质量的图像编辑和修复效果。

代理协作框架

BrushEdit还引入了一个代理协作框架,基于代理(代理指导者和代理指挥者)之间的协作来实现编辑类别分类、主要对象识别、掩码获取和编辑区域修复。这种协作方式使得BrushEdit能够更高效地完成图像编辑和修复任务。

特征融合

BrushEdit将用户指令和掩码信息融合到图像修复模型中,指导模型在掩码区域内生成与指令相符的内容。这种特征融合的方式使得BrushEdit能够更准确地理解用户的编辑意图,并生成更符合用户期望的编辑结果。

零卷积层和特征插入

BrushEdit采用了零卷积层将冻结的预训练模型与可训练的BrushEdit模型连接,逐层集成特征实现精细的控制。这种方式减轻了早期训练阶段的噪声,提高了模型的稳定性和性能。

混合微调策略

BrushEdit结合了随机掩码和分割掩码的微调策略,让模型处理多种掩码任务,不受特定掩码类型限制。这种混合微调策略使得BrushEdit能够适应不同类型的编辑任务,提高了模型的通用性和实用性。

BrushEdit2.webp

应用场景

内容创作与编辑

BrushEdit在内容创作和编辑领域具有广泛的应用前景。艺术家和设计师可以使用BrushEdit进行创意图像编辑,快速实现复杂的视觉效果和艺术创作。例如,他们可以使用BrushEdit在图像中添加或移除物体、修改背景或进行其他创意编辑操作。

媒体和娱乐

在电影和视频制作中,BrushEdit可以用于修复老旧或损坏的影像资料,或在后期制作中移除不需要的元素。这可以大大提高影像资料的质量和观赏性。此外,BrushEdit还可以用于制作特效或进行其他创意编辑操作,为电影和视频制作提供更多的可能性。

广告和营销

广告制作人可以使用BrushEdit快速更改广告图像中的产品或背景,适应不同的营销策略。例如,他们可以使用BrushEdit在广告图像中添加新的产品、修改产品颜色或替换背景等。这种方式可以大大提高广告的制作效率和效果。

社交媒体

在社交媒体上,用户可以使用BrushEdit编辑和分享自己的照片。例如,他们可以使用BrushEdit在照片中添加节日装饰、虚拟试穿服装等,使照片更加有趣和个性化。此外,BrushEdit还可以用于去除照片中的瑕疵或不需要的物体,提高照片的质量。

电子商务

电商平台可以使用BrushEdit编辑产品图片,如更换产品背景、调整产品颜色或添加促销标签等。这可以大大提高产品图片的吸引力和销售效果。同时,BrushEdit还可以用于制作商品展示图或广告图等,为电商平台提供更多的营销手段。

BrushEdit3.webp

相关链接

  • 项目官网:https://liyaowei-stu.github.io/project/BrushEdit/

  • GitHub仓库:https://github.com/TencentARC/BrushEdit

  • HuggingFace模型库:https://huggingface.co/TencentARC/BrushEdit

  • 技术论文:https://arxiv.org/abs/2412.10316

总结

BrushEdit作为一款先进的一体化图像编辑与修复技术,具有强大的功能和广泛的应用前景。它支持用户通过自然语言指令进行自由形式的、多轮交互式的图像编辑和修复操作,能够处理各种复杂的编辑任务。同时,BrushEdit采用了先进的多模态大型语言模型和双分支图像修复模型等技术手段,实现了高质量的图像编辑和修复效果。在未来的发展中,BrushEdit有望继续在图像编辑和修复领域发挥重要作用,为用户提供更加便捷和高效的图像编辑体验。

图像编辑 图片修复 ai技术
THE END
ai资讯
关注ai行业发展,专注ai软件推荐。

相关推荐

Photoshot:基于AI技术的开源个性化头像生成器
Photoshot 是一款基于现代Web技术与人工智能模型的开源头像生成器,允许用户通过上传个人照片生成风格多样的AI头像。其核心功能依托Stable Diffusion模型实现图像生成,并结合...
2025-08-29 新闻资讯
475

Qwen-Image-Edit:阿里巴巴通义千问推出的开源图像编辑模型
Qwen-Image-Edit 是阿里巴巴通义千问团队推出的开源图像编辑模型,基于20B参数规模的Qwen-Image基础模型进一步训练而成。作为多模态扩散Transformer(MMDiT)架构的代表性应用...
2025-08-21 新闻资讯
561

苹果探索在浏览器中加入AI搜索功能:Safari或将整合生成式AI技术,挑战谷歌搜索主导地位
近日,苹果公司正加速推进在Safari浏览器中嵌入AI驱动的搜索功能,旨在通过生成式人工智能技术重塑用户网络浏览体验,并削弱对谷歌等传统搜索引擎的依赖。据苹果高级副总裁Ed...
2025-05-08 新闻资讯
723

ICEdit - 基于大规模扩散变换器的零样本指令驱动图像编辑框架
一、ICEdit是什么?ICEdit是由浙江大学与哈佛大学联合研发的开源图像编辑框架,旨在通过自然语言指令实现高效、高精度的图像内容修改。其核心创新在于利用大规模扩散变换器(...
2025-05-08 新闻资讯
548

Step1X-Edit:阶跃星辰开源的AI图像编辑大模型
Step1X-Edit是由阶跃星辰团队研发的开源图像编辑大模型,其技术架构由70亿参数的多模态大型语言模型(MLLM)与120亿参数的扩散图像Transformer(DiT)构成。这一设计实现了自...
2025-04-28 新闻资讯
742

AccVideo:基于合成数据集的高效视频扩散模型加速方法
AccVideo是由北京航空航天大学、上海人工智能实验室和香港大学联合研发的一项技术,旨在通过合成数据集加速视频扩散模型的推理过程。AccVideo的核心思想是利用预训练的视频扩...
2025-03-27 新闻资讯
465