阿里巴巴推AI画图框架(SCEdit):可显著减少训练参数

站长之家 2023-12-27 11:24:30新闻资讯
395

阿里巴巴的新项目SCEdit是一个AI画图框架,可以显著减少训练参数、内存使用率和计算开销。在训练阶段,它减少了52%的内存消耗,仅利用ControlNet所需参数的7.9%,并实现内存使用量减少30%。

SCEdit.png

项目地址:https://scedit.github.io/

该项目的简介指出,图像扩散模型已被用于各种任务,如文本到图像生成和可控图像合成。最近的研究引入了微调方法,对原始模型进行细微调整,在基础生成式扩散模型的特定适应性方面取得了有希望的结果。

SCEdit2.png

SCEdit并不是修改扩散模型的主干部分,而是深入研究U-Net中跳跃连接的作用,并揭示出在编码器和解码器之间聚合远程信息的分层特征对图像生成内容和质量产生重大影响。

基于这一观察,SCEdit提出了一个高效的生成式调整框架,它使用轻量级调节模块SC-Tuner来集成和编辑Skip Connection。此外,所提出的框架允许通过注入不同条件与可控SC-Tuner简化并统一多条件输入网络设计以实现可控图像合成任务。由于其轻量级调节器使得反向传播仅传递给解码器块,SCEdit显著减少了训练参数、内存使用率和计算开销。

在文本到图像生成和可控图像合成任务上进行了大量实验,结果表明SCEdit在效率和性能方面具有优势。同时,该项目也宣布了开源,尽管还没有提供具体的代码,但已经有开发者表示愿意帮助实现。

ai画图
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Qwen-Image-Edit:阿里巴巴通义千问推出的开源图像编辑模型
Qwen-Image-Edit 是阿里巴巴通义千问团队推出的开源图像编辑模型,基于20B参数规模的Qwen-Image基础模型进一步训练而成。作为多模态扩散Transformer(MMDiT)架构的代表性应用...
2025-08-21 新闻资讯
785

RynnRCP:阿里巴巴达摩院开源的一套机器人上下文协议及框架
RynnRCP 是阿里巴巴达摩院自主研发并开源的一套机器人上下文协议及框架,全称为Robotics Context Protocol。它首次将模型上下文协议(MCP)理念引入具身智能领域,旨在打通从传...
2025-08-14 新闻资讯
676

Qwen-Image:阿里巴巴通义千问开源的首个图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队开源的首个图像生成基础模型,属于Qwen系列的重要成员。作为一个200亿参数的多模态扩散变换器(MMDiT)模型,它在复杂文本渲染和精确图像编...
2025-08-06 新闻资讯
830

HumanOmniV2:阿里巴巴通义实验室开源的多模态大语言模型
HumanOmniV2是阿里巴巴集团旗下通义实验室(Tongyi Lab)开源的多模态大语言模型,代表了当前人工智能领域在多模态推理与复杂意图理解方面的最前沿技术成果。作为HumanOmni系...
2025-07-10 新闻资讯
810

ThinkSound:阿里巴巴通义实验室开源的一款多模态音频生成与编辑模型
ThinkSound是什么ThinkSound 是阿里巴巴通义实验室开源的一款多模态音频生成与编辑模型,它首次将"思维链"(Chain-of-Thought, CoT)推理机制引入多模态音频生成领域,构建了...
2025-07-02 新闻资讯
774

WorldVLA:阿里巴巴达摩院开发的统一视觉-语言-动作自回归世界模型
WorldVLA(World Visual-Language-Action)是阿里巴巴达摩院开发的统一视觉-语言-动作自回归世界模型,它创造性地将两类原本独立发展的AI模型——视觉语言动作(VLA)模型与世界模...
2025-07-01 新闻资讯
842