Ai模型(Magi):可自动将漫画转录成文字并生成剧本

站长之家 2024-03-12 12:14:02新闻资讯
399

牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的Ai模型,可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi.png

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。

除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。

通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。

论文:https://arxiv.org/abs/2401.10224

项目入口:https://github.com/ragavsachdeva/magi

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

HunyuanVideo-Foley:腾讯混元团队开源的一款端到端视频音效生成模型
HunyuanVideo-Foley 是腾讯混元团队研发并开源的一款端到端视频音效生成模型,其核心使命是通过人工智能技术,为无声视频自动生成高质量、高同步的音效与背景音乐,打造真正意...
2025-08-29 新闻资讯
721

Seed-OSS:原生512K长上下文与可控推理的开源大语言模型
一、Seed-OSS是什么?Seed-OSS是字节跳动Seed团队开源的大语言模型系列,标志着字节跳动首次进军开源大模型赛道。这一系列模型以其360亿参数的规模、原生512K超长上下文支持...
2025-08-22 新闻资讯
716

RynnEC:阿里达摩院开源的一款专为具身智能设计的世界理解模型
RynnEC是阿里巴巴达摩院开源的一款专为具身智能设计的世界理解模型,属于多模态大语言模型(MLLM)范畴。其核心目标是赋予AI系统对物理世界的深度理解能力,使机器人或智能体...
2025-08-13 新闻资讯
633

RynnVLA-001:基于视频生成与人体轨迹预训练的视觉-语言-动作模型
RynnVLA-001是阿里巴巴达摩院自主研发并开源的视觉-语言-动作(Vision-Language-Action, VLA)模型,专为具身智能(Embodied AI)场景设计。该项目通过大规模第一人称视角视频...
2025-08-13 新闻资讯
690

GPT-OSS:OpenAI开源的高效稀疏激活大语言模型
GPT-OSS(Open-Source Series)是OpenAI发布的两款开源大型语言模型系列,包括GPT-OSS-120B和GPT-OSS-20B两个版本。这是OpenAI自2019年发布GPT-2以来,时隔6年首次回归开源阵...
2025-08-07 新闻资讯
679

Qwen-Image:阿里巴巴通义千问开源的首个图像生成基础模型
Qwen-Image 是阿里巴巴通义千问团队开源的首个图像生成基础模型,属于Qwen系列的重要成员。作为一个200亿参数的多模态扩散变换器(MMDiT)模型,它在复杂文本渲染和精确图像编...
2025-08-06 新闻资讯
631