Ai模型(Magi):可自动将漫画转录成文字并生成剧本

站长之家 2024-03-12 12:14:02新闻资讯
191

牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的Ai模型,可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi.png

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。

除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。

通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。

论文:https://arxiv.org/abs/2401.10224

项目入口:https://github.com/ragavsachdeva/magi

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

Pruna:一站式模型优化框架,解锁AI性能新高度
Pruna是一个专为开发者打造的模型优化框架,旨在通过一系列压缩算法,如缓存、量化、剪枝、蒸馏和编译技术,全面提升模型的综合性能。这些算法能够显著降低模型的大小、提高运...
2025-03-21 新闻资讯
215

MagicMirror:一键AI换脸、发型和穿搭,轻松探索全新自我
MagicMirror是一款将AI技术与美学完美结合的应用。它利用先进的AI算法,让我们能够轻松尝试各种新的面部特征、发型和穿搭风格。无论是想要拥有明星般的面容,还是尝试一种全新...
2025-03-19 新闻资讯
260

Roblox开源Cube3D:首个基础AI模型实现3D对象生成
近日,Roblox宣布推出并开源Cube3D,这是该公司首个用于生成3D对象的基础AI模型。根据Roblox的新闻稿,Cube3D旨在提高3D创作效率,让开发者能够快速探索创作方向并提升生产力...
2025-03-18 新闻资讯
198

字节AI音效生成模型SeedFoley上线即梦,一键生成大片感音效
字节跳动直接放出王炸级AI黑科技,一举打破视频创作的最后一道静音魔咒!他们最新推出的SeedFoley音效生成模型,如同为视频注入了声命之魂,只需轻轻一点,就能为你的视频智能...
2025-03-13 新闻资讯
222

CogView4:首个支持生成汉字的开源AI文生图模型
CogView4是由智谱科技在2025年3月4日正式发布的一款开源AI文生图模型。作为CogView系列的最新成员,CogView4不仅支持中文提示词的输入,还能将中文文本直接转化为生动图像,成...
2025-03-04 新闻资讯
252

SkyReels-V1:昆仑万维开源的AI短视频生成模型
SkyReels-V1是昆仑万维开发的一款面向AI短剧创作的视频生成模型。它利用先进的深度学习技术,通过结合口型生成、表情生成和肢体生成等多个生成模块,实现了对人物表演细节的精...
2025-02-19 新闻资讯
261