Ai模型(Magi):可自动将漫画转录成文字并生成剧本

站长之家 2024-03-12 12:14:02新闻资讯
41

牛津大学工程科学系的视觉几何组开发了一款名为 Magi 的Ai模型,可以自动将漫画页转录成文字并生成剧本。该模型通过识别漫画页面上的面板、文字块和角色,实现了全自动的剧本生成功能。其主要功能包括面板检测,识别漫画页面上的各个面板,以及文本块检测,识别面板中的文本块,通常包含对话或叙述性文本。此外,模型还能够检测页面上的角色形象,并根据其身份进行聚类,以区分不同的角色。

Magi.png

Magi 模型还可以将文本与说话者进行关联,确定哪些文本是由页面上的哪个角色说出的,保证剧本的准确性。同时,模型还会按照漫画的阅读顺序对文本块进行排序,确保剧本的叙述逻辑与原漫画一致,让读者通过阅读文本完整地体验漫画故事。

除了 Magi 模型本身,项目还包含一个名为 Mangadex-1.5M 的数据集,其中包含约150万漫画页面,涵盖多种流派和艺术风格。这个数据集的设计旨在为 Magi 模型的训练提供支持,解决漫画页面的自动理解和剧本生成问题,包括面板检测、文本块和角色检测、角色身份聚类以及文本与说话者之间的关联。

通过这一项目,研究人员希望推动漫画领域的自动化处理和理解技术的发展。

论文:https://arxiv.org/abs/2401.10224

项目入口:https://github.com/ragavsachdeva/magi

ai
THE END
tom
不图事事圆满 但图事事甘心。

相关推荐

GPT-4o mini是什么?GPT-4o mini和GPT-4o的区别对比
GPT-4o mini是OpenAI于2024年7月18日推出的迷你AI模型,它是GPT-4o的一个分支。本文ZHANID将深入探讨GPT-4o mini的核心特点、应用场景以及与完整版GPT-4o的主要区别。我们将从...
2024-07-20 电脑知识
115

OpenAI启动新一代AI模型训练,迈向通用人工智能新征程
全球领先的人工智能研究和部署公司Open AI近日宣布,已正式启动新一代旗舰人工智能模型的训练工作。这一举措旨在超越现有的GPT-4大模型,进一步拓展人工智能技术的能力边界,...
2024-05-29 新闻资讯
57

OpenAI推出免费旗舰AI模型GPT-4o,全面提升交互体验
在人工智能领域不断突破的OpenAI近日宣布,其最新研发的生成式AI模型GPT-4o即将与公众见面,并在未来数周内逐步整合到OpenAI的系列产品之中。这一消息在科技界引起了广泛关注...
2024-05-14 新闻资讯
36

阿里AI模型EMO免费上线通义APP 一张照片即可开口唱歌说话
阿里云宣布,EMO模型成功在通义APP中上线,并且完全开放给所有用户免费使用。如今,在通义千问APP内,用户只需简单三步操作:选择模版、上传照片、生成视频,即可轻松实现照片...
2024-04-26 新闻资讯
33

AI换装MagicClothing: 专注实现可控的换装效果
Magic Clothing 是一个AI换装项目,该研究是基于 OOTDiffusion 的一个分支版本,专注于实现可控制服装驱动的图像合成。Magic Clothing 的特色功能包括:可控服装驱动图像合成,...
2024-04-18 新闻资讯
33

斯坦福团队大模型Octopus v2火了:手机就能运行 准确性超越GPT-4
近日,斯坦福大学研究人员发布的 Octopus v2模型引起了开发者社区的极大关注,其20亿参数的模型一夜下载量超过2k。这一模型可以在智能手机、汽车、个人电脑等端侧设备上运行,...
2024-04-07 新闻资讯
27