多语言文档OCR工具包(Surya):精准的逐行文本检测和识别

站长之家 2024-01-15 10:34:19新闻资讯
566

Surya是一个多语言文档OCR工具包,它能够实现准确的逐行文本检测和识别。逐行文本检测功能可以自动识别文档中每一行文字的位置。

Surya.png

项目地址https://github.com/VikParuchuri/surya

此外,Surya还具有文本识别功能,可以读取并转换文档上的文字,即将图片上的文字变成可以编辑的文本,这一功能即将推出。

Surya还将推出表格和图表检测功能,可以识别文档中的表格和图表。此外,Surya支持多种语言,可以处理不同语言的文档,包括英语、中文、日文、印地语等语言。这使得Surya成为一个非常实用的多语言文档处理工具。

文字识别
THE END
战地网
频繁记录吧,生活的本意是开心

相关推荐

dots.ocr:小红书开源的一款基于视觉语言模型(VLM)的多语言文档解析工具
dots.ocr 是由小红书hi lab团队开发并开源的一款基于视觉语言模型(VLM)的多语言文档解析工具,它通过统一的模型架构实现了文档布局检测与内容识别的一体化处理。
2025-08-02 新闻资讯
1439

RapidOCR:RapidAI团队开发的多语言、跨平台开源OCR工具包
RapidOCR 是由RapidAI团队开发的一款高性能、多平台、多语言的光学字符识别(OCR)开源工具包。作为RapidAI旗下的明星项目,它目前已成为已知运行速度最快、支持最广泛的多平...
2025-07-17 新闻资讯
772

MonkeyOCR:华中科技大学与金山办公联合开源的轻量级文档解析大模型
MonkeyOCR是由华中科技大学VLR实验室与金山办公联合研发的轻量级文档解析大模型,其核心创新在于采用"结构-识别-关系"(Structure-Recognition-Relation, SRR)三元组范式,将非...
2025-06-10 新闻资讯
843

Vision-Parse:智能PDF图片文字识别并解析成MarkDown格式的工具
Vision-Parse是一款基于视觉语言模型的智能PDF解析工具。它利用深度学习技术,特别是视觉语言模型,将PDF文档中的图像和文字内容智能地识别并提取出来,然后按照markdown格式...
2024-12-30 新闻资讯
576

python使用ddddocr库识别滑动验证码简单示例代码
在现代网络应用中,滑动验证码已经成为一种常见的安全措施。然而,对于自动化测试或脚本登录等场景来说,手动完成滑动验证码是非常繁琐且不切实际的。幸运的是,Python中的dd...
2024-12-01 编程技术
797

图像转文字工具(2txt):可识别图像中文字并转换为可编辑文本
2txt是一个基于AI的图像转文字工具,使用Claude Haiku和Vercel AI SDK创建。这个工具不仅可以将任意图像上的文字识别出来,还能将其转换成可编辑的文本格式。与传统的OCR(光学...
2024-04-16 新闻资讯
373