软件介绍
TextLocator 是一款专为本地文件搜索管理设计的开源全文检索软件,基于 .NET Framework 开发,采用 WPF 框架构建现代化界面。其核心定位是解决传统文件搜索工具仅支持文件名检索的局限,通过构建全文索引数据库,实现跨格式文档(如Word、PDF、Excel、TXT、代码文件等)的关键词快速定位。支持 Windows 系统,并通过 Lucene.NET 引擎与 Jieba.NET 分词器 实现高效中文文本处理。
技术架构
索引引擎:基于 Lucene.NET 实现,支持多线程索引构建与增量更新,适配大规模文档库(如数万份文件)。
分词技术:集成 Jieba.NET 中文分词库,可处理复杂中文语境(如“数据库表结构”自动拆分为“数据库”“表结构”等词组)。
文档解析:通过 NetOffice、OpenXML、NPOI 等库支持 Office 文档解析,Spire 处理 PDF 内容提取,确保多格式兼容性。
典型应用场景
文档归档管理:快速定位历史项目中的技术文档或合同条款。
学术研究:在论文集中搜索引用、实验结果或特定概念。
代码审计:检索代码库中的特定函数名或注释片段。
核心功能
全文索引与检索
多格式支持:覆盖
.docx
、.pdf
、.xlsx
、.txt
、.cs
、.java
等主流格式,支持压缩包(如.zip
)内文档检索。多关键词搜索:空格分隔输入多个关键词(如“数据库 性能优化”),默认 OR 逻辑,勾选“匹配全词”后切换为 AND 逻辑。
高级筛选:支持按文件类型(仅搜索 Word)、时间范围(最近30天)、文件大小(>10MB)等条件过滤结果。
索引管理与优化
增量更新:新增或修改文件后,点击“优化”按钮同步索引(无需重建整个库)。
索引压缩:27,636 个文件的索引仅占用 240MB 磁盘空间,支持定期清理过期索引。
结果预览与交互
内容摘要:结果列表中显示关键词前后各 30 字符的上下文,支持高亮匹配项(红色标记)。
文档预览:点击结果项,右侧预览区直接显示文档内容(图片文件显示缩略图)。
操作便捷性:支持拖拽调整预览区宽度,快捷键(如
Ctrl+F
)在预览区内二次搜索。
软件特色
高性能与低资源占用
索引速度:27,636 个文件首次索引耗时约 10 分钟,后续增量更新仅需秒级。
内存优化:通过 Lucene.NET 的内存池技术,长期运行内存占用稳定在 50-100MB。
灵活的扩展性
API 开放:提供 C#/.NET 接口,支持二次开发(如集成至企业知识库系统)。
插件支持:通过自定义分词器(如行业术语词典)提升垂直领域搜索精度。
用户友好设计
无障碍操作:支持拖拽添加搜索目录、右键排除文件夹,设置界面提供默认配置(如排除临时文件夹)。
多语言界面:默认支持中文,通过资源文件可快速扩展其他语言。
总结
TextLocator 以其全格式覆盖、高效索引与灵活扩展特性,成为本地文档管理的标杆工具:
个人用户:通过关键词快速定位硬盘中的历史文档,节省手动翻找时间。
企业团队:集成至内部知识库,支持研发、法务、财务等部门高效检索文档。
技术开发者:基于其开源架构,可快速构建垂直领域搜索系统(如医疗病历检索、法律文书分析)。
无论是个人知识管理还是企业级文档处理,TextLocator 均能提供稳定、高效且低成本的解决方案。其持续迭代的分词算法与索引优化技术,进一步巩固了其在本地全文检索领域的领先地位。