Technology

LiteParse:文档解析别一上来就烧云服务,先把本地入口做成可分流系统

做 RAG 或文档 Agent,最容易被低估的不是向量库,也不是最后接哪个模型,而是文档进入系统前的第一步:解析。PDF、Word、Excel、PPT、图片和扫描件如果在入口就被切坏,后面再昂贵的召回、重排和大模型生成都只是在修补错误。

LiteParse 值得关注,是因为它没有把所有文档都推向“云端 OCR + VLM + 大模型理解”的重方案,而是明确站在本地优先、轻量解析、可路由的工程位置上。它由 LlamaIndex 团队 run-llama 开源,Apache-2.0 协议,GitHub 当前约 1.13 万 stars,官方定位是 fast and light 的开源 PDF/document parser。

它解决的是文档流水线里的成本边界

很多团队一开始会把文档解析直接交给云服务:上传文件、按页计费、返回 Markdown 或 JSON。这在复杂报表、扫描合同、多栏论文上很省事,但如果所有文档都这么处理,成本和合规压力会很快放大。大量日常文档其实有原生文本层,结构也不复杂,用重型解析并不划算。

LiteParse 的位置就是先把“能本地解决的部分”留在本地。官方 README 写得很清楚:它提供带 bounding box 的高质量空间文本解析,不依赖私有 LLM 特性,也不依赖云服务,所有流程在本机运行。遇到密集表格、多栏布局、图表、手写文字或扫描 PDF 这类硬文档,再路由给 LlamaParse 这类更重的云端解析器。

核心能力不是“转文本”,而是保留空间信息

  • PDFium 文本提取:利用 PDFium 做原生文本层解析,适合大量可复制文本的 PDF。
  • 可插拔 OCR:内置 Tesseract,同时支持 HTTP OCR server,可以接 EasyOCR、PaddleOCR 或自建 OCR 服务。
  • Bounding boxes:输出文本块坐标,方便还原阅读顺序、定位表格区域、做版面分析。
  • Markdown / JSON / Text:既能给人读,也能给 RAG 切块、索引和审计。
  • 页面截图:可以生成高质量页面截图,给需要视觉理解的 Agent 或 VLM 补充上下文。

这点比“能不能把 PDF 变成字符串”重要得多。RAG 里真正麻烦的是标题层级、表格、列表、链接、图片位置和阅读顺序。如果解析阶段把这些结构全部压平成一段纯文本,后面的 chunking 很容易把一个表格拆烂,或者把跨栏内容拼错。

复杂度检测是更实用的工程功能

LiteParse 的 lit is-complex 很适合放在生产流水线入口。它在全文解析前做一个便宜的 text-layer 检测,判断页面是否需要 OCR 或更重处理,并给出原因,比如 scanned、no-text、sparse-text、embedded-images、garbled、vector-text。

lit is-complex document.pdf
lit parse document.pdf --format markdown -o output.md
lit parse document.pdf --format json -o output.json
lit screenshot document.pdf -o ./screenshots

一个更稳的文档流水线可以这样设计:先跑 is-complex;简单 PDF 走 LiteParse 本地解析;需要 OCR 的页面走本地 OCR 或内网 OCR server;复杂扫描件、财报表格、多栏论文再进入 LlamaParse 或人工复核队列。这样不是盲目省钱,而是把每类文档放到合适的处理成本上。

多语言绑定让它容易接进现有系统

LiteParse 的内核是 Rust,同时提供 Python、Node.js/TypeScript、Rust 和 Browser/WASM 入口。CLI 名称统一为 lit,Python 可以 pip install liteparse,Node 可以 npm i @llamaindex/liteparse,Rust 可以 cargo install liteparse 或作为库集成,WASM 版本则让浏览器内文档解析成为可能。

这意味着它不只是一个命令行小工具。Python 适合接 RAG 脚本和离线批处理,Node 适合接 Web 后端和产品控制台,Rust 适合高性能服务,WASM 则适合“文件不出浏览器”的隐私型工具。对于做企业知识库或个人本地文档应用的人,这种部署弹性很关键。

不要把 LiteParse 当万能 OCR

边界也要说清楚。LiteParse 强在快速、轻量、本地和可路由,不是要替代所有复杂文档理解方案。官方也明确提示,密集表格、多栏布局、图表、手写文字和扫描 PDF,LlamaParse 这类云端重型解析器通常会更准。

更合理的判断是:如果你的文档大多有原生文本层、结构相对规整、对隐私和成本敏感,LiteParse 很适合做默认入口;如果你的材料以扫描件、复杂票据、财务报表和多模态页面为主,就应该把 LiteParse 当作分流器和低成本兜底,而不是最终答案。

结论

LiteParse 的价值不是“又一个 PDF 转 Markdown 工具”,而是把文档解析从单一云服务调用,拆成了可观察、可路由、可本地运行的前置层。先用本地解析处理简单文档,保留坐标和结构,再把真正复杂的页面送去重型解析,这条路径对 RAG、Agent 和企业知识库都更接近工程现实。