Skip to content
Discussion options

You must be logged in to vote

这个问题之前在 Issue #4901 中也有用户报告过,维护者回复开源版已修复该问题 [1]

关于你提到的 AI 读取原始 md 时空格影响参数提取的问题,确实是有意义的反馈。虽然 LaTeX 渲染对空格不敏感(人眼看正常),但对于 LLM/AI 直接解析原始文本的场景,1. 6 \times 1 0 ^ {4} 这类写法会影响语义理解。

MinerU 代码中已有公式后处理逻辑来规范化空格,包括 UniMERNetDecode 类中的 normalize() 方法会用正则去除非字母字符间的多余空格 [2],以及 latex_rm_whitespace() 函数做进一步清理 [3]

建议

  • 确保使用最新版本(2026年5月后的版本已包含修复)
  • 如果数字被拆分的问题仍然存在,可能与 VLM 后端有关,可以尝试切换到 pipeline 后端或使用混合模式(hybrid mode),后者会提取 PDF 原生文本,数字识别更准确 [4]
  • 也可以尝试 --formula False 禁用公式识别,避免 VLM 将数字误识别为 LaTeX 公式 [4]

To reply, just mention @dosu.


Docs are dead. Just use Dosu.

Leave Feedback Ask Dosu about MinerU Share Dosu with your team

Replies: 1 comment

Comment options

You must be logged in to vote
0 replies
Answer selected by sduhjh
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Category
Q&A
Labels
None yet
1 participant