关于数学公式存在大量空格问题
#5157
Answered
by
dosubot
Bot
Return to top
-
|
pdf解析为md后,ai反馈公式内存在大量空格,以及数字被拆分的现象,这个问题有必要修复吗?人眼看是正常的 ai的分析:你看到“渲染后正常”,是因为 TeX 对很多空格不敏感;但 Codex/AI 读取原始 md 时,1. 6 \times 1 0 ^ {4}、U _ {1 0}、1 3 这类写法确实可能影响抽参数和生成代码。
|
Beta Was this translation helpful? Give feedback.
Answered by
dosubot[bot]
Jun 19, 2026
Replies: 1 comment
-
|
这个问题之前在 Issue #4901 中也有用户报告过,维护者回复开源版已修复该问题 [1]。 关于你提到的 AI 读取原始 md 时空格影响参数提取的问题,确实是有意义的反馈。虽然 LaTeX 渲染对空格不敏感(人眼看正常),但对于 LLM/AI 直接解析原始文本的场景, MinerU 代码中已有公式后处理逻辑来规范化空格,包括 建议:
To reply, just mention @dosu. Docs are dead. Just use Dosu. |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
sduhjh
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment

这个问题之前在 Issue #4901 中也有用户报告过,维护者回复开源版已修复该问题 [1]。
关于你提到的 AI 读取原始 md 时空格影响参数提取的问题,确实是有意义的反馈。虽然 LaTeX 渲染对空格不敏感(人眼看正常),但对于 LLM/AI 直接解析原始文本的场景,
1. 6 \times 1 0 ^ {4}这类写法会影响语义理解。MinerU 代码中已有公式后处理逻辑来规范化空格,包括
UniMERNetDecode类中的normalize()方法会用正则去除非字母字符间的多余空格 [2],以及latex_rm_whitespace()函数做进一步清理 [3]。建议:
--formula False禁用公式识别,避免 VLM 将数字误识别为 LaTeX 公式 [4]To reply, just mention @dosu.
Docs are dead. Just use Dosu.