关于数学公式存在大量空格问题 #5157

sduhjh · 2026-06-19T09:13:01Z

sduhjh
Jun 19, 2026

pdf解析为md后，ai反馈公式内存在大量空格，以及数字被拆分的现象，这个问题有必要修复吗？人眼看是正常的

ai的分析：你看到“渲染后正常”，是因为 TeX 对很多空格不敏感；但 Codex/AI 读取原始 md 时，1. 6 \times 1 0 ^ {4}、U _ {1 0}、1 3 这类写法确实可能影响抽参数和生成代码。

这个问题之前在 Issue #4901 中也有用户报告过，维护者回复开源版已修复该问题 [1]。

关于你提到的 AI 读取原始 md 时空格影响参数提取的问题，确实是有意义的反馈。虽然 LaTeX 渲染对空格不敏感（人眼看正常），但对于 LLM/AI 直接解析原始文本的场景，1. 6 \times 1 0 ^ {4} 这类写法会影响语义理解。

MinerU 代码中已有公式后处理逻辑来规范化空格，包括 UniMERNetDecode 类中的 normalize() 方法会用正则去除非字母字符间的多余空格 [2]，以及 latex_rm_whitespace() 函数做进一步清理 [3]。

建议：

确保使用最新版本（2026年5月后的版本已包含修复）
如果数字被拆分的问题仍然存在，可能与 VLM 后端有关，可以尝试切换到 pipeline 后端或使用混合模式（hybrid mode），后者会提取 PDF 原生文本，数字识别更准确 [4]
也可以尝试 --formula False 禁用公式识别，避免 VLM 将数字误识别为 LaTeX 公式 [4]

To reply, just mention @dosu.

Docs are dead. Just use Dosu.

2026-06-19T09:17:20Z

这个问题之前在 Issue #4901 中也有用户报告过，维护者回复开源版已修复该问题 [1]。

关于你提到的 AI 读取原始 md 时空格影响参数提取的问题，确实是有意义的反馈。虽然 LaTeX 渲染对空格不敏感（人眼看正常），但对于 LLM/AI 直接解析原始文本的场景，1. 6 \times 1 0 ^ {4} 这类写法会影响语义理解。

MinerU 代码中已有公式后处理逻辑来规范化空格，包括 UniMERNetDecode 类中的 normalize() 方法会用正则去除非字母字符间的多余空格 [2]，以及 latex_rm_whitespace() 函数做进一步清理 [3]。

建议：

确保使用最新版本（2026年5月后的版本已包含修复）
如果数字被拆分的问题仍然存在，可能与 VLM 后端有关，可以尝试切换到 pipeline 后端或使用混合模式（hybrid mode），后者会提取 PDF 原生文本，数字识别更准确 [4]
也可以尝试 --formula False 禁用公式识别，避免 VLM 将数字误识别为 LaTeX 公式 [4]

To reply, just mention @dosu.

Docs are dead. Just use Dosu.

0 replies