《MinerU2.5-Pro》技术小结 | 莫叶何竹🍀

type

Post

status

Published

date

Apr 15, 2026

slug

mineru2d5_pro

summary

MinerU最近发布了一个更新的Pro模型。在模型架构不变的约束下，通过优化数据工程与训练策略，实现了显著的精度提升。

tags

ocr

多模态

category

学习分享

icon

password

1. 前言

MinerU最近发布了一个更新的Pro模型。在模型架构不变的约束下，通过优化数据工程与训练策略，实现了显著的精度提升。

论文的核心动机在于：不同架构的SOTA的模型在面临困难样本（hard samples）时，往往呈现出相似的错误模式。这一现象表明，OCR 性能的瓶颈可能并不主要来自模型架构本身，而更可能受限于训练数据的质量与构成。MinerU在OmniDocbench中新增了hard sample，用于更有针对性的评估对于此类复杂场景的模型表现。

模型仓库：https://huggingface.co/opendatalab/MinerU2.5-Pro-2604-1.2B

数据集地址：https://huggingface.co/datasets/opendatalab/OmniDocBench

notion image

2. 数据工程

MinerU的数据工程主要分为4个阶段

Diversity-and-Difficulty-Aware Sampling

Cross-Model Consistency Verification

Judge-and-Refine pipeline

Targeted Expert Annotation

notion image

2.1 Diversity-and-Difficulty-Aware Sampling (DDAS)

核心目标：解决训练数据长尾分布的问题。具体而言，通常情况下，数据池的学术论文，单栏报告的占比较大，但嵌套表格，复杂公式排版，多栏排版的占比较低。这导致模型对此类低频的场景识别精度较差。下面看具体的做法。

notion image

stage1 Page-level sampling：

提取所有PDF page的embedding（ViT base），并进行聚类；

对每个cluster进行均匀采样，获得初始的侯选集（保证分布覆盖）；

对初始侯选集的每一个page通过CMCV获得复杂度标签；

用复杂度标签的分布情况赋予cluster采样权重：

easy sample占比高→降权
difficulty分布多样→提权
invalid多（空白页、非目标语言）→ 过滤

根据调整后的cluster权重，从原始数据池进行加权resample，扩展后选集；

并补充计算所有sample的复杂度标签。

stage2 Element-level sampling：

将stage1得到的页面候选集用MinerU2.5和paddleOCR VL进行layout检测，获得math/table/text的block-level的数据；

分别对math/table/text进行聚类；

执行block-level的CMCV获得element的difficulty的标签。

stage3 Sampling： 通过stage1，stage2我们得到layout/table/text/math的数据，每一个数据点包含cluster-difficulty两种粒度的信息，现在对他们在cluster-difficulty的联合空间进行采样。

在diversity维度（解决长尾问题）：

大cluster进行下采样；
小cluster进行上采样；

在difficulty维度（提升训练信号的强度）

提升medium/hard数据的权重

最终获得task-balanced，high diversity，high informativeness的训练数据。

2.2 Cross-Model Consistency Verification （CMCV）

DDAS策略依赖样本的复杂度，那么如何得到这个复杂度呢？这是CMCV回答的问题。

在过去，MinerU2.5的IMIC策略和paddle VL-1.5的UACS策略通过对单模型多次推理的一致性来度量这个复杂度。这个方法存在局限性：

这个复杂度主要反应模型的“盲点”，而非通用的复杂度

对于模型盲点，我们可以通过多模型voting的方法来进行预标注。单对于通用的复杂case，可能所有模型的表现都不好，可能需要额外引入人工的干涉。为了更好的刻画复杂度，作者引入CMCV的评估策略，核心思想是，通过多模型的预测差异性来度量这个复杂度

若多个模型对同一个case的预测结果相近，说明是easy case。

若多个模型对同一个case的预测结果不相近，分歧越大，说明复杂度越高。

💡作者采用MinerU2.5， PaddleOCR-VL，Qwen3-VL-30B作为解析模型。
公式用CDM，表格用TEDS，文本用edit distance作为结果是否相近的度量

作者划分了3个复杂度

Easy： MinerU2.5的结果至少与1个外部模型的结果相近。标注为easy的数据，预测的结果可以直接视作label。

Medium：MinerU2.5与外部模型的结果都不相近，外部模型的结果相近。可以将外部模型的标注作为此类case的伪标签。

Hard：所有模型的结果都不相近。这类数据的价值非常高，但标注成本高。对此类case的处理方式需要Judge-and-Refine correction和外部专家的标注。

2.3 Judge-and-Refine Annotation Pipeline

这个阶段主要为了解决复杂度为hard数据的自动标注问题，核心思想是render-then-verify。具体做法：

将识别结果渲染成图片；

将原始图片和渲染的图片送入到Qwen3-VL-235B中进行judge and refine；（这样做的动机在于若将图和预测序列送入到模型，会存在跨模态信息的gap，都转为视觉空间有助于模型捕获差异）

重复上述两个过程，直至完成停止条件。对于Judge-and-Refine也无法修复的case转入到2.4专家标注。

2.4 Targeted Expert Annotation

在经过 DDAS 采样、CMCV 难度分层以及 Judge-and-Refine 修正之后，Easy 和 Medium 样本已经具备可靠标注，但仍有一部分 Hard 样本超出了自动修正能力。针对这些样本，我们引入专家人工标注以保证最终质量。

标注预算的分配基于 Judge-and-Refine 的中间输出结果进行优先级排序：

Judge 置信度高但 Refine 修正不确定的样本优先级最高。此类样本的错误位置已由 Judge 定位，标注人员只需进行局部修正，从而最大化标注效率。

优先覆盖当前模型最薄弱的子任务类别。这样可以在有限标注预算下最大化对整体性能的边际提升

人工标注采用“AI 预标注 + 专家审核与修正”的工作流程。在预标注阶段使用 Gemini 3 Pro。此外，还通过自动化质量评估工具进一步保证标注一致性。

最终，该数据引擎产出一个分层数据集：

约65.5M条 Easy 和 Medium 样本，通过 CMCV 自动标注，用于 Stage 1 预训练；

19.2 万条专家标注的 Hard 样本，用于 Stage 2 微调以及 Stage 3 的 GRPO 对齐。

3. 训练策略

采用3阶段渐进式训练范式。模型架构依旧沿用MinerU2.5:

encoder: NaViT 675M

decoder: Qwen2-0.5B 初始权重迁移MinerU2.5。具体的训练配置见下表：

有几点需要注意的：

notion image

65.5M训练数据的分布如下表。

stage2中多了一个3.9M得数据集。这是从65.5M条数据中采样得到。避免只在少量样本微调导致灾难性遗忘（catastrophic forgetting）。采样的规则设计中保证了hard sample的占比，一次强化模型在困难场景的表现

GRPO的reward设计与评估指标一致。即文本识别的reward为编辑距离；公式识别的reward为CDM；表格为TEDS；layout为IoU。

task	count
text recognition	21M
layout analysis	14M
formula recognition	13M
table recognition	11.5M
Other (chats, etc.)	6M

作者:莫叶何竹🍀
链接:http://www.myhz0606.com/article/mineru2d5_pro
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章

BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

Lazy loaded image

Lazy loaded image

Lazy loaded image

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

Lazy loaded image

minigpt4系列小结

Lazy loaded image

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

Lazy loaded image

Qwen-VL系列解析(一)——Qwen2-VL Nougat 深度剖析

Loading...

目录

0%

莫叶何竹🍀

非淡泊无以明志，非宁静无以致远

最新发布

《MinerU2.5-Pro》技术小结

RL学习小结 (001)：基本概念、贝尔曼方程

RL学习小结 (005)： TRPO理论剖析

RL学习小结 (003)：性能差异引理(The Difference in Policy Performance)

RL学习小结 (002)：策略梯度理论

RL学习小结 (004)： Actor-Critic Method

目录

0%