《MinerU2.5-Pro》 技术小结

Lazy loaded image实例分割新范式:Falcon Perception技术剖析

这篇文章讨论的是一个很有意思的问题:dense perception任务是否一定需要encoder-decoder结构? 目前开放词汇检测、promptable segmentation、OCR这类任务,常见做法大概是: • 先用一个vision backbone提取图像features • 单独的 decoder 或 late-fusion module 将这些 features 转换为任务输出 虽然上面的范式在业内已经验证了有效性,但它的问题也很明显。模块越多,视觉语言的交互较晚,并且系统的复杂度也会更高。 针对dense perception的任务特点,作者提出以下关键设计:1)Unified Dense Transformer with Hybrid Attention Mask; 2)Chain-of-Perception; 3)Specialized heads
实例分割新范式:Falcon Perception技术剖析

Lazy loaded image多模态模型如何处理任意分辨率输入:位置编码设计

本文围绕 decoder-only 多模态模型中的位置编码设计,讨论了视觉 token 从二维/三维结构被展平成一维序列后带来的位置表达问题。 Vanilla 1D RoPE 的优势是简单、兼容预训练 LLM,但它会把图像中的二维几何关系压缩到一维序列距离中。对于任意分辨率输入,同样的空间相对位置可能对应不同的一维相对距离,这会增加模型学习空间结构的难度。 3D RoPE / MRoPE 的核心思路,是让序列仍然保持一维输入形式,但为每个 token 分配三维 position id,即 $(t,h,w)$。这样既能兼容文本 token 的 1D RoPE 先验,又能让视觉 token 保留时间、高度、宽度方向上的几何相对关系。 MRoPE-I、MHRoPE 等方法在频率分配层面改进标准 MRoPE,使不同位置轴能更充分地利用 RoPE 的频谱。
多模态模型如何处理任意分辨率输入:位置编码设计
Step by Step: Understanding ROPE