《Unlimited OCR》技术小结:用R-SWA实现长程文档解析学习分享Unlimited OCR 是基于 DeepSeek OCR 改造的端到端多页 OCR 模型,核心是用 R-SWA 替换 decoder 中的 full attention,使视觉 tokens、prompt 全局可见,而生成历史只保留最近窗口,从而在多页 PDF OCR 中保持恒定 decode-side KV cache,实现更高效的 long-horizon parsing。2026-6-29 ocr 多模态
🐮Nougat 深度剖析学习分享提出了一种全新的端到端的OCR模型,该模型基于自回归的方法,旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。2023-8-5 大模型 版面恢复 ocr
表格结构还原——SLANet学习分享SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注,以自回归的方式预测表格的html序列和单元格位置。2025-1-24 ocr 表格结构还原
阅读顺序还原技术剖析——LayoutReader学习分享给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。2025-7-24 ocr 版面恢复