🐮Nougat 深度剖析学习分享提出了一种全新的端到端的OCR模型,该模型基于自回归的方法,旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。2023-8-5 大模型 版面恢复 ocr
阅读顺序还原技术剖析——LayoutReader学习分享给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。2025-7-24 ocr 版面恢复