Lazy loaded image阅读顺序还原技术剖析——LayoutReader

给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
阅读顺序还原技术剖析——LayoutReader
2025-7-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
2025-5-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)
2025-5-24
Attention Free Transformer(AFT)技术小结
2025-4-15
BLIP 小结
2025-4-13
BLIP系列文章小结(BLIP, BLIP-2, InstructBLIP)
2025-4-13