Supervised Contrastive Learning学习分享经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中,会对batch的图片进行数据增强,以同一图片不同的数据增强为正例,其它作为负例,以自监督对比损失(式1)作为训练目标进行学习。然而,在某些特定场景下,我们可能已经掌握了类别标签信息,或者至少能够明确哪些实例属于同一类别,而无需具体的类名。在这种情况下,直接沿用传统的自监督对比学习方法进行优化,显然未能充分利用这些宝贵的先验知识。 为了解决这一问题,supervised contrastive learning应运而生。其核心思想在于,将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。2024-7-13 图像搜索 表征学习
表格结构还原——SLANet学习分享SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注,以自回归的方式预测表格的html序列和单元格位置。2025-1-24 ocr 表格结构还原
阅读顺序还原技术剖析——LayoutReader学习分享给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。2025-7-24 ocr 版面恢复