Lazy loaded imageSupervised Contrastive Learning

经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中,会对batch的图片进行数据增强,以同一图片不同的数据增强为正例,其它作为负例,以自监督对比损失(式1)作为训练目标进行学习。然而,在某些特定场景下,我们可能已经掌握了类别标签信息,或者至少能够明确哪些实例属于同一类别,而无需具体的类名。在这种情况下,直接沿用传统的自监督对比学习方法进行优化,显然未能充分利用这些宝贵的先验知识。 为了解决这一问题,supervised contrastive learning应运而生。其核心思想在于,将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。

Lazy loaded image阅读顺序还原技术剖析——LayoutReader

给定一张文档图像(可选)及其中全部词级 token 的文本(可选)和bounding box,输出一个排列后的 token 顺序,使其符合人类自然阅读顺序。 形式化:给定一组无序的box序列,$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$,求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
diffusion model(十九) :SDE视角下的扩散模型
2025-8-10
阅读顺序还原技术剖析——LayoutReader
2025-7-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
2025-5-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)
2025-5-24
Attention Free Transformer(AFT)技术小结
2025-4-15
BLIP 小结
2025-4-13