LocateAnything技术小结

diffusion model(一)：DDPM技术小结 (denoising diffusion probabilistic)

diffusion model(二)：DDIM技术小结 (denoising diffusion implicit model)

diffusion model(三)：classifier guided diffusion model

diffusion model(四)：文生图diffusion model (classifier-free guided) 

diffusion model(五)：LDM: 在隐空间用diffusion model合成高质量图片

diffusion model(六)：Dalle2 技术小结

diffusion model(七)：diffusion model is a zero-shot classifier 

diffusion model(八)：Dalle3技术报告小结

diffusion model(九)：EmuEdit技术小结

diffusion model(十)：AnyDoor: Zero-shot Object-level Image Customization技术小结

diffusion model(十一)： InstantID技术小结

diffusion model(十二)： StableCascade技术小结

diffusion model(十三)：DiT技术小结

diffusion model(十四)： prompt-to-prompt 深度剖析

diffusion model(十五) : IP-Adapter技术小结

diffusion model(十六)：Layer Diffusion 技术小结

InstantStyle技术小结

diffusion model(十七)Score视角下的生成模型（Score-Based Generative Models）

diffusion model(十八)：diffusion model中negative prompt的工作机制

diffusion model(十九) ：SDE视角下的扩散模型

BLIP系列文章小结（BLIP, BLIP-2, InstructBLIP）

BLIP-2小结

BLIP 小结

BLIP3技术小结(xGen-MM (BLIP-3): A Family of Open Large Multimodal Models)

minigpt4系列小结

MM1技术小结（MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training)

🔥Lit: 进一步提升多模态模型Zero-Shot迁移学习的能力

YOLO-World技术小结

CLIP相关论文泛读

Data Filtering Network论文浅析

SigLIP技术小结

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解

多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)

Qwen-VL系列解析(一)——Qwen2-VL

《MinerU2.5-Pro》 技术小结

实例分割新范式：Falcon Perception技术剖析

多模态模型如何处理任意分辨率输入：位置编码设计

《Unlimited OCR》技术小结：用R-SWA实现长程文档解析

Nougat 深度剖析

Segment Anything(SAM)

DeepMind: 训练LLM的scale law

LoRA: 微调大模型的一种轻量级方法

RLHF对大模型泛化性和多样性的影响

Attention Free Transformer(AFT)技术小结

RNN并行化——《Were RNNs All We Needed?》论文解读

KV-Cache技术小结（MHA,GQA,MQA,MLA)

Step by Step： Understanding Flash-Attention

大模型MoE架构技术小结

Step by Step: Understanding ROPE

匈牙利算法小结

Ross随机过程笔记（一）: 概率论引论

Ross随机过程笔记（二）: 随机变量

Ross随机过程笔记（三）: 随机过程

Google Universal Image Embedding前五名方案小结

Matryoshka Representation Learning (俄罗斯套娃表征学习)技术小结

DreamSim技术小结

Supervised Contrastive Learning

表格结构还原——SLANet

阅读顺序还原技术剖析——LayoutReader

RL学习小结 (001)： 基本概念、贝尔曼方程

RL学习小结 (002)： 策略梯度理论

RL学习小结 (003)： 性能差异引理(The Difference in Policy Performance)

RL学习小结 (004)： Actor-Critic Method

RL学习小结 (005)： TRPO理论剖析

RL学习小结 (006)：PPO原理剖析

友链

Github

联系我

Feeling after reading The Little Prince 

The feeling of reading after Tess

大学四年

给身边考研的小伙伴

LocateAnything讨论的是一个用AR的思路做检测的痛点：VLM做grounding / detection时，bbox是否一定要逐token自回归生成？

这篇文章将从ddpm的原理推导和代码实现两个方向带你深入理解扩散模型。

去噪扩散概率模型 (DDPM6) 在没有对抗训练的情况下实现了高质量的图像生成，但其采样过程依赖马尔可夫假设，需要较多的时间步才能得到较好的生成效果。本文提出的DDIM(denoising diffusion implicit models  5)是更有效的迭代隐式概率模型，其训练过程与 DDPM 相同，但相比DDPM，采样过程快 10 到 50 倍。

对于一般的DM（如DDPM， DDIM）的采样过程是直接从一个噪声分布，通过不断采样来生成图片。但这个方法生成的图片类别是随机的，如何生成特定类别的图片呢？这就是classifier guide需要解决的问题。

Classifier-free的核心思路是：我们无需训练额外的分类器，直接训练带类别信息的噪声预测模型来实现特定类别图片的生成，即。从而简化整体的pipeline。

latent diffusion model提供了一个新的思路：它将扩散过程从传统的像素空间转到了隐空间（DM模型输入参数量大大降低），极大提升了DM的训练效率和推理效率，使得DM模型得以在单张消费级显卡应用，降低了AI图片生成的上手成本。目前火出圈的Dalle2, Stable Diffusion都用到了LDM技术。

OpenAI结合CLIP与diffusion model提出了一个二阶段的文本生成图片范式Dalle21，能够更精细的从语义层面控制图片的生成效果。得益于其训练范式，Dalle2的图片生成的质量不弱于GLIDE2,但生成器的多样性有明显提升。

本篇文章指出类似stable diffusion这样的大规模文本转图像模型所计算出的密度估计，可以被用来进行“零样本分类” (zero-shot classification)，而不需要额外的训练。

目前的文生图模型所生成的图片很难对应prompt的一些细节的描述，并且经常会忽视某些单词。作者假设造成生成与prompt不一致的原因是因为训练样本中image caption的噪声导致。针对上述问题，作者训练了一个image-captioner对之前训练样本的caption进行重写，随后重新训练text-to-image模型。

作者将intruction-base image editing任务建模为生成任务，并用diffusion model进行求解。核心创新点有两个
• 详细定义了instruction-based image edit处理的任务，并设计了一个高效高质量的数据构建方法。
• 为提升模型对instruction的理解能力，引入learnable task embedding，能较好的解决上述问题。并且提出task inversion的训练方法，只需少量数据就能有效将模型扩展到新的task（类似textual inversion的思想）。

过去我们用dreambooth，LORA，textual inversion等方法做定制目标生成。但这个方法每次定制新的目标都需要重新训练模型。这篇文章的核心目的是用一种zero-shot的方法做定制目标的定制场景图片生成。简单来说就是：给定目标图片和场景图片就能生成在该目标在该场景不同姿态（角度、光照）的图片。

本文提出了一种plug-and-play 定制人脸生成模型（Plugability），给定一张人脸照片，就能生成指定风格和pos的照片。InstantID不仅前期训练成本低（compatibility），还能实现inference without fine-tune （Tuning-free）和高保真图像的生成。（Superior performance）。既有fidelity又有efficiency还flexible

StableCascade的核心在于新增了一个图片隐特征的先验，从而带来推理和训练的加速。在训练阶段这个先验来源于pre-training model。在推理阶段这个先验来源于stageC对这个先验信息的估计。

DiT 系统研究了diffusion transformer的token化和条件嵌入两个关键问题，验证了基于transformer架构的扩散模型的scalable能力。

作者提出了一种p2p的文字编辑方法（textual editing），无需训练任何参数、添加任何模块，仅用预训练的文生图模型（如stable diffusion）即能实现卓越的textual editing能力。核心是通过约束control cross attention中的attention map实现控制！

为了对文生图diffusion model进行特定概念的定制，常用LoRA[1]、textual inversion[2]等inference before fine-tune的方法。此类方法有一个弊端：每一个新的概念都需要重新训练一个权重，比较麻烦。那么，能不能有一个方法inference前无须微调，只需给一张reference image，就能将该图片的概念融入到生成过程中？这就是IP-adapter想要解决的问题。

作者针对目前diffusion model无法满足设计行业工作流程依赖图层信息做进一步编辑的痛点提出了layer diffusion方法实现分层图片的生成。
• diffusion model实现RGBA图片的生成。通过额外引入RGBA encoder来将透明层信息编码为不影响预训练latent分布的 offset尽可能的保留了预训练模型的生成能力。并额外引入了一个decoder能解码出透明层图片。
• diffusion model实现分层生成。设计了一套高效可用的数据收集pipeline准备训练数据。通过attention sharing方法保证不同层之间的语义连贯性。

InstantStyle为了解决Tuning-free reference image style transfer的问题。其核心思路架构沿用IP-adapter。但IP-adapter在做reference image 风格迁移时有两个痛点
• content leakage。
• image condition的引入会导致text condition变弱
虽然通过调节image weight能够缓解这个问题，但需要手动调节weight，并且不能保证成功。InstantStyle 针对上述两个痛点进行了优化。

score based model将对概率分布的估计转为对$\nabla_{\mathrm{x}} \log p_{data}(\mathrm{x})$ (称之为score)的估计规避对归一化参数$Z_{\theta}$的计算，以此摆脱网络架构的限制。
但是，由于**原始数据分布$p_{data}(\mathrm{x})$不可知，无法直接用fisher divergence（式4）**训练score based model模型，需要转为score matching  的优化形式（式6）。
对于图片而言，数据维度过大，原生score matching需要计算**Jacobian matrix**，计算开销非常大，需要结合slice score matching（SSM）或denoising score matching（DSM）的方法减少计算开销。
虽然通过以上手段我们可以相对高效的训练score-based model 。但由于流形假设和数据低密度区域的影响，导致模型估计的score 不准确。作者通过对原始数据加噪的方式缓解上述两个问题，并提出退火的朗之万采样算法完成高质量的样本生成。

stable diffusion中negative prompt的工作机制

SongYang博士从Itô型随机微分方程（Stochastic Differential Equation）的角度对扩散模型的前向、后向过程进行建模，并用该理论框架统一了DDPM][1]和SMLD[2]

文本系统梳理了BLIP多模态系列论文BLIP, BLIP-2, InstructBLIP

BLIPv2主要从模态对齐、高效训练两个方向对图文多模态预训练任务（vision-and-language pre-training VLP）做出优化。在模态对齐上提出了一个轻量架构QFormer（querying transformer）来建立图像-文本的桥梁。在高效多模态训练上，结合QFormer提出一种二阶段预训练范式。在VQAv2任务上，仅用了倍Flamingo80B的训练数据，却带来8.7%精度提升

BLIP这篇文章提出一种boostrapping caption的方案来“提纯”带噪声web datasets，从而进一步提升多模态模型的能力。

虽然过去BLIP系列对LMM发展起到至关重要的作用，但从效果上来说，已经远落后于当下的SOTA模型，主要有一下3点原因：
1）数据上，训练数据数量少、质量不高、多样性不强。
2）训练策略上，多个stage（`ITM`，`ITC`， `ITG`）训练流程冗长，up scale的训练开销大
3）模型架构上，`BLIP`系列仅支持单图输入，应用范围相对较窄
BLIP3针对以上3个方面进行改进：
1）数据上，构造了更大的、质量更高、多样性更强的数据集。
2）训练策略上，提出3 stage 的训练范式，并统一用next token prediction作为训练目标目标，提升训练效率和模型效果。
3）模型架构上，支持交错图文输入。

建立一个有效的多模态模型需要：
• 精心设计不同类型数据的占比。混合图文交错数据（interleaved image-text）, 仅文本数据（text-only），image caption数据。作者文中推荐interleaved: caption: text-only = 45% : 45% : 10%。
• image encoder、image resolution、image token的大小对结果非常重要。
• vision language connector对performant的多模态模型不那么重要。

固定“图像塔”的模型参数,用从网络爬取的“图片文本对”数据集(CC12M,YFCC00m-CLIP,等)来训练“文本塔”,使得文本塔的文本embedding能够和“图像塔”产出的图片embedding对齐.为了是图像embedding和文本embedding的维度对齐,在“图像塔”最后增加一个投影层.

这篇文章从计算效率的角度解决开集目标检测问题（open-vocabulary object detection，OVD）。

文本从data curation的方向研究如何提升CLIP的performance。本文核心是提出了一个二阶段的训练范式：
• Stage1: 用高质量数据训练DFN。“high quality filter dataset → DFN”；
• Stage2: 用DFN清洗后的数据训练induced model （即CLIP）。“data-pool → DFN (trained)→ induced dataset → induced model”。

sigmoid-based contrastive learning从经典的softmax-based contrastive learning的“pick the right class”转化为“rate this pair”。这个转化实现了compute efficient和memory efficient，并在实验中证明，siglip在小batch下（低于32k）更具优势。

本文详细介绍了目前多模态任务中常用的两种处理任意分辨率的技术tiling，packing

本文将从Motivation的角度来理解Qwen2-VL的设计

MinerU最近发布了一个更新的Pro模型。在模型架构不变的约束下，通过优化数据工程与训练策略，实现了显著的精度提升。

这篇文章讨论的是一个很有意思的问题：dense perception任务是否一定需要encoder-decoder结构？
目前开放词汇检测、promptable segmentation、OCR这类任务，常见做法大概是：
• 先用一个vision backbone提取图像features
• 单独的 decoder 或 late-fusion module 将这些 features 转换为任务输出
虽然上面的范式在业内已经验证了有效性，但它的问题也很明显。模块越多，视觉语言的交互较晚，并且系统的复杂度也会更高。
针对dense perception的任务特点，作者提出以下关键设计：1)Unified Dense Transformer with Hybrid Attention Mask; 2)Chain-of-Perception; 3)Specialized heads

本文围绕 decoder-only 多模态模型中的位置编码设计，讨论了视觉 token 从二维/三维结构被展平成一维序列后带来的位置表达问题。
Vanilla 1D RoPE 的优势是简单、兼容预训练 LLM，但它会把图像中的二维几何关系压缩到一维序列距离中。对于任意分辨率输入，同样的空间相对位置可能对应不同的一维相对距离，这会增加模型学习空间结构的难度。
3D RoPE / MRoPE 的核心思路，是让序列仍然保持一维输入形式，但为每个 token 分配三维 position id，即 $(t,h,w)$。这样既能兼容文本 token 的 1D RoPE 先验，又能让视觉 token 保留时间、高度、宽度方向上的几何相对关系。
MRoPE-I、MHRoPE 等方法在频率分配层面改进标准 MRoPE，使不同位置轴能更充分地利用 RoPE 的频谱。

Unlimited OCR 是基于 DeepSeek OCR 改造的端到端多页 OCR 模型，核心是用 R-SWA 替换 decoder 中的 full attention，使视觉 tokens、prompt 全局可见，而生成历史只保留最近窗口，从而在多页 PDF OCR 中保持恒定 decode-side KV cache，实现更高效的 long-horizon parsing。

提出了一种全新的端到端的OCR模型，该模型基于自回归的方法，旨在实现给定图片后输出对应的Markdown标记。一个模型实现版面分析、文本检测、文本识别、公式识别等功能。

近日，MetaAI团队开源了一个用于分割的10亿个masks，1100w张图片数据集SA-1B。并开开源了基于此数据集训练的模型。这应该是目前CV分割领域最强的基础模型。

作者通过400个不同大小语言模型在5B-50B数据训练不同的时长，来探究LLM的scale law。实验发现，model size和training tokens应当scale equally，如：当model size扩大一倍，training tokens也应当扩大一倍。作者根据这个scale law训练chinchilla，在多个任务上实现SOTA。

常见的预训练模型有非常低的本征维度。通俗的讲就是说存在一种低维重参数化方式，其在微调时与全参数空间一样有效。受此启发LoRA相对原本架构它增加了一个旁路，使输入向较小的子空间进行随机投影。微调过程时仅更新旁路的较为轻量的权重A,B，取代更新原有权重W。

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知，本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。

原本基于dot product self attention Transformer的时间复杂度和空间复杂度都很高。提出了一个新的AFT层来降低transformer的计算量。

最近在看并行RNN相关的paper，发现很多都利用了Parallel Scanning算法。本文将从Parallel Scanning算法开始，介绍Bengio团队不久前发表的《Were RNNs All We Needed?》

KV-cache技术是目前LLM，VLLM等自回归模型常用的避免冗余计算的手段。但引入该技术需要额外的存储成本。原生的kv-cache所需的存储成本与生成的token长度成正比，是目前长文本生成的主要瓶颈之一。目前针对如何降低KV-cache的存储成本激起大量研究者广泛关注。GQA，MQA，MLA是目前常用的方法。本文将从经典的casual attention出发，阐述kv-cache的必要性，及目前常见优化kv-cache的手段。

Transformers核心组件self-attention的空间复杂度为$\mathcal{O}(T^2)$ ,$T$为序列长度。从显存层面限制了模型长上下文upper bound。对于标准的self-attention计算而言，需要频繁进行HBM(high bandwidth memory, HBM)和SRAM的内存读写，存在IO瓶颈。
FlashAttention的核心创新点是通过online-softmax和tiling技巧来将self-attention的空间复杂度降至$\mathcal{O}(T)$，减少HBM与SRAM的IO通信。

本文从 FFN 的 KV-Memory 视角出发，逐步推导出 MoE（Mixture of Experts）结构的动机与演化过程，并介绍了MOE架构训练过程Routing Collapse现象及解决方案。

ROPE是目前不论LLM还是VLLM常用的位置编码。本文将step by step梳理个人对ROPE的理解

匈牙利算法可以将指派问题的时间复杂度从降低到多项式的时间复杂度。

1 样本空间的定义，事件的定义。
2 事件的交、并。不可能事件、独立事件、事件互补相容的条件。
3 事件的八大运算规则：交换率、结合率、分配率、同一律、互补率、吸收率、双反率、对偶率。
4 事件上概率的定义、古典概型的定义、对立事件的概率。独立事件的概率。
5 容斥恒等式、布尔不等式.
6 全概公式，贝叶斯公式

1 随机变量定义，连续型随机变量、离散型随机变量
2 随机变量的概率分布（概率质量（密度）函数）、累积分布函数。如何验证概率密度函数
3 常见的离散随机变量及其概率质量函数（伯努利随机变量、二项随机变量、几何随机变量、泊松随机变量）
4 常见连续型随机变量及其概率密度函数（均匀随机变量、指数随机变量、伽马随机变量、正态随机变量）
5 联合分布随机变量的分布函数、概率质量（密度）函数、均值、协方差
6 协方差的定义、性质、意义
7 矩母函数定义，常见随机变量的矩母函数
8 矩母函数的两个重要性质

1 随机过程的定义，离散随机过程、连续随机过程、随机场
2 随机游走
3 随机过程有限维分布定义、性质（对称性，相容性）、Kolmogorv定理
4 随机过程数字特征。均值函数、协方差函数、方差函数、二阶矩过程定义。
5 随机过程基本类型。平稳过程（严平稳过程、宽平稳过程定义）、独立增量过程、平稳增量过程、独立平稳增量过程。

谷歌通用图像embedding竞赛前五名方案小结

我们平时做retrieval相关的工作，很多时候根据业务场景和计算资源需要对向量进行降维。受限开发周期，我们往往不会通过重新训练特征提取模型来调整向量维度，而是用PCA等方法来实现。但是当降维的scale较大时，PCA等方法的效果较差。Matryoshka Representation Learning （MRL）这篇paper介绍了一个很简单但有效的方法能实现一次训练，获取不同维度的表征提取。下面来看它具体是怎么做的吧。

针对模型计算的相似性和human perceptual similarity还是有一定的差距的问题，本文提出一个新的指标Dreamsim。Dreamsim更forcus前景和语义信息等high level的特征，并兼顾color、layout等low level特征，能更好的对齐human perceptual similarity。

经典的自监督对比学习方法以instance discrimination作为pretext task。在这种方法中，会对batch的图片进行数据增强，以同一图片不同的数据增强为正例，其它作为负例，以自监督对比损失(式1)作为训练目标进行学习。然而，在某些特定场景下，我们可能已经掌握了类别标签信息，或者至少能够明确哪些实例属于同一类别，而无需具体的类名。在这种情况下，直接沿用传统的自监督对比学习方法进行优化，显然未能充分利用这些宝贵的先验知识。
为了解决这一问题，supervised contrastive learning应运而生。其核心思想在于，将传统的自监督对比学习框架扩展至包含正例信息的场景中。该方法从同一类别中进行采样来构建正例。

SLANet 是一个轻量级的表格结构识别模型。它将表格结构识别任务建模为序列标注，以自回归的方式预测表格的html序列和单元格位置。

给定一张文档图像（可选）及其中全部词级 token 的文本（可选）和bounding box，输出一个排列后的 token 顺序，使其符合人类自然阅读顺序。
形式化：给定一组无序的box序列，$\{t_i=(x^i_0, y^i_0, x^i_1, y^i_1)\}$，求解排列 $\pi$ 使得 $[t_{\pi(1)}, t_{\pi(2)}, …]$为正确阅读顺序。

本文系统介绍了强化学习的核心概念，包括状态、动作、策略、奖励和回报等基本术语；随后展示了如何使用马尔可夫决策过程（MDP）对强化学习问题进行数学建模；最后推导了状态值函数和动作值函数的贝尔曼方程。

本节从强化学习的期望回报目标出发，系统推导了策略梯度公式，展示了如何通过梯度上升直接优化策略函数。

新策略  相对于旧策略  的性能提升量，等于"用新策略去采样，然后用旧策略的优势函数去评估"所得到的期望累计折扣优势。
这意味着我们估计新策略性能，只需用旧策略的优势函数，就能评价新策略。
策略改进不需要直接知道新策略有多好，只需要知道旧策略认为哪些动作更好，然后让新策略更常选这些动作。

actor-critic （文本主要讨论advantage actor critic, A2C）相较蒙特卡洛（REINFORCE）有2大核心创新
• 通过subtract baseline ，在满足无偏性的前提下降低方差
• 通过bootstrapping的方法来代替纯蒙特卡洛回报降低方差。

本文从TRPO提出的motivation出发，step by step系统的推导了TRPO的算法的设计过程及细节

本文从PPO提出的motivation出发，系统介绍了PPO-Penalty和PPO-CLIP两种变体。总体来说，PPO 用更简单的方式近似TRPO的trust region约束，在保证策略更新稳定性的同时，大幅降低计算复杂度。