Lazy loaded imageRLHF对大模型泛化性和多样性的影响

虽然目前RLHF(reinforcement learning from human feedback)成为LLM训练不可缺少的一部分。但目前并没有详细研究RLHF到底对LLM哪一方面有益 or 有害。为了提升对RLHF不同阶段收益的认知,本文从实验上系统探究了RLHF的三个阶段supervised fine-tuning (SFT), reward modeling(RW), RLHF对LLM泛化性(generalisation)和生成多样性(diversity)的影响。
莫叶何竹🍀
莫叶何竹🍀
非淡泊无以明志,非宁静无以致远
最新发布
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解
2025-5-24
多模态模型如何处理任意分辨率输入——Tiling与Packing技术详解(part2)
2025-5-24
Attention Free Transformer(AFT)技术小结
2025-4-15
BLIP 小结
2025-4-13
BLIP系列文章小结(BLIP, BLIP-2, InstructBLIP)
2025-4-13
Nougat 深度剖析
2025-3-18