凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

凯发·k8国际app官网以输出一个标量奖励值-凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

发布日期:2025-03-08 11:45    点击次数:62

凯发·k8国际app官网以输出一个标量奖励值-凯发k8国际首页登录 k8凯发(中国)天生赢家·一触即发

尽管多模态大言语模子(MLLMs)取得了权贵的进展凯发·k8国际app官网,但现存的先进模子仍然缺少与东说念主类偏好的充分对皆。这一差距的存在主若是因为现存的对皆酌量多齐集于某些特定畛域(举例减少幻觉问题),是否与东说念主类偏好对皆可以全面提高 MLLM 的万般智商照旧一个未知数。

快手,中科院,南大合营从三个层面动手激动 MLLM alignment 的发展,包括数据集,奖励模子以及磨真金不怕火算法,最终的 alignment pipeline 使得不同基础模子在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较杰出的是,基于本文建议的数据集和对皆算法对 LLaVA-ov-7B 模子进行微调后, conversational 智商平均提高了 19.5%,安全性平均提高了 60%。

偏好数据,磨真金不怕火算法,模子以及评估 pipeline 均已全面开源。

该门径在 twitter 上也引起了热议,被评为多模态 alignment 的 game-changers。

主要孝顺:

新数据集:本文引入了一个包含120k精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本姿色的具体原因以及平局等标注,通盘标注由东说念主类各人完成,一共50名标注东说念主员,8名各人,耗时两个月。与现存资源比较,这一数据集在范围、样本万般性、标注粒度和质料等方面都有权贵提高。

改换的奖励模子:建议了基于品评的奖励模子(Critique-Based Reward Model),该模子领先对模子输出进行品评,然后再进行评分。这一门径比较传统的标量奖励机制,提供了更好的可阐述性和更有信息量的反馈,基于该门径的模子只需要 7B size,在 reward model benchmark 就显著优于现存公开的 72B-size 的 MLLM。

动态奖励缩放:建议了动态奖励缩放(Dynamic Reward Scaling)门径,通过笔据奖励信号调度每个样本的失掉权重,优化了高质料比较对的使用,进一步提高了数据的使用效劳。

全面评估:本文在10个维度和27个基准上对建议的决策进行了严格评估,同期构造了一个 reward model 的 benchmark 以及 safety 关连的 benchmark来弥补现存 benchmark 的不及,落幕泄漏,在各个方面均取得了权贵且一致的性能提高。

MM-RLHF 东说念主类偏好数据

数据开首:  图像数据开首包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,统共 10M,视频数据开首主若是 SharedGPT-4-video,安全性关连的数据开首主要包括 VLGuard 和自构造实质。

数据过滤与模子反映生成,  通过预界说的多选题,长文本等类别均匀采样,确保少数类也有填塞的样本。同期弃取了 knn 聚类并采样的战略,保证数据的 diversity。反映生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等源泉进的 MLLM。

数据标注:  主要包含三个维度,有用性,实在性,伦感性,同期标注东说念主员需要提供打分的依据,最终排行以及排行的依据,标注粒度细,通过各人按期进行质料查验和互动评审保证标注质料。

MM-RLHF 奖励模子

表率奖励模子频繁通过预磨真金不怕火的 LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。但是,这些模子难以充分行使东说念主类注视中的丰富信息,也不具备填塞的透明性。

为了管制表率奖励模子的局限性,本文建议了一种基于品评的磨真金不怕火框架。在这个框架中,模子领先生成品评(对反映的分析和评估),然后基于品评来打分。品评生成部分与打分部分共同作用,确保了更精细的评价。

增强注视以提高品评质料:由于东说念主工注视时时浅显且精深,径直使用它们行动磨真金不怕火主见成果有限。因此,本文通过 GPT-4o 增强东说念主工注视,使其更为细心和清楚,从而提高品评的质料。

在磨真金不怕火经过中,品评的生成与奖励头的磨真金不怕火同期进行,在磨真金不怕火奖励头时采选了 teacher-forcing 的战略,即弃取了 ground truth 的品评行动输入,默许失掉权重都为 1。测试阶段先生成品评,然后基于品评得出最终得分。

性能评估

该模子框架简便,且在多个基准测试中的阐扬与 GPT-4o 相失色,以致极度了好多开源模子,阐扬出色,尤其在自界说基准测试中,其阐扬远超 GPT-4o,这考证了其行动磨真金不怕火算法奖励信号的灵验性。

表 4 中也展示了,当奖励头径直使用偏好数据集进行磨真金不怕火时,模子的 ACC+ 安定在 50% 傍边。但是,当引入东说念主工注视行动学习主见时,ACC+ 安定提高了 5%。进一步通过 GPT-4o 彭胀东说念主工注视,生成愈加细心和清楚的品评,最终提高了 ACC+ 达 17%。当评估时径直使用东说念主工品评时,ACC 和 ACC+ 均接近 90%,标明评估质料对奖励模子成果的至关紧迫性。

MM-DPO:灵验行使高质料偏好数据

要灵验行使 MM-RLHF 中的高质料数据,有以下的现实发现和技能:

MM-DPO 不再只是情切"最难的比较对"(即排行各异最大的一双),而是将一个查询下通盘可能的响交代都纳入磨真金不怕火。具体来说,关于一个查询  ,如果有多个反映,每一双具有不同排行的反映都被视为一个灵验的比较对。这种全面的处理神态可以捕捉更细粒度的排序信息,让模子从更平方的偏好数据中学习。但是,这种战略也带来了新的挑战:当响交代的排行各异较小时(举例排行 3 和排行 4 的比较),其奖励差距(reward margin)时时较小,而排行各异较大的响交代(举例排行 1 和排行 4 的比较)包含的信息质料更高。如果对通盘样本对一视同仁,会导致高置信度的信息被低效行使。

为了管制这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,笔据奖励差距动态调度更新强度,优先行使高置信度的样本对。

具体而言,奖励模子可以当然地为样本对提供奖励差距(reward margin),这为动态戒指样本的更新权重提供了一个径直的信号。

本文弃取 MM-RLHF-Reward-7B 模子来意料奖励差距    其中    和    区别是正样本和负样本的奖励分数。

DPO 中,动态缩放因子    的意料公式如下:

其中:  是运行默许缩放因子 ;   是一个参数,用于均衡动态部分的孝顺;  是一个可调超参数,戒指   跟着的变化速率。

接下来只需要将 DPO 算法中的部分替换为动态的即可。

MM-DPO 在万般 benchmark 上都阐扬出了可以的性能增益,而且其关于超参数并不口角常敏锐,大多数情况下都能使得高质料 pair 的行使效劳得到显著提高。

27 个评估表率,10 种评估维度的空洞评估

主要畛域包括图表与文档相识、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与实在宇宙应用、视频相识、多图像处理以及多模态安全性。其中,多模态安全性基准 MM-RLHF-SafeBench 是自构建的,涵盖抵抗膺惩、逃狱膺惩、秘密保护和无益实质生成等场景,要点评估模子的安全性与鲁棒性。这些数据集为模子的多方面性能提供了详备的测试环境。

上头两图展示了使用本文建议的数据集和对皆算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同维度上的对皆阐扬,其中每个评估维度的得分在相应的基准上进行了平均。

会话智商和安全性的权贵提高:现实落幕标明,通过对皆经过,这两个方面的阐扬得到了权贵校正,无需调度超参数。在会话基准中,平均提高高出 10%,而不安全行动减少了至少 50%。此外,在 WildsVision 任务中,胜率至少提高了 50%。

在幻觉、数学推理、多图像和视频相识方面的平方提高:对皆后的模子在这些畛域阐扬出权贵的提高。兴趣兴趣的是,尽管数据齐集缺少特意的多图像数据,模子在多图像任务中的阐扬依然权贵提高。这标明数据集的万般性有助于模子在多个维度上进行更好的泛化。

模子对数据和超参数的偏好各异:不同模子在对皆经过中阐扬出不同的性能趋势,况且在不同基准上对超参数建立的偏好也各不交流。举例,在对 InternVL-1B 的磨真金不怕火中,发现排斥 SFT 失掉函数反而带来了更好的落幕。此外,固然 InternVL-1B 在学问知识任务中阐扬出权贵校正,但在 OCR 任务中的相对提高不如 LLaVA-OV 系列。这些各异主要源自模子预磨真金不怕火数据集和战略的不同,因此需要笔据具体模子对超参数进行定制化调度以得回最好对皆成果。

小范围的 MLLMs 很难自我提高

尽管比年来有酌量探索了 MLLM 的自我提高意见,但这些英勇主要齐集在特定畛域,比如对话系统。在这一部分,团队建议了与 LLM 畛域不同的不雅点,以为小范围的 MLLM(参数少于 7B)现在在通过自我提高杀青全面性能提高方面靠近要紧挑战。现实落幕,如上所示,可能有两个主要原因:

模子容量的放胆: 关于波及长文本或对话数据的任务,采样多个反映频繁会生成至少一个相对较好的谜底,从而进行 DPO 有可能导致性能显著提高。但是,关于更具挑战性的任务,如多项弃取题或科学推理任务,小模子即使经过广宽采样,也难以生成正确谜底。在现实中,当最大采样数目达到八时,不雅察到在某些具有挑战性的多项弃取题中,模子生成了交流的失实谜底,大约在通盘样本中一致地产生失实输出。

奖励信号质料的局限性: 现在大多数现存的多模态奖励模子是在有限万般性的磨真金不怕火数据集上磨真金不怕火的,如 VLFeedback 和 LLaVA-RLHF。这些数据集主要情切当然图像、东说念主类对话或关连场景,容易激发过拟合问题。当偏好数据集包含更平方的畛域(如数学推理、图表相识或其他专科畛域)时,在现存数据集上磨真金不怕火的奖励模子无法提供灵验的奖励信号。因此,识别和弃取更好的样本变得辛苦。

这两个局限性使得现在的 MLLMs 很难在万般化的数据集上生成反映、使用奖励模子对其进行注视并通过自我提高轮回进行迭代校正,尽管在 LLM 对皆中取得了相同的进展。现实证实,更好的奖励模子可以带来旯旮校正,但这些落幕仍远不如使用高质料东说念主工注视对比样本进行磨真金不怕火的成果。

改日可能的酌量标的

本酌量建议了 MM-RLHF,一个高质料、细粒度的数据集,特意用于激动多模态大言语模子(MLLMs)的对皆使命。与以往专注于特定任务的酌量不同,建议的数据集和对皆门径旨在全面提高多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步校正,在险些通盘评估基准上都不雅察到了权贵且执续的提高,强调了空洞性对皆战略的后劲。

瞻望改日,可以看到进一步挖掘本数据集价值的庞大契机。数据集的丰富注视粒度,如每个维度的分数和排行原理,在现时的对皆算法中仍未得到充分行使。改日的使命将要点情切行使这些粒度信息与先进的优化工夫,统一高分辨率数据来管制特定基准的局限性,并使用半自动化战略高效地彭胀数据集。

团队坚信,这些英勇不仅将激动 MLLM 对皆到新的高度,还将为更平方、更具普适性的多模态学习框架奠定基础。

arXiv Paper:   https://arxiv.org/abs/2502.10391

Training Code:   https://github.com/Kwai-YuanQi/MM-RLHF

Homepage:   https://mm-rlhf.github.io/

Reward Model:   https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen

MM-RewardBench:   https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench

MM-SafetyBench:   https://github.com/yfzhang114/mmrlhf-eval

Evaluation Suite:   https://github.com/yfzhang114/mmrlhf-eval

—  完  —

投稿请使命日发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿实质‍

附上论文 / 风物主页纠合,以及磋商神态哦

咱们会(尽量)实时回答你

一键情切 � � 点亮星标

科技前沿进展逐日见

一键三连「点赞」「转发」「留心心」

接待在挑剔区留住你的念念法!凯发·k8国际app官网