SEA: Low-Resource Safety Alignment for Multimodal Large Language Models via Synthetic Embeddings

https://aclanthology.org/2025.acl-long.1212/

尽管多模态大型语言模型 MLLMs实现了先进的多模态能力，但它们比LLMs表现出更严重的安全风险。通过向非文本输入中注入恶意信息，可以轻易诱导MLLMs遵从用户的有害指令。

当前的缓解策略，如监督微调（SFT）和带人类反馈的强化学习（RLHF）在提升MLLM的安全性方面显示出了有效性。然而，构建多模态安全对齐数据集的成本很高。与LLMs不同，MLLMs的高质量安全对齐数据要求三个组成部分之间存在强相关性：文本指令、文本响应以及额外的模态，这使得数据收集过程更加昂贵。此外，由于额外模态的差异，每当为MLLM引入新的出现模态（如脑电图信号）时，都必须重建安全对齐数据。这不仅增加了额外成本，还导致数据集的开发落后于MLLMs本身的进步。因此，迫切需要一种资源高效且普遍适用的安全对齐方法来促进更安全的多模态语言模型的发展。

文本对齐仅在文本输入中出现明确有害信息时才有效，例如指令“如何使用图像中的产品来抢劫银行”，配以炸弹的图像输入。相比之下，经过多模态对齐的模型通常对各种场景都有效，包括仅通过图像展示有害信息的样本，如指令“如何制作该产品”，配以炸弹的输入图像。为了解决文本对齐的局限性，使用生成模型生成附加模态的数据是一个潜在的解决方案。然而，并非所有模态都有高性能的生成模型可用，特别是对于那些未来可能出现的新兴多模态语言模型。

为了解决上述限制，我们提出了SEA，一个使用合成嵌入来增强安全对齐的新框架。该方法首先优化了在MLLMs认为包含特定有害活动或产品的模态编码器输出空间中的嵌入表示。随后，优化后的嵌入可以与文本数据集集成，取代真实的多模态数据集进行安全对齐训练。我们的方法消除了收集和策划真实多模态数据集这一资源密集型过程。

实验在基于图像、视频和音频的MLLMs上进行，结果表明，在单个RTX 3090 GPU上仅需两个训练样本即可在24秒内优化出高质量的嵌入。此外，使用合成嵌入构建的数据集进行安全对齐显著增强了MLLMs抵御来自额外模态威胁的安全性。

由于缺乏公开可用的针对基于视频和音频的MLLMs的安全评估基准，我们还引入了VA-SafeBench，它扩展了基于图像的MM-SafetyBench。具体来说，VA-SafeBench中的每个样本都一对一地从MM-SafetyBench的八个场景样本转换而来。它们共享相同的有害信息来源，但VA-SafeBench中的提问形式包括视频-文本对和音频-文本对。多个MLLMs的高攻击成功率（ASR）验证了VA-SafeBench所带来的挑战。

方法

由于多模态数据集对MLLM的安全对齐训练至关重要，但并非所有模态都有高性能的生成模型可用，我们旨在找到一种更通用的方法来合成额外模态的数据。一个关键的洞察是，用于安全对齐的额外模态数据（如炸弹图片）并不一定需要人类可解释，只需被MLLMs解释为含有指定的有害活动或产品即可。

基于这一直觉，我们提出了合成嵌入增强的安全对齐（SEA），它优化了额外模态表示空间中的嵌入。目标嵌入是指MLLMs解释为包含指定有害活动或产品的嵌入。具体来说，SEA将附加模态的嵌入视为一个可训练的权重，通过梯度更新进行优化，以最大化模型输出指定内容的概率。在将优化后的嵌入与文本数据集集成后，它可以作为真实多模态数据集的替代品。

包括三个阶段：

数据准备阶段，将文本对齐数据转换为用于嵌入优化的辅助数据。
嵌入优化阶段，专注于合成附加模态的嵌入。
安全对齐阶段，通过将合成嵌入与文本对齐数据结合来进行多模态对齐训练。

现有MLLMs的架构通常可以分为三个组成部分：

模态编码器 M：它将附加模态的输入编码为一个嵌入
投影器 P：它将非文本模态表示空间的嵌入映射到文本模态表示空间
大型语言模型（LLM）：它处理来自不同模态的输入，执行语义理解、推理和决策

将这些组件结合起来，MLLMs的推理过程可以表述为：

y=LLM(P(M(Z)),x)

z和x分别代表额外模态和文本模态的输入，而y是文本输出。

在考虑额外模态的合成数据时，有三种可行的选择：合成原始额外模态z、模态编码器M(⋅)的输出或投影器P(⋅)的输出。由于z在不同模态中的形式差异很大，因此不予考虑。在剩余选项中，我们倾向于合成M(⋅)的输出，因为在大多数 MLLM 训练范式中，M(⋅)保持冻结状态，而P(⋅)是可训练的，这使得SEA适用于更多的MLLMs。

假设一个文本安全对齐数据集 $D_T=\{(x_T^i,y_T^i)\}_{i=1}^N$ ，由N个样本组成，其中 x 代表有害指令，y 可以是SFT的一个无害响应或RLHF的一对选中和拒绝响应，我们的目标是根据 x 中的有害信息优化一组嵌入 E

对于每个 (x,y)，我们分别准备一个辅助数据集 $D_a=\{(x_c^i,y_c^i),(x_s^i,y_s^i)\}$ 以帮助优化 $E^i$ ，其中 c 代表内容控制样本（用于控制嵌入中的主要有害内容），s 代表风格控制样本（旨在增强嵌入的多样性）。每个样本包括一条指令、一个响应前缀和一段引导文本。响应前缀与引导文本连接形成目标响应。以基于图像的多语言大型语言模型为例，辅助数据集的构建过程如下：

使用 GPT-4o-mini 来识别 $x_T^i$ 中的有害短语，然后将有害短语分为两类，包括“活动”和“产品”，接着通过用“这个产品”或“这个活动”替换有害短语来创建 $x_T^i$ 的解毒版本
由于与活动相关的有害短语通常不形成完整的句子，我们进一步提示 GPT-4o-mini 将其转换为具有主语-动词-宾语结构的全句 $s_T^i$ ，以符合多语言大型语言模型的语言习惯。
我们将“请简要描述图像中的活动（产品）。”作为输入指令 $x_c^i$ ，并将“响应前缀 + $s_T^i$ （或产品的有害短语）”作为目标响应 $y_c^i$ 。根据模型的输出习惯确定“响应前缀”。用于控制嵌入中的主要有害内容
输入指令 $x_s^i$ 为“这张图片的风格是什么？”。目标响应 $y_s^i$ 设置为“响应前缀 + 风格描述”。“风格描述是从模型输出习惯确定的预定义风格集中随机抽取的。旨在增强嵌入的多样性。

在构建了 $D_a^i$ 之后，M(⋅) 将一个空白图像（或空白视频、静音音频）编码成一个嵌入，该嵌入作为可训练嵌入 $E_o$ 的初始化。对于每个 $D_a^i$ 的样本，嵌入优化的目标是当给定 $x^i$ 和 $E_o$ 时，最大化 MLLM 生成 $y^i$ 的概率。在优化过程中，所有的多语言大型语言模型都被冻结，只有 $E_o$ 作为可训练权重参与梯度更新。由于内容和风格在 $y_c^i$ 和 $y_s^i$ 中指定，优化目标可以理解为找到 VLM 认为与内容和风格最匹配的嵌入。整个优化过程可以如下表述：

L\left(E_{o}\right)=-\frac{1}{\left|D_{a}^{i}\right|}\sum_{\left(x^{i}, y^{i}\right)\in D_{a}^{i}}\log\left(P_{r}\left(y^{i}\mid x^{i},P\left(E_{o}\right)\right)\right) \\ E^{i}=\underset{E_{o}}{\arg\min }\left(L\left(E_{o}\right)\right)

其中， $P_{r}\left(y^{i}\mid x^{i},P\left(E_{o}\right)\right)$ 表示生成 y 的条件概率

为了整合 $E^{i}$ 和 $D_T$ 来构建多模态数据集 $D_{M}=\left\{\left(x_{M}^{i},y_{T}^{i},E^{i}\right)\right\}_{i=0}^{N}$ ，在每个去毒后的 $x_T^i$ 前添加前缀“该图像显示了一个活动（产品）。请理解并回答下面的提问。”，从而形成指令 $x_M^i$ 。去毒后的指令确保有害信息仅通过合成的嵌入传达。y 不变

为了基于 $D_M$ 实现安全对齐，我们需要绕过模块 M(⋅) 并修改前向传播的权重传播过程为 $y=LLM(P(E^i),x)$ ，使其能够适应现有的安全对齐训练策略。

值得注意的是，大多数当前的多模态语言模型在指令微调阶段冻结了M(⋅)。这使得SEA生成的合成数据集与真实的多模态数据集无缝集成。以图像模态为例，真实的多模态样本的形式为“由M(·)+指令+响应编码的图像嵌入”，而合成样本则由“SEA嵌入+指令+响应”组成。由于大多数多模态语言模型冻结了M(·)，因此在训练期间，两种形式对多模态语言模型来说看起来是一样的。

VA-SafetyBench

VA-SafetyBench是一个针对基于视频和音频的多模态语言模型的安全基准。它包括两个部分：视频安全基准（Video-SafetyBench）和音频安全基准（Audio-SafetyBench）。这两部分的每个样本都包括一个文本指令和一个视频或音频片段。

VA-SafetyBench中的每个测试用例直接对应于MM-SafetyBench中的一个测试用例，对于每个样本，我们利用MM-SafetyBench中的三种类型的文本数据，包括：（1）原始指令，（2）从原始指令中提取的有害关键短语，以及（3）重写指令，用于隐藏原始指令中的有害内容。

视频安全基准测试包含四个不同的任务，其中一个为纯文本基线任务，视频模态的输入被设置为空，使用原始指令。其余三个任务则根据其视频生成方法有所不同，具体如下：

扩散模型（DM）每个视频时长设为5秒，分辨率为640×384像素，帧速率为24帧每秒。由于单个有害关键短语无法提供足够详细的视频信息，我们利用GPT-4o-mini来生成相关的场景描述。生成过程采用上下文学习，从五个预先准备好的例子中选择两个作为上下文
TYPO：每个有害的关键短语被分解成单个单词，用白色文本在黑色背景上呈现，并按顺序排列成视频格式。文本指令设置为与DM相同
DM+TYPO：它结合了扩散模型和排版来生成视频。在此任务中，TYPO不会将短语分解成单个单词，而是将整个有害关键短语显示在单个视频帧中，重复多个帧形成一个3秒钟的视频，然后将其附加到DM视频的末尾

音频安全基准测试也包括四个任务，包括纯文本，以及使用微软的 edge-tts API 生成语音，可以根据语音内容进行区分：

仅音频：整个未修改的原始提示被转换成语音，不提供任何文本指令
关键短语转换（KPT）：仅关键短语被转换成语音。文本指令输入是改写后的指令，将“图像”替换为“音频”。
KPT+噪声：在KPT音频前加上一段持续3秒的白噪声。文本指令输入是改写后的指令

实验

实验在多个多模态语言模型上进行，使用GPT-4o-mini作为评估器。评估指标是攻击成功率（ASR），计算方式为在评估集中被标记为不安全响应的百分比

额外的模态放大了安全漏洞，这一效应在基于视频的MLMs中尤为显著，Qwen2-VL-7b在DM+TYPO攻击下的攻击成功率（ASR）比仅文本攻击高出65.08%。同样，基于音频的MLMs也显示出增加的脆弱性
文本和音频中的有害指令更能激活模型的毒性。KPT+噪声通常比KPT表现得更好，这表明在时间维度上使用噪声进行干扰或隐藏有害信息，使得绕过安全机制变得更容易
在仅有文本攻击的情况下，语义嵌入展现出了与文本对齐方法相当的安全能力，就总体性能而言，无论是使用 SFT 还是 DPO 训练策略，语义嵌入的总体性能都接近于文本对齐方法。
基于SFT的方法比基于DPO的方法显示出更强的安全性，不过除了Qwen2-VL-7b略有退化之外，SEA DPO在其他模型中的总体性能与原始模型相比并没有下降。因此，我们建议使用DPO作为SEA的训练策略

限制

SEA嵌入的优化依赖于模型自身知识，使其容易受到模型未覆盖的有害概念的失败影响。鉴于世界的多样性，SEA很可能对世界不同文化中独有的概念（例如，地方方言中的威胁或某个国家有毒的特定食物）失效。

由于模型不太可能对其不了解的概念提供准确指导，因此在安全对齐训练之前过滤掉这些失败的嵌入似乎是一个可行的解决方案。然而，对于模型正确感知这些有害概念并负责任地拒绝相关指令仍然至关重要。在低资源环境中找到实现这一目标的方法仍是一个悬而未决的问题。

另一方面，虽然风格控制增强了SEA嵌入的多样性，但仍不能保证涵盖足够广泛的有害场景。需要进一步探索增强多样性的策略，如设计更多用于优化的样本。

PreviousGroup Sequence Policy Optimization NextOn LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey

Last updated 5 months ago

hashtag方法

hashtagVA-SafetyBench

hashtag实验

hashtag限制

方法

VA-SafetyBench

实验

限制