【论文笔记】SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

原创已于 2022-10-20 15:36:16 修改 · 798 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

收录于

论文阅读

于 2022-10-19 21:03:15 首次发布

该研究提出了一种模型无关的可认证防御策略，针对基于同义词替换的文本对抗攻击。通过定义平滑分类器和使用随机词替换扰动，该方法能够在不检查所有对抗样本的情况下，验证模型预测的一致性。关键在于计算置信度边界，确保对任意扰动，模型预测保持不变。通过蒙特卡罗估计和紧密性分析，该方法提供了一种统计上严格的方法来验证模型的鲁棒性。

1 研究目的

针对基于同义词替换的文本对抗攻击，提出一种模型无关的可认证防御方案。

2 问题定义

2.1 基于同义词替换的文本对抗攻击

在文本分类任务中，模型 $f(X)f(\mathbf{X})$ 将输入 $X∈X\mathbf{X} \in \mathcal{X}$ 映射为标签 $c$ ，其中 $X=x1,..,xL\mathbf{X}=x_1,..,x_L$ 是由 $L$ 个单词组成的句子。本文关注的攻击方式指，攻击者根据同义词表，任意地用同义词替换句子中的单词，以误导模型。

具体来说，对于任意单词 $x$ ，考虑一个预先定义的同义词集合 $S_x$ ，其中包含 $x$ 的同义词和 $x$ 本身。本文假设同义词关系是对称的，即 $x$ 存在于 $x$ 的所有同义词的同义词集合内。同义词集合 $S_x$ 可以基于GLOVE构建。

给定输入句子 $X=x1,..,xL\mathbf{X}=x_1,..,x_L$ ，攻击者可以将 $X\mathbf{X}$ 中最多 $R≤LR\leq L$ 个单词 $x_i$ 扰动为它们的同义词 $x′i∈Sxix{'}_{i} \in S_{x_i}$ ，构建出对抗样本 $X′=x1′,..,xL′\mathbf{X'}=x'_1,..,x'_L$ 。：

$S_{\mathbf{X}}:=\{\mathbf{X}':||\mathbf{X}'-\mathbf{X}||_0 \leq R,x'_i\in S_{x_i}, \forall i \},$

其中 $SXS_{\mathbf{X}}$ 代表对抗样本候选集合。 $∣∣X′−X∣∣0||\mathbf{X}'-\mathbf{X}||_0$ 为汉明距离。攻击者的目标是找到 $X′∈SX\mathbf{X}'\in S_{\mathbf{X}}$ 满足 $f(X′)≠f(X)f(\mathbf{X}') \neq f(\mathbf{X})$ 。

2.2 可认证鲁棒（Certified Robustness）

形式化地，如果模型 $f$ 能够对所有可能的单词替换扰动一致地给出正确的预测，即，

$y=f(\mathbf{X})=f(\mathbf{X}'), \forall \mathbf{X}' \in S_{\mathbf{X}}, \tag1$
其中 $y$ 代表样本 $X\mathbf{X}$ 的真实标签。除非有额外的结构信息可用，否则这需要检查 $SXS_{\mathbf{X}}$ 中的所有候选句子，其数量随 $R$ 呈指数增长。本文主要考虑最具挑战性的 $R = L$ 的情况。

2.3 验证平滑分类器（Certifying Smoothed Classifiers）

本文的思想是用一个更加平滑的模型来替代 $f$ 。平滑分类器 $f^{RS}$ 通过在输入空间引入随机扰动构建，
$f^{RS}=\argmax_{c \in \mathcal{Y}} \mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)$

其中， $ΠXΠ_{\mathbf{X}}$ 是输入空间上的概率分布，它规定了 $X\mathbf{X}$ 周围的随机扰动。我们将 $f^{RS}$ 对标签 $c$ 的置信度定义为：
$g^{RS}(\mathbf{X},c):=\mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)。$

需要合适地选择扰动分布，以便 $fRS(X)f^{RS}(\mathbf{X})$ 近似 $f(X)f(\mathbf{X})$ ，同时也要足够随机，使得 $f^{RS}$ 足够光滑，以便进行鲁棒性验证。

本文将 $ΠXΠ_{\mathbf{X}}$ 定义为在随机词替换集合上的均匀分布（uniform distribution）。具体而言，设 $P_{x}$ 是词汇表中单词 $x$ 的扰动集，这与同义词集 $S_x$ 不同。本文通过余弦相似度计算GLOVE上的top K最近邻居来构建 $P_{x}$ ，其中 $K$ 是一个超参数，控制扰动集合的大小。

对于句子 $X=x1,...,xL\mathbf{X}=x_1,...,x_L$ ，sentence-level的扰动分布 $ΠXΠ_{\mathbf{X}}$ 被定义为每个单词等概率地被独立随机地扰动为 $P_{x_i}$ 中的词，即，

$Π_{\mathbf{X}}(\mathbf{Z})= Π_{i=1}^{L}\frac{\mathbb{I}\{z_i \in P_{x_i}\}}{|P_{x_i}|},$
其中， $Z=z1,...,zL\mathbf{Z}=z_1,...,z_L$ 是扰动文本， $P_{x_i}|$ 代表 $P_{x_i}$ 的大小。 $I{.}\mathbb{I}\{.\}$ 是指示函数。

指示函数的含义是：当输入为True的时候，输出为1，输入为False的时候，输出为0。

请注意，随机扰动 $Z\mathbf{Z}$ 和对抗候选样本 $X′∈SX\mathbf{X}' \in S_{\mathbf{X}}$ 是不同的。

3 可认证鲁棒

$f^{RS}$ 鲁棒的可认证的条件是，对于任意的 $X′∈SX\mathbf{X}' \in S_{\mathbf{X}}$ ，都有 $y=fRS(X′)y=f^{RS}(\mathbf{X}')$ ，其中 $y$ 是真实标签。满足它的充分条件是，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',y) \geq \max_{\mathbf{X}' \in S_{\mathbf{X}}}g^{RS}(\mathbf{X}',c), \forall c \neq y,$

其中， $gRS(X′,y)g^{RS}(\mathbf{X}',y)$ 的下边界大于任意 $\neq y$ 时 $gRS(X′,c)g^{RS}(\mathbf{X}',c)$ 的上边界。因此，关键步骤是计算任意 $\in \mathcal{Y}$ 和 $X′∈SX\mathbf{X}' \in S_{\mathbf{X}}$ ， $gRS(X′,c)g^{RS}(\mathbf{X}',c)$ 的上下边界。

3.1 Theorem 1（可认证的上/下边界）

假设对于每个单词 $x$ 及其同义词 $\in S_{x}$ ，扰动集 $P_x$ 满足 $P_{x}|=|P{x'}|$ 。我们定义，

$q_x=\min_{x' \in S_{x}} |P_x \cap P_{x'}|/|P_{x}|,$

其中， $q_x$ 表示两个不同扰动集之间的重叠。对于一个给定的句子 $X=x1,...,xL\mathbf{X}=x_1,...,x_L$ ，我们根据 $q_x$ 排列所有的单词，使 $qxi1≤qxi2≤...≤qxiLq_{{x_i}_1} \leq q_{{x_i}_2} \leq ... \leq q_{{x_i}_L}$ 。可以得到，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \geq\max(g^{RS}(\mathbf{X},c)-q_{\mathbf{X}},0)$

$\max_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \leq\min(g^{RS}(\mathbf{X},c)+q_{\mathbf{X}},1).$

其中 $qX:=1−Πj=1Rqxijq_{\mathbf{X}}:=1-Π_{j=1}^{R}q_{{x_{i}}_j}$ 。这表示，对于任意 $\in \mathcal{Y}$ ，有 $∣gRS(X′,c)−gRS(X,c)∣≤qX|g^{RS}(\mathbf{X}',c)-g^{RS}(\mathbf{X},c)|\leq q_{\mathbf{X}}$ 。主要思想是，通过随机平滑，对于任意 $X′∈SX\mathbf{X}' \in S_{\mathbf{X}}$ ， $gRS(X′,c)g^{RS}(\mathbf{X}',c)$ 和 $gRS(X,c)g^{RS}(\mathbf{X},c)$ 的差距最多是 $qXq_{\mathbf{X}}$ 。

因此， $gRS(X′,c)g^{RS}(\mathbf{X}',c)$ 的上边界上\下边界为 $gRS(X,c)±qXg^{RS}(\mathbf{X},c) \pm q_{\mathbf{X}}$

这避免了困难的对抗性优化，而只需要在原始输入上评估 $gRS(X,c)g^{RS}(\mathbf{X},c)$ 。

Theorem 1 证明

Lemma 1 将 ${X}$ 映射为0或1的全部有界函数定义为 $H[0,1]\mathcal{H}_{[0,1]}$ ，对所有 $\in \mathcal{H_{[0,1]}}$ ，定义 $ΠX[h]=EZ∼ΠX[h(Z)]Π_{{X}}[h]=\mathbb{E}_{Z \sim Π_{{X}}}[h(Z)]$ 。

那么，对于任意 ${X}$ 和任意 $\in \mathcal{Y}$ ，都有

$\min_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \geq \min_{h \in \mathcal{H}_{[0,1]}}\min_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{low}(X,c)$
$\max_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \leq \max_{h \in \mathcal{H}_{[0,1]}}\max_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{up}(X,c)$

Lemma 1 证明
证明很直接。定义 $h0[X]=I{f(X)=c}h_{0}[X]=\mathbb{I}\{f(X)=c\}$ ，由于
$g^{RS}(X,c) = \mathbb{P}_{Z∼Π_X} (f(Z) = c) = Π_X[h_0].$

因此， $h_0$ 满足优化中的约束，显然
$g^{RS}(X', c) = Π_X' [h_0] ≥ \min \{Π_{X'} [h] \quad s.t. \quad Π_X[h] = g^{RS}(X, c)\}$
在两边取 $min⁡X′∈SX\min_{X'} \in S_X$ 得出下界。上界遵循相同的推导。
因此，问题归结为优化问题的推导边界。

数学符号	含义
$X$	输入样本
$Π_X$	输入空间上的概率分布，规定了 $X$ 周围的随机扰动
$g^{RS}(X, c)$	平滑分类器输出样本 $X$ 关于标签 $c$ 的置信度，等价于 $PZ∼ΠX(f(Z)=c)\mathbb{P}_{Z\sim Π_X} (f(Z) = c)$
$h$	任意将输入映射到0或1的函数
$EZ∼ΠX[h(Z)]\mathbb{E}_{Z∼Π_X}[h(Z)]$	函数 $h$ 接收输入 $Z$ 产生的输出的期望，简写为 $Π_{X}[h]$

3.2 Proposition1

对于一个句子 $X\mathbf{X}$ 及其标签 $y$ ，我们定义，
$y_{B}=\argmax_{c \in \mathcal{Y}, c \neq y} g^{RS}(\mathbf{X}, c).$
然后，在定理1的条件下，我们可以验证，对于任意 $X′∈SX\mathbf{X}' \in S_{\mathbf{X}}$ ，都有 $f(X′)=f(X)=yf(\mathbf{X}')=f(\mathbf{X})=y$ 的条件是，

$\Delta_{\mathbf{X}}=g^{RS}(\mathbf{X},y)-g^{RS}(\mathbf{X},y_{B})-2q_{\mathbf{X}} >0. \tag2$

因此，验证模型是否给出了一致正确的预测，只需检查 $ΔX\Delta_{\mathbf{X}}$ 是否为正，这可以很容易地通过蒙特卡罗估计实现。如下图所示：
本文鲁棒性验证的流程

3.3 估计 $gRS(X,c)g^{RS}(\mathbf{X},c)$ 和 $ΔX\Delta_{\mathbf{X}}$

可以通过蒙特卡洛估计法来估计 $gRS(X,c)g^{RS}(\mathbf{X},c)$ ，即 $∑i=1nI{f(Z(i)=c)}/n\sum^{n}_{i=1} \mathbb{I}\{f(\mathbf{Z}^{(i)}=c)\}/n$ ，其中， $Z(i)\mathbf{Z}^{(i)}$ 是 $ΠXΠ_{\mathbf{X}}$ 中独立同分布的样本。此外， $ΔX\Delta_{\mathbf{X}}$ 可以相应地近似。
利用浓度不等式，我们可以量化非渐近逼近误差(non-asymptotic approximation error)。这允许我们构建严格的统计过程，以拒绝零假设(null hypothesis)，即，以给定的显著性水平(例如，1%)， $f^{RS}$ 在 $X\mathbf{X}$ 处未被证明鲁棒（即 $ΔX≤0\Delta_{\mathbf{X}} \leq 0$ ）。

3.4 紧密性

一个关键问题是边界是否足够紧密。下一个定理表明，定理1中的上下界是紧的，不能进一步改进，除非获得模型的进一步信息。

3.5 Theorem2 （紧密性）

假设定理1的条件成立。对于满足命题1中定义的 $fRS(X)=yf^{RS}(\mathbf{X})=y$ 和 $y_B$ 的模型 $f$ ，存在一个模型 $f_{*}$ 及其相关的平滑模型 $g^{RS}_{*}$ ，当 $c = y$ 且 $c=y_B$ 时，满足 $g∗RS(X,c)=gRS(X,c)g^{RS}_{*}(\mathbf{X},c)=g^{RS}(\mathbf{X},c)$ ，并且，

$\min_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y) =\max(g_{*}^{RS}(\mathbf{X},y)-q_{\mathbf{X}},0)$

$\max_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y_B) =\min(g_{*}^{RS}(\mathbf{X},y_B)+q_{\mathbf{X}},1).$

换句话说，如果我们只通过 $gRS(X,y)g^{RS}(\mathbf{X},y)$ 和 $gRS(X,yB)g^{RS}(\mathbf{X},y_B)$ 的评估来访问 $g^{RS}$ ，那么定理1中的边界的紧密性是我们尽最大可能达到的，因为通过可用的信息，我们无法区分定理2中的 $g^{RS}_{}$ 和 $g^{RS}_{*}$ 。