【论文笔记】SAFER: A Structure-free Approach for Certified Robustness to Adversarial Word Substitutions

该研究提出了一种模型无关的可认证防御策略,针对基于同义词替换的文本对抗攻击。通过定义平滑分类器和使用随机词替换扰动,该方法能够在不检查所有对抗样本的情况下,验证模型预测的一致性。关键在于计算置信度边界,确保对任意扰动,模型预测保持不变。通过蒙特卡罗估计和紧密性分析,该方法提供了一种统计上严格的方法来验证模型的鲁棒性。

1 研究目的

针对基于同义词替换的文本对抗攻击,提出一种模型无关的可认证防御方案。

2 问题定义

2.1 基于同义词替换的文本对抗攻击

在文本分类任务中,模型f(X)f(\mathbf{X})f(X)将输入X∈X\mathbf{X} \in \mathcal{X}XX映射为标签ccc,其中X=x1,..,xL\mathbf{X}=x_1,..,x_LX=x1,..,xL是由LLL个单词组成的句子。本文关注的攻击方式指,攻击者根据同义词表,任意地用同义词替换句子中的单词,以误导模型。

具体来说,对于任意单词xxx,考虑一个预先定义的同义词集合SxS_xSx,其中包含xxx的同义词和xxx本身。本文假设同义词关系是对称的,即xxx存在于xxx的所有同义词的同义词集合内。同义词集合SxS_xSx可以基于GLOVE构建。

给定输入句子X=x1,..,xL\mathbf{X}=x_1,..,x_LX=x1,..,xL,攻击者可以将X\mathbf{X}X中最多R≤LR\leq LRL个单词xix_ixi扰动为它们的同义词x′i∈Sxix{'}_{i} \in S_{x_i}xiSxi,构建出对抗样本X′=x1′,..,xL′\mathbf{X'}=x'_1,..,x'_LX=x1,..,xL。:

SX:={X′:∣∣X′−X∣∣0≤R,xi′∈Sxi,∀i}, S_{\mathbf{X}}:=\{\mathbf{X}':||\mathbf{X}'-\mathbf{X}||_0 \leq R,x'_i\in S_{x_i}, \forall i \}, SX:={X:∣∣XX0R,xiSxi,i},

其中SXS_{\mathbf{X}}SX代表对抗样本候选集合。∣∣X′−X∣∣0||\mathbf{X}'-\mathbf{X}||_0∣∣XX0为汉明距离。攻击者的目标是找到X′∈SX\mathbf{X}'\in S_{\mathbf{X}}XSX满足f(X′)≠f(X)f(\mathbf{X}') \neq f(\mathbf{X})f(X)=f(X)

2.2 可认证鲁棒(Certified Robustness)

形式化地,如果模型fff能够对所有可能的单词替换扰动一致地给出正确的预测,即,

y=f(X)=f(X′),∀X′∈SX,(1) y=f(\mathbf{X})=f(\mathbf{X}'), \forall \mathbf{X}' \in S_{\mathbf{X}}, \tag1 y=f(X)=f(X),XSX,(1)
其中yyy代表样本X\mathbf{X}X的真实标签。除非有额外的结构信息可用,否则这需要检查SXS_{\mathbf{X}}SX中的所有候选句子,其数量随RRR呈指数增长。本文主要考虑最具挑战性的R=LR=LR=L的情况。

2.3 验证平滑分类器(Certifying Smoothed Classifiers)

本文的思想是用一个更加平滑的模型来替代fff。平滑分类器fRSf^{RS}fRS通过在输入空间引入随机扰动构建,
fRS=arg max⁡c∈YPZ∼ΠX(f(Z)=c) f^{RS}=\argmax_{c \in \mathcal{Y}} \mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c) fRS=cYargmaxPZΠX(f(Z)=c)

其中,ΠXΠ_{\mathbf{X}}ΠX是输入空间上的概率分布,它规定了X\mathbf{X}X周围的随机扰动。我们将fRSf^{RS}fRS对标签ccc的置信度定义为:
gRS(X,c):=PZ∼ΠX(f(Z)=c)。 g^{RS}(\mathbf{X},c):=\mathbb{P}_{\mathbf{Z} \sim Π_{\mathbf{X}}} (f(\mathbf{Z})=c)。 gRS(X,c):=PZΠX(f(Z)=c)

需要合适地选择扰动分布,以便fRS(X)f^{RS}(\mathbf{X})fRS(X)近似f(X)f(\mathbf{X})f(X),同时也要足够随机,使得fRSf^{RS}fRS足够光滑,以便进行鲁棒性验证。

本文将ΠXΠ_{\mathbf{X}}ΠX定义为在随机词替换集合上的均匀分布(uniform distribution)。具体而言,设PxP_{x}Px是词汇表中单词xxx的扰动集,这与同义词集SxS_xSx不同。本文通过余弦相似度计算GLOVE上的top K最近邻居来构建PxP_{x}Px,其中KKK是一个超参数,控制扰动集合的大小。

对于句子X=x1,...,xL\mathbf{X}=x_1,...,x_LX=x1,...,xL,sentence-level的扰动分布ΠXΠ_{\mathbf{X}}ΠX被定义为每个单词等概率地被独立随机地扰动为PxiP_{x_i}Pxi中的词,即,

ΠX(Z)=Πi=1LI{zi∈Pxi}∣Pxi∣, Π_{\mathbf{X}}(\mathbf{Z})= Π_{i=1}^{L}\frac{\mathbb{I}\{z_i \in P_{x_i}\}}{|P_{x_i}|}, ΠX(Z)=Πi=1LPxiI{ziPxi},
其中,Z=z1,...,zL\mathbf{Z}=z_1,...,z_LZ=z1,...,zL是扰动文本,∣Pxi∣|P_{x_i}|Pxi代表PxiP_{x_i}Pxi的大小。I{.}\mathbb{I}\{.\}I{.}指示函数

指示函数的含义是:当输入为True的时候,输出为1,输入为False的时候,输出为0。

请注意,随机扰动Z\mathbf{Z}Z和对抗候选样本X′∈SX\mathbf{X}' \in S_{\mathbf{X}}XSX是不同的。

3 可认证鲁棒

fRSf^{RS}fRS鲁棒的可认证的条件是,对于任意的X′∈SX\mathbf{X}' \in S_{\mathbf{X}}XSX,都有y=fRS(X′)y=f^{RS}(\mathbf{X}')y=fRS(X),其中yyy是真实标签。满足它的充分条件是,

min⁡X′∈SXgRS(X′,y)≥max⁡X′∈SXgRS(X′,c),∀c≠y, \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',y) \geq \max_{\mathbf{X}' \in S_{\mathbf{X}}}g^{RS}(\mathbf{X}',c), \forall c \neq y, XSXmingRS(X,y)XSXmaxgRS(X,c),c=y,

其中,gRS(X′,y)g^{RS}(\mathbf{X}',y)gRS(X,y)的下边界大于任意c≠yc \neq yc=ygRS(X′,c)g^{RS}(\mathbf{X}',c)gRS(X,c)的上边界。因此,关键步骤是计算任意c∈Yc \in \mathcal{Y}cYX′∈SX\mathbf{X}' \in S_{\mathbf{X}}XSXgRS(X′,c)g^{RS}(\mathbf{X}',c)gRS(X,c)的上下边界。

3.1 Theorem 1(可认证的上/下边界)

假设对于每个单词xxx及其同义词x′∈Sxx' \in S_{x}xSx,扰动集PxP_xPx满足∣Px∣=∣Px′∣|P_{x}|=|P{x'}|Px=Px。我们定义,

qx=min⁡x′∈Sx∣Px∩Px′∣/∣Px∣, q_x=\min_{x' \in S_{x}} |P_x \cap P_{x'}|/|P_{x}|, qx=xSxminPxPx∣/∣Px,

其中,qxq_xqx表示两个不同扰动集之间的重叠。对于一个给定的句子X=x1,...,xL\mathbf{X}=x_1,...,x_LX=x1,...,xL,我们根据qxq_xqx排列所有的单词,使qxi1≤qxi2≤...≤qxiLq_{{x_i}_1} \leq q_{{x_i}_2} \leq ... \leq q_{{x_i}_L}qxi1qxi2...qxiL。可以得到,

min⁡X′∈SXgRS(X′,c)≥max⁡(gRS(X,c)−qX,0) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \geq\max(g^{RS}(\mathbf{X},c)-q_{\mathbf{X}},0) XSXmingRS(X,c)max(gRS(X,c)qX,0)

max⁡X′∈SXgRS(X′,c)≤min⁡(gRS(X,c)+qX,1). \max_{\mathbf{X}' \in S_{\mathbf{X}}} g^{RS}(\mathbf{X}',c) \leq\min(g^{RS}(\mathbf{X},c)+q_{\mathbf{X}},1). XSXmaxgRS(X,c)min(gRS(X,c)+qX,1).

其中qX:=1−Πj=1Rqxijq_{\mathbf{X}}:=1-Π_{j=1}^{R}q_{{x_{i}}_j}qX:=1Πj=1Rqxij。这表示,对于任意c∈Yc \in \mathcal{Y}cY,有∣gRS(X′,c)−gRS(X,c)∣≤qX|g^{RS}(\mathbf{X}',c)-g^{RS}(\mathbf{X},c)|\leq q_{\mathbf{X}}gRS(X,c)gRS(X,c)qX。主要思想是,通过随机平滑,对于任意X′∈SX\mathbf{X}' \in S_{\mathbf{X}}XSXgRS(X′,c)g^{RS}(\mathbf{X}',c)gRS(X,c)gRS(X,c)g^{RS}(\mathbf{X},c)gRS(X,c)的差距最多是qXq_{\mathbf{X}}qX

因此,gRS(X′,c)g^{RS}(\mathbf{X}',c)gRS(X,c)的上边界上\下边界为gRS(X,c)±qXg^{RS}(\mathbf{X},c) \pm q_{\mathbf{X}}gRS(X,c)±qX

这避免了困难的对抗性优化,而只需要在原始输入上评估gRS(X,c)g^{RS}(\mathbf{X},c)gRS(X,c)

Theorem 1 证明

Lemma 1X{X}X映射为0或1的全部有界函数定义为H[0,1]\mathcal{H}_{[0,1]}H[0,1],对所有h∈H[0,1]h \in \mathcal{H_{[0,1]}}hH[0,1],定义ΠX[h]=EZ∼ΠX[h(Z)]Π_{{X}}[h]=\mathbb{E}_{Z \sim Π_{{X}}}[h(Z)]ΠX[h]=EZΠX[h(Z)]

那么,对于任意X{X}X和任意x∈Yx \in \mathcal{Y}xY,都有

min⁡X′∈ΠXgRS(X′,c)≥min⁡h∈H[0,1]min⁡X′∈ΠX{ΠX′[h]s.t.ΠX[h]=gRS(X,c)}:=glowRS(X,c) \min_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \geq \min_{h \in \mathcal{H}_{[0,1]}}\min_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{low}(X,c) XΠXmingRS(X,c)hH[0,1]minXΠXmin{ΠX[h]s.t.ΠX[h]=gRS(X,c)}:=glowRS(X,c)
max⁡X′∈ΠXgRS(X′,c)≤max⁡h∈H[0,1]max⁡X′∈ΠX{ΠX′[h]s.t.ΠX[h]=gRS(X,c)}:=gupRS(X,c) \max_{{X}' \in Π_{{X}}}g^{RS}({X}',c) \leq \max_{h \in \mathcal{H}_{[0,1]}}\max_{{X}' \in Π_{{X}}}\{Π_{{X}'}[h] \quad s.t. \quadΠ_{{X}}[h]=g^{RS}(X,c) \}:=g^{RS}_{up}(X,c) XΠXmaxgRS(X,c)hH[0,1]maxXΠXmax{ΠX[h]s.t.ΠX[h]=gRS(X,c)}:=gupRS(X,c)

Lemma 1 证明
证明很直接。定义h0[X]=I{f(X)=c}h_{0}[X]=\mathbb{I}\{f(X)=c\}h0[X]=I{f(X)=c},由于
gRS(X,c)=PZ∼ΠX(f(Z)=c)=ΠX[h0]. g^{RS}(X,c) = \mathbb{P}_{Z∼Π_X} (f(Z) = c) = Π_X[h_0]. gRS(X,c)=PZΠX(f(Z)=c)=ΠX[h0].

因此,h0h_0h0满足优化中的约束,显然
gRS(X′,c)=ΠX′[h0]≥min⁡{ΠX′[h]s.t.ΠX[h]=gRS(X,c)} g^{RS}(X', c) = Π_X' [h_0] ≥ \min \{Π_{X'} [h] \quad s.t. \quad Π_X[h] = g^{RS}(X, c)\} gRS(X,c)=ΠX[h0]min{ΠX[h]s.t.ΠX[h]=gRS(X,c)}
在两边取min⁡X′∈SX\min_{X'} \in S_XminXSX得出下界。上界遵循相同的推导。
因此,问题归结为优化问题的推导边界。

数学符号含义
XXX输入样本
ΠXΠ_XΠX输入空间上的概率分布,规定了XXX周围的随机扰动
gRS(X,c)g^{RS}(X, c)gRS(X,c)平滑分类器输出样本XXX关于标签ccc的置信度,等价于PZ∼ΠX(f(Z)=c)\mathbb{P}_{Z\sim Π_X} (f(Z) = c)PZΠX(f(Z)=c)
hhh任意将输入映射到0或1的函数
EZ∼ΠX[h(Z)]\mathbb{E}_{Z∼Π_X}[h(Z)]EZΠX[h(Z)]函数hhh接收输入ZZZ产生的输出的期望,简写为ΠX[h]Π_{X}[h]ΠX[h]

3.2 Proposition1

对于一个句子X\mathbf{X}X及其标签yyy,我们定义,
yB=arg max⁡c∈Y,c≠ygRS(X,c). y_{B}=\argmax_{c \in \mathcal{Y}, c \neq y} g^{RS}(\mathbf{X}, c). yB=cY,c=yargmaxgRS(X,c).
然后,在定理1的条件下,我们可以验证,对于任意X′∈SX\mathbf{X}' \in S_{\mathbf{X}}XSX,都有f(X′)=f(X)=yf(\mathbf{X}')=f(\mathbf{X})=yf(X)=f(X)=y的条件是,

ΔX=gRS(X,y)−gRS(X,yB)−2qX>0.(2) \Delta_{\mathbf{X}}=g^{RS}(\mathbf{X},y)-g^{RS}(\mathbf{X},y_{B})-2q_{\mathbf{X}} >0. \tag2 ΔX=gRS(X,y)gRS(X,yB)2qX>0.(2)

因此,验证模型是否给出了一致正确的预测,只需检查ΔX\Delta_{\mathbf{X}}ΔX是否为正,这可以很容易地通过蒙特卡罗估计实现。如下图所示:
本文鲁棒性验证的流程

3.3 估计gRS(X,c)g^{RS}(\mathbf{X},c)gRS(X,c)ΔX\Delta_{\mathbf{X}}ΔX

可以通过蒙特卡洛估计法来估计gRS(X,c)g^{RS}(\mathbf{X},c)gRS(X,c),即∑i=1nI{f(Z(i)=c)}/n\sum^{n}_{i=1} \mathbb{I}\{f(\mathbf{Z}^{(i)}=c)\}/ni=1nI{f(Z(i)=c)}/n,其中,Z(i)\mathbf{Z}^{(i)}Z(i)ΠXΠ_{\mathbf{X}}ΠX中独立同分布的样本。此外,ΔX\Delta_{\mathbf{X}}ΔX可以相应地近似。
利用浓度不等式,我们可以量化非渐近逼近误差(non-asymptotic approximation error)。这允许我们构建严格的统计过程,以拒绝零假设(null hypothesis),即,以给定的显著性水平(例如,1%),fRSf^{RS}fRSX\mathbf{X}X处未被证明鲁棒(即ΔX≤0\Delta_{\mathbf{X}} \leq 0ΔX0)。

3.4 紧密性

一个关键问题是边界是否足够紧密。下一个定理表明,定理1中的上下界是紧的,不能进一步改进,除非获得模型的进一步信息。

3.5 Theorem2 (紧密性)

假设定理1的条件成立。对于满足命题1中定义的fRS(X)=yf^{RS}(\mathbf{X})=yfRS(X)=yyBy_ByB的模型fff,存在一个模型f∗f_{*}f及其相关的平滑模型g∗RSg^{RS}_{*}gRS,当c=yc=yc=yc=yBc=y_Bc=yB时,满足g∗RS(X,c)=gRS(X,c)g^{RS}_{*}(\mathbf{X},c)=g^{RS}(\mathbf{X},c)gRS(X,c)=gRS(X,c),并且,

min⁡X′∈SXg∗RS(X′,y)=max⁡(g∗RS(X,y)−qX,0) \min_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y) =\max(g_{*}^{RS}(\mathbf{X},y)-q_{\mathbf{X}},0) XSXmingRS(X,y)=max(gRS(X,y)qX,0)

max⁡X′∈SXg∗RS(X′,yB)=min⁡(g∗RS(X,yB)+qX,1). \max_{\mathbf{X}' \in S_{\mathbf{X}}} g_{*}^{RS}(\mathbf{X}',y_B) =\min(g_{*}^{RS}(\mathbf{X},y_B)+q_{\mathbf{X}},1). XSXmaxgRS(X,yB)=min(gRS(X,yB)+qX,1).

换句话说,如果我们只通过gRS(X,y)g^{RS}(\mathbf{X},y)gRS(X,y)gRS(X,yB)g^{RS}(\mathbf{X},y_B)gRS(X,yB)的评估来访问gRSg^{RS}gRS,那么定理1中的边界的紧密性是我们尽最大可能达到的,因为通过可用的信息,我们无法区分定理2中的gRSg^{RS}_{}gRSg∗RSg^{RS}_{*}gRS

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

黄嘉成

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值