A Survey of Backdoor Attacks and Defenses on Large Language Models

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

本文是LLM系列文章,针对《A Survey of Backdoor Attacks and Defenses on Large Language Models: Implications for Security Measures》的翻译。

摘要

大型语言模型 (LLM) 弥合了人类语言理解和复杂问题解决之间的差距,在多项 NLP 任务上实现了最先进的性能,特别是在少样本和零样本设置中。尽管 LMM 的功效显而易见,但由于计算资源的限制,用户必须使用开源语言模型或将整个训练过程外包给第三方平台。然而,研究表明,语言模型容易受到潜在安全漏洞的影响,特别是在后门攻击中。后门攻击旨在通过毒害训练样本或模型权重,将目标漏洞引入到语言模型中,从而使攻击者能够通过恶意触发器操纵模型响应。虽然现有的后门攻击调查提供了全面的概述,但缺乏对专门针对LLM的后门攻击的深入研究。为了弥补这一差距并掌握该领域的最新趋势,本文通过重点关注微调方法,提出了一种关于 LLM 后门攻击的新颖视角。具体来说,我们系统地将后门攻击分为三类:全参数微调、参数高效微调和无微调攻击。基于大量评论的见解,我们还讨论了未来后门攻击研究的关键问题,例如进一步探索不需要微调的攻击算法,或开发更隐蔽的攻击算法。

1 引言

2 大型语言模型后门攻击的背景

3 大型语言模型的后门攻击

4 后门攻击的应用

5 关于防御后门攻击的简要讨论

<

低功耗蓝牙项目,需要一块懂省电的板

思澈 SF32LB52 芯片,BLE 协议栈深度优化,上手即开发

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值