0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读大型语言模型的偏见

颖脉Imgtec 2026-04-15 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在一项新的研究中,研究人员发现了 LLM 中某种偏见的根本原因,为更准确、更可靠的 AI 系统铺平了道路。

研究表明,大型语言模型(LLM)往往倾向于过分强调文档或对话开头和结尾的信息,而相对忽略中间部分。这种“位置偏差”意味着,若律师使用LLM支持的虚拟助手检索30页宣誓书中的某个短语,该短语位于第一页或最后一页时被找到的可能性会大得多。

麻省理工学院的研究人员揭示了这种现象背后的机制。他们构建了一个理论框架,用以探究信息在构成LLM基础的机器学习架构中的流动方式。研究发现,某些控制模型处理输入数据方式的设计选择可能会引发位置偏差。实验表明,模型架构,特别是那些影响信息在模型内词元间传播方式的部分,可能会导致或加剧位置偏差,而训练数据同样可能是造成该问题的一个因素。

除了查明位置偏差的根源外,他们的框架还可用于在未来模型设计中诊断和纠正这一问题。这有望使聊天机器人在长时间对话中更好地保持主题连贯性,让医疗AI系统在处理大量患者数据时推理更加公平,也能使代码助手更均衡地关注程序的所有部分。

“这些模型如同黑匣子,因此作为LLM用户,您或许不会意识到位置偏差可能导致模型表现不一致。您可能仅按照任意顺序向模型提供文档,并期望其正常运行。然而,通过深入理解这些黑匣子模型的潜在机制,我们能够针对性地解决其局限性,从而改进模型性能。”麻省理工学院数据、系统和社会研究所(IDSS)和信息与决策系统实验室(LIDS)的研究生、该研究论文的第一作者Xinyi Wu说道。


1、分析注意力

8ca8eb86-3896-11f1-ab55-92fbcf53809c.png

Claude、Llama 和 GPT - 4 等 LLM(大型语言模型)由一种名为 transformer 的神经网络架构提供支持。Transformer 架构主要用于处理顺序数据,它能够将句子分解为称为词元的多个小块,随后通过学习这些词元之间的关系来预测下一个单词。由于其配备了注意力机制,这些模型在这一任务上表现得十分出色。注意力机制由互连的数据处理节点层构成,它允许词元有选择地关注或聚焦于相关的词元,从而更好地理解上下文。

然而,问题在于,若每个词元都要处理 30 页文档中的所有其他词元,那么计算成本将会迅速攀升,变得难以承受。鉴于此,工程师在构建 transformer 模型时,通常会运用注意力掩蔽技术来限定一个词元可以关注的词元范围。

以因果掩码为例,它仅允许一个词元关注其前面的词元。除此之外,工程师还会采用位置编码技术,以此帮助模型准确把握句子中每个词元所处的位置,进而提升模型的性能。

研究人员构建了一个基于图的理论框架,借此深入探究这些建模选择(包括注意力掩码和位置编码)对位置偏差所产生的影响。研究分析发现,因果掩码致使模型对输入内容的开头部分存在天然的偏爱,即便数据本身并无此倾向。即使前面的词元对于句子的整体含义作用不大,因果掩码仍会使 transformer 模型更加关注句子的开头部分。而且,随着模型规模的扩大以及注意力层数的增加,这种位置偏差还会进一步加剧,因为输入的早期部分在模型的推理过程中被更为频繁地使用。

不过,位置编码在这方面也发挥了一定的 “积极作用”,它能够将一个词元与附近的词元更紧密地联系起来,从而在一定程度上缓解位置偏差问题,遗憾的是,这种缓解效果在多层模型中往往会遭到稀释。

随着模型的不断增长,注意力机制的额外层级所引入的偏差会被逐渐放大,原因在于输入的早期部分在模型的推理过程中被更为频繁地使用。此外,位置编码技术通过将单词与其附近的单词紧密关联,能够将模型的注意力重新引导至正确的位置,进而减轻位置偏差,但这一效果在拥有众多注意力层的模型中可能会被削弱。需要指出的是,这些设计选择仅仅是导致位置偏差的原因之一,部分位置偏差或许还源自模型用于学习如何确定序列中单词优先级的训练数据。

“假如你知道你的数据在某种程度上存在偏差,那么除了对建模选择进行调整之外,你还应当对模型进行微调。”Wu 表示。


2、实验验证:U形模式下的“迷失在中间”

8ccb8a88-3896-11f1-ab55-92fbcf53809c.jpg

在建立理论框架后,研究人员展开了实验。实验中,他们系统性地改变正确答案在文本序列中的位置,以完成信息检索任务。

实验揭示了一种 “迷失在中间” 现象,即检索精度呈现出 U 形模式。当正确答案位于序列开头时,模型性能最佳;越接近序列中间,性能下降得越显著;而当正确答案接近序列末尾时,性能又会有所回升。

总体而言,他们的研究指出,采用不同的掩码技术、减少注意力机制的额外层级或有针对性地运用位置编码,能够降低位置偏差,进而提升模型的准确性。

通过理论分析和实验探究,研究人员展现了模型设计选择带来的影响,凸显了在高风险应用里把握模型有效性的重要性,并且他们打算继续深入研究位置编码及相关策略,进一步挖掘位置偏差的利用潜力。斯坦福大学教授 Amin Saberi 对团队在理解 Transformer 注意力机制上取得的成果予以高度评价,认为该项工作不仅数学推导清晰严谨,而且对实际问题有着深刻洞察。


3、如何减少LLM在处理信息时的位置偏差?

  • 改变注意力掩蔽技术

调整因果掩码等注意力掩蔽方式,避免模型对开头信息的过度偏重。或者采用其他先进的注意力掩蔽策略,让模型在关注前后文时更加均衡。

优化位置编码策略

改进位置编码方法,使其能更有效地将单词与附近单词联系起来,帮助模型准确把握每个位置信息的重要性,从而减轻位置偏差。

  • 调整模型架构

从注意力机制中删除不必要的层,或者重新设计模型架构,减少因层数过多导致的位置偏差放大效应。

微调模型

如果知道训练数据存在偏差,除了调整建模选择外,对模型进行针对性的微调,以纠正数据中可能引起的位置偏差。

平衡训练数据

确保训练数据的分布和结构合理,避免因数据本身的偏差导致模型学习到不均衡的位置信息权重。

  • 数据增强

通过数据增强技术,增加训练数据样式的多样性,让模型接触到更多不同位置信息重要的样本,从而提高模型对位置信息处理的鲁棒性。

  • 针对性的损失函数调整

在训练过程中,使用能够平衡不同位置信息重要性的损失函数,让模型在学习时更加关注中间位置的信息,减轻位置偏差。

本文转自:善思开悟科技
内容经过翻译、整理,核心观点来自https://news.mit.edu/2025/unpacking-large-language-model-bias-0617,作者Adam Zewe

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1819

    文章

    50275

    浏览量

    266717
  • 语言模型
    +关注

    关注

    0

    文章

    573

    浏览量

    11341
  • LLM
    LLM
    +关注

    关注

    1

    文章

    350

    浏览量

    1388
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工作流大模型节点说明

    模型节点是平台提供的基础节点之一,开发者可以在该节点使用大语言模型处理任务。 节点说明 大模型节点可以调用大型
    发表于 03-19 14:56

    什么是大模型,智能体...?大模型100问,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指参数规模巨大(通常达到数十亿甚至万亿级别)、使用海量数据训练而成的人工智能模型。2.什么是大语言模型
    的头像 发表于 02-02 16:36 1105次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    一文了解Mojo编程语言

    CPU、GPU 和其他加速器的支持,简化了并行编程模型。 渐进式类型系统 结合静态类型检查和类型推导,既保证编译时安全性,又保留动态类型的灵活性。 应用场景 AI 与机器学习 用于训练大型模型和实时推理
    发表于 11-07 05:59

    NVIDIA ACE现已支持开源Qwen3-8B小语言模型

    为助力打造实时、动态的 NPC 游戏角色,NVIDIA ACE 现已支持开源 Qwen3-8B 小语言模型(SLM),可实现 PC 游戏中的本地部署。
    的头像 发表于 10-29 16:59 1382次阅读

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3591次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    声智科技发布金融声学AI模型

    在瞬息万变的金融市场中,信息的获取与解读能力决定了投资的成败。然而,传统的文本分析手段,即使是依赖于先进的大型语言模型,也常常受限于精心设计的公司叙事和“言不由衷”的言辞。当企业高管在
    的头像 发表于 08-30 16:26 1623次阅读
    声智科技发布金融声学AI<b class='flag-5'>模型</b>

    AI输出“偏见”,人类能否信任它的“三观”?

    ,大语言模型(LLM)正悄无声息地传播全球各地的刻板印象。从性别歧视、文化偏见,到语言不平等,AI正在把人类的“偏见行李”打包、升级,并以看
    的头像 发表于 08-04 13:43 1431次阅读
    AI输出“<b class='flag-5'>偏见</b>”,人类能否信任它的“三观”?

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一个直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 641次阅读
    利用自压缩实现<b class='flag-5'>大型</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>高效缩减

    【教程】使用NS1串口服务器对接智普清言免费AI大语言模型

    AI大语言模型可以帮助我们解决各种问题,如翻译、写文案、创作诗歌、解决数学问题、情感陪伴等等。今天教大家如何使用NS1串口服务器模块实现对接智普清言AI大语言模型,实现与大
    的头像 发表于 06-12 19:33 907次阅读
    【教程】使用NS1串口服务器对接智普清言免费AI大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 1363次阅读

    Analog Devices LT6654 AMPS6-3.3器件参数特性解读 EDA模型 数据手册免费下载

    Analog Devices LT6654AMPS6-3.3器件参数特性解读 EDA模型 数据手册免费下载
    的头像 发表于 05-27 11:03 1152次阅读
    Analog Devices LT6654 AMPS6-3.3器件参数特性<b class='flag-5'>解读</b>  EDA<b class='flag-5'>模型</b> 数据手册免费下载

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型

    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大语言模型
    的头像 发表于 05-13 17:07 1826次阅读
    瑞萨RZ/V2H平台支持部署离线版DeepSeek -R1大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任
    的头像 发表于 04-30 18:34 1429次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    如何借助大语言模型打造人工智能生态系统

    语言模型(LLMs)正以革命性的姿态重塑我们与科技的互动模式。然而,由于其庞大的规模,它们往往属于资源密集型范畴,不仅大幅推高了成本,还造成了能源消耗的激增。本文深入剖析了大语言模型
    的头像 发表于 04-27 09:19 1203次阅读
    如何借助大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>打造人工智能生态系统