LWN:futex robust list 的 API 变更

关注了就能看到更多这么棒的文章哦~

Jake Edge
 Gemini translation
 原文链接:https://lwn.net/Articles/1056387/ 

由 Jake Edge 发表
 2026 年 2 月 4 日 


LPC 

健壮 futex (robust futex) 内核 API 是一种让用户空间 (user-space) 程序确保其持有的锁在退出时能被正确清理的方法。但正如 André Almeida 在东京举行的 2025 年 Linux Plumbers Conference (LPC) 的 “Gaming on Linux” 微型会议 (microconference) 会话 (session) 中所描述的那样,该 API 存在许多不同的问题。他提出了一些关于新 API 的想法,旨在解决其中的许多问题,并希望与参会者进行讨论;此外,他还想谈谈一个难以触发的竞态条件 (race condition)。 

“几年前,我为 futex 开发了一个新 API,”Almeida 在开场时说道,“那么为什么不也为健壮列表开发一个新 API 呢?”他所指的是在 2022 年并入 5.16 内核的新 futex API,其形式为 futex_waitv() 系统调用 (system call)(文档)。futex2 API 的其他一些部分(相关文章)已随 2024 年的 Linux 6.7 发布。 

SteamOS 发行版 (distribution) 是 Linux 游戏开发工作的主要阵地,其游戏所使用的二进制接口 (ABI) 是 x86 架构上的 Windows ABI。虽然大多数游戏是为该 ABI 构建的,但 SteamOS 也可以在 Arm64 上运行,这带来了“许多有趣的挑战”。除了提供 Windows ABI 的 Proton 兼容层 (compatibility layer) 之外,它还添加了 FEX 模拟器 (emulator) 以在 Arm64 处理器上运行 x86 二进制文件。这对内核的各个领域都有影响,包括 futex、内存管理和文件系统。 

FEX 是一种即时编译 (JIT, just-in-time) 编译器,用于将 32 位和 64 位的 x86 指令转换为 Arm64 机器代码。作为其中的一部分,当它发现 syscall 指令时,需要将其翻译为 Arm64 系统调用,但这对于某些 x86-32 系统调用的效果并不理想。FEX 项目有一个维基页面描述了这些存在问题的调用,其中之一就是 set_robust_list()。 

set_robust_list() 用于避免当 futex 持有者在释放锁之前死亡时出现的问题,这种情况会导致等待该锁的其他线程陷入饥饿。因此,当线程获取锁时,它可以将该锁添加到健壮列表中,这是一个在用户空间维护的链表 (linked list)。线程使用 set_robust_list() 告知内核该列表头的位置。内核中线程的退出路径利用这些信息来唤醒列表中每个 futex 的所有等待线程;它还会为每个 futex 添加 FUTEX_OWNER_DIED 标记。他提到的另一个细节是,在执行操作(获取或释放锁)期间,但在链表更新之前,futex 可以被放入列表头的一个“待处理 (pending)”字段中,以便在此时发生崩溃时仍能进行清理。 

为什么要变更?

他说,出于几个原因,需要一个新的 API。首先,与 x86 不同,Arm64 不同时具备 32 位和 64 位系统调用,因此模拟 32 位应用程序非常困难——因为缺少“兼容 (compat)”系统调用。例如,64 位系统调用无法处理 32 位的健壮列表,因为由于指针大小 (pointer size) 不同,它无法解析该列表。因此需要一个新接口,允许用户空间通知内核这是 32 位还是 64 位的健壮列表,以便内核能够正确解析。 

现有接口的另一个缺点是,一个线程只能设置一个健壮列表,但 FEX 也想使用健壮 futex。如果应用程序已经使用了它们,FEX 就必须在两者之间做出选择。新接口将提供一种为一个线程设置多个列表头的方法。 

目前,内核处理的健壮列表项有 2048 个的限制,这是为了避免陷入无限循环。但这一限制从未作为 API 的一部分记录在案,因此用户空间程序并不知情,这导致了针对 GNU C 库的一个错误报告 (bug report)。他说,在新的 API 中,要么应该将该限制记录并作为 API 的一部分公开,要么应该通过引入针对循环列表的对策来取消这一限制。 

最后一个问题“更有趣”但也“有点难以解释”;这是一个在解锁 futex 时可能发生的竞态条件 (race condition)。解锁健壮 futex 的正常步骤如下: 

  1. 将 futex 的地址放入健壮列表的待处理 (pending) 槽位中

  2. 从健壮列表中移除该 futex

  3. 执行底层解锁,清除 futex 并唤醒等待它的任何线程

  4. 清除待处理槽位

然而,在第三步和第四步之间,另一个线程可能会认为自己是该 futex 的唯一使用者,从而决定释放它。那个线程随后可能会在原 futex 所在的同一位置分配内存。接着,正准备执行第四步的原线程死亡,导致内核在 futex 处写入 FUTEX_OWNER_DIED,从而损坏了某些随机内存。这很难复现,但它确实会发生。 

Almeida 表示,他不确定该如何解决这个问题。也许将退出路径与线程发起的所有 mmap() 和 munmap() 调用进行串行化是一种可能。另一个想法可能是以某种方式改变围绕待处理字段的 API,以避免这种竞争。前一天他参加了可扩展调度器类 (sched_ext) 微型会议,这让他想到也许可以编写一个专门的调度器来可靠地复现该问题;这将有助于修复过程,也可以转化为测试用例。 

新 API

他在会话中提出的 API 似乎比他在 2025 年 11 月(LPC 前几周)发布的第 6 版补丁集又有所演进。它包含两个新的系统调用: 

●●●
..set_robust_list2(struct.robust_list_head.*head,.unsigned.int index,
...................unsigned.int cmd,.unsigned.int flags);
...................
..get_robust_list2(int.pid,.void **head_ptr,
...................unsigned.int index,.unsigned.int flags);

index 参数用于区分不同的列表,以便库和应用程序可以拥有各自的列表。set_robust_list2() 的 cmd 参数可以是 CREATE_LIST_32(或 64),以使用 head 指针创建相应位数 (bitness) 的列表;在这种情况下,调用会返回一个与该列表关联的未使用索引。通过传递感兴趣的索引,可以使用 SET_LIST_32(或 64)命令覆盖列表。LIST_LIMIT 命令返回每个任务支持的列表数量。(所有这些命令名称的全称据推测都会包含 FUTEX_ROBUST_LIST_CMD_ 部分。)get_robust_list2() 将仅返回给定 pid 和 index 的健壮列表头(存入 head_ptr)。 

讨论

随后,Almeida 开始征求提问和评论。Liam Howlett 指出,健壮列表的退出路径需要内核中的内存不足 (OOM, out-of-memory) 处理延迟,因此可以通过将 OOM 处理延迟设为零并触发任务的 OOM-kill 来更轻松地复现该竞态条件。glibc 维护者 Carlos O'Donell 表示,虽然这可能是真的,但这并不能真正引向竞态条件的解决方案,他和 musl libc 项目的 Rich Felker 都曾研究过这一问题。如果要推出新的 API,那么这就是坐下来研究出妥善解决方案,并确定现有 C 库如何随着时间的推移过渡到新接口的“绝佳机会”。 

“情况还会变得更糟,”Howlett 说道。正在退出的任务可能会被控制组 (control-group, cgroup) 子系统冻结,这意味着 OOM 处理程序可能需要无限期等待才能清理现场。他说,这是在创建新 API 的过程中应该理清的另一个环节。 

O'Donell 说,新 API 的使用者需要能够注册与内核共享的结构体中的位数,这很有道理。他询问是否应该考虑 32 位或 64 位以外的大小,但 Howlett 指出提案 API 中有一个未使用的 flags 参数,如果需要的话可以使用。 

对话转回了 OOM 处理程序的延迟,似乎没人能完全理解它。O'Donell 想知道这是否是为了修复 Almeida 所担心的竞态条件在其他背景下出现时所做的尝试。Howlett 表示,他认为这是为了在退出处理代码处理健壮列表之前,阻止 OOM killer 释放持有锁的内存。Sebastian Siewior 表示他也不清楚为什么要添加这个延迟,但他会将其列入调查清单。 

关于 OOM-killer 延迟的起因和方式还有一些进一步的讨论,但会议时间已到。感兴趣的读者可能想参考演讲的 YouTube 视频和 幻灯片。总的来说,参会者似乎一致认为需要新的 API,并且没有听到对其拟议形式的实质性抱怨,但在进入上游之前显然仍有一些细节需要敲定。 

[ 我要感谢我们的差旅赞助商 Linux 基金会,感谢他们资助我前往东京参加 Linux Plumbers Conference。] 

LWN 评论概述:

文章底部的评论主要探讨了跨架构兼容性和多运行时协作的问题。一位用户询问是否可以增加对大端和小端(endianness)转换的支持,因为 QEMU 的用户态模式在模拟异构架构时也会遇到健壮列表布局不匹配的问题。另一位用户则关注多个用户空间运行时之间的协作,指出目前每个线程只能有一个健壮列表,而 libc 并没有提供与其他原生 futex 使用者集成的机制,并对比了已经实现多用户支持的 rseq 接口。 

  全文完
 LWN 文章遵循 CC BY-SA 4.0 许可协议。 

欢迎分享、转载及基于现有协议再创作~

长按下面二维码关注,关注 LWN 深度文章以及开源社区的各种新近言论~

内容概要:本文提出了一种基于非合作博弈理论的居民负荷分层调度模型,并结合双层鲸鱼优化算法(Two-level Whale Optimization Algorithm)进行高效求解,模型与算法均通过Matlab代码实现。研究针对电力系统中居民侧用电负荷的复杂调度问题,引入非合作博弈机制刻画各用户之间的利益竞争关系,实现负荷的分层优化分配;同时设计双层优化架构,上层优化资源配置,下层模拟用户自主决策行为,提升了模型的实用性与合理性。通过智能优化算法求解多层级、非凸非线性的博弈模型,有效提高了调度方案的收敛性与全局寻优能力,适用于现代智能电网中的需求侧管理与能源优化场景。; 适合人群:具备电力系统基础理论知识和Matlab编程能力,从事智能电网、能源优化调度、需求侧管理、博弈论应用等方向的科研人员、高校研究生及工程技术人员。; 使用场景及目标:①应用于居民区电力负荷的分层优化调度系统设计与仿真分析;②为非合作博弈在多主体能源系统建模中的应用提供方法论支持;③利用双层鲸鱼算法解决具有嵌套结构的复杂双层优化问题,提升求解效率与调度方案的可行性。; 阅读建议:建议读者结合提供的Matlab代码深入理解模型构建逻辑与算法实现流程,重点关注博弈模型的效用函数设计、纳什均衡求解思路以及双层优化结构的迭代机制,宜配合实际用电数据开展复现实验以验证模型有效性与鲁棒性。
内容概要:本文围绕基于自适应神经模糊推理系统(ANFIS)智能控制器的可再生能源微电网功率管理系统展开研究,结合Simulink仿真实现,深入探讨了微电网中功率的智能调控与经济机组组合调度问题。通过引入ANFIS控制器,有效应对风能、光伏等可再生能源出力的波动性与不确定性,提升系统运行的稳定性与电能质量。研究内容涵盖微电网多源协调控制策略、功率平衡管理、优化调度模型构建及仿真验证,实现了对分布式电源、储能系统和负荷的协同优化,兼顾经济性与可靠性目标,并通过仿真平台验证了所提方法的有效性与优越性。; 适合人群:具备电力系统、自动化或新能源相关专业背景,熟悉Matlab/Simulink仿真环境,从事微电网能量管理、智能控制、能源优化等领域研究的研究生、科研人员及工程技术人员。; 使用场景及目标:①用于高比例可再生能源接入场景下的微电网能量管理系统研发与教学实践;②为实现微电网功率稳定控制与经济高效运行提供先进的智能控制解决方案;③支撑高水平学术论文复现、科研课题攻关及实际工程项目的仿真验证与方案优化。; 阅读建议:建议结合提供的Simulink模型与相关代码进行动手实践,重点关注ANFIS控制器的设计流程、规则库构建与参数调优方法,并通过与传统PID或MPC控制策略的对比实验,深入理解其在动态响应与鲁棒性方面的优势。同时可进一步拓展文中提出的优化调度逻辑,应用于多目标、多约束的复杂实际应用场景中。
内容概要:本文档聚焦于“直流电机双闭环控制Matlab仿真”,系统阐述了基于Matlab/Simulink平台实现直流电机双闭环控制系统(主要包括速度环与电流环)的设计与仿真全过程。通过构建直流电机的数学模型,结合PI控制器进行调控,实现对电机转速和电枢电流的高精度动态控制,验证控制策略的稳定性与响应性能。文档详细介绍了仿真模型的搭建流程、关键参数的整定方法、系统动态波形的分析手段以及仿真结果的有效性验证,体现了经典自动控制理论在实际电机系统中的工程应用,是电机控制与电力电子技术相结合的典型研究案例。; 适合人群:具备自动控制原理、电机与拖动基础、电力电子技术和Matlab/Simulink仿真能力的电气工程、自动化、机电一体化等专业的本科生、研究生及从事电机驱动系统研发的工程技术人员。; 使用场景及目标:①作为高校课程设计或实验教学材料,帮助学生深入理解双闭环调速系统的工作机理与工程实现;②服务于科研项目,为新型电机控制算法(如滑模、模糊PID等)的开发与性能对比提供基础仿真验证平台;③作为工业界产品前期设计的仿真工具,用于评估不同控制策略在动态响应、抗干扰能力和稳态精度方面的可行性。; 阅读建议:建议读者在学习过程中紧密结合自动控制理论知识,亲手在Simulink环境中搭建完整的双闭环仿真模型,通过反复调整PI控制器的比例与积分参数,观察并分析转速、电流的阶跃响应曲线,从而深刻理解反馈控制的本质、系统稳定性条件以及参数整定对动态性能的影响,进而掌握电机控制系统的设计精髓。
内容概要:本文研究了基于Benders分解与输电网运营商(TSO)和配电网运营商(DSO)协调机制的不确定环境下输配电网双层优化模型,旨在提升高比例可再生能源接入背景下电网系统的协调性与鲁棒性。模型上层以系统整体经济性为目标进行优化调度,下层采用Benders分解实现TSO与DSO之间的信息交互与协同决策,通过引入割平面迭代机制保障求解的收敛性与全局最优性。研究充分考虑新能源出力与负荷需求的不确定性,构建了具有强适应性的双层优化框架,并基于Matlab完成了模型的编程实现与仿真验证,有效解决了多主体、多层级、多不确定性因素耦合下的电力系统优化调度难题。; 适合人群:具备电力系统分析、运筹学与优化理论基础,熟悉Matlab编程环境,从事智能电网、能源互联网、分布式能源集成、电力市场等方向的研究生、科研人员及工程技术人员。; 使用场景及目标:①研究高渗透率可再生能源条件下输配电网协同优化调度策略;②掌握Benders分解在电力系统双层优化建模中的应用方法与实现技巧;③构建TSO-DSO多主体协调机制,实现跨层级电网资源的高效互动与决策解耦;④提升对不确定性建模、分解算法设计及大规模优化问题求解能力。; 阅读建议:建议读者结合Matlab代码逐模块剖析模型构建流程,重点理解Benders割的生成逻辑、主从问题的信息传递机制及收敛判据设定,推荐在标准IEEE测试系统上复现实验以深入掌握模型特性与算法性能。
内容概要:本文系统研究了基于灰狼优化算法(GWO)优化Elman神经网络的方法,并提供了完整的Matlab代码实现。研究重点在于利用灰狼优化算法强大的全局搜索能力,对Elman神经网络的关键参数进行智能优化,从而克服传统训练方法易陷入局部最优的缺陷,显著提升模型在时序预测与非线性系统建模任务中的精度与稳定性。文章详细阐述了Elman网络的动态反馈机制及其在处理时间序列数据方面的优势,构建了GWO与Elman相结合的混合预测框架,涵盖了从模型搭建、参数寻优、仿真测试到结果分析的全流程,特别适用于风电功率预测、电力负荷预测等具有强时变性和不确定性的工程应用场景。; 适合人群:具备一定Matlab编程能力和神经网络基础知识,从事智能优化算法、时间序列预测、电力系统分析或新能源出力预测等相关领域的研究生、科研人员及工程技术人员。; 使用场景及目标:①掌握灰狼优化算法在神经网络超参数优化中的具体实施路径与技术细节;②深入理解Elman递归神经网络与群体智能优化算法融合的建模范式;③将其应用于风电、光伏等新能源发电功率预测及复杂动态系统的建模与仿真,提升预测性能。; 阅读建议:建议读者结合所提供的Matlab代码进行动手实践,重点关注GWO算法与Elman网络的接口设计、适应度函数构建及参数优化迭代过程,可通过调整数据集或迁移至其他预测场景以深化理解和验证模型泛化能力。
源码直接下载地址: https://pan.quark.cn/s/a4b39357ea24 JMeter的录制方法及过滤策略、线程组构成要素是什么? JMeter能够借助第三方录制工具(如BadBoy)或其自带的录制功能来完成录制工作,JMeter的录制机制:是借助HTTP代理服务器来捕获用户在操作网站时产生的链接信息。JMeter允许在配置HTTP代理服务器时,排除掉非必要的CSS、GIF等资源,以此减轻不必要的负担。 线程组涵盖:线程组的名称标识、附加注释说明、线程组内的用户数量、线程组完成请求的时间分配、循环执行次数、时间调度机制 【JMeter性能测试详解】 JMeter是一款功能强大的性能测试软件,常用于模拟大规模用户同时访问Web应用,用以衡量系统的性能表现和稳定性。接下来将具体说明JMeter的操作方法、线程组的设置以及性能测试的重要环节。 **JMeter录制与过滤** JMeter可以通过BadBoy等外部工具或其自带的HTTP代理服务器来记录用户的行为。其录制原理是JMeter作为HTTP代理,拦截用户浏览器发出的所有网络请求。在配置代理服务器时,能够过滤掉不必要的CSS、GIF等静态资源,以减少无效的负载。 **线程组配置** 线程组是JMeter测试计划的核心部分,包含以下几个关键参数: 1. **线程组名**:用于区分测试计划中的不同测试区域。 2. **注释**:用于记录测试目标或注意事项。 3. **线程数**:用于模拟并发用户的数量。 4. **循环次数**:每个线程需要执行的循环次数,可以设置为无限循环。 5. **Ramp-up period**:规定所有线程启动的时间跨度,旨在平滑增加负载。 6. **定时器**:例如思考时间或...
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值