【LLIE技术专题】Dark-Isp 一种Raw图像的微光检测方案

最新推荐文章于 2026-06-27 16:24:13 发布

原创最新推荐文章于 2026-06-27 16:24:13 发布 · 1.4k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#图像增强 #图像处理 #深度学习 #LLIE

低照度图像增强专栏收录该内容

33 篇文章

订阅专栏

在这里插入图片描述

Dark-ISP: Enhancing RAW Image Processing for Low-Light Object Detection（2025 ICCV）

该研究发表于 ICCV 2025，为解决低光环境下目标检测因图像质量退化（噪声放大、对比度降低）面临的挑战，复旦大学研究团队提出了Dark-ISP，聚焦于通过优化 RAW 图像处理提升低光目标检测性能。
参考资料如下：
[1]. 论文地址

一、研究背景

低光环境下的目标检测对自动驾驶、监控等现实应用至关重要，是核心技术需求。但是黑暗环境会导致图像严重退化，表现为噪声放大、对比度降低，大幅阻碍检测算法发挥作用。而依赖压缩动态范围的RGB图像（10/12bit to 8bit）进行检测，存在低比特深度信息丢失、ISP过程引入额外噪声的问题，低光场景效果差。
RAW图像能够保留传感器原始数据（如场景辐射度、噪声特性），细节和色彩信息更丰富，优于RGB图像，但现有处理方案存在不足——或量化为RAW-RGB导致信息丢失，或用复杂ISP框架增加计算成本，或依赖辅助数据限制适用性。因此本论文针对低光目标检测的场景需求、传统RGB方案局限及现有RAW处理缺陷，提出了更优方案-Dark-ISP。

二、方法

1.方案整体架构：聚焦RAW数据的端到端处理

在这里插入图片描述
Dark-ISP摒弃传统“RAW→RGB转换→检测”的割裂流程，采用“Bayer RAW图像→Dark-ISP模块→检测网络”的端到端架构（如上图所示），整体分为线性处理模块、非线性处理模块两大核心组件，且通过自增强机制（Self-Boost） 实现组件协同，最终输出适配检测网络的优化图像，同时全程保留RAW数据的高动态范围与物理信息，避免中间环节的信息丢失。

2. 核心组件设计：线性与非线性的 decoupled 优化

2.1 线性组件：动态映射实现“物理先验+内容感知”的传感器校准

线性组件对应传统ISP中的“白平衡、Binning、色彩空间转换”等线性操作，但其创新点在于将静态参数升级为动态自适应映射，具体流程如下：

基础线性变换建模：首先将传统ISP的三步线性操作（白平衡W、Binning合并B、色彩校正C）整合为单一矩阵 $\cdot B \cdot W$ （维度 $\mathbb{R}^{3×4}$ ），实现Bayer RAW图像（4通道）到RGB图像（3通道）的基础转换，公式为 $\cdot I$ （ $I$ 为输入RAW图像， $I^{'}$ 为线性输出图像）。
动态参数增强：为适配不同相机传感器与低光场景，引入双流注意力架构提取特征并优化矩阵 $P$ ：
- 局部特征流：对RAW图像 $I$ 进行多轮3×3卷积（×6），提取像素级局部特征 $F_l$ ，通过Local-Attention生成像素级动态矩阵 $P_l$ （维度 $\mathbb{R}^{(3×4)×H×W}$ ），实现“像素级适配”；
- 全局特征流：对图像进行池化与卷积，提取图像级全局特征 $F_g$ （维度 $\mathbb{R}^{C×H/16×W/16}$ ），通过Global-Attention生成图像级动态矩阵 $P_g$ （维度 $\mathbb{R}^{3×4}$ ），实现“场景级适配”；
自适应融合：将基础矩阵 $P$ 与动态矩阵 $P_l$ 、 $P_g$ 通过广播加法融合，得到最终动态矩阵 $P' = P_l + P_g + P$ ，最终线性输出为 $\cdot I$ 。该设计既保留相机物理成像规律，又能根据图像内容（如暗区细节、亮区分布）动态调整，为低光检测提供更精准的RGB基础图像。

2.2 非线性组件：多项式基函数实现“物理可解释”的色调映射

非线性组件负责调整图像色彩分布与对比度，解决低光环境下“暗区细节丢失、亮区过曝”问题，其核心是摒弃黑箱神经网络，采用物理可解释的多项式基函数：
在这里插入图片描述

基函数设计：针对低光场景需求，设计一组非凸多项式基 $f_k(x)$ （ $k$ 为阶数，从1阶到8阶），所有基函数均满足“过(0,0)和(1,1)点”的约束，且曲率从近线性到强凹形渐变——凹形特性可实现“暗区像素值拉伸、亮区像素值压缩”，精准匹配低光图像增强需求（如上图所示）。
像素级系数学习：通过轻量级卷积网络（4轮3×3卷积+ReLU激活）对线性组件输出 $I^{'}$ 进行处理，预测像素级系数 $C_k(i,j)$ （ $(i, j)$ 为像素坐标），系数决定不同基函数在该像素处的权重。
非线性变换计算：每个像素的最终输出由“系数-基函数加权和”得到，公式为 $\mathcal{F}(x_{ij}) = \sum_{k=0}^n C_k(i,j) f_k(x_{ij})$ ，其中 $x_{ij}$ 为像素原始值。该变换既可保证增强效果，又避免传统黑箱模型的不可解释性。

3. 关键机制：Self-Boost正则化强化模块协同

Self-Boost正则化模块的设计：利用非线性组件输出的“优化后图像”（更贴近检测需求的理想结果），反向推导线性组件应输出的“理想中间图像”，再通过损失约束迫使线性组件的实际输出向该理想状态对齐。这种“以最终目标反推中间过程”的逻辑，让线性组件不再孤立优化，而是与非线性组件形成“目标一致、相互引导”的协同关系，本质是一种“任务驱动的自增强正则化”。
Self-Boost正则化模块的核心是通过数学公式构建“非线性组件→线性组件”的反馈约束，具体分为三步：

3.1.1推导线性组件的“理想变换矩阵” $\tilde{P}$

非线性组件的输出为最终增强图像 $U$ （已完成暗区拉伸、亮区压缩，适配检测需求），线性组件的输入为原始Bayer RAW图像 $I$ 。由于线性组件的核心功能是将 $I$ 转换为中间RGB图像 $I^{'}$ （公式： $\cdot I$ ， $P^{'}$ 为线性组件的实际变换矩阵），且 $I^{'}$ 是 $U$ 的“前置基础图像”，因此可通过 $U$ 和 $I$ 反向推导线性组件应有的“理想变换矩阵” $\tilde{P}$ ，公式如下：
$\tilde{P} := U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1}$
其中：

$I^T$ 是RAW图像 $I$ 的转置矩阵， $\left(I \cdot I^T\right)^{-1}$ 是 $I$ 与其转置乘积的逆矩阵，确保推导的数值稳定性；
$\tilde{P}$ 的维度与线性组件实际矩阵 $P^{'}$ 一致（均为 $\mathbb{R}^{3×4}$ ），代表“能让线性组件输出 $I^{'}$ 、且后续经非线性组件处理后恰好得到理想增强图像 $U$ ”的最优变换矩阵。

3.1.2 构建余弦相似度损失函数 $\mathcal{L}_{sb}$

为迫使线性组件的实际矩阵 $P^{'}$ 向理想矩阵 $\tilde{P}$ 对齐，模块采用“余弦相似度约束”——通过计算 $P^{'}$ 与 $\tilde{P}$ 中对应元素的余弦相似度，最小化两者的差异，损失函数公式如下：
$\mathcal{L}_{sb} = \sum_{p_{i}' \in P', \tilde{p}_{i} \in \overline{P}}\left\| 1 - \cos \left(p_{i}', \tilde{p}_{i}\right)\right\|$
其中：

$p_i'$ 是 $P^{'}$ 中的任意元素， $\tilde{p}_i$ 是 $\tilde{P}$ 中对应的元素；
$\cos \left(p_{i}', \tilde{p}_{i}\right)$ 表示两元素的余弦相似度，取值范围为 $[- 1, 1]$ ；当 $p_i'$ 与 $\tilde{p}_i$ 完全一致时， $\cos$ 值为1，损失项 $\left\|1 - \cos\right\|$ 为0，此时线性组件达到理想状态。

3.1.3 融入整体损失函数，实现联合优化

将Self-Boost正则化损失 $\mathcal{L}_{sb}$ 与目标检测任务的核心损失 $\mathcal{L}_{det}$ （如Faster R-CNN的分类损失+回归损失）结合，形成Dark-ISP的整体损失函数：
$\mathcal{L} = \mathcal{L}_{det} + \lambda \cdot \mathcal{L}_{sb}$
其中 $\lambda$ 是权重系数（用于平衡检测损失与正则化损失，实验中通过验证集调优确定）。
通过最小化该整体损失，模型会同时优化“检测性能”和“线性-非线性组件协同性”——既保证增强图像能精准检测目标，又确保两模块的变换逻辑一致，避免出现“线性组件输出偏离非线性组件需求”的问题。

3.1.4 公式推导

$\tilde{P}$ 的推导本质是“线性回归”的思想：将线性组件的输入（RAW图像 $I$ ）和非线性组件的输出（优化图像 $U$ ）视为“已知数据对”，求解能让“ $I$ 经线性变换后接近理想 $I^{'}$ （进而生成 $U$ ）”的最优线性矩阵。其数学公式为：
$\tilde{P} := U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1}$
我们可拆解为三步理解这一计算过程，结合矩阵维度与数据意义更易把握：

明确变量的矩阵维度与物理意义
为简化理解，先将图像数据“矩阵化”（忽略空间维度，聚焦通道与像素的数值关系）：

输入Bayer RAW图像 $I$ ：维度为 $\mathbb{R}^{4 \times N}$ （4个通道， $N$ 为图像总像素数，每个通道对应 $N$ 个像素的灰度值）；
非线性组件输出 $U$ ：维度为 $\mathbb{R}^{3 \times N}$ （3个RGB通道， $N$ 个像素，是“理想中间 $I^{'}$ ”经非线性增强后的结果，可视为“理想 $I^{'}$ 的目标形态”）；
理想线性矩阵 $\tilde{P}$ ：维度需与线性组件实际矩阵 $P^{'}$ 一致，即 $\mathbb{R}^{3 \times 4}$ （实现4通道RAW到3通道RGB的映射）。

核心逻辑：求解“让线性输出逼近理想 $I^{'}$ ”的 $\tilde{P}$
线性组件的核心功能是“ $\cdot I$ ”（ $P$ 为线性矩阵），而理想状态下，“线性输出 $I^{'}$ 经非线性处理后应等于 $U$ ”——由于非线性组件的增强是“基于 $I^{'}$ 的像素级调整”（如拉伸暗区像素），可近似认为“ $U$ 与理想 $I^{'}$ 存在强相关性， $U$ 可作为理想 $I^{'}$ 的‘代理目标’”。
因此， $\tilde{P}$ 的求解目标可转化为：找到一个 $\mathbb{R}^{3 \times 4}$ 的矩阵 $\tilde{P}$ ，使得 $\tilde{P} \cdot I$ （线性输出）尽可能接近“能生成 $U$ 的理想 $I^{'}$ ”。这本质是求解线性方程组 $\tilde{P} \cdot I = \hat{I}'$ （ $\hat{I}'$ 为理想中间图像）的最优解，而由于 $U$ 是 $\hat{I}'$ 的增强结果，可通过 $U$ 替代 $\hat{I}'$ 进行拟合。
公式推导：最小二乘意义下的最优解
从线性代数的最小二乘理论出发，当方程组 $\tilde{P} \cdot I = U$ （近似替代 $\tilde{P} \cdot I = \hat{I}'$ ）无精确解时（因 $I$ 是4×N矩阵， $U$ 是3×N矩阵，维度不匹配），需求解“使 $\|\tilde{P} \cdot I - U\|^2$ 最小”的 $\tilde{P}$ ，这一最优解的闭式解正是：
$\tilde{P} = U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1}$

$I^T$ 是 $I$ 的转置（ $\mathbb{R}^{N \times 4}$ ）， $\cdot I^T$ 得到 $\mathbb{R}^{4 \times 4}$ 的方阵，其逆矩阵 $\left(I \cdot I^T\right)^{-1}$ 确保计算可逆（避免奇异矩阵问题）；
整个计算过程本质是“用 $U$ 对 $I$ 进行线性回归拟合”，得到的 $\tilde{P}$ 是“从 $I$ 到 $U$ 的最优线性映射”，也即“线性组件能生成‘适配非线性增强’的 $I^{'}$ 的理想矩阵”。

三、实验结果

该论文针对Dark-ISP在低光目标检测中的性能，在真实世界数据集（LOD、NOD） 与合成数据集（SynCOCO） 上展开实验，对比默认ISP、SID、FeatEnHancer、LIS、RAW-Adapter等主流方法，从定量、定性及轻量化三方面验证其优越性，核心结果如下：

1. 定量性能：多数据集均优于现有方法

在这里插入图片描述

LOD数据集（真实低光场景）：在ResNet18与ResNet50两种骨干网络下，Dark-ISP均获最优mAP——ResNet18达64.9 mAP、ResNet50达70.4 mAP，显著超过默认ISP（ResNet50为67.3 mAP）、FeatEnHancer（ResNet50为67.0 mAP）等方法，且Bayer RAW图像输入的检测效果普遍优于RGB/RAW-RGB输入，印证RAW数据优势与Dark-ISP的处理能力；
NOD数据集（跨相机真实数据）：在索尼RX100 VII与尼康D750相机拍摄数据上，Dark-ISP分别以31.5 mAP（索尼）、29.9 mAP（尼康）领先，且mAP50、mAP75指标同步最优，证明其适配不同相机参数的泛化性；
SynCOCO数据集（合成低光数据）：面对通过逆ISP生成的合成RAW图像，Dark-ISP仍以23.1 mAP、37.7 mAP50超越对比方法，即使在真实与合成数据差异较大的场景，仍能有效捕捉有用信息，验证方法稳定性。

二、定性效果：图像质量与检测精度双优

在这里插入图片描述
Dark-ISP增强后的图像更接近正常光照下的“地面真值”图像，在低光场景中：

暗区目标细节（如行人、车辆轮廓）保留更完整，亮区（如灯光）无过曝；
目标检测的漏检、误检率更低，相比默认ISP、RAW-Adapter等方法，对小目标、低对比度目标的识别能力更强，可视化结果（Fig.4、Fig.5、Fig.6）直观体现该优势。

此外，实验还通过消融实验验证关键模块价值：移除Self-Boost正则化或非线性组件的非凸多项式基后，性能明显下降，证明线性-非线性协同机制与物理可解释性设计的必要性。

四、总结

该论文针对低光环境下目标检测因图像质量退化（噪声放大、对比度降低）面临的挑战，提出轻量级自适应性 ISP 插件 Dark-ISP。该方案以 Bayer RAW 图像为处理对象，核心创新在于：将传统 ISP 流程拆解为 “动态线性组件”（结合局部 - 全局注意力，实现物理先验与内容感知的线性转换）与 “物理可解释非线性组件”（基于非凸多项式基，实现暗区拉伸与亮区压缩），并通过 Self-Boost 正则化模块构建两组件的反馈闭环，确保协同优化。
传统多模块系统常因各模块目标不一致（如ISP线性组件追求“物理保真”、非线性组件追求“视觉增强”）导致整体性能打折，而Self-Boost通过“下游结果→理想上游参数→损失约束”的逻辑，强制上游模块向“服务下游任务目标”对齐。这对多模块协同任务具有普适启发：例如视频超分任务中，可利用超分网络输出的“高分辨率帧”（下游结果），反向推导前期帧间对齐模块的“理想对齐参数”，避免因对齐偏差导致超分后细节模糊；

感谢阅读，欢迎留言或私信，一起探讨和交流。
如果对你有帮助的话，也希望可以给博主点一个关注，感谢。