
Dark-ISP: Enhancing RAW Image Processing for Low-Light Object Detection(2025 ICCV)
该研究发表于 ICCV 2025,为解决低光环境下目标检测因图像质量退化(噪声放大、对比度降低)面临的挑战,复旦大学研究团队提出了Dark-ISP,聚焦于通过优化 RAW 图像处理提升低光目标检测性能。
参考资料如下:
[1]. 论文地址
一、研究背景
低光环境下的目标检测对自动驾驶、监控等现实应用至关重要,是核心技术需求。但是黑暗环境会导致图像严重退化,表现为噪声放大、对比度降低,大幅阻碍检测算法发挥作用。而依赖压缩动态范围的RGB图像(10/12bit to 8bit)进行检测,存在低比特深度信息丢失、ISP过程引入额外噪声的问题,低光场景效果差。
RAW图像能够保留传感器原始数据(如场景辐射度、噪声特性),细节和色彩信息更丰富,优于RGB图像,但现有处理方案存在不足——或量化为RAW-RGB导致信息丢失,或用复杂ISP框架增加计算成本,或依赖辅助数据限制适用性。因此本论文针对低光目标检测的场景需求、传统RGB方案局限及现有RAW处理缺陷,提出了更优方案-Dark-ISP。
二、方法
1.方案整体架构:聚焦RAW数据的端到端处理

Dark-ISP摒弃传统“RAW→RGB转换→检测”的割裂流程,采用“Bayer RAW图像→Dark-ISP模块→检测网络”的端到端架构(如上图所示),整体分为线性处理模块、非线性处理模块两大核心组件,且通过自增强机制(Self-Boost) 实现组件协同,最终输出适配检测网络的优化图像,同时全程保留RAW数据的高动态范围与物理信息,避免中间环节的信息丢失。
2. 核心组件设计:线性与非线性的 decoupled 优化
2.1 线性组件:动态映射实现“物理先验+内容感知”的传感器校准
线性组件对应传统ISP中的“白平衡、Binning、色彩空间转换”等线性操作,但其创新点在于将静态参数升级为动态自适应映射,具体流程如下:
- 基础线性变换建模:首先将传统ISP的三步线性操作(白平衡W、Binning合并B、色彩校正C)整合为单一矩阵 P = C ⋅ B ⋅ W P = C \cdot B \cdot W P=C⋅B⋅W(维度 R 3 × 4 \mathbb{R}^{3×4} R3×4),实现Bayer RAW图像(4通道)到RGB图像(3通道)的基础转换,公式为 I ′ = P ⋅ I I' = P \cdot I I′=P⋅I( I I I为输入RAW图像, I ′ I' I′为线性输出图像)。
- 动态参数增强:为适配不同相机传感器与低光场景,引入双流注意力架构提取特征并优化矩阵
P
P
P:
- 局部特征流:对RAW图像 I I I进行多轮3×3卷积(×6),提取像素级局部特征 F l F_l Fl,通过Local-Attention生成像素级动态矩阵 P l P_l Pl(维度 R ( 3 × 4 ) × H × W \mathbb{R}^{(3×4)×H×W} R(3×4)×H×W),实现“像素级适配”;
- 全局特征流:对图像进行池化与卷积,提取图像级全局特征 F g F_g Fg(维度 R C × H / 16 × W / 16 \mathbb{R}^{C×H/16×W/16} RC×H/16×W/16),通过Global-Attention生成图像级动态矩阵 P g P_g Pg(维度 R 3 × 4 \mathbb{R}^{3×4} R3×4),实现“场景级适配”;
- 自适应融合:将基础矩阵 P P P与动态矩阵 P l P_l Pl、 P g P_g Pg通过广播加法融合,得到最终动态矩阵 P ′ = P l + P g + P P' = P_l + P_g + P P′=Pl+Pg+P,最终线性输出为 I ′ = P ′ ⋅ I I' = P' \cdot I I′=P′⋅I。该设计既保留相机物理成像规律,又能根据图像内容(如暗区细节、亮区分布)动态调整,为低光检测提供更精准的RGB基础图像。
2.2 非线性组件:多项式基函数实现“物理可解释”的色调映射
非线性组件负责调整图像色彩分布与对比度,解决低光环境下“暗区细节丢失、亮区过曝”问题,其核心是摒弃黑箱神经网络,采用物理可解释的多项式基函数:

- 基函数设计:针对低光场景需求,设计一组非凸多项式基 f k ( x ) f_k(x) fk(x)( k k k为阶数,从1阶到8阶),所有基函数均满足“过(0,0)和(1,1)点”的约束,且曲率从近线性到强凹形渐变——凹形特性可实现“暗区像素值拉伸、亮区像素值压缩”,精准匹配低光图像增强需求(如上图所示)。
- 像素级系数学习:通过轻量级卷积网络(4轮3×3卷积+ReLU激活)对线性组件输出 I ′ I' I′进行处理,预测像素级系数 C k ( i , j ) C_k(i,j) Ck(i,j)( ( i , j ) (i,j) (i,j)为像素坐标),系数决定不同基函数在该像素处的权重。
- 非线性变换计算:每个像素的最终输出由“系数-基函数加权和”得到,公式为 F ( x i j ) = ∑ k = 0 n C k ( i , j ) f k ( x i j ) \mathcal{F}(x_{ij}) = \sum_{k=0}^n C_k(i,j) f_k(x_{ij}) F(xij)=∑k=0nCk(i,j)fk(xij),其中 x i j x_{ij} xij为像素原始值。该变换既可保证增强效果,又避免传统黑箱模型的不可解释性。
3. 关键机制:Self-Boost正则化强化模块协同
Self-Boost正则化模块的设计:利用非线性组件输出的“优化后图像”(更贴近检测需求的理想结果),反向推导线性组件应输出的“理想中间图像”,再通过损失约束迫使线性组件的实际输出向该理想状态对齐。这种“以最终目标反推中间过程”的逻辑,让线性组件不再孤立优化,而是与非线性组件形成“目标一致、相互引导”的协同关系,本质是一种“任务驱动的自增强正则化”。
Self-Boost正则化模块的核心是通过数学公式构建“非线性组件→线性组件”的反馈约束,具体分为三步:
3.1.1推导线性组件的“理想变换矩阵” P ~ \tilde{P} P~
非线性组件的输出为最终增强图像
U
U
U(已完成暗区拉伸、亮区压缩,适配检测需求),线性组件的输入为原始Bayer RAW图像
I
I
I。由于线性组件的核心功能是将
I
I
I转换为中间RGB图像
I
′
I'
I′(公式:
I
′
=
P
′
⋅
I
I' = P' \cdot I
I′=P′⋅I,
P
′
P'
P′为线性组件的实际变换矩阵),且
I
′
I'
I′是
U
U
U的“前置基础图像”,因此可通过
U
U
U和
I
I
I反向推导线性组件应有的“理想变换矩阵”
P
~
\tilde{P}
P~,公式如下:
P
~
:
=
U
⋅
I
T
⋅
(
I
⋅
I
T
)
−
1
\tilde{P} := U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1}
P~:=U⋅IT⋅(I⋅IT)−1
其中:
- I T I^T IT是RAW图像 I I I的转置矩阵, ( I ⋅ I T ) − 1 \left(I \cdot I^T\right)^{-1} (I⋅IT)−1是 I I I与其转置乘积的逆矩阵,确保推导的数值稳定性;
- P ~ \tilde{P} P~的维度与线性组件实际矩阵 P ′ P' P′一致(均为 R 3 × 4 \mathbb{R}^{3×4} R3×4),代表“能让线性组件输出 I ′ I' I′、且后续经非线性组件处理后恰好得到理想增强图像 U U U”的最优变换矩阵。
3.1.2 构建余弦相似度损失函数 L s b \mathcal{L}_{sb} Lsb
为迫使线性组件的实际矩阵
P
′
P'
P′向理想矩阵
P
~
\tilde{P}
P~对齐,模块采用“余弦相似度约束”——通过计算
P
′
P'
P′与
P
~
\tilde{P}
P~中对应元素的余弦相似度,最小化两者的差异,损失函数公式如下:
L
s
b
=
∑
p
i
′
∈
P
′
,
p
~
i
∈
P
‾
∥
1
−
cos
(
p
i
′
,
p
~
i
)
∥
\mathcal{L}_{sb} = \sum_{p_{i}' \in P', \tilde{p}_{i} \in \overline{P}}\left\| 1 - \cos \left(p_{i}', \tilde{p}_{i}\right)\right\|
Lsb=pi′∈P′,p~i∈P∑∥1−cos(pi′,p~i)∥
其中:
- p i ′ p_i' pi′是 P ′ P' P′中的任意元素, p ~ i \tilde{p}_i p~i是 P ~ \tilde{P} P~中对应的元素;
- cos ( p i ′ , p ~ i ) \cos \left(p_{i}', \tilde{p}_{i}\right) cos(pi′,p~i)表示两元素的余弦相似度,取值范围为 [ − 1 , 1 ] [-1,1] [−1,1];当 p i ′ p_i' pi′与 p ~ i \tilde{p}_i p~i完全一致时, cos \cos cos值为1,损失项 ∥ 1 − cos ∥ \left\|1 - \cos\right\| ∥1−cos∥为0,此时线性组件达到理想状态。
3.1.3 融入整体损失函数,实现联合优化
将Self-Boost正则化损失
L
s
b
\mathcal{L}_{sb}
Lsb与目标检测任务的核心损失
L
d
e
t
\mathcal{L}_{det}
Ldet(如Faster R-CNN的分类损失+回归损失)结合,形成Dark-ISP的整体损失函数:
L
=
L
d
e
t
+
λ
⋅
L
s
b
\mathcal{L} = \mathcal{L}_{det} + \lambda \cdot \mathcal{L}_{sb}
L=Ldet+λ⋅Lsb
其中
λ
\lambda
λ是权重系数(用于平衡检测损失与正则化损失,实验中通过验证集调优确定)。
通过最小化该整体损失,模型会同时优化“检测性能”和“线性-非线性组件协同性”——既保证增强图像能精准检测目标,又确保两模块的变换逻辑一致,避免出现“线性组件输出偏离非线性组件需求”的问题。
3.1.4 公式推导
P
~
\tilde{P}
P~的推导本质是“线性回归”的思想:将线性组件的输入(RAW图像
I
I
I)和非线性组件的输出(优化图像
U
U
U)视为“已知数据对”,求解能让“
I
I
I经线性变换后接近理想
I
′
I'
I′(进而生成
U
U
U)”的最优线性矩阵。其数学公式为:
P
~
:
=
U
⋅
I
T
⋅
(
I
⋅
I
T
)
−
1
\tilde{P} := U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1}
P~:=U⋅IT⋅(I⋅IT)−1
我们可拆解为三步理解这一计算过程,结合矩阵维度与数据意义更易把握:
- 明确变量的矩阵维度与物理意义
为简化理解,先将图像数据“矩阵化”(忽略空间维度,聚焦通道与像素的数值关系):
- 输入Bayer RAW图像 I I I:维度为 R 4 × N \mathbb{R}^{4 \times N} R4×N(4个通道, N N N为图像总像素数,每个通道对应 N N N个像素的灰度值);
- 非线性组件输出 U U U:维度为 R 3 × N \mathbb{R}^{3 \times N} R3×N(3个RGB通道, N N N个像素,是“理想中间 I ′ I' I′”经非线性增强后的结果,可视为“理想 I ′ I' I′的目标形态”);
- 理想线性矩阵 P ~ \tilde{P} P~:维度需与线性组件实际矩阵 P ′ P' P′一致,即 R 3 × 4 \mathbb{R}^{3 \times 4} R3×4(实现4通道RAW到3通道RGB的映射)。
- 核心逻辑:求解“让线性输出逼近理想
I
′
I'
I′”的
P
~
\tilde{P}
P~
线性组件的核心功能是“ I ′ = P ⋅ I I' = P \cdot I I′=P⋅I”( P P P为线性矩阵),而理想状态下,“线性输出 I ′ I' I′经非线性处理后应等于 U U U”——由于非线性组件的增强是“基于 I ′ I' I′的像素级调整”(如拉伸暗区像素),可近似认为“ U U U与理想 I ′ I' I′存在强相关性, U U U可作为理想 I ′ I' I′的‘代理目标’”。
因此, P ~ \tilde{P} P~的求解目标可转化为:找到一个 R 3 × 4 \mathbb{R}^{3 \times 4} R3×4的矩阵 P ~ \tilde{P} P~,使得 P ~ ⋅ I \tilde{P} \cdot I P~⋅I(线性输出)尽可能接近“能生成 U U U的理想 I ′ I' I′”。这本质是求解线性方程组 P ~ ⋅ I = I ^ ′ \tilde{P} \cdot I = \hat{I}' P~⋅I=I^′( I ^ ′ \hat{I}' I^′为理想中间图像)的最优解,而由于 U U U是 I ^ ′ \hat{I}' I^′的增强结果,可通过 U U U替代 I ^ ′ \hat{I}' I^′进行拟合。 - 公式推导:最小二乘意义下的最优解
从线性代数的最小二乘理论出发,当方程组 P ~ ⋅ I = U \tilde{P} \cdot I = U P~⋅I=U(近似替代 P ~ ⋅ I = I ^ ′ \tilde{P} \cdot I = \hat{I}' P~⋅I=I^′)无精确解时(因 I I I是4×N矩阵, U U U是3×N矩阵,维度不匹配),需求解“使 ∥ P ~ ⋅ I − U ∥ 2 \|\tilde{P} \cdot I - U\|^2 ∥P~⋅I−U∥2最小”的 P ~ \tilde{P} P~,这一最优解的闭式解正是:
P ~ = U ⋅ I T ⋅ ( I ⋅ I T ) − 1 \tilde{P} = U \cdot I^T \cdot \left(I \cdot I^T\right)^{-1} P~=U⋅IT⋅(I⋅IT)−1
- I T I^T IT是 I I I的转置( R N × 4 \mathbb{R}^{N \times 4} RN×4), I ⋅ I T I \cdot I^T I⋅IT得到 R 4 × 4 \mathbb{R}^{4 \times 4} R4×4的方阵,其逆矩阵 ( I ⋅ I T ) − 1 \left(I \cdot I^T\right)^{-1} (I⋅IT)−1确保计算可逆(避免奇异矩阵问题);
- 整个计算过程本质是“用 U U U对 I I I进行线性回归拟合”,得到的 P ~ \tilde{P} P~是“从 I I I到 U U U的最优线性映射”,也即“线性组件能生成‘适配非线性增强’的 I ′ I' I′的理想矩阵”。
三、实验结果
该论文针对Dark-ISP在低光目标检测中的性能,在真实世界数据集(LOD、NOD) 与合成数据集(SynCOCO) 上展开实验,对比默认ISP、SID、FeatEnHancer、LIS、RAW-Adapter等主流方法,从定量、定性及轻量化三方面验证其优越性,核心结果如下:
1. 定量性能:多数据集均优于现有方法

- LOD数据集(真实低光场景):在ResNet18与ResNet50两种骨干网络下,Dark-ISP均获最优mAP——ResNet18达64.9 mAP、ResNet50达70.4 mAP,显著超过默认ISP(ResNet50为67.3 mAP)、FeatEnHancer(ResNet50为67.0 mAP)等方法,且Bayer RAW图像输入的检测效果普遍优于RGB/RAW-RGB输入,印证RAW数据优势与Dark-ISP的处理能力;

- NOD数据集(跨相机真实数据):在索尼RX100 VII与尼康D750相机拍摄数据上,Dark-ISP分别以31.5 mAP(索尼)、29.9 mAP(尼康)领先,且mAP50、mAP75指标同步最优,证明其适配不同相机参数的泛化性;

- SynCOCO数据集(合成低光数据):面对通过逆ISP生成的合成RAW图像,Dark-ISP仍以23.1 mAP、37.7 mAP50超越对比方法,即使在真实与合成数据差异较大的场景,仍能有效捕捉有用信息,验证方法稳定性。
二、定性效果:图像质量与检测精度双优

Dark-ISP增强后的图像更接近正常光照下的“地面真值”图像,在低光场景中:
- 暗区目标细节(如行人、车辆轮廓)保留更完整,亮区(如灯光)无过曝;
- 目标检测的漏检、误检率更低,相比默认ISP、RAW-Adapter等方法,对小目标、低对比度目标的识别能力更强,可视化结果(Fig.4、Fig.5、Fig.6)直观体现该优势。
此外,实验还通过消融实验验证关键模块价值:移除Self-Boost正则化或非线性组件的非凸多项式基后,性能明显下降,证明线性-非线性协同机制与物理可解释性设计的必要性。
四、总结
-
该论文针对低光环境下目标检测因图像质量退化(噪声放大、对比度降低)面临的挑战,提出轻量级自适应性 ISP 插件 Dark-ISP。该方案以 Bayer RAW 图像为处理对象,核心创新在于:将传统 ISP 流程拆解为 “动态线性组件”(结合局部 - 全局注意力,实现物理先验与内容感知的线性转换)与 “物理可解释非线性组件”(基于非凸多项式基,实现暗区拉伸与亮区压缩),并通过 Self-Boost 正则化模块构建两组件的反馈闭环,确保协同优化。
-
传统多模块系统常因各模块目标不一致(如ISP线性组件追求“物理保真”、非线性组件追求“视觉增强”)导致整体性能打折,而Self-Boost通过“下游结果→理想上游参数→损失约束”的逻辑,强制上游模块向“服务下游任务目标”对齐。这对多模块协同任务具有普适启发:例如视频超分任务中,可利用超分网络输出的“高分辨率帧”(下游结果),反向推导前期帧间对齐模块的“理想对齐参数”,避免因对齐偏差导致超分后细节模糊;
感谢阅读,欢迎留言或私信,一起探讨和交流。
如果对你有帮助的话,也希望可以给博主点一个关注,感谢。

380

被折叠的 条评论
为什么被折叠?



