医学图像处理：医学图像格式（NIFTI与DICOM）

最新推荐文章于 2026-04-05 09:43:26 发布

原创最新推荐文章于 2026-04-05 09:43:26 发布 · 2k 阅读

本内容遵循CC 4.0 BY-SA版权协议

医学图像是一种用于表征解剖结构和功能状态的方式，它通过二维像素或三维体素的形式呈现。这些像素或体素所代表的空间位置，是对采样和图像重建过程的离散化的结果。图像中像素（或体素）的数量和分布反映了对成像视野内解剖和功能细节的分辨能力。像素（或体素）的数值取决于成像模态、采样协议、图像重建方法以及后续的处理流程。

医疗数据的组成

医疗数据有四个关键的组成部分--像素深度、光度解释、元数据以及像素数据。这几部分决定了图像的大小和分辨率。

1. 像素深度（Pixel Depth）或者位深度（Bit Depth）或者色深度（Color Depth）就是用来编码每一个像素信息时所用的位数。例如，一个 8 位的栅格会拥有从 0 到 255 这 256 种各不相同的数值。

2. 光度解释（Photometric Interpretation）是 DICOM 图像中的一个重要字段（通常为 Photometric Interpretation 标签，0028,0004），用来说明图像中像素值的显示方式，即如何将像素的数值映射为可视图像的颜色。它定义了图像是灰度图、彩色图，还是其他特定的颜色编码方式。

光度解释值	含义说明	举例
MONOCHROME1	单通道灰度图，0 表示白色，最大值表示黑色	某些 CT 或 X 光片图像，显示为反相灰度图
MONOCHROME2	单通道灰度图，0 表示黑色，最大值表示白色（更常见）	常见的 MRI、CT 图像
RGB	三通道彩色图，像素为 RGB 值	彩色照片、PET 图像、解剖图
PALETTE COLOR	使用查找表（LUT）将单通道灰度图映射为伪彩色	热图风格的 PET、SPECT 等伪彩色图像
YBR_FULL	色度分离格式，通常用于视频压缩场景	DICOM 中较少见，常用于动态图像

3. 元数据（Metadata）就是图片中所描述的信息。它看上去可能是很奇怪的，但是无论在什么格式的文件中，都存在一些出现在像素数据之前并且和图像相关的信息。这类被称作元数据的信息通常都以头部的形式储在文件的起始部分，它至少会包含以下信息：图像矩阵的维度、空间精度、像素深度以及光度解释。

4. 像素数据，即像素数值的大小。根据不同的数据类型，像素数据可能使用表达数据所需的最少的数据位，以整型或者浮点型的类型存储。

DICOM数据基本知识

DICOM （Digital Imaging and Communications in Medicine）代表的是医疗数字成像和通信。DICOM 是由美国国家电气制造商协会（NEMA）制定的标准。它定义了医疗成像领域中关于信息处理、存储、打印以及传输的标准。其广泛应用于医院和临床医学，符合医学成像标准，支持图像以外的丰富的元数据（头文件）。

一个 DICOM 文件包含文件头部和同文件名的*.dcm 图像数据。文件头部的大小取决于它所提供的信息的多少。文件头包含以下信息：病人的 ID，病人的姓名，图像的模态，精度，维度，帧的数量等。这些信息会被图像浏览器在显示图像时用到。DICOM通常将每个图像切片（Slice）存储为一个单独的2D文件，因此一个3D扫描通常由成百上千个单独的DICOM文件组成。

图：单个DICOM文件组成

NIFTI 格式基本知识

NIfTI（Neuroimaging Informatics Technology Initiative）格式最初是为神经影像学发明的，在脑成像中应用广泛，适合进行机器学习和图像处理任务。NIFTI将整个3D图像（或4D时间序列）作为整体存储在一个文件中（.nii后缀），更加适合体积图像（Volumetric Imaging）的处理。NIFTI格式下一个3D图像通常只由一个.nii文件，或者两个文件（.hdr和.img）表示。

图：NIFTI格式文件组成

NIFTI格式的元文件相较DICOM较为简单（NIFTI不包含患者的个人和临床信息）。但其中包含两个能够将体素索引 (i, j, k) 和空间位置 (x, y, z) 关联起来的仿射坐标，这是 NIfTI 格式最核心、也最强大的特点之一。这个功能使得医学图像数据不仅是“像素值的堆叠”，而是真正有“空间意义”的 3D 图像。

图：NIFTI头文件中包含的信息（部分）

NIFTI 文件头中实际上只存储了一个仿射变换矩阵（叫做 sform 或 qform），但它支持两种方式表达这种从体素到空间的映射：

1. qform

通过四元数（quaternion）表示旋转，结合平移、缩放，实现仿射变换。
存储在 NIfTI 文件头的 qform_code, quatern_b/c/d, qoffset_x/y/z 等字段。
表达方式更紧凑、避免冗余，常用于标准化脑空间。

2. sform

明确地存储 4x4 仿射矩阵。
存储在 sform_code, srow_x, srow_y, srow_z。
更通用，适合非刚性配准（如图像配准后的位置变化）。

具体的，sform中的4x4 仿射矩阵可以表示为：

其中：

等号左边是物理空间中的坐标 (x, y, z)
等号右边是体素索引 (i, j, k)
仿射矩阵的前 3 列定义了体素坐标轴在物理空间中的方向和缩放。a11，a22，a33表示体素尺寸（体素的实际物理大小），其余值表示旋转信息
第 4 列 (t_x, t_y, t_z) 是体素坐标系的原点在物理空间中的位置，也叫平移信息（原点偏移）

例如，一个 NIfTI 图像的体素大小是 (1 mm, 1 mm, 1 mm)，在物理空间中的位置是原点 (0, 0, 0)，无旋转。那么体素索引 (10, 20, 30) 在物理空间中的映射就是 (10 mm, 20 mm, 30 mm)。

DICOM和NIFTI的区别

NIfTI 和 DICOM 是医学图像中常用的两种文件格式。DICOM 是一种面向医疗系统的标准格式，每张图像通常为一个单独的.dcm文件（如果是3维图片，则由一个包含很多.dcm文件的文件夹表示），包含丰富的元数据（如患者信息、扫描参数等），广泛用于医院和设备间的数据交换。而 NIFTI 更适用于科研领域，强调图像的空间结构，通常将整个三维或四维图像存储在一个文件中，配有清晰的仿射矩阵来描述体素与空间位置的关系，便于进行图像分析和机器学习建模（处理一个单独的 NIFTI 文件要比处理成百上千个 DICOM文件更加容易一些）。简而言之，DICOM 强调临床应用和互操作性，NIfTI 更注重科研分析和处理效率。