FID和IS详解

最新推荐文章于 2026-06-17 12:38:14 发布

原创最新推荐文章于 2026-06-17 12:38:14 发布 · 3k 阅读

30 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#人工智能

FID（Fréchet Inception Distance）和 IS（Inception Score）是评价生成对抗网络（GAN）生成图像质量的两种常用指标。以下是它们的详细介绍，包括优点和局限性。

1. Fréchet Inception Distance (FID)

定义

FID 是一种基于分布差异的评价指标，用于量化生成图像与真实图像之间的差异。其核心思想是：

将图像通过预训练的 Inception 网络提取特征（通常是倒数第二层的特征向量）。
将这些特征看作符合多元高斯分布，计算真实数据和生成数据的分布差异。

FID 公式为：
$||\mu_r - \mu_g||^2 + Tr(\Sigma_r + \Sigma_g - 2(\Sigma_r \Sigma_g)^{1/2})$
- $μr,Σr\mu_r, \Sigma_r$ ：真实图像特征的均值和协方差矩阵。
- $μg,Σg\mu_g, \Sigma_g$ ：生成图像特征的均值和协方差矩阵。
- $T r$ ：矩阵的迹。

优点

反映分布差异：通过比较特征分布，可以量化生成图像和真实图像整体的相似性。
抗模式崩塌：FID 能检测生成图像是否覆盖了真实数据分布的所有模式。
对感知质量敏感：生成图像的细节和真实性直接影响 FID 分数。

局限性

依赖特征提取器：FID 的结果高度依赖于预训练的 Inception 网络，其特征可能不完全适合特定任务。
对噪声敏感：生成图像中的少量噪声可能显著影响 FID 分数。
计算成本较高：需要计算均值和协方差矩阵，尤其在数据量较大时较耗时。

分数范围

越低越好。理论上最优值为 0（生成分布与真实分布完全一致）。

2. Inception Score (IS)

定义

IS 通过评估生成图像的多样性和生成质量，量化生成模型的性能。它的核心思想是：

使用预训练的 Inception 网络对生成图像进行分类，得到预测概率分布 $p (y ∣ x)$ 。
假设高质量的生成图像具有明确的类别标签（熵低），而生成数据整体具有较大的多样性（熵高）。

IS 公式为：
$\exp \left( \mathbb{E}_x [ D_{KL}(p(y|x) || p(y)) ] \right)$
- $D_{KL}$ ：KL散度，用于衡量 $p (y ∣ x)$ 和 $p (y)$ 的差异。
- $p (y)$ ：生成图像整体的类别分布，即 $\frac{1}{N} \sum_{i=1}^N p(y|x_i)$ 。

优点

直观易用：直接基于分类网络的输出概率分布，无需计算高斯分布参数。
兼顾质量和多样性：通过 $D_{KL}$ 同时评估生成图像的感知质量和类别多样性。

局限性

忽略真实数据分布：IS 仅评价生成图像本身，与真实数据分布无关。
对类别相关性敏感：如果生成图像分布的类别不平衡，可能导致 IS 分数偏高或偏低。
不抗模式崩塌：即使生成器仅生成少数高质量样本，IS 分数也可能很高。

分数范围

越高越好。较高的 IS 分数表明生成图像的质量和多样性较好。
无明确理论范围，但通常分数在 1 到 10 之间。

3. FID 和 IS 的对比

特性	FID	IS
是否依赖真实数据	是	否
质量评估	高	中
多样性评估	高	中
模式崩塌检测	能检测	无法检测
分数意义	越低越好	越高越好
计算复杂度	较高	较低