多模态融合论文学习：（三） 2025CLIP详解

原创

已于 2025-03-23 18:45:02 修改 · 2.2k 阅读

标签

#学习

于 2025-03-23 18:45:01 首次发布

CILP这篇论文介绍的是 OpenAI 提出的 CLIP（Contrastive Language-Image Pretraining），它是多模态学习的一次重大突破。以下从技术角度深入分析：

1. 传统计算机视觉的局限性

目前大多数计算机视觉模型的训练方式都是 有监督学习，即：

需要大量标注数据（如 ImageNet 1.28M 张图像，每张都有人类标注类别）。
只能识别固定类别（比如 ImageNet 训练的 ResNet-50 只能分类 1000 个类别）。
一旦遇到新的类别（如 ImageNet 中没有的物种），就需要重新收集标注数据并训练。

➡ CLIP 旨在解决这一问题，让模型可以泛化到新的类别，甚至不需要额外的标注数据。

2. CLIP 的核心创新

CLIP 采用了一种自监督对比学习（Contrastive Learning）的方式，用自然语言文本作为监督信号来训练图像模型：

数据来源：从互联网收集了 4 亿对（图像，文本）。
训练任务：对比学习：
正样本：真实的（图片，文本）对（即描述和图像匹配）。
负样本：随机匹配的（图片，文本）对（即错误描述）。
目标是让模型学会匹配正确的图像和描述，并区分错误的匹配。

模型架构：

视觉编码器（ViT 或 ResNet）：将图像编码为特征向量。
文本编码器（Transformer）：将文本描述编码为特征向量。

计算图像-文本相似度，通过对比学习优化。

这种方法使得 CLIP 具备了视觉与语言的跨模态理解能力。

3. CLIP 的核心优势

✔ Zero-shot 迁移能力：

传统 CNN 需要针对 ImageNet 进行专门训练，但 CLIP 不需要 ImageNet 训练，仅仅依靠互联网文本描述进行学习后，就可以直接零样本分类。
在 ImageNet 上，CLIP zero-shot 准确率 ≈ ResNet-50（而 ResNet-50 需要 128 万张标注图片训练）。

✔ 通用视觉理解能力：

传统视觉模型只能识别固定类别，但 CLIP 可以识别和描述新类别，因为它学到了文本中的丰富语义信息。
例如，CLIP 可以理解“一只坐在键盘上的橘猫”这样复杂的自然语言描述，并匹配到对应的图片。

✔ 适应多种任务：

CLIP 不只是用于分类，它还可以用于 OCR（光学字符识别）、动作识别、地理定位、细粒度分类等多种任务，而不需要特定的数据集训练。

一.摘要和结论部分

1.1摘要翻译

当前最先进的计算机视觉系统通常被训练来预测一组预先确定的目标类别。这种受限的监督方式限制了模型的泛化能力和适用性，因为如果想要识别新的视觉概念，就必须额外获取标注数据。相比之下，直接从关于图像的原始文本中学习是一种更具潜力的替代方案，它可以利用更广泛的数据来源来进行监督学习。

本研究表明，仅通过一个简单的预训练任务——预测哪一张图片与哪一个文本描述匹配，就可以高效、可扩展地从头学习最先进（SOTA）的图像表示。我们使用从互联网收集的 4 亿对（图片、文本）进行预训练。在训练完成后，模型可以利用自然语言来引用已学习的视觉概念（或描述新的概念），从而实现零样本（zero-shot）迁移，直接应用到下游任务中。

我们通过在超过 30 个不同的计算机视觉数据集上进行基准测试，评估了该方法的性能，涵盖了 OCR（光学字符识别）、视频中的动作识别、地理定位以及多种细粒度目标分类任务。我们的模型可以非平凡地迁移到大多数任务，并且在许多情况下，即使不针对具体数据集进行额外训练，也能与完全监督的基线方法相媲美。例如，我们在 ImageNet 数据集上的 zero-shot 预测准确率达到与原始 ResNet-50 相当的水平，而无需使用其训练所需的 128 万个标注样本。

我们在 GitHub（https://github.com/OpenAI/CLIP）上开源了代码和预训练模型权重。