组合零样本学习与开放词汇挑战的技术突破

最新推荐文章于 2026-06-20 13:35:53 发布

原创最新推荐文章于 2026-06-20 13:35:53 发布 · 458 阅读

8 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

收录于

心情日记

AI助手已提取文章相关产品：

1. 组合零样本学习的技术演进与开放词汇挑战

在计算机视觉领域，组合零样本学习（Compositional Zero-Shot Learning, CZSL）一直是个既令人兴奋又充满挑战的研究方向。想象一下，当模型已经学会了识别"红色苹果"和"绿色柠檬"后，能否自动推断出"红色柠檬"或"绿色苹果"的样子？这就是CZSL要解决的核心问题。传统CZSL方法确实在这个方向上取得了不错进展，但它们都基于一个关键假设：所有属性和对象都在训练阶段出现过，只是组合方式不同。

随着实际应用需求的增长，这个假设变得越来越不切实际。在真实世界中，我们不仅会遇到已知属性的新组合，更常遇到全新的属性和对象。比如，一个训练时只见过"成熟苹果"和"去皮柠檬"的模型，现在需要识别"成熟柠檬"、"去皮苹果"，甚至完全没见过的"切片土豆"或"对半切的番茄"。这就是开放词汇组合零样本学习（Open-Vocabulary CZSL, OV-CZSL）要攻克的难题。

1.1 从封闭到开放：范式转变的关键挑战

OV-CZSL将传统CZSL的封闭世界假设扩展为开放环境，主要面临三类新增挑战：

第一是语义鸿沟问题。当遇到全新概念时（如"潮湿的"相对于训练时见过的"湿润的"），模型需要建立语义关联。人类可以轻松理解这两个形容词的相似性，但模型如何自动捕捉这种微妙关系？

第二是组合爆炸。随着词汇开放，可能的组合数量呈指数级增长。MIT-States数据集中，115个属性和245个对象理论上可以生成28,175种组合，而实际标注的只有1,962种。在开放场景下，这个数字会更大。

第三是模态对齐。预训练模型如CLIP虽然学习了丰富的视觉-语言对齐，但在细粒度的属性-对象组合识别上仍显不足。例如，"条纹衬衫"和"条纹斑马"中的"条纹"在视觉表现上差异显著，但文本嵌入可能非常相似。

1.2 CLIP与提示调优的技术突破

视觉语言预训练模型CLIP的出现为这一领域带来了转机。CLIP通过海量图像-文本对的对比学习，构建了强大的跨模态表示空间。更重要的是，其文本编码器能够将任意自然语言描述映射到与相应图像对齐的嵌入空间。

提示调优（Prompt Tuning）技术在此基础上更进一步。不同于微调整个模型，它仅通过优化输入提示中的少量可学习参数来适配下游任务。以CSP方法为例，它将属性和对象视为可学习的文本token，嵌入到固定模板如"一张[属性][对象]的照片"中。这种方法既保留了CLIP的强大泛化能力，又能针对特定任务优化组合表示。

然而，直接将现有提示调优方法应用于OV-CZSL仍存在明显局限。如图1所示，当面对包含全新属性或对象的组合时，模型性能显著下降。这是因为这些方法在训练时只接触过有限的属性和对象，无法有效泛化到开放词汇场景。

2. 结构感知提示调优的核心设计

2.1 局部结构一致性的关键发现

人类认知新概念时，常会借助已知的相似概念进行类比。受此启发，我们通过可视化分析发现：在CLIP的嵌入空间中，语义相关的属性和对象会形成稳定的局部结构。例如，"湿润的"和"潮湿的"作为属性，"衬衫"和"夹克"作为对象，各自聚集成簇，且这种结构关系在训练前后保持相对稳定。

这一现象引出了我们的核心假设：保持这种局部结构一致性，可以帮助模型将知识从已知概念迁移到未知概念。基于此，我们提出了结构感知提示调优（Structure-aware Prompt Adaptation, SPA）框架，其整体架构如图3所示。

2.2 训练阶段：结构感知一致性损失（SCL）

SCL的设计目标是防止微调过程破坏CLIP原有的语义结构。具体实现分为三个关键步骤：

首先，对每个属性或对象，我们构建两种提示表示：基于初始CLIP的固定表示P(0)和训练中优化的表示P(+)。通过CLIP文本编码器，分别得到它们的嵌入t(0)和t(+)。

然后，计算初始和优化后的相似度矩阵。对于属性集A和对象集O，我们分别计算：

S(0) = normalize(t(0) @ t(0).T)
S(+) = normalize(t(+) @ t(+).T)

其中normalize表示余弦相似度计算。

接着，为每个属性/对象选择Top-K最相似的邻居，构成局部结构。SCL通过KL散度约束这两个相似度分布在局部邻域内保持一致：

L_SCL = Σ[D_KL(softmax(S(0)[i]/τ) || softmax(S(+)[i]/τ))]

其中τ是温度系数，控制分布锐度。

实际实现时，我们发现τ=0.1能较好平衡不同数据集上的表现。过高的τ会使分布过于平滑，削弱结构保持效果；而过低的τ可能导致优化困难。

2.3 推理阶段：结构引导适应策略（SAS）

SAS的核心思想是利用已知概念的优化轨迹来校准未知概念的表示。对于每个未见属性a 或对象o ，执行以下操作：

计算a*与所有已知属性的初始相似度Su2s
选择Top-K最相似的已知属性{a1...aK}
计算这些已知属性从初始到优化后的变化量ΔP = P(+) - P(0)
用相似度加权平均得到a 的调整量： ΔP = Σ[wk * ΔPk], wk = exp(Su2s[k]/τ)/Σexp(Su2s/τ)
生成优化后的提示表示：P(+)* = P(0)* + ΔP*

这种方法巧妙地将已知概念的优化方向传播到语义相似的未知概念，同时保持了原始CLIP的语义关系。如图2所示，经过SAS调整后，"潮湿的"会根据"湿润的"学习到的变化进行适当调整，而"夹克"也会借鉴"衬衫"的优化路径。

3. 实现细节与优化技巧

3.1 模型架构与参数配置

我们基于CLIP ViT-B/32实现SPA，相比更大的ViT-L/14，它在保持相当性能的同时显著降低了计算成本。所有实验均在单张NVIDIA A100 GPU上完成，训练时间在2-4小时之间，具体取决于数据集规模。

关键超参数设置：

学习率：5e-5（MIT-States/C-GQA）或1e-5（VAW-CZSL）
批大小：256（MIT-States）或128（C-GQA/VAW-CZSL）
邻域大小K：5（通过消融实验确定）
结构损失权重λ：1.0
温度系数τ：0.1

实践中我们发现，VAW-CZSL需要更小的学习率以避免过拟合，这与其更大的词汇量和更细粒度的属性有关。学习率过大容易导致模型忽视SCL的约束作用。

3.2 训练流程优化

我们采用两阶段训练策略提升稳定性：

阶段一： 仅用交叉熵损失L_CE训练2-3个epoch，让模型初步学习组合识别。这相当于传统的提示调优预热阶段。

阶段二： 加入SCL损失，以λ=1.0的权重联合优化。此时学习率降为初始值的1/10，避免结构约束破坏已学到的有用特征。

在反向传播时，我们冻结CLIP的图像和文本编码器，只更新提示中的可学习参数。这种设计确保了预训练知识的完整性，同时大大减少了可训练参数量（通常不到模型总量的0.1%）。

3.3 推理加速技巧

原始SAS需要对每个未知概念计算与所有已知概念的相似度，当词汇量大时可能成为瓶颈。我们采用以下优化：

预计算相似度索引 ：在训练结束后，一次性计算所有已知概念间的相似度矩阵并建立快速检索索引。
近似最近邻搜索 ：使用FAISS库加速Top-K查询，特别适合处理VAW-CZSL等大规模数据集。
批量处理 ：将测试集中的所有未知概念一起处理，充分利用GPU并行能力。

通过这些优化，SAS在推理时增加的计算开销可以控制在10%以内，使SPA在实际应用中保持高效。

4. 实验结果与深度分析

4.1 基准测试与对比方法

我们在三个主流OV-CZSL基准上评估SPA：

MIT-States ：包含53,753张图像，115个属性和245个对象，形成1,962种标注组合。
C-GQA ：更大规模的数据集，有413属性、674对象和约7,000种潜在组合，但只有39,298张标注图像。
VAW-CZSL ：当前最大的细粒度数据集，含533属性、543对象和92,000张图像，覆盖15,785种组合。

对比方法包括两类：

传统非VLM方法：LE、CompCos、OADis等
VLM提示调优方法：CSP、DFSP、Troika等

评估指标除了整体调和平均（HM）和AUC外，还细分为五种组合类型：

AO：训练中见过的完整组合
(AO)*：已知属性+已知对象的新组合
A*O：新属性+已知对象
AO*：已知属性+新对象
A O ：全新属性+全新对象

4.2 性能突破与关键发现

表1展示了MIT-States和C-GQA上的详细结果。SPA在所有基线方法上都带来了稳定提升：

在MIT-States上：

平均HM提升2.6%（27.21→27.91）
最难的任务A O 提升18.0%（23.66→27.92）

在C-GQA上：

平均HM提升6.3%（18.15→19.29）
A O 相对提升55.1%（7.07→10.97）

特别值得注意的是DFSP+SPA在C-GQA上的表现，其在保持AO性能的同时，将A O 从4.78提升到5.29，证明了SPA在保持已知能力的同时增强泛化性。

表2的VAW-CZSL结果进一步验证了SPA在细粒度场景的有效性。虽然整体提升幅度较小（HM从16.00到17.30），但在最困难的A O 上仍实现了33%的相对改进（3.82→5.08），表明SPA对细粒度属性同样有效。

4.3 消融研究与参数分析

我们通过系统消融实验验证了SPA各组件的作用：

SCL的影响 ：移除SCL导致A O和AO 性能平均下降14.3%，证实结构保持对知识迁移的关键作用。
邻域大小K ：K=5时达到最佳平衡。过小（K=1）会丢失结构信息，过大（K=20）会引入噪声。
温度系数τ ：τ=0.1最优。过高会使约束过松，过低则导致优化困难。
两阶段训练 ：相比直接联合训练，两阶段策略使最终HM提升约2.1%，训练更稳定。

5. 实际应用中的挑战与解决方案

5.1 语义鸿沟问题

虽然SPA显著提升了开放词汇性能，但当未知概念与已知概念语义差距过大时，性能仍会下降。例如在C-GQA中，"金属质感的"与已知属性最相似的可能是"闪亮的"，但实际视觉特征差异很大。

解决方案 ：

引入更丰富的语义关系（如WordNet层次结构）
结合视觉原型网络，补充纯文本相似度的不足

5.2 组合偏差校正

我们发现模型有时会对某些对象产生属性偏见。例如在UT-Zappos上，"高跟鞋"容易被错误关联到"正式的"，即使实际图像是"休闲高跟鞋"。

解决方案 ：

在SAS中引入反事实修正项
使用注意力机制动态调节属性-对象交互强度

5.3 计算效率优化

当处理超大规模词汇（如数千个属性/对象）时，SAS的相似度计算可能成为瓶颈。

优化方向 ：

聚类预处理，只在同类概念间传播调整
量化相似度计算，利用GPU张量核心加速
开发稀疏化版本，只更新最关键的概念关系

6. 扩展应用与未来方向

SPA的思想不仅限于属性-对象组合识别，还可应用于：

多模态检索 ：保持图文嵌入的局部结构，提升跨模态检索的零样本能力。
视觉问答 ：处理开放词汇问题时，利用已知问题的优化轨迹调整新问题的表示。
增量学习 ：当新增类别时，通过结构保持避免灾难性遗忘。

未来工作可能沿着以下方向深入：

结合扩散模型生成未知概念的视觉原型
开发层次化提示调优，同时捕捉不同粒度语义
探索更高效的结构传播机制，降低计算开销

在实际部署中，我们发现将SPA与现有的CLIP应用结合，可以在不增加推理成本的情况下显著提升开放词汇场景的表现。例如，在电商产品分类系统中，加入SPA后对新上架商品的特征组合识别准确率提升了32%，而响应时间仅增加8%。

您可能感兴趣的与本文相关内容

标签

#组合零样本学习 #开放词汇 #CLIP