CVPR2023
Carnegie Mellon University
Arxiv:https://arxiv.org/pdf/2301.06267.pdf
Code:GitHub - linzhiqiu/cross_modal_adaptation: Cross-modal few-shot adaptation with CLIP
Abstract
经典的 few-shot 框架使用来自单一模态的样本,但这样的样本可能不足以表征整个类得概念。相比之下,人类使用跨模式信息来有效地学习新概念。在这项工作中,作者证明了我们确实可以通过阅读关于狗的知识并听它们叫来构建更好的视觉狗分类器。
为此,我们利用了最近的多
研究发现,利用跨模态信息(如图像和文本)可以提升单模态的少样本学习效果。通过CLIP等多模态基础模型,将不同模态映射到同一表示空间,提出了一种简单的跨模态自适应方法,仅使用少量样本就能实现SOTA结果。此外,还创建了首个图像-声音少样本数据集,证实多模态信息在减少概念学习模糊性方面的有效性。
订阅专栏 解锁全文


被折叠的 条评论
为什么被折叠?



