Multimodality Helps Unimodality:Cross-Modal Few-Shot Learning with Multimodal Models

研究发现,利用跨模态信息(如图像和文本)可以提升单模态的少样本学习效果。通过CLIP等多模态基础模型,将不同模态映射到同一表示空间,提出了一种简单的跨模态自适应方法,仅使用少量样本就能实现SOTA结果。此外,还创建了首个图像-声音少样本数据集,证实多模态信息在减少概念学习模糊性方面的有效性。

CVPR2023

Carnegie Mellon University

Arxiv:https://arxiv.org/pdf/2301.06267.pdf

Code:GitHub - linzhiqiu/cross_modal_adaptation: Cross-modal few-shot adaptation with CLIP

Abstract

经典的 few-shot 框架使用来自单一模态的样本,但这样的样本可能不足以表征整个类得概念。相比之下,人类使用跨模式信息来有效地学习新概念。在这项工作中,作者证明了我们确实可以通过阅读关于狗的知识并它们叫来构建更好的视觉狗分类器

为此,我们利用了最近的多

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值