Multimodality Helps Unimodality:Cross-Modal Few-Shot Learning with Multimodal Models

原创于 2024-02-21 18:04:36 发布 · 625 阅读

·

0

·

标签

#计算机视觉 #人工智能

Prompt in CV 专栏收录该内容

11 篇文章 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

研究发现，利用跨模态信息（如图像和文本）可以提升单模态的少样本学习效果。通过CLIP等多模态基础模型，将不同模态映射到同一表示空间，提出了一种简单的跨模态自适应方法，仅使用少量样本就能实现SOTA结果。此外，还创建了首个图像-声音少样本数据集，证实多模态信息在减少概念学习模糊性方面的有效性。

CVPR2023

Carnegie Mellon University

Arxiv：https://arxiv.org/pdf/2301.06267.pdf

Code：GitHub - linzhiqiu/cross_modal_adaptation: Cross-modal few-shot adaptation with CLIP

Abstract

经典的 few-shot 框架使用来自单一模态的样本，但这样的样本可能不足以表征整个类得概念。相比之下，人类使用跨模式信息来有效地学习新概念。在这项工作中，作者证明了我们确实可以通过阅读关于狗的知识并听它们叫来构建更好的视觉狗分类器。

为此，我们利用了最近的多

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。