【论文阅读】Probabilistic Embeddings for Cross-Modal Retrieval CVPR 2021 --- 跨模态检索，概率嵌入，一对多，多对多匹配

原创

已于 2022-11-14 21:32:21 修改 · 2.9k 阅读

·

5

·

标签

#人工智能 #图像处理 #神经网络 #自然语言处理

于 2022-03-22 17:07:42 首次发布

本文介绍了PCME（概率跨模态嵌入）模型，用于解决跨模态检索中一对多、多对多对应关系问题。该模型将不同模态样本表示为公共空间的概率分布，在CUB数据集实验效果良好。还指出现有数据集不足，提出解决方案，通过消融实验证明其能提升检索性能和可解释性。

本博客非论文的逐字逐句翻译，乃博主阅读论文之后根据自己的理解所写，预知详情，请参阅论文原文。

论文题目：Probabilistic Embeddings for Cross-Modal Retrieval；

作者：Sanghyuk Chun1， Seong Joon Oh1， Rafael Sampaio de Rezende2， Yannis Kalantidis2， Diane Larlus2，

1- NAVER AI Lab

2- NAVER LABS Europe；

论文发表地点：CVPR 2021；

论文下载地址：https://arxiv.org/pdf/2101.05068v1

代码链接：https://github.com/naver-ai/pcme

摘要：

跨模态检索的方法一般是对来自不同模态的样本建立一个公共表示空间（common representation space），通常是语言和视觉两种模态。

对于图像（images）和标题（captions）而言，对应关系的多样性（the multiplicity of the correspondences）使得该问题更加具有挑战性。

给定一张图像（或者一个标题），实际上存在多个有意义的、能够与之对应的标题（或者图像）。而作者认为现有的大多数模型中构建的确定性函数（deterministic functions）不足以捕获这样的一对多的对应关系（one-to-many correspondences）。

所以本文提出了PCME（概率跨模态嵌入，Probabilistic Cross-Modal Embedding），将来自不同模态的样本表示为公共表示空间中的概率分布（probabilistic distributions）。

然而现有的检索数据集也有这样的问题，比如COCO，不能详尽图像-标题配对的注释（就是说对于一张图像只有若干标题

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。