本博客非论文的逐字逐句翻译,乃博主阅读论文之后根据自己的理解所写,预知详情,请参阅论文原文。
论文题目:Probabilistic Embeddings for Cross-Modal Retrieval;
作者:Sanghyuk Chun1, Seong Joon Oh1, Rafael Sampaio de Rezende2, Yannis Kalantidis2, Diane Larlus2,
论文发表地点:CVPR 2021;
论文下载地址:https://arxiv.org/pdf/2101.05068v1
代码链接:https://github.com/naver-ai/pcme
摘要:
跨模态检索的方法一般是对来自不同模态的样本建立一个公共表示空间(common representation space),通常是语言和视觉两种模态。
对于图像(images)和标题(captions)而言,对应关系的多样性(the multiplicity of the correspondences)使得该问题更加具有挑战性。
给定一张图像(或者一个标题),实际上存在多个有意义的、能够与之对应的标题(或者图像)。而作者认为现有的大多数模型中构建的确定性函数(deterministic functions)不足以捕获这样的一对多的对应关系(one-to-many correspondences)。
所以本文提出了PCME(概率跨模态嵌入,Probabilistic Cross-Modal Embedding),将来自不同模态的样本表示为公共表示空间中的概率分布(probabilistic distributions)。
然而现有的检索数据集也有这样的问题,比如COCO,不能详尽图像-标题配对的注释(就是说对于一张图像只有若干标题

本文介绍了PCME(概率跨模态嵌入)模型,用于解决跨模态检索中一对多、多对多对应关系问题。该模型将不同模态样本表示为公共空间的概率分布,在CUB数据集实验效果良好。还指出现有数据集不足,提出解决方案,通过消融实验证明其能提升检索性能和可解释性。


被折叠的 条评论
为什么被折叠?



