Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

最新推荐文章于 2024-10-10 07:14:33 发布

原创最新推荐文章于 2024-10-10 07:14:33 发布 · 3.1k 阅读

12 ·

本内容遵循CC 4.0 BY-SA版权协议

image caption 专栏收录该内容

2 篇文章

订阅专栏

本文介绍了一种联合学习视觉-语义嵌入与多模态神经语言模型的方法。通过CNN和LSTM学习图片和句子表示，并映射到统一的空间。文中还提出两种神经语言模型及SC-NLM模型，用于改进图像描述生成。

Qwen3-32B-Chat 私有部署镜像 | RTX4090D 24G 显存 CUDA12.4 优化版

Qwen

文本生成

Qwen3

本镜像基于 RTX 4090D 24GB 显存 + CUDA 12.4 + 驱动 550.90.07 深度优化，内置完整运行环境与 Qwen3-32B 模型依赖，开箱即用。

加拿大高级研究所 Ryan kiros, Ruslan Salakhutdinov, Richard S. Zemel
2014 NIPS deep learning workshop

1. 主要思想

  学习了一个图片-句子 embedding space，以及一个解码这个空间的语言模型

2. embedding space如下图结构所示

这里写图片描述

CNN模型学习图片表示，LSTM的最后的隐藏状态为句子的表示，分别进行训练。
学习两个矩阵（即两个单层的全连接网络）Wi 和 Wv 分别对图片表示和句子表示映射到同一个空间中，如图所示最右边的紫色方块。
学习两个矩阵运用pairwise ranking loss进行训练，公式如下，
这里写图片描述
其中，非图像对的描述是从训练数据中随机抽样的，并且每一个epoch都进行重抽样。