第三章推荐系统中的embedding（共九章含面试题）

原创于 2026-06-20 20:28:05 发布 · 211 阅读

0 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#推荐算法

参考书籍：

《互联网大厂推荐算法实践》

感兴趣的朋友可以去看原书😁

3.1 推荐算法中的embedding

embedding是一门自动将概念转换成特征向量的技术，目标是提升推荐算法的扩展能力，从而自动挖掘低频、长尾、小众的模式。

由于推荐系统中的特征高维稀疏，所以我们必须实现稀疏的前代和回代，回代时不用更新整个embedding矩阵，只更新一个batch中出现的几个有限非零特征对应的那几行。实现方式包括tensorflow中的indexslices类。

3.2 共享embedding和独占embedding

3.2.1 共享embedding

共享是指同一套embedding喂入模型的多个地方，发挥多个作用。

优势：1）缓解由于特征稀疏、数据不足导致的训练不充分。2）复用节省存储空间。

例子包括第四章将讲到的FM和第五章将讲到的双塔模型。

3.2.2 独占embedding

优势：1）避免互相干扰。2）更好的进行特征交叉。

1）避免互相干扰。

比如APP的安装，启动，卸载对于embedding有不同的要求，如果用一套embedding难以同时满足所有的要求。

2）更好的进行特征交叉。

比如FM（因子分解机）中，无论第i个特征和哪个特征交叉，FM都是用相同的embedding来生成交叉特征的系数，这样如果模型调整i的embedding以便学习交叉特征的系数，却可能对i和另一个特征组合的系数造成负面影响。

为此，FFM被提出了。FFM的核心思想是，每个特征在与不同特征交叉时，根据对方特征所属的field使用不同的embedding。缺点是参数空间爆炸，因为每个特征有field数个embedding。

之后，阿里巴巴提出了CAN。CAN既像FFM，让每个特征在与其他不同特征交叉时使用完全不同的embedding，也像FM那样不造成参数空间爆炸。

具体步骤如下：

1. 拆解

假设物料的embedding是一个长度为D的一维向量，首先将D均匀分为K段，每段长度为D/K。

2. 变形

假设我们要构建的MLP某一层输入维度为din，输出维度为dout，那么D/K必须先满足D/K=din*dout，然后将D/K变形成din*dout的矩阵。

3. 组装MLP

将第二步产生的矩阵充当MLP网络中的第0层到第K-1层的权重参数。层与层之间插入ReLU。

简单来说，就是把物料的embedding变形成一个小型MLP，然后把用户的embedding喂入这个MLP，输出的结果就是这两个特征交叉的结果。当然，反过来变形用户的embedding，喂入物料的embedding也是可以的。

CAN的优势有两个方面：1）ReLU导致有些位置是0，从而MLP中有些神经元不发挥作用，相当于同一个物料embedding和不同用户embedding交叉时使用不同的embedding，从而减少了不同交叉之间的相互干扰。2）参数空间没有爆炸。

3.3 parameter server：推荐算法的训练加速器

3.3.1 传统分布式计算的不足

推荐系统的数据有两个特点：海量的训练数据，特征空间高维稀疏。

传统的分布式训练无法训练，因为参数量巨大，而且节点之间广播回传所占据的带宽和造成的时延不可想象。

3.3.2 基于PS的分布式训练范式

PS架构是如何克服传统分布式训练架构的困难的：

1）参数由一群PS Server节点共同存储读写，从而突破了单台机器的资源限制。

2）只传递当前batch中有限的几个非零特征的参数，从而大大节省带宽和传输时间。

PS架构中的三类节点功能：

1）worker

从server拉取最新的模型参数

用本地数据训练，计算梯度

向server推送梯度

2）server

存储模型参数

向worker发送模型参数

聚合worker发送的梯度并更新模型参数

3）scheduler

整个PS集群的管理

3.3.3 PS中的并行策略

1. 批量同步并行（BSP）

server等待所有worker推送梯度完成后，汇总梯度并更新模型参数。

缺点：木桶效应，一个慢节点就能拖累整个集群的计算速度。

2. 异步并行（ASP）

每个worker推送自己的梯度后，直接开始下一个batch的数据的训练。

缺点：可能发生梯度失效（stale gradient）问题。

比如有两个worker节点，他们先用θ0版本的参数进行训练，worker1训练好了，向server推送梯度g1，server更新参数为θ1，而这个时候worker2才训练好，但是它用的参数版本还是θ0，这样他算出来的梯度其实已经失效了。

不过由于推荐系统的特征超级稀疏，同时更新同一个特征的参数的可能性非常小，所以ASP还是推荐使用的。

3. 半同步半异步（SSP）

SSP允许worker节点在一定迭代轮数内保持异步，如果最快的worker和最慢的worker之间的迭代步数之差超过了允许的最大值，所有worker都要停下来等。

3.3.4 更先进的PS

1. XDL

采用ASP的方式训练。

创新点：

1）引入流水线机制

训练一个推荐模型，可以划分为读取训练数据，从server拉取模型参数，worker前代回代模型三个步骤。

传统模式是完成三个步骤后开始下一个batch的训练。

XDL的做法是为每个步骤分配专门的线程池，并在步骤间引入队列作为流水线，从而让多个步骤可以并发执行。

比如‘读数据’模块在读取batch0的数据之后，只需将数据插入队列，就可以读取batch1的数据，而不必等待拉取参数和前代回代执行完毕。

2）在PS的Server节点上也能部署、训练模型

由于有多模态数据，embedding很大，在server和worker之间频繁传递会占用大量带宽资源，导致很大的时延。

对此，XDL在每个server节点部署一个可学习的压缩模型，先将原始embedding经过这个压缩模型压缩成小embedding向量，再传给worker。

2. Persia

创新点：

1）对于推荐模型中的embedding和DNN权重不同的特点，在训练中采取不同的更新策略和通信策略。

对于embedding参数，由于超级稀疏，采用ASP模式训练，PS模式通信。

对于DNN权重，由于所有worker都要更新，采用BSP模式训练，AllReduce模式通信，从而worker无需通过server作为中介就能及时更新。

2）优化模型参数的存储空间

对于很久没有更新的特征模型参数，从server中删除；

对于首次遇到的特征，以p的概率接纳并分配存储空间给它，所以它平均出现1/p次才能在server中拥有一席之地，从而避免只出现一两次的特征浪费空间。

3.4 面试题（答案仅供参考）

1. 为什么说Embedding提升了推荐算法的扩展性？

Embedding 之所以能显著提升推荐算法的扩展性，核心在于它将离散、稀疏的特征转化为连续、稠密的向量表示，从而让模型能够自动学习特征间的隐含关系，而非依赖人工规则或简单统计。

2. FFM针对FM的改进在哪里？

FFM中每个特征在与不同特征交叉时，根据对方特征所属的field使用不同的embedding；而FM中每个特征在与不同特征交叉时，使用的是同样的embedding。

3. 简述阿里Co-Action Network的基本思想？

4. 简述Parameter Server是如何应对推荐系统“高维稀疏”的数据环境的？