【论文解读】用Dropout思想做特征选择保证效果,还兼顾了线上性能?

最新推荐文章于 2026-06-16 14:59:14 发布

转载最新推荐文章于 2026-06-16 14:59:14 发布 · 1k 阅读

本内容遵循CC 4.0 BY-SA版权协议

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwODI2NDkxNQ==&mid=2247502243&idx=4&sn=26918710aa250dd6448219d5408a2140&chksm=9707421fa070cb096dd20642b7ed59b1ed6d140f4f2491630d41310fbc27d0b0b53252ea6fe9&scene=126&&sessionid=0

标签

#人工智能 #机器学习 #深度学习 #python #算法

Python3.8

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

作者：炼丹小生

这篇论文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教会了我们如何做粗排模型兼顾模型的效率和效果.提出了可学习的特征选择方法FSCD,并在真实电商系统中应用.

简介

如上图(a)所示,受系统时延约束,推荐系统往往是多阶段的.再看图(b),论文提到简单的representation-focused(RF)模型会严重制约我们模型的表达能力(如传统双塔,最后一层向量Dot,就是简单RF模型),主要是缺少特征交叉.所以我们能否在特征上做优化,只保留效果好的特征又能保证模型推断效率更高,用上和精排一样interaction-focused(IF)的模型呢?当然是可以的!

FSCD

粗排用上精排的模型并且要保持高效率,也就意味着在某些方面要做牺牲,那果断就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上图所示,FSCD方法中效果是通过梯度优化,效率是通过特征维度的正则化来保证.在训练过程中就可以挖掘到一批有用的特征.

对于每个特征而言,都有个可学习的dropout参数Z𝑗 ∈ {0, 1} ,并且是符合伯努利分布:

该分布的超参是由特征复杂度cj决定的,cj是由特征的计算复杂度oj,向量维度ej,还有key的多少nj一起决定的.

最终损失函数如下所示:

我们可以看到每个zj还会乘上正则化系数:

又因为zj的伯努利分布不可导,可以近似为:

实验

参考文献

1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach

https://arxiv.org/pdf/2105.07706.pdf

2、https://zhuanlan.zhihu.com/p/375943741

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419，加入微信群请扫码：

您可能感兴趣的与本文相关的镜像

Python3.8

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本