【论文解读】用Dropout思想做特征选择保证效果,还兼顾了线上性能?

Python3.8

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

作者:炼丹小生

这篇论文《Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach》教会了我们如何做粗排模型兼顾模型的效率和效果.提出了可学习的特征选择方法FSCD,并在真实电商系统中应用.

简介

5b07ccfc26e312e6cc92fd03cf3782bb.png

19213e2e6871d25908a105bd4358f06d.png

067d17a51f7e12b90f5b06ee994cb0fa.png

如上图(a)所示,受系统时延约束,推荐系统往往是多阶段的.再看图(b),论文提到简单的representation-focused(RF)模型会严重制约我们模型的表达能力(如传统双塔,最后一层向量Dot,就是简单RF模型),主要是缺少特征交叉.所以我们能否在特征上做优化,只保留效果好的特征又能保证模型推断效率更高,用上和精排一样interaction-focused(IF)的模型呢?当然是可以的!

FSCD

8f087bbe2d8379e6f803fb2015fad8fd.png

64eaf3b1a36740ba0f534236966ea777.png

fd22629eaf7f9da805a01eebc2c98ed6.png

粗排用上精排的模型并且要保持高效率,也就意味着在某些方面要做牺牲,那果断就是在特征上入手了,因此IF的粗排模型用上的特征是精排的子集.如上图所示,FSCD方法中效果是通过梯度优化,效率是通过特征维度的正则化来保证.在训练过程中就可以挖掘到一批有用的特征.

对于每个特征而言,都有个可学习的dropout参数Z𝑗 ∈ {0, 1} ,并且是符合伯努利分布:

3b51e00bec40167c01e255039ac0db50.png

该分布的超参是由特征复杂度cj决定的,cj是由特征的计算复杂度oj,向量维度ej,还有key的多少nj一起决定的.

8291894742f56376e26a55c63286a4e5.png

dffd24fcc5bbdae17907642496f25344.png

最终损失函数如下所示:

bf48437c2f9b6ba46a6056bdab048f3b.png

我们可以看到每个zj还会乘上正则化系数:

7913554dd21f48ee8d9aab00c9db88a9.png

又因为zj的伯努利分布不可导,可以近似为:

1829bd8b5e25e8c6bf6bee99c850727c.png

实验

dfffed44c324cd736b85e8dc0ecb30b4.png

c2734b19f163c60f0d210d73b8fe3e18.png

564c299213324eaa937e022b4c1607c8.png

参考文献

76aa208dd4640243c25851ac1e9c11d5.png

1、Towards a Better Tradeoff between Effectiveness and Efficiency in Pre-Ranking: A Learnable Feature Selection based Approach

https://arxiv.org/pdf/2105.07706.pdf

2、https://zhuanlan.zhihu.com/p/375943741

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419,加入微信群请扫码:

c732b7c7d8413bda781f53a8e9349175.png

您可能感兴趣的与本文相关的镜像

Python3.8

Python3.8

Conda
Python

Python 是一种高级、解释型、通用的编程语言,以其简洁易读的语法而闻名,适用于广泛的应用,包括Web开发、数据分析、人工智能和自动化脚本

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值