推荐系统排序算法--AFM模型
发布网友
发布时间:2023-05-06 17:52
我来回答
共1个回答
热心网友
时间:2023-12-14 08:36
在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系,因此学者们通过Deep Network来建模更高阶的特征之间的关系。因此 FM和深度网络DNN的结合也就成为了CTR预估问题中主流的方法。有关FM和DNN的结合有两种主流的方法,并行结构和串行结构。两种结构的理解以及实现如下表所示:
今天介绍的NFM模型(Neural Factorization Machine),便是串行结构中一种较为简单的网络模型。
2、NFM模型介绍
我们首先来回顾一下FM模型,FM模型用n个隐变量来刻画特征之间的交互关系。这里要强调的一点是,n是特征的总数,是one-hot展开之后的,比如有三组特征,两个连续特征,一个离散特征有5个取值,那么n=7而不是n=3.
不难发现,在进行预测时,FM会让一个特征固定一个特定的向量,当这个特征与其他特征做交叉时,都是用同样的向量去做计算。这个是很不合理的,因为不同的特征之间的交叉,重要程度是不一样的。如何体现这种重要程度,之前介绍的FFM模型是一个方案。另外,结合了attention机制的AFM模型,也是一种解决方案。
关于什么是attention model?本文不打算详细赘述,我们这里只需要知道的是,attention机制相当于一个加权平均,attention的值就是其中权重,判断不同特征之间交互的重要性。
刚才提到了,attention相等于加权的过程,因此我们的预测公式变为:
圆圈中有个点的符号代表的含义是element-wise proct,即:
因此,我们在求和之后得到的是一个K维的向量,还需要跟一个向量p相乘,得到一个具体的数值。
可以看到,AFM的前两部分和FM相同,后面的一项经由如下的网络得到:
图中的前三部分:sparse input,embedding layer,pair-wise interaction layer,都和FM是一样的。而后面的两部分,则是AFM的创新所在,也就是我们的Attention net。Attention背后的数学公式如下:
总结一下,不难看出AFM只是在FM的基础上添加了attention的机制,但是实际上,由于最后的加权累加,二次项并没有进行更深的网络去学习非线*叉特征,所以AFM并没有发挥出DNN的优势,也许结合DNN可以达到更好的结果。
论文: Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
推荐系统遇上深度学习(八)--AFM模型理论和实践
推荐系统中使用ctr排序的f(x)的设计-dnn篇之AFM模型
推荐好文: 深度学习在CTR预估中的应用
热心网友
时间:2023-11-22 07:38
在CTR预估中,为了解决稀疏特征的问题,学者们提出了FM模型来建模特征之间的交互关系。但是FM模型只能表达特征之间两两组合之间的关系,无法建模两个特征之间深层次的关系或者说多个特征之间的交互关系,因此学者们通过Deep Network来建模更高阶的特征之间的关系。因此 FM和深度网络DNN的结合也就成为了CTR预估问题中主流的方法。有关FM和DNN的结合有两种主流的方法,并行结构和串行结构。两种结构的理解以及实现如下表所示:
今天介绍的NFM模型(Neural Factorization Machine),便是串行结构中一种较为简单的网络模型。
2、NFM模型介绍
我们首先来回顾一下FM模型,FM模型用n个隐变量来刻画特征之间的交互关系。这里要强调的一点是,n是特征的总数,是one-hot展开之后的,比如有三组特征,两个连续特征,一个离散特征有5个取值,那么n=7而不是n=3.
不难发现,在进行预测时,FM会让一个特征固定一个特定的向量,当这个特征与其他特征做交叉时,都是用同样的向量去做计算。这个是很不合理的,因为不同的特征之间的交叉,重要程度是不一样的。如何体现这种重要程度,之前介绍的FFM模型是一个方案。另外,结合了attention机制的AFM模型,也是一种解决方案。
关于什么是attention model?本文不打算详细赘述,我们这里只需要知道的是,attention机制相当于一个加权平均,attention的值就是其中权重,判断不同特征之间交互的重要性。
刚才提到了,attention相等于加权的过程,因此我们的预测公式变为:
圆圈中有个点的符号代表的含义是element-wise proct,即:
因此,我们在求和之后得到的是一个K维的向量,还需要跟一个向量p相乘,得到一个具体的数值。
可以看到,AFM的前两部分和FM相同,后面的一项经由如下的网络得到:
图中的前三部分:sparse input,embedding layer,pair-wise interaction layer,都和FM是一样的。而后面的两部分,则是AFM的创新所在,也就是我们的Attention net。Attention背后的数学公式如下:
总结一下,不难看出AFM只是在FM的基础上添加了attention的机制,但是实际上,由于最后的加权累加,二次项并没有进行更深的网络去学习非线*叉特征,所以AFM并没有发挥出DNN的优势,也许结合DNN可以达到更好的结果。
论文: Attentional Factorization Machines: Learning the Weight of Feature Interactions via Attention Networks
推荐系统遇上深度学习(八)--AFM模型理论和实践
推荐系统中使用ctr排序的f(x)的设计-dnn篇之AFM模型
推荐好文: 深度学习在CTR预估中的应用
推荐系统(二)-NFM、AFM和DeepFM模型
2.2 AFM Attentional Factorization Machine AFM是NFM模型的一个改进, 在传统FM模型中,使用二阶交叉特征得到非线性表达能力,但是不是所有的特征交叉都会有预测能力,很多无用的特征交叉加入后反而会相当于加入了噪声。因此,在这个模型中,加入了Attention Net 机制,aij表示特征i,j交叉的...
大模型训练数据
上海华然企业咨询有限公司专注于AI与数据合规咨询服务。我们的核心团队来自头部互联网企业、红圈律所和专业安全服务机构。凭借深刻的AI产品理解、上百个AI产品的合规咨询和算法备案经验,为客户提供专业的算法备案、AI安全评估、数据出境等合规...
7大特征交互模型,最好的深度学习推荐算法总结
AFM(Attentional Factorization Machines)模型引入了基于注意力网络的调整,有效考虑所有可能的二阶特征组合,降低噪声影响。PNN(Product-based Neural Networks)模型创新性地在特征嵌入层与MLP之间引入显式二阶交互层,利用高维稀疏特征与固定特征域数量的便利性,实现特征交互的引入。Wide & Deep模型结合深度...
图文解读:推荐算法架构——精排!
精排算法的优化点主要集中在记忆泛化、自动特征交叉(如Attention和CIN分支)、高效处理高维稀疏id特征,以及个性化行为建模(利用注意力机制和序列模型)上。这些精细的调整让推荐系统更加精准且适应性强。
推荐系统与深度学习(3):[WWW'18]认识一下带权重的FFM模型——FwFM
个人见解FwFM的独特之处在于对特征交互权重的直观展示,这在同类研究中是新颖的。它通过对比实验展现了模型的优越性,并指出AFM模型与FwFM在思想上的契合。尽管FwFM中权重的引入在某些角度可能看似重复,但其实际作用在于区分了表示特征存在与否的权重和表示交互强度的权重,这是其他模型所不具备的。总的来说...
推荐系统与深度学习(17)[CIKM'21]DCAP: 深度交叉注意力乘积网络_百度知 ...
一、深度交叉注意力乘积网络:突破与贡献 作者们在《CIKM'21》会议上提出了DCAP模型,旨在解决深度学习模型在用户响应预测中面临的挑战。他们指出,一些深度神经网络模型(如FM和DeepFM)虽然能学习隐式特征交互,但缺乏可解释性;而AFM虽能学习显式交互,但处理的是二阶交互,忽视了权重分配的重要性。DCAP...