KDD’23 | Pinterest搜索广告: 召回阶段样本选择偏差问题实证分析
发布网友
发布时间:2024-10-21 04:32
我来回答
共1个回答
热心网友
时间:2024-11-05 01:03
Pinterest是一家图片分享社交平台,其广告业务采用多级漏斗模式,包括Ads Targeting, Ads Retrieval, Ads Ranking和Ads Auction。本文主要探讨召回阶段的样本选择偏差问题。召回模型学习排序模型的预估值,存在经典样本选择偏差。作者通过构造不同级别的数据集,分析了不同阶段候选的分布差异,证实了样本选择偏差现象。
为了缓解该问题,作者调研了多种策略。线上基线模型在曝光样本集上回归排序模型预估值。二分类仅在曝光样本上进行训练,比较线上基线为何未直接使用真实样本进行二分类。Batch内负采样在点击样本为正例的条件下,从同一批次中选取难负例。知识蒸馏仅在曝光样本上回归排序模型预估值。迁移学习先在曝光样本上训练双塔召回模型,然后冻结query tower,利用未曝光样本微调ads tower。对抗学习采用双源数据集,在线上基线模型损失上添加对抗损失,以提高模型泛化能力。无监督域适应(UDA)在曝光样本上训练排序模型,通过伪标签回归排序预测值。
本文改进了无监督域适应策略,提出MUDA(筛选高置信度样本的无监督域适应)。MUDA在未曝光样本上回归排序预测值,但仅使用排序预估值高于预设阈值的样本作为正例,显著提高了伪标签质量。实验结果表明,MUDA在展现数、点击率和转化率方面均优于其他策略。在不同广告类型上,MUDA对知名度、流量和转化广告均有显著提升,尤其在转化广告上表现最佳。MUDA模型在广告隐藏率和re-pin率上也取得较好的平衡,显示出较好的用户体验。
综上,本文通过实证分析揭示了Pinterest广告召回阶段的样本选择偏差问题,并提出了一种改进的无监督域适应策略MUDA,该策略有效缓解了偏差问题,提高了广告效果和用户参与度。MUDA策略在不同广告类型上均表现出色,特别在转化广告上取得最高一致性提升。此外,策略的消融分析和业务指标的改进进一步验证了MUDA的优越性。