字节多兴趣建模：Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One

[2402.02842] Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One

推荐领域三大经典问题( 多兴趣/长期兴趣/长尾兴趣- 小众兴趣)

“Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One”一文提出了一种名为Trinity的新颖统一框架，用于解决推荐系统中兴趣建模的问题，特别是多兴趣、长尾兴趣和长期兴趣的综合建模，并在抖音等平台取得了良好效果。

研究背景
- 大规模工业推荐系统面临用户兴趣多样化的挑战，包括多兴趣（用户对多个主题感兴趣）、长尾兴趣（小众主题）和长期兴趣（用户长期关注的主题）。
- 现有方法大多孤立地考虑一种兴趣，且在线学习模型易出现“兴趣遗忘”问题，即因倾向新样本而忘记某些兴趣主题，同时计算开销大且忽视兴趣间相互关系。
相关工作
- 多兴趣建模：如MIND、ComiRec、MVKE等方法通过训练多个用户表示来覆盖不同偏好，但侧重于修改在线学习框架，与本文基于长期统计的方法不同。
- 长尾兴趣：多采用多模态或图方法改善表示和预测，本文关注的长尾兴趣主要指小众主题，而非长尾物品。
- 长期兴趣：有方法通过分离模块或搜索相关行为序列改进，但本文利用聚类和兴趣分布挖掘长期线索，避免在模型中直接处理长序列。
Trinity基本框架
- 认为多/长尾/长期兴趣相互依赖和强化，如长期兴趣可揭示多兴趣、多兴趣有助于长尾兴趣、长期兴趣能明确长尾兴趣。
- 基于统计方法解决兴趣遗忘问题，建立兴趣聚类系统，将用户行为投影为长期行为直方图，再依此实施定制化推荐策略，其训练阶段主要由SIM头和VQ-VAE结构组成。
大规模推荐系统中的兴趣建模
- 多兴趣：通过选择用户统计直方图中强度适中但易被模型遗忘的集群来改进，在服务阶段提取用户长期行为序列对应的集群ID并组织成直方图，经排序后按策略选择集群形成Trinity-M检索器，相比现有“Multi-U”方法，在灵活性、效率、可解释性、可扩展性和可替代性等方面具有优势。
- 长尾兴趣：基于集群比较个人与全球兴趣分布，先识别全球长尾集群，再检查用户直方图中对这些集群的响应，筛选后形成Trinity-LT检索器，采用特定采样器提升用户体验和多样性。
- 长期兴趣：利用SIM头生成的项目嵌入代表长期线索，训练预排序模型选择种子，投影到聚类系统后分散选择，构建Trinity-L检索器作为轻量级补充扩展。
- 实现细节：三个检索器选集群后用重排序模型将候选集缩至约1000，重排序模型以预测视频播放时间为目标，采用特定损失函数。
实验
- 聚类系统可视化：Trinity聚类系统的分类方式独特，主题涵盖多标签且分类随主题变化，与直观的人类标签系统不同。
- 在线实验：在抖音和抖音极速版进行A/B实验，以AAD、AAH、AT和Watch Time为指标，结果显示Trinity-M、Trinity-LT和Trinity-L在不同程度上提升了用户体验，如Trinity-M在有限开销下显著提高AAD和AAH，Trinity-LT促进了长尾主题的推荐，Trinity-L为中等活跃用户提供更早种子并提升AAD。
- Trinity-M的全面性和互补性：可视化结果表明Trinity-M检索的主题比stay-time检索器和MIND更全面且倾向长尾主题，能满足多兴趣建模需求。
- Trinity-LT的影响：分析印象分布变化可知，Trinity-LT提升了金融、法律等长尾主题的推荐，减少热门主题印象占比，符合预期。
- Trinity-L的种子分布：Trinity-L相比现有i2i检索器能获取更多早期种子，为中等活跃用户提供更好体验，证明其捕获了长期兴趣线索。
结论：提出的Trinity框架基于协作和时变聚类系统，通过三个检索器解决了兴趣遗忘问题，在大规模工业推荐系统中有效提升了用户体验，其基于长期统计的方法适用于此类系统。

字节多兴趣建模：Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One

论文相关文章

多兴趣建模相关文章

字节相关文章

最近热门

最常浏览