[2402.02842] Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One
推荐领域三大经典问题( 多兴趣/长期兴趣/长尾兴趣- 小众兴趣)
“Trinity: Syncretizing Multi-/Long-tail/Long-term Interests All in One”一文提出了一种名为Trinity的新颖统一框架,用于解决推荐系统中兴趣建模的问题,特别是多兴趣、长尾兴趣和长期兴趣的综合建模,并在抖音等平台取得了良好效果。
-
研究背景
- 大规模工业推荐系统面临用户兴趣多样化的挑战,包括多兴趣(用户对多个主题感兴趣)、长尾兴趣(小众主题)和长期兴趣(用户长期关注的主题)。
- 现有方法大多孤立地考虑一种兴趣,且在线学习模型易出现“兴趣遗忘”问题,即因倾向新样本而忘记某些兴趣主题,同时计算开销大且忽视兴趣间相互关系。
-
相关工作
- 多兴趣建模:如MIND、ComiRec、MVKE等方法通过训练多个用户表示来覆盖不同偏好,但侧重于修改在线学习框架,与本文基于长期统计的方法不同。
- 长尾兴趣:多采用多模态或图方法改善表示和预测,本文关注的长尾兴趣主要指小众主题,而非长尾物品。
- 长期兴趣:有方法通过分离模块或搜索相关行为序列改进,但本文利用聚类和兴趣分布挖掘长期线索,避免在模型中直接处理长序列。
-
Trinity基本框架
- 认为多/长尾/长期兴趣相互依赖和强化,如长期兴趣可揭示多兴趣、多兴趣有助于长尾兴趣、长期兴趣能明确长尾兴趣。
- 基于统计方法解决兴趣遗忘问题,建立兴趣聚类系统,将用户行为投影为长期行为直方图,再依此实施定制化推荐策略,其训练阶段主要由SIM头和VQ-VAE结构组成。
-
大规模推荐系统中的兴趣建模
- 多兴趣:通过选择用户统计直方图中强度适中但易被模型遗忘的集群来改进,在服务阶段提取用户长期行为序列对应的集群ID并组织成直方图,经排序后按策略选择集群形成Trinity-M检索器,相比现有“Multi-U”方法,在灵活性、效率、可解释性、可扩展性和可替代性等方面具有优势。
- 长尾兴趣:基于集群比较个人与全球兴趣分布,先识别全球长尾集群,再检查用户直方图中对这些集群的响应,筛选后形成Trinity-LT检索器,采用特定采样器提升用户体验和多样性。
- 长期兴趣:利用SIM头生成的项目嵌入代表长期线索,训练预排序模型选择种子,投影到聚类系统后分散选择,构建Trinity-L检索器作为轻量级补充扩展。
- 实现细节:三个检索器选集群后用重排序模型将候选集缩至约1000,重排序模型以预测视频播放时间为目标,采用特定损失函数。
-
实验
- 聚类系统可视化:Trinity聚类系统的分类方式独特,主题涵盖多标签且分类随主题变化,与直观的人类标签系统不同。
- 在线实验:在抖音和抖音极速版进行A/B实验,以AAD、AAH、AT和Watch Time为指标,结果显示Trinity-M、Trinity-LT和Trinity-L在不同程度上提升了用户体验,如Trinity-M在有限开销下显著提高AAD和AAH,Trinity-LT促进了长尾主题的推荐,Trinity-L为中等活跃用户提供更早种子并提升AAD。
- Trinity-M的全面性和互补性:可视化结果表明Trinity-M检索的主题比stay-time检索器和MIND更全面且倾向长尾主题,能满足多兴趣建模需求。
- Trinity-LT的影响:分析印象分布变化可知,Trinity-LT提升了金融、法律等长尾主题的推荐,减少热门主题印象占比,符合预期。
- Trinity-L的种子分布:Trinity-L相比现有i2i检索器能获取更多早期种子,为中等活跃用户提供更好体验,证明其捕获了长期兴趣线索。
-
结论:提出的Trinity框架基于协作和时变聚类系统,通过三个检索器解决了兴趣遗忘问题,在大规模工业推荐系统中有效提升了用户体验,其基于长期统计的方法适用于此类系统。