相关召回算法推荐

二向箔

先介绍下二向箔。

二向箔是在中国科幻名匠刘慈欣的作品《三体3:死神永生》中登场的宇宙规律武器之一。首次出现于一艘来自歌者“母世界”的宇宙飞船。由于宇宙战争愈演愈烈,二向箔对于高等文明而言已不够格作为武器使用,但其仍作为一种廉价的清理工具用于清除隐藏在结构较复杂的恒星系统中的弱小文明。并且对它的滥用极大加速了宇宙的死亡。

三维空间由上下、左右、前后三个维度构成。而二向箔与三维宇宙接触的瞬间,会使其中一个维度由宏观展开变为蜷缩卷曲,从而迫使三维宇宙及其中的所有物质向二维宇宙坍塌,并在二维空间中“融化”为只存在长度和面积而被剥夺了体积概念的绝对平面。

歌者在2403年向太阳系投掷了二向箔,同年太阳系和大多数地球人被二维化而灭亡。但根据小说细节可知毁灭太阳系的二向箔要先于歌者,表明地球坐标暴露后,太阳系实际上已遭大量外星文明集火,灭亡只是时间问题。

二向箔所造成的空间二维化永远不会停止,并且维度坍塌速度会逐渐达到光速。但若能借助曲率引擎等手段以光速先行逃离,那么摆脱二维化的命运依然是可能的。然而由于所有的宇宙规律都已被不择手段的高等文明们武器化并频繁使用,因此宇宙本身正在逐渐解体。

超弦理论描述下的宇宙时空由十个空间维度和单个时间轴共同组成。而维度武器的存在暗示了高维宇宙已经或正在走向毁灭,其中的幸存者通过改造自身逃入了维度更低的宇宙。如今部分强大的三维文明也开始主动转化为二维生命以求在二维宇宙这一平面世界中继续生存。

深度学习和图索引的结合-NANN(二向箔)

NANN全称Neural Approximate Nearest Neighbor Search。

《Approximate Nearest Neighbor Search under Neural Similarity Metric for Large-Scale Recommendation》是阿里妈妈算法团队于2022年发表的一篇论文。这篇论文提出了一个新的召回方案,即在通过近似最近邻搜索算法快速查找和用户相近的若干个商品时,使用深度神经网络模型的计算输出作为用户和商品的距离度量表示其相关性,替代内积、余弦相似度等度量形式的用户和商品的向量距离。这样,既可以充分使用模型的表达能力保证用户和商品相关性的准确性,也可以通过近似最近邻搜索算法(论文中使用HNSW算法)保证结果的快速返回。论文将该方案称为NANNNeural Approximate Nearest Neighbor Search)。这个方案的思路参考了百度于2020年发表的论文《Fast Item Ranking under Neural Netword based Measures》。

具体方案

模型结构

avatar

遍历图时,将遍历的节点作为模型输入之一,模型的其他输入还包括用户信息、行为序列,输出是给定当前用户时,和该节点的相关性得分。模型结构包括5个部分:

  • Embedding层,将原始各特征转化为Embedding向量;
  • 商品网络,输入为图搜索当前遍历的节点(商品)各种特征的Embedding向量,输出为商品的Embedding向量;
  • 注意力网络,输入为行为序列中各商品各种特征的Embedding向量、以及商品网络输出的商品Embedding向量,通过注意力网络,计算行为序列中各商品和当前商品的相关性权重,然后对行为序列中各商品的Embedding向量进行加权求和作为输出;
  • 用户网络,输入为当前用户各种特征的Embedding向量,输出为用户的Embedding向量;
  • 评分网络,输入为上述商品网络、注意力网络、用户网络输出的拼接,输出为用户和商品的相关性得分。

而对于不同的数据集,模型结构细节稍有不同。论文使用了两个数据集:

  • 淘宝公开数据集(UserBehavior),涉及近百万用户、400余万商品的8000多万行为数据,每条数据包括用户id、商品id、商品类别id、行为类型、时间戳;
  • 淘宝线上数据集(Industry),涉及亿级用户、百余级商品的3亿余行为数据,其数据相比公共开数据集,包含更多的属性;

论文链接

相关介绍

  • https://zhuanlan.zhihu.com/p/675418752