“Key-Value Memory Networks for Directly Reading Documents” 提出了键值记忆网络(KV-MemNN)模型以解决直接从文档读取回答问题的难题,并构建了WIKIMOVIES基准测试集,在WIKIMOVIES和WIKIQA数据集上的实验证明了该模型的有效性。
-
研究背景与动机
- 问答系统(QA)早期尝试直接从文档中读取回答,但大规模知识库(KB)的发展使研究重点转向基于知识库的问答。然而,知识库存在不完整和模式固定等局限,而原始文本资源(如维基百科)包含更丰富信息。因此,本文研究直接从文档读取回答的问题,并提出衡量QA系统在不同知识源下性能的工具WIKIMOVIES。
- 现有QA基准数据集存在规模小、无法直接比较知识库和纯文本回答等不足,本文旨在解决这些问题。
-
相关工作:早期QA系统基于信息检索,后来基于语义解析的方法利用知识库回答复杂问题,但面临知识库数据稀疏和信息抽取困难的挑战。近期研究重新关注直接从文本回答问题,但现有数据集和方法仍有缺陷。本文提出的KV-MemNN模型采用键值对结构的记忆,有别于现有基于注意力的神经网络架构。
-
键值记忆网络(KV-MemNN)
- 模型描述:基于端到端记忆网络架构,将记忆槽定义为键值向量对。问答过程包括键哈希(通过倒排索引预筛选记忆子集)、键寻址(计算问题与键的相关性概率)和值读取(根据概率加权求和返回值)三个步骤。在多次迭代(hops)中,不断更新查询并重复记忆访问,最后通过控制器状态预测答案,整个网络使用标准交叉熵损失进行端到端训练。
- 键值记忆的应用方式:在知识库应用中,键由主体和关系组成,值为客体;在文档表示方面,有句子级(键值均为句子的词袋表示)、窗口级(键为窗口词袋,值为中心词)、窗口 + 中心编码(对窗口中心和其他部分用不同特征编码)、窗口 + 标题(键为窗口词袋,值为文档标题)等多种方式,不同方式对性能有重要影响。
-
WikiMovies基准测试
- 知识表示:构建了三种知识表示形式,包括原始维基百科文档(Doc)、基于开放电影数据库(OMDb)和MovieLens的知识库(KB)以及从维基百科页面提取信息构建的知识库(IE)。确保QA对能从KB或原始文档中得到解答,同时介绍了每种表示形式的构建方法和特点。
- 问答对:包含超100,000个电影领域的问答对,分为13类问题,通过替换SimpleQuestions数据集中的实体创建,并划分为训练、开发和测试集。
-
实验
- WikiMovies实验结果:KV-MemNN在KB、IE和Doc三种数据源上均优于其他方法,直接读取维基百科文档的性能优于基于IE的知识库,但与人工标注的KB仍有差距。分析不同文档记忆表示方式,“窗口级 + 中心编码 + 标题”效果最佳。按问题类型细分结果显示IE在某些类型问题上表现不佳,Doc在部分类型问题上逊于KB。通过构建基于KB的合成文档实验,发现句子形式表示、连词和共指等因素影响了与KB的性能差距。
- WikiQA实验结果:在WikiQA数据集上,KV-MemNN性能优于多数现有方法,再次证明了键值记忆的重要性,而记忆网络因无法有效配对窗口和句子表现较差。
-
研究结论:本文提出的KV-MemNN模型有助于缩小直接阅读文档与使用知识库回答问题的差距,但仍有性能提升空间。WIKIMOVIES为分析差距原因提供了工具,未来可进一步研究缩小差距,并将KV-MemNN应用于其他领域。