关键词:
开放世界
知识图谱补全
元学习
Reptile
注意力机制
摘要:
知识图谱以网络的形式将复杂知识结构化,应用于许多下游任务中,如Web搜索、智能推荐系统等。然而大多数知识图谱普遍存在关系缺失、数据不完整的问题,知识图谱补全任务的目的就是提高知识图谱的完备性,进而提高其在下游任务中的表现。随着现实世界知识的高速动态发展,不断出现新的实体和关系,而现有的以嵌入为基础的知识图谱补全方法大多数都假定知识图谱是固定不变的,当出现新的实体和关系时,需要重新训练模型,这将带来巨大的成本。与此同时,知识图谱中出现频率越低的长尾关系,涉及的实体也呈长尾分布,而目前大多数解决少样本问题的知识图谱补全方法只考虑长尾关系,忽略了长尾实体的存在。针对上述两个问题,本文主要研究工作和贡献如下:1.本文对知识图谱补全技术进行了研究和分析,考虑如何处理开放世界设定下的知识图谱补全问题,构建开放世界知识图谱中可见实体和可见实体之间的链接、不可见实体和可见实体之间的链接,并且研究了解决少样本问题的元学习方法,将元学习方法应用于解决开放世界知识图谱补全任务中存在的长尾关系和长尾实体的问题。2.本文提出了基于Reptile的元学习开放世界知识图谱补全模型(Reptile Meta-Learning Based Open-World Knowledge Graph Completion,RML),该模型主要包含描述编码器、三元组评分器和元学习器。其中描述编码器使用实体和关系的文本描述来生成嵌入表示,通过Bi-LSTM对文本描述进行上下文编码,再使用CNN的局部平移特性来进行特征提取,可以将不可见实体链接到知识图谱中。考虑到不同任务关系语义下的头尾实体应有不同的嵌入表示,使用任务关系特定聚合方法来实现头尾实体与任务关系的交互,以获取具有更丰富语义信息的嵌入表示。为提高模型预测能力,三元组评分器使用Trans E函数评估三元组的合理性。基于Reptile设计的元学习器可以通过关系的少量样本来快速更新模型参数以适应新任务,解决了知识图谱中存在的长尾关系和长尾实体的问题。3.在RML的基础上,本文还提出了基于多注意力的开放世界知识图谱补全模型(Multi-Attention Meta-Learning Based Open-World Knowledge Graph Completion,MAKGC)。以尾实体预测为例,该模型融合了以下多重语义交互信息:头实体与任务关系之间的语义交互信息、候选尾实体与任务关系之间的语义交互信息、候选尾实体与头实体之间的语义交互信息,基于词级注意力机制将这些信息进行融合,使得头尾实体具有更为准确的表达。此外,通过引入自注意力机制,模型能够进一步聚焦重点语义信息,去除噪声,从而挖掘出更深层次的语义关联信息。4.本文根据Reptile元学习方法的问题设置,构建了适用于元学习开放世界知识图谱补全任务的新数据集DBP50ktext,并且在数据集DBP50ktext和其它两个数据集WDtext、DBPtext上进行了对比实验和消融实验,实验结果表明,本文提出的两个模型在各个评价指标上的表现均优于本文选取的三组知识图谱补全算法,实现了更为准确高效的预测。