Multi-modal Knowledge Graphs for Recommender Systems

ABSTRACT

在各种在线应用中，推荐系统在解决信息爆炸问题和增强用户体验方面显示出了巨大的潜力。为了解决推荐系统中的数据稀疏和冷启动问题，研究人员提出了基于知识图谱(KGs)的推荐，利用有价值的外部知识作为辅助信息。然而，这些工作大多忽略了多模态知识图谱(MMKGs)中数据类型的多样性(例如文本和图像)。在本文中，我们提出了多模态知识图谱注意网络(MKGAT)来利用多模态知识更好地增强推荐系统。具体地说，我们提出了一种多模态图注意技术来在MMKGs上进行信息传播，然后使用生成的聚合嵌入表示进行推荐。据我们所知，这是第一个将多模态知识图谱集成到推荐系统中的工作。我们在两个不同领域的真实数据集上进行了大量的实验，实验结果表明我们的MKGAT模型能够成功地利用MMKGs来提高推荐系统的质量。

1 INTRODUCTION

近年来，知识图谱(knowledge graph, KGs)由于其综合的辅助数据而被广泛应用于推荐系统(即基于KGs的推荐)中[24,28]。具体来说，基于KG的推荐通过引入高质量的侧面信息(KGs)，缓解了user-item交互的稀疏性问题和冷启动问题。这些问题在基于协同过滤(CF)[11]的方法中经常出现。

然而，现有的基于KG的推荐方法在很大程度上忽略了items的图像和文本描述等多模态信息。这些视觉或文本特征可能在推荐系统中发挥重要作用。例如，在看电影之前，用户往往会先看预告片或阅读相关影评。当去一家餐厅吃饭时，用户通常会先浏览一些在线平台上的菜肴图片或餐厅的评论，如Yelp或Dianping。因此，有必要将这些多模态信息引入知识图谱中。其好处是，多模态知识图谱(MKGs)将视觉或文本信息引入知识图谱，将图像或文本视为一个实体或实体的一个属性。它是获取外部多模态知识的一种更普遍的方式，无需给出视觉或文本信息的专家定义。图1显示了一个简单的MKGs示例。

知识图谱表示学习是基于KG推荐的关键。基于KG的推荐模型通常使用知识图谱表示模型来学习KGs实体的嵌入，然后将其反馈到下游的推荐任务中。多模态知识图谱表示学习有两种类型:基于特征的方法和基于实体的方法。

基于特征的方法[17,30]将模态信息作为实体的辅助特征。通过考虑从与知识图实体相对应的图像中提取的视觉表示，它扩展了平移模型(TransE)[2]。三元组的能量(例如，TransE中三元组的分数函数)是根据KGs的结构以及实体的视觉表示来定义的。然而，基于特征的方法对知识图谱的数据源提出了相对的要求，因为它要求知识图中的每个实体都具有多模态信息。

针对KGs数据源的严格要求，提出了基于实体的方法[19]。基于实体的方法将不同类型的信息(如文本和图像)视为结构化知识的关系三元组，而不是辅助特征，即知识图谱的一级公民。它通过考虑新的关系来引入视觉信息和文本信息，如h