近年来,社交媒体社区的快速发展在网络上创造了大量的数字文档。 向用户推荐相关文档是客户参与有效性的战略目标,但同时也不是一个小问题。

在之前的一篇博文中,我们介绍了图形感知自然语言处理插件。 它为实现利用文本分析的更复杂的应用程序以及为最终用户提供增强的功能提供了基础。

一个有趣的用例是将基于内容的推荐与协作过滤方法相结合,以提供高质量的”建议” .”这种场景非常适合所有将用户生成的内容(如社交媒体(与任何类型的反应(如标记、喜欢等(相结合的应用程序。

在这个方向上,我们从论文”推荐系统的社交感知文档相似度计算”中所揭示的思想开始,该论文是我们为Neo4j开发的GraphA暴力企业资源规划插件的一部分,Neo4j是一个推荐引擎,它使用相似度的组合作为模型来提供高质量的推荐。

在社交社区中,文档(可以是帖子、推文、博客等。(可以由三个要素来表征:

  1. 文档内部内容和提取的标签。

  2. 用户与之关联的标签。

  3. 读者的互动(一.e.、查看、注释、标记等).

随着时间的推移,文档的内部内容是静态的。 但是,与文档相关联的标签和用户是由社区驱动的。 它们反映了社区对文档的态度,并且可以随着时间的推移而改变。

利用传统的信息检索技术,文档的内部内容被索引。 该索引然后被用来帮助用户搜索他们感兴趣的文档。

这些技术在许多信息检索系统中仍然很流行。 然而,仅使用文档可能会遗漏标签和用户所携带的某些含义。 认识到标签作为内部内容索引的补充的重要性,一些系统使用标签作为文档外部元数据。 这种类型的元数据用于帮助用户在文档数据库中浏览或导航。

图形感知企业记录使用计算文档相似度的组合方法来构建推荐系统。 其思想是,文档的意义不仅来自其内容,还来自其相关的标签和用户交互。

“These three factors are viewed as three dimensions of a document in social space, named as Content, Tag, and User. “这三个因素被视为社交空间中文档的三个维度,称为内容、标签和用户。 “这三个因素被视为社交空间中文档的三个维度,称为内容、标签和用户。 每个维度提供文档的不同视图。 在内容维度中,文档的含义由其作者给出。 然而,在标签维度中,文档的含义就是社区对它的感知。 每个用户都可以通过标记来提供文档的不同视图。”

“此外,在分析”静态”内容和社会标签时,本体和语义可以用来提取概念中的层次结构。 这种扩展允许发现标签之间的关系,并以这种方式发现明显不相关的文档之间的隐藏关系。因此,举例来说,如果一个文档被加上标签(自动从内容或由用户(

战争

使用 NLP neo4j for a social media advice

而另一个用标签标记

战争

在第一次分析时,它们可能看起来不相关,但是在分析了单词暴力的语义层次之后(例如使用ConceptNet 5),系统可以揭示它们之间的关系。

为数据库设计的模式将如下所示: 该模式还显示了如何使用图表和Neo4j轻松存储和进一步扩展这一复杂模型。

mysql数据库同步 使用存储的所有信息,将为每个文档创建三个不同的向量:

基于内容和本体的矢量:Ci={wc(i,1),wc(i,2),…,wc(i,n)} 其中n是数据库中标签的总数,wc(i,k)是文档中或标签层次结构中第k个标签的权重。

wc(i,k)使用以下公式计算:α*tf-idf(i,k),其中α是与本体中的层次相关联的权重;如果标签在文档中,或者它是文档中标签的同义词,则它等于1 .在其他情况下小于1 .

基于社交标签的矢量:钛={重量(1,1),重量(1,2),…,重量(1,p)} 用户向量: Ui={wu(i,1),wu(i,2),…,wu(i,q)} 其中q是数据库中的用户总数,wu(i,k)是文档的第k个用户的权重。

重量(I,k)是标签k与文档i的关联频率

用户向量:Ui={wu(i,1),wu(i,2),…,wu(i,q)}其中q是数据库中的用户总数,wu(i,k)是文档的第k个用户的权重。 考虑到用户对文档表达的不同兴趣程度,可以用不同的方式计算该权重。

此外,如果需要对每个组件使用不同的权重,可以使用多个用户向量(例如,一个向量用于喜好,一个向量用于费率,等等).

使用这三个(或更多(向量,计算三个(或更多(不同的余弦相似度,然后以下列方式计算组合相似度的值: 组合相似性(I,j)=α余弦(Ci,Cj)+β余弦(钛,Tj)+γ*余弦(Ui,Uj)其中α + β + γ=1 .

值得注意的是,计算出的相似性代表了从图形数据库中的可用数据中提取的新知识。 它被存储为推荐引擎的模型,并且可以通过多种方式向用户提供建议。

在这个用例中GraphAware NLP插件用于向最终用户提供高质量的推荐。 该插件提供了基于内容和基于本体的余弦相似性,再加上更经典的”协同过滤”方法,以一种直接的方式产生了全新的、更高级的功能。图形感知自然语言处理插件可以和图形感知产品页面上的其他插件一起使用。 特别是,使用Neo4j弹性插件和Neo4j图形辅助搜索插件,可以提供完整的端到端定制搜索框架。推荐系统的社会感知文档相似度计算。00,不。,pp .

相关文章:

  • 2022-02-15
  • 2021-07-20
  • 2022-12-23
  • 2021-08-18
  • 2021-08-25
  • 2022-12-23
  • 2021-06-14
  • 2021-10-15
猜你喜欢
  • 2021-06-11
  • 2021-10-19
  • 2021-05-02
  • 2021-06-08
  • 2021-07-31
  • 2022-01-16
  • 2021-08-24
相关资源
相似解决方案