【发布时间】:2020-07-09 17:54:46
【问题描述】:
我们有一个新闻网站,我们必须在其中将新闻与特定用户进行匹配。
我们只能使用用户文本信息来匹配,例如用户的兴趣或关于他们的简要描述。
我正在考虑将用户文本信息和新闻文本作为文档进行威胁,并找到文档相似性。
我希望这样,如果在我的个人资料中我写了这样的句子:我喜欢去年在芝加哥的总统演讲,并且有新闻谈论:特朗普是要去伊利诺伊州演讲 我可以来一场比赛(这个例子纯属随意)。
我首先尝试使用 TF-IDF 嵌入我的文档,然后我尝试了一个 kmeans 来查看是否有一些有意义的东西,但我不太喜欢结果。
我认为问题源于 TF-IDF 给我的嵌入效果不佳。
因此,我正在考虑使用 BERT 嵌入来检索我的文档的嵌入,然后使用余弦相似度来检查两个文档(关于用户个人资料和新闻的文档)的相似度。
这是一种有意义的方法吗? BERT可以用来检索句子的嵌入,但是有没有办法嵌入整个文档呢?
你有什么建议?
谢谢
【问题讨论】:
标签: nlp document cosine-similarity bert-language-model