【发布时间】:2018-10-15 12:44:07
【问题描述】:
通过 github 中的这个 Gensim 示例,https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb 它在末尾提供了示例来查找短语或关键字的相似之处,例如“lady gaga”或“机器学习”。但是,我希望在纯文本文件中找到与实际文档的相似性,可以这样做吗?我该怎么做?假设文本文件以 txt 格式位于我的本地笔记本电脑上。
【问题讨论】:
-
是的,可以通过使用 gensim 包本身的 lda 来完成
-
但不想要 lda,我需要 doc2vec 相似性
-
如果我理解正确,您只需将
wiki = WikiCorpus("enwiki-latest-pages-articles.xml.bz2")更改为您的文本文件路径!