【发布时间】:2020-04-28 04:26:29
【问题描述】:
from gensim.sklearn_api.phrases import PhrasesTransformer
# Create the model. Make sure no term is ignored and combinations seen 3+ times are captured.
m = PhrasesTransformer(min_count=1, threshold=3)
text = [['I', 'love', 'computer', 'science', 'computer', 'science', 'is', 'my', 'passion', 'I', 'studied', 'computer', 'science']]
# Use sklearn fit_transform to see the transformation.
# Since computer and science were seen together 3+ times they are considered a phrase.
m.fit_transform(text)
上面的代码确实按预期返回了computer_science。但是什么才是实用的词组提取方法呢?
【问题讨论】:
-
你所说的“正确的方式”和“务实的”是什么意思? (
Phrases统计技术适用于多种目的,但会遗漏人们会感知的短语/概念/实体,并且会结合人们可以从上下文中分辨出来的多重字母,而不是真正的单位。意义。因此,结果通常不会向用户展示,但对于分类或信息检索之类的幕后仍然很有帮助。) -
类似于 m.get_phrases() 的东西,所以它可以返回 computer_science。我不确定是否有这样的方法或属性可以做到这一点
-
你的意思是,列出所有它学到的可能的短语吗?
-
没错,我不确定是否有这样的方法或属性,因为我是 n-gram 的新手