【发布时间】:2013-05-01 06:27:09
【问题描述】:
我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?
【问题讨论】:
标签: nlp scikit-learn tf-idf lemmatization
我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?
【问题讨论】:
标签: nlp scikit-learn tf-idf lemmatization
请参阅development version's documentation,例如将词形还原器插入CountVectorizer 的代码; TfidfVectorizer 用法类似。
(完全披露:示例是您真实编写的。)
【讨论】:
DictVectorizer 并进行自己的特征提取。