在 scikit-learn 中计算 n-gram 时处理同形异义词

【问题标题】：Dealing with homographs when counting n-grams in scikit-learn在 scikit-learn 中计算 n-gram 时处理同形异义词
【发布时间】：2013-05-01 06:27:09
【问题描述】：

我正在使用 TfIdfVectorizer 来计算文本中的 n-gram，但我需要先对其进行词形还原。一种书面形式可以对应不同的引理，所以都应该计算在内。如何在 scikit-learn 上下文中处理它？我是否需要编写分析器并将其传递给 TfIdfVectorizer？它是如何工作的？

【问题讨论】：

【解决方案1】：

请参阅development version's documentation，例如将词形还原器插入CountVectorizer 的代码； TfidfVectorizer 用法类似。

（完全披露：示例是您真实编写的。）

【讨论】：

WordNetLemmatizer 仅返回每个标记的符号引理。我的 lemmatizer 包装器可以为每个标记返回任意数量的 lemmas，并且它们不能仅仅连接起来，因为 n-gram 会被破坏。这就是问题所在。
@lizarisk：那么您可能想要查看DictVectorizer 并进行自己的特征提取。