【问题标题】:Dealing with homographs when counting n-grams in scikit-learn在 scikit-learn 中计算 n-gram 时处理同形异义词
【发布时间】:2013-05-01 06:27:09
【问题描述】:

我正在使用 TfIdfVectorizer 来计算文本中的 n-gram,但我需要先对其进行词形还原。一种书面形式可以对应不同的引理,所以都应该计算在内。如何在 scikit-learn 上下文中处理它?我是否需要编写分析器并将其传递给 TfIdfVectorizer?它是如何工作的?

【问题讨论】:

    标签: nlp scikit-learn tf-idf lemmatization


    【解决方案1】:

    请参阅development version's documentation,例如将词形还原器插入CountVectorizer 的代码; TfidfVectorizer 用法类似。

    (完全披露:示例是您真实编写的。)

    【讨论】:

    • WordNetLemmatizer 仅返回每个标记的符号引理。我的 lemmatizer 包装器可以为每个标记返回任意数量的 lemmas,并且它们不能仅仅连接起来,因为 n-gram 会被破坏。这就是问题所在。
    • @lizarisk:那么您可能想要查看DictVectorizer 并进行自己的特征提取。
    猜你喜欢
    • 2018-04-23
    • 2014-07-13
    • 1970-01-01
    • 2020-01-13
    • 2011-11-27
    • 2012-10-15
    • 2012-12-31
    • 2017-03-10
    • 2017-03-20
    相关资源
    最近更新 更多