【问题标题】:How can get the base form of a word programmatically from the inflected form?如何以编程方式从变形形式中获取单词的基本形式?
【发布时间】:2018-07-27 04:36:12
【问题描述】:

我想在 python 中找到输入词的基本形式

类似

get_base_form({running, best, eyes, moody})
--> run, good, eye, mood

只处理常规形式的解决方案就可以了。但是,也可以处理不规则的答案将是完美的。

如果没有库可以做到这一点,那么 Web 服务也可以。

【问题讨论】:

  • search了吗?
  • 请按照您创建此帐户时的建议阅读并遵循帮助文档中的发布指南。 On topichow to ask... the perfect question 在此处申请。 StackOverflow 不是设计、编码、研究或教程服务。
  • @php_nub_qq 是的。 “spacy”可以工作,但我不认为这是唯一的解决方案
  • 谷歌搜索“词根化”,而不是“词干”——词干不是词的基本形式——它们通常甚至不是词,但词根是。它们取决于您单词的词性标签。对于python,可以研究spacy或者nltk。

标签: python nlp natural-language-processing


【解决方案1】:

使用来自nltk 自然语言工具包的 SnowballStemmer:

from nltk.stem.snowball import SnowballStemmer

stemmer = SnowballStemmer("english")
print(stemmer.stem("generalized"))
print(stemmer.stem("generalization"))

输出:

general
general

对了,你可以阅读nltk的文档@https://www.nltk.org/

【讨论】:

    猜你喜欢
    • 2015-01-03
    • 2013-09-03
    • 2011-07-05
    • 2014-04-30
    • 1970-01-01
    • 1970-01-01
    • 2011-06-28
    • 2017-07-24
    • 1970-01-01
    相关资源
    最近更新 更多