【问题标题】:Should I remove Stop words with POS tagging?我应该删除带有 POS 标记的停用词吗?
【发布时间】:2013-04-10 08:40:14
【问题描述】:

我是 NLP 方面的新手,但我见过的所有 POS 标记和句子分块的例子似乎都没有删除停用词。所以我有一个问题,如果我正在做 POS 标记和分块,这是否消除了删除停用词(以及词干)的需要?

【问题讨论】:

    标签: nlp stemming chunking pos-tagger


    【解决方案1】:

    如果没有更多上下文来解释您要完成的工作,则绝对没有理由删除停用词。大多数需要 POS 标签的应用程序都需要它们用于所有输入文本,包括停用词。

    【讨论】:

    • 道歉我继承了一个文本分析引擎,它可以进行基于主题的分类。据我所知,它既不使用停用词也不使用词性标注器,我是 a) 试图了解所有各种 NLP 组件(标记化、词干化、词形还原、标注器、分块器等)如何协同工作(或不)和b)了解我们是否应该使用其中一些概念来改进我们的分类匹配。感谢您的回答,它帮助并证实了我到目前为止的想法
    • 词干和停用词是将文本“归结”为某种简化表示的技术,通常用于与搜索相关的任务。 POS 标记添加更多信息,例如用于语法分析。从这个意义上说,这些技术是对立的。
    • 感谢这也有助于分配并证实了我的怀疑,即该应用程序实际上做了两个不同但相关的事情,即基于搜索的简单关键字分类和基于 NLP 的分类主题,如 Sentiment。
    • 扩展这个问题是不礼貌的还是我应该提出另一个问题来命名 NLP 中适用于搜索的过程技术(标记化、拼写检查、同义词库、N-Grams、词干提取、词形还原,词法链接,...),适用于基于主题的分类(标记,句子分块,机器学习,...),每个步骤的顺序以及两个不同的管道如何交互?在过去的 3-4 周里,我已经阅读了很多关于这个主题的内容,但没有看到任何可以很好地总结这一点的东西,即搜索和 NLP for dummy。
    • 开始一个新问题,或者根据它的声音,提出多个问题。一个好的问题有一个直截了当的(尽管不一定是简短或简单的)答案,一旦有人发布有助于您理顺问号的内容,您就可以将其标记为“已解决”。 StackOverflow 通常不能很好地容忍“洗衣清单”问题,所以也许你应该去别处解决概述问题。
    猜你喜欢
    • 2016-09-16
    • 2020-11-06
    • 1970-01-01
    • 2011-03-19
    • 2014-01-21
    • 1970-01-01
    • 2013-07-11
    • 2012-01-06
    • 1970-01-01
    相关资源
    最近更新 更多