【问题标题】:POS tagging before/after punctuation removal?标点符号删除之前/之后的POS标记?
【发布时间】:2020-01-11 01:34:01
【问题描述】:

关于 NLP 最佳实践的一个可能非常基本的问题。

标点符号会影响 NLTK 的词性标注器的行为吗?或者在将句子传递给 POS 标记器之前从句子中删除标点符号是否可以?

【问题讨论】:

标签: python nlp nltk


【解决方案1】:

标点符号通常在 POS 标记之前与单词标记分开。标点符号有其自身的正字法作用,与周围的词标记不同。

例如,标记这个句子:名词动词。

For       PREP
example   N
,         ,
tokenize  V
this      PRON
sentence  N
:         :
Noun      N
verbs     V
.         .

是否保留标点符号取决于您的最终目标。对于语法标记,标点符号确实具有语法作用,删除它通常会降低分析的质量。对于情感分析,标点符号通常不会产生任何极性(尽管大量的刘海可能会传达诸如强调或强烈的极性!!!!!!!)

【讨论】:

  • 我的应用程序(目前)是为关键字提取/摘要实现 textrank。所以我想我可以不用标点符号……谢谢!
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-11-16
  • 1970-01-01
  • 1970-01-01
  • 2011-11-11
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多