【发布时间】:2020-08-10 06:05:48
【问题描述】:
我知道 POS 标记用适当的词性标记句子中的每个单词,但解析器不也是这样做的吗?即,将句子分成其组成部分? 我在网上查到了这个,但找不到任何令人满意的解释。 请清除我的疑问。 在此先感谢
【问题讨论】:
标签: parsing nlp stanford-nlp part-of-speech
我知道 POS 标记用适当的词性标记句子中的每个单词,但解析器不也是这样做的吗?即,将句子分成其组成部分? 我在网上查到了这个,但找不到任何令人满意的解释。 请清除我的疑问。 在此先感谢
【问题讨论】:
标签: parsing nlp stanford-nlp part-of-speech
它们是两个不同的过程:
POS 标记:每个 token 都被分配了一个反映其词类的标签。
解析:每个句子都被分配了一个结构(通常是一棵树),它反映了它的组成部分是如何相互关联的。
POS 标记采用标记化的单词序列,并返回带注释的标记列表,其中每个标记都有一个单词类别标签。这通常可以通过查看令牌周围的上下文来消除歧义。
还有chunking,它将标记分组为相关组(例如名词短语)。块是不重叠的序列。
解析通常会导致一个句子的parse tree;在歧义句子的情况下,通常可能有许多可能的树。
POS 标记通常是解析中的一个准备步骤,因为解析器通常对单词类进行操作(尽管有一些解析算法可以直接使用标记,或者混合使用标记和标记)。
【讨论】: