在 POS 标记中对以下单词进行分类的最佳方法是什么？答案

【问题标题】：What is the best way to classify following words in POS tagging?在 POS 标记中对以下单词进行分类的最佳方法是什么？
【发布时间】：2012-10-04 17:21:54
【问题描述】：

我正在做 POS 标记。给定训练集中的以下标记，最好将每个标记视为 Word1/POStag 和 Word2/POStag 还是将它们视为 Word1/Word2/POStag 一个词？

示例：（不需要包含 POSTag）

Bard/EMS
Interstate/Johnson
Polo/Ralph
IBC/Donoghue
ISC/Bunker
Bendix/King
mystery/comedy
Jeep/Eagle
B/T
Hawaiian/Japanese
IBM/PC
Princeton/Newport
editing/electronic
Heller/Breene
Davis/Zweig
Fleet/Norstar
a/k/a
1/2

欢迎提出任何建议。

【问题讨论】：

您能否提供更多有关上下文的信息？目前尚不清楚这是为了什么。通常，Word1/POStag Word2/POStag 是您想要做的，因为 Word1/Word2/POStag 最终只对您的特定训练集有意义，如果那样的话，这是一个非常有限的用例。不过，这并不意味着您应该丢失从上面关联的这些单词中获得的信息，但是它将与 POSTtags 分开保存。
以上这些标记来自训练集。例如，像 Interstate/Johnson 这样的词可能看起来很奇怪，但是当我搜索“Interstate/Johnson”时，第一页有更多的“Interstate/Johnson”，然后是“Interstate”“Johnson”作为 2 个单独的词。另一方面，像“Polo/Ralph”这样的词将“Polo”“Ralph”作为两个单独的词，而不是它们作为一个词组合在一起的频率更高。我正在尝试建立一个语言模型，你说得对，我的语言模型偏向于我拥有的训练集。我想知道的是，我的训练集中出现了如此模棱两可的 word1/word2。 ..待续
我是否应该认为这是两个单独的词，在大多数情况下似乎是正确的，但有时可能不准确，例如前面提到的 a/k/a 或 Interstate/Johnson 一词.那么我应该怎么做才能确保我的语言模型不会因为这种不准确而丢失？当我看到像 Fleet/Norstar/NNP 这样的标记时，我在考虑是否应该在构建我的语言模型时将其视为 Fleet/NNP 或 Norstar/NNP 或 Fleet/Norstar/NNP。
@jdotjdot89 忘记在上面标记你
啊，@John，等等，我想我明白了——您在上面列出的每个词中的每个词都包含一个斜线吗？喜欢短语“a/k/a”，包括斜线？

标签： nlp

【解决方案1】：

就斜杠的使用而言，这些示例似乎不属于一类——a/k/a 是短语的首字母缩写词，1/2 是数字，mystery/comedy 表示介于两个词之间的内容，等等。我觉得没有对所有相关案例都适用的组成词的处理方法，因此更好的选择是将它们作为唯一词处理。在解码阶段，当标注者可能会看到更多以前未见过的此类单词的示例时，通常可以根据上下文做出决定，而不是单词本身。

【讨论】：