【发布时间】:2012-10-04 17:21:54
【问题描述】:
我正在做 POS 标记。给定训练集中的以下标记,最好将每个标记视为 Word1/POStag 和 Word2/POStag 还是将它们视为 Word1/Word2/POStag 一个词?
示例:(不需要包含 POSTag)
Bard/EMS
Interstate/Johnson
Polo/Ralph
IBC/Donoghue
ISC/Bunker
Bendix/King
mystery/comedy
Jeep/Eagle
B/T
Hawaiian/Japanese
IBM/PC
Princeton/Newport
editing/electronic
Heller/Breene
Davis/Zweig
Fleet/Norstar
a/k/a
1/2
欢迎提出任何建议。
【问题讨论】:
-
您能否提供更多有关上下文的信息?目前尚不清楚这是为了什么。通常,Word1/POStag Word2/POStag 是您想要做的,因为 Word1/Word2/POStag 最终只对您的特定训练集有意义,如果那样的话,这是一个非常有限的用例。不过,这并不意味着您应该丢失从上面关联的这些单词中获得的信息,但是它将与 POSTtags 分开保存。
-
以上这些标记来自训练集。例如,像 Interstate/Johnson 这样的词可能看起来很奇怪,但是当我搜索“Interstate/Johnson”时,第一页有更多的“Interstate/Johnson”,然后是“Interstate”“Johnson”作为 2 个单独的词。另一方面,像“Polo/Ralph”这样的词将“Polo”“Ralph”作为两个单独的词,而不是它们作为一个词组合在一起的频率更高。我正在尝试建立一个语言模型,你说得对,我的语言模型偏向于我拥有的训练集。我想知道的是,我的训练集中出现了如此模棱两可的 word1/word2。 ..待续
-
我是否应该认为这是两个单独的词,在大多数情况下似乎是正确的,但有时可能不准确,例如前面提到的 a/k/a 或 Interstate/Johnson 一词.那么我应该怎么做才能确保我的语言模型不会因为这种不准确而丢失?当我看到像 Fleet/Norstar/NNP 这样的标记时,我在考虑是否应该在构建我的语言模型时将其视为 Fleet/NNP 或 Norstar/NNP 或 Fleet/Norstar/NNP。
-
@jdotjdot89 忘记在上面标记你
-
啊,@John,等等,我想我明白了——您在上面列出的每个词中的每个词都包含一个斜线吗?喜欢短语“a/k/a”,包括斜线?
标签: nlp