【问题标题】:What does the dependency-parse output of TurboParser mean?TurboParser 的依赖解析输出是什么意思?
【发布时间】:2014-06-24 18:54:22
【问题描述】:

我一直在尝试使用CMU's TurboParser 生成的依赖解析树。它完美无缺。然而,问题是文档很少。我需要准确理解他们解析器的输出。例如,句子“我用统计数据解决了问题。”生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P

我没有找到任何可以帮助理解各个列代表什么以及倒数第二列 (2, 0, 4, 2, ... ) 中的索引是如何创建的文档。另外,我不知道为什么有两列专门用于词性标签。任何帮助(或指向外部文档的链接)都会有很大帮助。

附:如果你想试试他们的解析器,here is their online demo

附言请不要建议使用斯坦福的依赖解析输出。我对线性规划算法很感兴趣,这不是斯坦福的 NLP 系统所做的。

【问题讨论】:

    标签: nlp parse-tree


    【解决方案1】:

    TurboParser 输出的每一列的含义如下:

    1. token的id,即它在句子中的从一开始的索引
    2. 原始标记与原始文本中的一样
    3. lemma,令牌的词形化形式(此处为空,因为没有设置词形化器)
    4. 标签(粗粒度词性标签)
    5. tag(细粒度的词性标签,与 TurboParser 的 4. 相同)
    6. 形态特征(此处为空)
    7. 令牌头部,由其索引表示(根令牌的头部值为0
    8. 当前令牌与其头部的关系

    您提供的生成输出可以表示为dependency-based parse tree

    有关 CoNLL-X 格式的更多信息:

    【讨论】:

      【解决方案2】:

      我不知道 TurboParser,但我猜第一个数字表示令牌的 id,第二个数字表示其调控器的 id。 也就是说,对于您的示例:

      solved(
       I,
       problem(the),
       with(statistics),
       .
      )
      

      其实就是 CoNLL-X 格式。您可以在这里获取更多信息:http://ilk.uvt.nl/conll/#dataformat

      【讨论】:

        猜你喜欢
        • 2018-04-10
        • 1970-01-01
        • 2016-03-17
        • 2017-12-29
        • 1970-01-01
        • 1970-01-01
        • 2020-12-04
        • 2014-04-20
        • 2017-03-19
        相关资源
        最近更新 更多