【问题标题】:Figuring out different CoNLL format找出不同的 CoNLL 格式
【发布时间】:2018-01-28 00:37:58
【问题描述】:

我正在尝试从 Stanford Core NLP 生成一个 conll 文件,然后可以将其用作 Semafor 的输入(因为 semafor 只接受 conll 文件)。

生成的文件如下所示:

1   My  my  PRP$    O   2   nmod:poss
2   kitchen kitchen NN  O   5   nsubj
3   no  no  RB  O   4   neg
4   longer  longer  RB  O   5   advmod
5   smells  smell   VBZ O   0   ROOT
6   .   .   .   O   5   punct

当我使用这个文件时,由于格式略有不同,Semafor 服务器返回了非法参数异常。他们的示例 conll 文件如下所示:

1   My  _   PRP$    PRP$    _   2   NMOD    _   _
2   kitchen _   NN  NN  _   5   SBJ _   _
3   no  _   RB  RB  _   5   ADV _   _
4   longer  _   RB  RB  _   3   AMOD    _   _
5   smells  _   VBZ VBZ _   0   ROOT    _   _
6   .   _   .   .   _   5   P   _   _

看来我可以通过定义键来控制输出。默认键是 ID、FORM、LEMMA、POSTAG、NER、HEAD、DEPREL。但是,我不知道 Semafor 提供的示例 conll 文件的密钥。请指导我如何将生成的文件格式转换为 Semafor 示例文件格式。

【问题讨论】:

    标签: stanford-nlp


    【解决方案1】:

    我相信 Semafor 可以生成自己需要的格式的 conll 文件。我们使用 Stanford Core NLP 只是将文档分成每行句子,然后使用 Semafor 本身生成 conll 文件。

    【讨论】:

      猜你喜欢
      • 2015-08-05
      • 1970-01-01
      • 1970-01-01
      • 2021-10-02
      • 2013-09-27
      • 2022-01-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多