【问题标题】:How to use Spacy's convert to keep paragraph information from conllu files?如何使用 Spacy 的转换来保留 conllu 文件中的段落信息?
【发布时间】:2019-07-08 16:44:52
【问题描述】:

我正在尝试将 conllu 文件转换为 Spacy 的 jsonl 格式。这些 conllu 文件包含Universal Dependencies' website 中指定的段落信息。问题是段落信息没有传递到每个段落包含一个句子的 jasonl 转换文件中。

我正在运行 Spacy 版本 2.1.3,并且仅使用来自 spacy convert command 的强制性参数,基本上是 python -m spacy input.conllu output_dir

这是我的一个 conllu 文件中的前几句话(也许它们不符合规范?)。为了便于阅读,我只粘贴了每个句子的前几个标记。

# sent_id = tp2-p1-s1
# O cansaço começou a afetar os vestibulandos no terceiro dia de exame da Fuvest.
1   O   O   DET DET gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  2   DET _   _
2   cansaço cansaço NOUN    NOUN    gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  5   NSUBJ   _   _
3   começou começar VERB    VERB    aspect=PERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=THIRD|proper=NOT_PROPER|tense=PAST 5   AUX _   _

# sent_id = tp2-p1-s2
# "Estou meio cheia, mesmo", afirmou a candidata a filosofia Scyla Pereira Gouveia, 19, que fez as provas de biologia e química, de ontem, no colégio Pueri Domus.
1   "   "   PUNCT   PUNCT   proper=NOT_PROPER   2   P   _   _
2   Estou   Estar   VERB    VERB    aspect=IMPERFECTIVE|mood=INDICATIVE|number=SINGULAR|person=FIRST|proper=NOT_PROPER|tense=PRESENT    0   ROOT    _   _
3   meio    meio    NOUN    NOUN    gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  2   DOBJ    _   _
4   cheia   cheio   ADJ ADJ gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  3   AMOD    _   _

# sent_id = tp2-p1-s3
# Seu namorado, Guilherme Schneider, 18, que presta engenharia, faz exame no mesmo local.
1   Seu Seu PRON    PRON    gender=MASCULINE|number=SINGULAR|person=THIRD|proper=NOT_PROPER 2   DET _   _
2   namorado    namorado    NOUN    NOUN    gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  13  NSUBJ   _   _

# newpar id = tp2-p2
# sent_id = tp2-p2-s1
# Pelo menos um dos 38.454 convocados para a segunda fase da Fuvest tem fortes motivos para não concluir hoje as provas.
1   Pelo    Pelo    ADP ADP gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  3   ADVMOD  _   _
2   menos   menos   NOUN    NOUN    gender=MASCULINE|number=SINGULAR|proper=NOT_PROPER  1   MWE _   _
3   um  um  NUM NUM gender=MASCULINE|proper=NOT_PROPER  13  NSUBJ   _   _

我希望 convert 的输出是一个包含 2 行的文件,每个段落一个。我得到了 4 行,每个句子一个。

如果可能的话,我真的很想避免构建自己的转换器。

提前致谢

【问题讨论】:

    标签: python spacy conll


    【解决方案1】:

    事实证明,spaCy 准备有段落信息,但是,在撰写本答案时,这是未使用的信息。

    目前,在应该学习量刑的训练模型中,使用转换器时需要使用--n-sents选项

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-03-30
      • 2019-02-26
      • 2020-05-20
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-09-04
      • 1970-01-01
      相关资源
      最近更新 更多