【问题标题】:How to merge three Conllu files with Conllu python library?如何将三个 Conllu 文件与 Conllu python 库合并?
【发布时间】:2020-03-19 18:32:06
【问题描述】:

这是我第一次使用 conllu 文件。我无法找到任何方法在 Conllu python 库中合并这些文件。任何线索都会有所帮助。谢谢。

【问题讨论】:

  • 在这种情况下合并是什么意思?例如,是否需要特定的算法将 3 个句子序列合并在一起,或者是否唯一要求最终文件包含所有句子?

标签: python text conll


【解决方案1】:

每次调用 parse() 时,都会返回一个 TokenList 列表。因此,可以通过合并这些令牌列表来合并多个文件。

例子:

from io import open
from conllu import parse_incr

files = ["file1.conllu", "file2.conllu", "file3.conllu"]

merged_tokenlists = []
for file in files:
    data_file = open("file1.conllu", "r", encoding="utf-8")
    for tokenlist in parse_incr(data_file):
        merged_tokenlists.append(tokenlist)

这里是 conllu 库的作者,很高兴看到人们使用它!

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2019-12-19
    • 1970-01-01
    • 1970-01-01
    • 2020-07-30
    • 1970-01-01
    • 1970-01-01
    • 2021-03-15
    • 2015-02-09
    相关资源
    最近更新 更多