【发布时间】:2020-03-19 18:32:06
【问题描述】:
这是我第一次使用 conllu 文件。我无法找到任何方法在 Conllu python 库中合并这些文件。任何线索都会有所帮助。谢谢。
【问题讨论】:
-
在这种情况下合并是什么意思?例如,是否需要特定的算法将 3 个句子序列合并在一起,或者是否唯一要求最终文件包含所有句子?
这是我第一次使用 conllu 文件。我无法找到任何方法在 Conllu python 库中合并这些文件。任何线索都会有所帮助。谢谢。
【问题讨论】:
每次调用 parse() 时,都会返回一个 TokenList 列表。因此,可以通过合并这些令牌列表来合并多个文件。
例子:
from io import open
from conllu import parse_incr
files = ["file1.conllu", "file2.conllu", "file3.conllu"]
merged_tokenlists = []
for file in files:
data_file = open("file1.conllu", "r", encoding="utf-8")
for tokenlist in parse_incr(data_file):
merged_tokenlists.append(tokenlist)
这里是 conllu 库的作者,很高兴看到人们使用它!
【讨论】: