【发布时间】:2019-03-12 15:18:00
【问题描述】:
我有一个大文件(europarl corpus),每一行都包含一个英文和德文句子
Es gab Tote. They killed people.
Ich stimme Herrn Mayer in allem zu. I agree with everything Mr Mayer has said.
以上是两个示例行。 我只需要为每一行分隔每种语言的句子。
如您所见,句子之间由一个小空格(我认为是制表符?)分隔,由多个空格组成,问题是空格数通过文件不一致。
另外,有时英文版完全不见了
【问题讨论】:
标签: python-3.x csv tabs nlp whitespace