【发布时间】:2020-07-20 22:15:44
【问题描述】:
我有一个包含 50000 个字符的文本。我正在使用 APP 处理文本,但 APP 最多只能处理 10000 个字符的文本。所以我必须将文本分成至少 5 个部分。
简单的分隔文本的方法是 text[:10000], text[10000:20000], ...,这种方式可能会将一个句子分成两部分,这不是我想要的。
另一种方式是使用 tokenize.sent_tokenize(text) 来分隔句子,但这种方式的输出是所有分隔句子的列表。太无效了,因为我不想把所有的句子都分开。
有没有什么有效的方法可以将长文本分成几部分?
【问题讨论】: