【发布时间】:2018-09-14 17:58:51
【问题描述】:
我正在使用 openrefine 为 document classification with MALLET 预处理大量文本数据。
有些单元格很长(>150,000 个字符),我正在尝试将它们拆分为
我可以使用“拆分多值单元格”按字段长度将长单元格拆分为 6,000 个字符块,这大致转换为 1,000 个单词/令牌块,但它会将单词拆分为行,所以我输了我的一些数据。
是否有一个函数可以让我在每 6,000 个字符后用第一个空格 (" ") 分割长单元格,或者更好的是,每 1,000 个单词分割一次?
【问题讨论】:
标签: nlp openrefine