【发布时间】:2018-07-18 14:09:08
【问题描述】:
我已经尝试解决这个问题一段时间了。
我想获取一个大文本/字符串并将其拆分为 3 个单词的短语,然后将它们添加到一个数组中。
我尝试过使用spilt(),但它并没有像我希望的那样工作。
我想做什么,让它发挥作用:
从字符串中的前 3 个单词开始,当我得到这些单词时,我将其放入一个数组中并移动 1 个单词并取接下来的 3 个单词,依此类推。
这是一种不好的做法吗?
亲切的问候:)
【问题讨论】:
-
有各种 NLP 包提供三元组解析 - 例如
nltk。使用其中之一将为您节省一些精力。 (如果您想自己实际构建一个三元语法分析器,请提供一个具体的示例,包括如何处理标点符号、数字等边缘情况以及预期输出。) -
感谢 @andrew_reece 提供有关 NLTK 的信息,在某些时候我将改变我这样做的方式,现在我只是想做出最简单的解决方案。