【发布时间】:2015-02-12 14:24:00
【问题描述】:
首先请原谅我的任何歧义。我发现我的问题很难用英语解释。 基本上我想做的是,将一大堆单词分成“N”个部分。
例如读取文件中的所有单词,然后将它们分成 N=10 个部分。 更准确地说,我正在做一个数据挖掘项目。有数以千计的文档我需要对其中的单词进行排序。
说 n = 2 。我知道我可以将 a-m 和 n-z 放在一个文件中。我需要一种算法,它可以在 n > 100 时做到这一点。
PS:我的程序首先必须创建 N 个文件(或块),然后读取所有单词并根据它们的开始方式,将它们分配给其中一个块。
示例: 输入 : N = 2 单词 = [....]
输出: [a-m 开头的单词] , [n-z 开头的单词]
换句话说,我想按字典顺序划分我的单词
【问题讨论】:
-
你能添加一小部分输入和预期输出吗,不完全清楚你想要什么。
-
@PadraicCunningham 我试图更清楚
标签: python nlp information-retrieval inverted-index