【发布时间】:2016-11-11 20:10:33
【问题描述】:
我有一个 50gb 随机字符串的 txt 文件,我想计算其中的子字符串在该文件中出现的次数.. 很多次,对于不同的 非预定义随机子字符串。
我想知道是否有其他方法可以解决这个问题。
概率方式
类似于布隆过滤器,但不是概率成员检查,我们可以有概率计数。该数据结构将用于计数估计。
其他统计方法(?)
我可以使用任何虚拟方法来估计文本文件中字符串的出现次数?对替代品持开放态度。
如果能在
【问题讨论】:
-
为什么你认为你不能使用计数器?您无需提前指定密钥。即使您不想处理整个文件,也可以使用计数器对其中的某些部分进行采样。
-
@jonrsharpe我说得对,但我忘了补充说我没有 50gb 的内存。
-
一个计数器不会占用 50GB,而且您不需要一次将整个文件保存在内存中。你可以一次读一点。完全可以计算每个字符。
-
为什么你认为你需要 50 GB 的内存?文件的大小根本不重要,重要的是不同单词的数量,可能不会超过几千个,特别是如果你先应用词干提取。
-
@tobias_k 话..当然。字符的组合?
标签: python string algorithm probability stat