【发布时间】:2011-05-11 16:01:56
【问题描述】:
在过去的几天里,我对此进行了广泛的研究,阅读了很多东西,以至于我现在比以往任何时候都更加困惑。如何在大型数据集中找到最长的公共子字符串?这个想法是从这个数据集中删除重复的内容(长度不同,所以算法需要连续运行)。大型数据集是指大约 100mb 的文本。
后缀树?后缀数组?拉宾-卡普?最好的方法是什么?那里有可以帮助我的图书馆吗?
真的希望得到一个好的回应,我的头很痛。谢谢! :-)
【问题讨论】:
-
为什么需要连续运行?数据有变化吗?
-
为什么不使用现成的压缩软件?
-
jonderry:我可能不太清楚,我的意思是每次通过后它都需要找到下一个最长的子字符串,依此类推。
-
jason:哪些压缩算法可以做到这一点?
标签: algorithm string large-files suffix-tree