【发布时间】:2011-03-21 19:22:37
【问题描述】:
我之前就这个话题询问了similar question,我最终得出了几种可行的解决方案,一种基于布隆过滤器+ ngram,另一种基于哈希表+ ngram。两种解决方案都可以在小型数据集(
我目前正在使用 Ruby,也许这就是问题所在,但是我可以尝试解决此问题的任何其他解决方案或方法吗?
【问题讨论】:
-
如何在 Ruby 中存储 n-gram?
-
作为一个单词数组?通过预先将它们转换为符号,您可以节省大量内存(也许还可以提高一些速度)。
-
我假设您最初是在对单词进行标记。然后这个问题本质上与压缩问题相同,我希望我了解更多。但是周围有相当多的压缩算法。
标签: ruby algorithm data-structures data-mining