【问题标题】:Text Mining on huge list of strings对大量字符串进行文本挖掘
【发布时间】:2011-11-10 06:47:17
【问题描述】:

我有字符串列表。 (相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 GB)。这些字符串的格式如下:

1,嗨

2,你好,你好吗?

2,你好吗?

3,你在哪里?

3,这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘,并想准备一个树状图,我想按以下方式显示字符串

1-嗨

2-嗨,你好吗?

 ----How r u?

3-这是什么意思?

 ----what it means?

3-你在哪里?

此输出基于特定人员的 id(假设使用这些字符串的人的 ID)后面的逗号后的字符串的相似性。如果其他人使用相同的词,则应根据他使用的字符串进行分组。

现在,这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情,或者在集群的 linux 机器上支持大量数据的事情。 以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法,其中我尝试创建序列文件和 seq2sparse 向量,然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示都会有很大帮助。

感谢和问候, 阿图尔

【问题讨论】:

    标签: hadoop data-mining text-mining mahout


    【解决方案1】:

    我认为您真正需要的是层次聚类。为 Mahout 提出了 one implementation,在 Shogun Toolbox 中也实现了一个(也是为大规模计算而设计的)。但是很难保证它会起作用,因为输入似乎很难。

    【讨论】:

    • 感谢阿图尔的回复。我同意输入很难,因为我在过去 2-3 周内一直在努力解决这个问题,现在我迷路了,这就是我在这里发布它的原因。但是,如果您或任何人对如何解决此问题有任何建议,我将不胜感激。我想如果可以解决它,我可以添加一些预处理步骤。另外,我仍然是数据挖掘的学习者,学习新事物总是好的。
    猜你喜欢
    • 2015-06-11
    • 1970-01-01
    • 2010-12-07
    • 1970-01-01
    • 1970-01-01
    • 2015-08-04
    • 2013-11-17
    • 1970-01-01
    • 2011-02-07
    相关资源
    最近更新 更多