对大量字符串进行文本挖掘答案

【问题标题】：Text Mining on huge list of strings对大量字符串进行文本挖掘
【发布时间】：2011-11-10 06:47:17
【问题描述】：

我有字符串列表。（相当大的 id 和字符串列表分散在 4-5 个大文件中。每个大约 GB）。这些字符串的格式如下：

1，嗨

2，你好，你好吗？

2，你好吗？

3，你在哪里？

3，这是什么意思

3、什么意思

现在我想对这些字符串进行文本挖掘，并想准备一个树状图，我想按以下方式显示字符串

1-嗨

2-嗨，你好吗？

 ----How r u?

3-这是什么意思？

 ----what it means?

3-你在哪里？

此输出基于特定人员的 id（假设使用这些字符串的人的 ID）后面的逗号后的字符串的相似性。如果其他人使用相同的词，则应根据他使用的字符串进行分组。

现在，这似乎是一项简单的任务。但我想在 hadoop/Mahout 上做这样的事情，或者在集群的 linux 机器上支持大量数据的事情。以及我应该如何解决这个问题。我已经在 Mahout 中尝试过不同的方法，其中我尝试创建序列文件和 seq2sparse 向量，然后尝试进行聚类。但这对我不起作用。方向上的任何帮助或指示都会有很大帮助。

感谢和问候，阿图尔

【问题讨论】：

标签： hadoop data-mining text-mining mahout

【解决方案1】：

我认为您真正需要的是层次聚类。为 Mahout 提出了 one implementation，在 Shogun Toolbox 中也实现了一个（也是为大规模计算而设计的）。但是很难保证它会起作用，因为输入似乎很难。

【讨论】：

感谢阿图尔的回复。我同意输入很难，因为我在过去 2-3 周内一直在努力解决这个问题，现在我迷路了，这就是我在这里发布它的原因。但是，如果您或任何人对如何解决此问题有任何建议，我将不胜感激。我想如果可以解决它，我可以添加一些预处理步骤。另外，我仍然是数据挖掘的学习者，学习新事物总是好的。