【发布时间】:2011-12-30 00:47:20
【问题描述】:
原问题: 我有一个平面文件,每一行代表与应用程序关联的文本。我想根据与该应用程序相关联的词对应用程序进行集群 是否有可用于文本挖掘单个平面文件的免费代码?谢谢。
更新 1: 有30,000个应用程序。我试图弄清楚我们(客户)的哪些行为与每个集群相关联。我没有预先定义的一组单词作为开头。我可以随机检查几个单词并确定一些单词,但这不会给我一个详尽的单词列表。我想以系统的方式捕捉大部分行为。
我尝试将文本文件转换为 xml 文件并使用 carrot2 工作台进行集群,但这不起作用。我以前没有用过carrot2,所以我可能在那里做错了。
【问题讨论】:
-
需要更多关于您希望文件如何集群的详细信息。
-
如果您可以定义“集群应用程序”,尤其是在通过关联的“词”对它们进行集群的上下文中,那将证明是有帮助的。
-
Carrot2 非常适合根据您的项目文本进行聚类,请尝试以下方法开始:doc.carrot2.org/#section.getting-started.xml-files。对于大数据集(>1000项),使用Carrot2的STC聚类算法;对于较小的集合,坚持使用 Lingo 算法。对于基于数值属性的聚类,请查看 Apache Mahout 项目。
标签: python text cluster-analysis