社交网络 FOAF 数据集上的关联规则挖掘答案

【问题标题】：Association Rule Mining on a FOAF dataset of social networks社交网络 FOAF 数据集上的关联规则挖掘
【发布时间】：2011-08-07 17:19:35
【问题描述】：

我正在从事一个名为“从社交网络数据中发现关联规则：将数据挖掘引入语义网”的项目。任何人都可以建议一个算法（及其代码。我听说可以使用 Perl 和 R 包来实现）从社交网络数据库中查找关联规则的良好来源？

数据库快照可以在以下链接获取：https://docs.google.com/uc?id=0B0mXGRdRowo1MDZlY2Q0NDYtYjlhMi00MmNjLWFiMWEtOGQ0MjA3NjUyZTE5&export=download&hl=en_US

数据集可通过以下链接获得：http://ebiquity.umbc.edu/get/a/resource/82.zip

我已经搜索了很多关于这个项目的信息，但遗憾的是还没有找到有用的东西。我发现以下链接有些相关：

犯罪数据：http://www.computer.org/portal/web/csdl/doi/10.1109/CSE.2009.435

我们将非常感谢您的帮助。

谢谢，

【问题讨论】：

如果您认为该答案有帮助，请点击答案左上角出现的绿色“勾选”来“接受”答案（“0”与上面和下面的三角形）。
为迟到的回复道歉，因为我没有访问这个页面。现在还好吗？

标签： artificial-intelligence machine-learning data-mining semantic-web foaf

【解决方案1】：

如果你想要一些 Java 代码，你可以查看我的website 以获得 SPMF 软件。提供超过45种算法的源代码，用于频繁项集挖掘、关联挖掘、顺序模式挖掘等。

此外，它不仅提供最流行的算法。它还提供了许多变体，例如挖掘稀有项集、高效用项集、不确定项集、非冗余关联规则、封闭关联规则、间接关联规则、top-k 关联规则等等......

【讨论】：

【解决方案2】：

这比http://en.wikipedia.org/wiki/Association_rule_learning 更广泛，但希望有用。

一些可能有趣的早期 FOAF 工作（SVD/PCA 等）：

http://stderr.org/~elw/foaf/ http://www.scribd.com/doc/353326/The-Social-Semantics-of-LiveJournal-FOAF-Structure-and-Change-from-2004-to-2005 http://datamining.sztaki.hu/files/snakdd.pdf

http://www.amazon.com/Understanding-Complex-Datasets-Decompositions-Knowledge/dp/1584888326 的第 4 章还专门介绍了矩阵分解技术对图形数据结构的应用；强烈推荐。

最后，Apache Mahout 是大规模数据挖掘、机器学习等的自然选择，https://cwiki.apache.org/MAHOUT/dimensional-reduction.html

【讨论】：

非常感谢。仔细阅读您提供的所有信息会非常有趣。

【解决方案3】：

嗯，原始关联规则算法（最初由 IBM Almaden 研究中心开发）最广泛使用的实现是 Apriori 和 Eclat，尤其是 Christian Borgelt 的 C 实现。

（对不熟悉关联规则（又名“常用商品集”或“购物篮分析”）的任何人的简要总结。关联规则的原型应用程序正在分析消费者交易，例如超市数据：在购买波兰语的购物者中香肠有多少人还购买黑面包？）

我会推荐统计平台R. 它是免费和开源的，它的包存储库包含（至少）四个专门针对关联规则的库，所有这些库都具有出色的文档——四个包中的三个包括一个手册和单独的Vignette（带有代码示例的非正式散文文档）。手册和小插图都包含大量 R 代码示例。

我使用了以下四个包中的三个，我可以高度推荐这三个。其中包括 Eclat 和 Apriori 的绑定。这些库作为 R 'Packages' 分发，可在 R 的主要包存储库 CRAN 上找到。 R 的基本安装和设置很简单——上面的链接提供了适用于 Mac、Linux 和 Windows 的二进制文件。同样，包的安装/集成就像您对集成平台所期望的一样简单（尽管并非下面列出的四个包中的每一个都具有适用于每个操作系统的二进制文件）。

所以在 CRAN 上，你会发现这些包都只针对关联规则：

arules
arulesNBMiner
arulesSequences
arulesViz

这组四个 R 包由用于四个不同关联规则实现的 R 绑定以及一个可视化库组成。

第一个包，arules，包括 Eclat 和 Apriori 的 R 绑定。第二个，arulesNBMiner，是 Michael Hahsler 的关联规则算法 NB-frequent itemsets 的绑定。第三个，arules Sequences，是 Mohammed Zaki 的 cSPADE 的绑定。

最后一个特别有用，因为它是一个可视化库，用于绘制前三个包中任何一个包的输出。对于您的社交网络研究，我怀疑您会发现图形可视化——即节点（数据集中的用户）和边（它们之间的连接）的显式可视化。

【讨论】：

我正在制作我们数据库的快照docs.google.com/… 是否可以使用 R 包从该数据库中找到关联规则？如果没有，是否有 Perl 算法代码可与 Java(JDBC) 结合使用。非常感谢。
@doug 很抱歉提出另一个问题，即使您已经回答了。我没有足够的时间来探索 R 包。您对上述评论的建议将非常有帮助。谢谢。
没问题——我已经使用了 R 包，'arules' 反对 SQLite 中的数据存储——目前，我不记得它是否“开箱即用”或者是否有必要编写一个小界面——我会检查我的项目文件，今晚和你联系（在这种情况下，用“是”或“否”，我只会让你访问我的 github repo，以便您可以获取代码）。
嗨，悉达多：是的，我做到了。事实上，我使用的是 R Package SQLiteDF（可从 CRAN 获得，带有优秀的文档）； sqldf 项目托管在 Google Code (code.google.com/p/sqldf) 上。我“记得”使用 SQL 和 arules，但实际上我是通过 sqldf 启用的 SQL 语法访问数据框。