【发布时间】:2013-04-24 21:34:33
【问题描述】:
免责声明:我有相当直接/蛮力的方法来解决我的问题;该问题的目标是学习有助于这些计算的更好的方法和库。
我有一个相当大的 csv(100k+ 行),其中包含人员、位置、时间数据和花费的金钱等。比如说:
thomas, park, noon, 0
jim, pool, afternoon, 5
sandy, school, noon, 0
alex, mall, night, 20
当我接近这个数据集时,我想发现一些有趣的事情,以及我将如何去做。目前,我使用 R 和 Python(以及 RPy2)混合实现。
- 最活跃的人?最常去的地方?最忙的时候?我通过 for 循环统计的事件的简单统计。
-
相似性 - 访问 X 的人也访问 Y - 给定访问公园的一部分人,他们访问的其他位置是什么?也可以应用于其他维度。目前,我通过迭代子集并统计事情来实现这一点。什么更好?
3-4 稍微题外话;找到了库,但希望听到更好的方法/库
- 通过网络图进行可视化以查看集群/集中度——每个人都被定义为一个顶点,共享位置被定义为一条彩色边。由于我的数据格式,数据的预处理有点痛苦;我也可以通过让边缘既是人又是位置+时间来“作弊”,因为这涉及较少的预处理。目前在 R(igraph 库)中使用加权图。
- 聚类分析以查看数据是否属于特定的 bin;现在我只是在使用 k-means 聚类。
因此,重申一下,鉴于我的查询的性质,具有预构建和优化功能来回答我的一些问题的好的库是什么?似乎使用一堆 for 循环是一种非常低效且不雅的方式来收集洞察力。
【问题讨论】:
-
投票不具建设性。请阅读网站常见问题解答,尤其是stackoverflow.com/faq#dontask。您可以通过浏览本网站来回答您的一些问题。其他人值得在这里提问,但前提是您发布了一个很好的可重复问题。
标签: python r graph analytics data-mining