【发布时间】:2018-01-17 21:05:48
【问题描述】:
使用 JDBC 驱动程序,我能够将存储在 MySQL 中的数据表提取到 spark 数据帧中。
然后我从 pyspark mllib 在数据帧上运行 Statistic corr 函数(经过一些转换后),并能够获得类似于以下的相关矩阵(类型 numpy.ndarray):
[[1.0, 0.95, 0.77], [0.95, 1.0, 0.34], [0.77, 0.34, 1.0]]
如何获取这个矩阵并创建一个如下所示的数据框,以便我可以将其输入回 MySQL:
Attribute 1 Attribute 2 Attribute 3
Attribute 1 1.0 0.95 0.77
Attribute 2 0.95 1.0 0.34
Attribute 3 0.77 0.34 1.0
任何帮助都会很棒!
【问题讨论】:
-
澄清一下,Statistics corr 函数返回的数组类型是一个numpy.ndarray。这似乎对数据框架构的制定方式产生了影响。
标签: python numpy apache-spark pyspark spark-dataframe