将 RDD 转换为列联表：Pyspark答案

【问题标题】：Converting RDD to Contingency Table: Pyspark将 RDD 转换为列联表：Pyspark
【发布时间】：2016-05-29 19:58:31
【问题描述】：

目前我正在尝试将 RDD 转换为 contingency table 以使用 pyspark.ml.clustering.KMeans 模块，该模块将数据帧作为输入。

当我执行myrdd.take(K)，（其中K 是某个数字）时，结构如下所示：

[[u'user1',('itm1',3),...,('itm2',1)], [u'user2',('itm1',7),..., ('itm2',4)],...,[u'usern',('itm2',2),...,('itm3',10)]]

每个列表包含一个实体作为第一个元素，以及该实体以元组形式喜欢的所有项目及其计数的集合。

现在，我的目标是将上述内容转换为类似于以下列联表的火花DataFrame。

+----------+------+----+-----+
|entity    |itm1  |itm2|itm3 |
+----------+------+----+-----+
|    user1 |     3|   1|    0|
|    user2 |     7|   4|    0|
|    usern |     0|   2|   10|
+----------+------+----+-----+

我使用了以下链接中引用的df.stat.crosstab 方法：

Statistical and Mathematical Functions with DataFrames in Apache Spark - 4. Cross Tabulation (Contingency Table)

它几乎接近我想要的。

但是如果在上面的元组中还有一个计数字段，即('itm1',3)，如何将这个值合并（或添加）3 到列联表（或实体）的最终结果中项矩阵）。

当然，我通过将上述RDD 列表转换为矩阵并将它们写入csv 文件，然后以DataFrame 的形式读取回来。

有没有更简单的使用 DataFrame 的方法？

【问题讨论】：

Pivot Spark Dataframe的可能重复
我不同意@zero323 关于这个问题的“直接”重复，但link provided 提供了另一种方法来做你正在寻找的事情。
这个问题的答案可以从我最近的一个问题Convert RDD to Dataframe 中看到。虽然这最初是为了将 RDD 结构转换为数据帧，但答案的最后一部分使用了 pivoting、groupby 和 sum 提供了这个问题的解决方案。如果有人觉得它是重复的，我将关闭当前问题。

标签： python apache-spark pyspark pyspark-sql

【解决方案1】：

使用 createDataFrame() 方法将 RDD 转换为 pyspark 数据帧。

使用交叉表方法后使用show方法。请参考以下示例：

cf = train_predictions.crosstab("prediction","label_col")

以表格格式显示：

cf.show()

输出：

+--------------------+----+----+
|prediction_label_col| 0.0| 1.0|
+--------------------+----+----+
|                 1.0| 752|1723|
|                 0.0|1830| 759|
+--------------------+----+----+

【讨论】：