【发布时间】:2018-06-01 08:32:35
【问题描述】:
我在列表data_multi 中存储了三个数据帧。这些数据帧中的每一个都具有相同的列名和相同的数据类型
列
>>> set(data_multi[0].columns) == set(data_multi[1].columns) == set(data_multi[2].columns)
True
dtypes(只显示一列)
>>> data_multi[0].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]
>>> data_multi[1].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]
>>> data_multi[2].select('aml_id_key_12739').dtypes
[('aml_id_key_12739', 'bigint')]
我复制了 SO 上一篇文章中提到的一个函数,它联合(rbinds)所有数据帧
def unionAll(*dfs):
return reduce(DataFrame.unionAll, dfs)
使用它,我将三个数据帧合并为一个 data_single = unionAll(*ddata_multi)
这是我面临的问题。每个数据框中的aml_id_key_12739 列是'bigint',但在联合之后它变成'double'
>>> pprint(data_single.select('aml_id_key_12739').dtypes)
[('aml_id_key_12739', 'double')]
因此,我的整个 id 列都搞砸了。我在看什么?
【问题讨论】:
-
所有数据框中的列顺序是否相同?
-
@Rumoku 我才意识到
标签: python apache-spark pyspark