【发布时间】:2022-11-02 22:38:09
【问题描述】:
我正在从下面的代码 sn-p 读取 CSV 文件
df_pyspark = spark.read.csv("sample_data.csv") df_pyspark
当我尝试打印数据帧时,它的输出如下所示:
DataFrame[_c0: string, _c1: string, _c2: string, _c3: string, _c4: string, _c5: string]
对于每一列数据类型显示“字符串”,即使列包含不同的数据类型,如下所示:
df_pyspark.show()
|_c0| _c1| _c2| _c3| _c4| _c5|
+---+----------+---------+--------------------+-----------+----------+
| id|first_name|last_name| email| gender| phone|
| 1| Bidget| Mirfield|bmirfield0@scient...| Female|5628618353|
| 2| Gonzalo| Vango| gvango1@ning.com| Male|9556535457|
| 3| Rock| Pampling|rpampling2@guardi...| Bigender|4472741337|
| 4| Dorella| Edelman|dedelman3@histats...| Female|4303062344|
| 5| Faber| Thwaite|fthwaite4@google....|Genderqueer|1348658809|
| 6| Debee| Philcott|dphilcott5@cafepr...| Female|7906881842|`
我想打印每一列的确切数据类型?
谢谢你!
因为我是新手,所以我对 PYSpark 了解不多!
【问题讨论】:
标签: python dataframe pyspark scheme