【发布时间】:2023-03-16 18:26:01
【问题描述】:
使用 spark 写入文件 s3 通常会创建一个目录,其中有两个文件成功,另一个文件名以 name as part 开头,其中包含 s3 中的实际数据,如何使用 pandas 数据框加载相同的文件,因为文件路径发生了变化,因为文件名 Par 与实际数据在每次运行中都会有所不同。
例如撰写本文时的文件路径: df。写。 colaesce("s3"\testfolder.csv)
存储在目录中的文件是 成功 部分-00-
我有一个将文件读取到熊猫数据框的 python 作业
pd.read(s3\..........这里指定的路径是什么......)
【问题讨论】:
-
如果您想从多个 csv 文件创建 pandas 数据框,这可能会有所帮助:stackoverflow.com/questions/20906474/…。从 S3 将数据读入 pandas 可能需要使用此处显示的
StringIOstackoverflow.com/questions/30818341/…。