【发布时间】:2019-07-06 23:07:19
【问题描述】:
我想以 parquet 文件格式将处理过的数据存储在 pandas 数据框中的 azure blob。但在上传到 blob 之前,我必须将其作为 parquet 文件存储在本地磁盘中,然后再上传。我想将 pyarrow.table 写入 pyarrow.parquet.NativeFile 并直接上传。谁能帮我这个。下面的代码工作正常:
import pyarrow as pa
import pyarrow.parquet as pq
battery_pq = pd.read_csv('test.csv')
########一些数据处理
battery_pq = pa.Table.from_pandas(battery_pq)
pq.write_table(battery_pq,'example.parquet')
block_blob_service.create_blob_from_path(container_name,'example.parquet','example.parquet')
需要在内存中创建文件(I/O文件类型对象),然后上传到blob。
【问题讨论】:
-
要创建内存文件对象,您可以使用 io.BytesIO docs.python.org/3/library/io.html#binary-i-o
标签: python pandas azure blob parquet