如何使用 python 将 pandas 数据帧数据存储到 azure blob？答案

【问题标题】：How to store pandas dataframe data to azure blobs using python?如何使用 python 将 pandas 数据帧数据存储到 azure blob？
【发布时间】：2019-07-06 23:07:19
【问题描述】：

我想以 parquet 文件格式将处理过的数据存储在 pandas 数据框中的 azure blob。但在上传到 blob 之前，我必须将其作为 parquet 文件存储在本地磁盘中，然后再上传。我想将 pyarrow.table 写入 pyarrow.parquet.NativeFile 并直接上传。谁能帮我这个。下面的代码工作正常：

import pyarrow as pa
import pyarrow.parquet as pq

battery_pq = pd.read_csv('test.csv')

########一些数据处理

battery_pq = pa.Table.from_pandas(battery_pq)
pq.write_table(battery_pq,'example.parquet')
block_blob_service.create_blob_from_path(container_name,'example.parquet','example.parquet')

需要在内存中创建文件（I/O文件类型对象），然后上传到blob。

【问题讨论】：

要创建内存文件对象，您可以使用 io.BytesIO docs.python.org/3/library/io.html#binary-i-o

标签： python pandas azure blob parquet

【解决方案1】：

您可以为此使用io.BytesIO，或者Apache Arrow 也提供其本机实现BufferOutputStream。这样做的好处是，它写入流而无需通过 Python 的开销。因此制作的副本更少，GIL 也被释放。

import pyarrow as pa
import pyarrow.parquet as pq

df = some pandas.DataFrame
table = pa.Table.from_pandas(df)
buf = pa.BufferOutputStream()
pq.write_table(table, buf)
block_blob_service.create_blob_from_bytes(
    container,
    "example.parquet",
    buf.getvalue().to_pybytes()
)

【讨论】：

函数 [block_blob_service.create_blob_from_stream ](azure-storage.readthedocs.io/ref/…) 也适用于 buf 而不会获取字节。
我认为 Python Azure API 中不再存在 block_blob_service.create_blob_from_bytes 了。有没有办法使用 API 中存在的当前类/函数来做到这一点。 docs.microsoft.com/en-us/python/api/azure-storage-blob/…

【解决方案2】：

有一个新的python SDK 版本。 create_blob_from_bytes 现在是旧版

import pandas as pd
from azure.storage.blob import BlobServiceClient
from io import BytesIO

blob_service_client = BlobServiceClient.from_connection_string(blob_store_conn_str)
blob_client = blob_service_client.get_blob_client(container=container_name, blob=blob_path)

parquet_file = BytesIO()
df.to_parquet(parquet_file, engine='pyarrow')
parquet_file.seek(0)  # change the stream position back to the beginning after writing

blob_client.upload_blob(
    data=parquet_file
)

【讨论】：