如何通过 Python 将数据帧作为 csv 上传到 azure？答案

【问题标题】：How can I upload a dataframe as csv to azure by Python?如何通过 Python 将数据帧作为 csv 上传到 azure？
【发布时间】：2018-11-28 02:26:28
【问题描述】：

我正在使用 Python 和 Pyspark，我想将 CSV 文件上传到 azure blob 存储。我已经有一个由代码生成的数据框：df.我想做的是下一个：

# Dataframe generated by code
df

# Create the BlockBlockService that is used to call the Blob service for the storage account
block_blob_service = BlockBlobService(account_name='name', account_key='key') 

container_name ='results-csv'

d = {'one' : pandas.Series([1., 2., 3.], index=['a', 'b', 'c']), 'two' : pandas.Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])}
df = pandas.DataFrame(d)


writer = pandas.ExcelWriter(df, engine='xlsxwriter')

a = df.to_excel(writer, sheet_name='Sheet1', index=False, engine='xlsxwriter')


block_blob_service.create_blob_from_stream(container_name, 'test', a)

我得到错误：

ValueError: stream should not be None.

所以我想将数据帧的内容作为 blob 上传到上面提供的存储位置。有什么方法可以做到这一点，而无需先在我的本地计算机中生成 CSV 文件？

【问题讨论】：

无论您如何创建该 CSV 文件，您都可以将其保存到 BytesIO，这与保存到文件几乎相同。然后您可以将其作为流或字节上传。
你能举个例子作为答案吗？
我将编辑我的问题，使其更加明确。
你可以使用a = df.to_csv()和block_blob_service.create_blob_from_text(container_name, "test.csv", a)

标签： python azure dataframe pyspark blob

【解决方案1】：

我们打算做的是使用dataset.to_csv 函数创建一个文件流，然后将该流发送到 azure blob。另一种方法是我们直接将字符串数据集存储到 azure。代码：

    blob_client = service.get_blob_client(container=container_name, blob=local_file_name)
    print(str(dataset.to_csv()))
    blob_client.upload_blob(str(dataset.to_csv()))

这会将文件存储到 blob 中。到目前为止，任何其他解决方案都不起作用。问题仍然是现在数据是 blob 不是 csv 格式，这部分我们仍然需要弄清楚。

编辑：添加了以 csv 格式发送的代码

【讨论】：