【发布时间】:2019-07-11 17:12:27
【问题描述】:
我正在创建一个自动脚本来从 FTP 下载文件并将它们存储到 BigQuery。
问题在于 BigQuery 仅接受 .csv 文件。出于这个原因,我正在寻找同时处理 .xlsx 和 .xls 文件的方法,条件是我计划将此批处理代码放在云端。
我提到后者是将.xlsx文件转换为.csv的一种方法是使用类似的东西:
import pandas as pd
data_xls = pd.read_excel('file_on_ftp.xlsx')
data_xls.to_csv('csvfile.csv', encoding='utf-8', index=False)
但是,这会在临时存储的某处创建本地文件。显然,使用 Cloud Functions 之后,我必须监控文件是否已被删除,这使得当一个云功能崩溃时它不可靠。
因此有没有更好的方法来处理 .xlsx 加载到 BigQuery 中?或者这是要走的路?
【问题讨论】:
-
Answer 建议使用 Google Drive。这不是一个生产就绪的解决方案,而且问题没有明确定义。
标签: python google-cloud-platform google-bigquery ftp google-cloud-functions