【发布时间】:2020-07-08 12:12:10
【问题描述】:
我们的员工每天都会在 google 电子表格 中填写一些数据,我需要以一定的频率(例如每天一次)将这些表格发送到 clickhouse
(它位于我们的 aws 服务器上)
clickhouse 每次只写入表中的新数据还是所有表中的新数据都没有关系
请告诉我一个工作方法怎么做
工具包中的 python,理论上可以与 sqlalchemy 和气流 DAG 一起使用 但是对于气流中 dag 的开发,我还没有找到如何在 python 中编写脚本以从 googlespreadsheet 传输数据
的指南第二个选项是使用谷歌电子表格的 owox 扩展 - 但你需要使用谷歌 BigQuery,这会滋生动物园,我还不想为 BQ 付费
您对如何使用脚本将表格从 Google 电子表格上传到 Clickhouse 有任何想法吗?
【问题讨论】:
-
为了访问您的谷歌电子表格,我建议您查看google's api documentation 或查看sheets api documentation 的详细信息。以任何其他方式获取数据,而不是通过 google api 可能会很麻烦。
-
问题的重点是如何一步一步做,很明显有文档,但更简单的方法是可取的,没有最佳实践案例就不要与手鼓和谷歌api跳舞
-
恐怕没有更简单的方法了。通过 API 进行连接非常简单。也不要通过翻译接受说法。我不知道用铃鼓跳舞意味着什么。
-
考虑使用 curl 通过spreadsheets.get HTTP API 获取所需数据,然后使用ClickHouse HTTP API 将结果传递给 CH
-
@vladimir 但在这种情况下,Google 表的链接(如果已创建)是否会被搜索引擎索引?我了解到这样一个事实,如果您使用 http,任何人都可以通过这种方式查看信息
标签: python airflow google-sheets-api clickhouse