【发布时间】:2020-11-25 06:35:44
【问题描述】:
我有一个包含 50 万行的表,我假设我每小时都会获取 CSV 文件,我需要根据 CSV 更新我的 MySQL 表。它可能包含新行或某些行可能会被修改。该表有一个主键(名为 SKU)
产品表列:
- SKU
- 产品详情
- 价格
我想尽快执行此操作,一个条件是我无法删除表并再次加载,因为“支持将给定文件定期非阻塞并行摄取到表中”是我的主要要求。
我可以使用 Python 等脚本语言。
我有一个解决方案是创建一个临时表并将数据导入表中,然后更新我的主表。
感谢任何帮助或建议
【问题讨论】:
-
Informatica 或 Talend 等 ETL 工具可能会解决您的问题。
-
如果架构不是一个约束,并且如果您可能将数据保存在 Elasticsearch 而不是 MySQL 中,则可以使用 Logstash 和 Elastic 轻松实现。
标签: python mysql csv data-science