【发布时间】:2020-10-21 10:18:11
【问题描述】:
我每小时在 Amazon Redshift 表中提取一些数据。 数据在 S3 存储桶中每小时以单个 .csv 文件的形式提供。
请注意:我的 Redshift 集群有 4 个节点切片。
我在 Redshift 中创建的表确实有 Distribution Key 和 Sort Key。 文件大小每小时不超过 200MB。
现在我的问题是,将数据摄取到 Redshift 表中的最佳做法是什么:
- 运行复制命令如下 -
copy my_schema.my_table from 's3://mybucket/table_data.csv' CREDENTIALS 'aws_access_key_id=<MY_ID>;aws_secret_access_key=<SECRET_KEY>' delimiter '|';
- 或者,我是否需要任何其他可选参数才能使用 Redshift 并行性的优势。 我知道它的默认并行度是 EVEN。
另外,如果我们使用任何其他方法来摄取数据,是否会对可用存储大小产生任何影响?如果它改善或保持不变。 或者如果我们实施其他方法,我们还能获得什么其他好处。
在这方面寻求您的专家建议。
谢谢
【问题讨论】:
标签: amazon-web-services amazon-s3 architecture amazon-redshift