【发布时间】:2019-04-01 19:06:07
【问题描述】:
我有胶水作业,每 6 秒在 S3 中写入镶木地板文件,而 S3 在那一小时内有文件夹。在一小时结束时,我想合并该小时分区中的所有文件,然后将其放在同一位置。我不想使用 Athena 表,因为工作变慢了。我正在尝试使用 Python Shell。但因此我还没有找到正确的解决方案。有人可以帮我解决这个问题吗?
文件也被快速压缩
【问题讨论】:
标签: pandas boto3 aws-glue pyarrow
我有胶水作业,每 6 秒在 S3 中写入镶木地板文件,而 S3 在那一小时内有文件夹。在一小时结束时,我想合并该小时分区中的所有文件,然后将其放在同一位置。我不想使用 Athena 表,因为工作变慢了。我正在尝试使用 Python Shell。但因此我还没有找到正确的解决方案。有人可以帮我解决这个问题吗?
文件也被快速压缩
【问题讨论】:
标签: pandas boto3 aws-glue pyarrow
取决于您的 Parquet 文件有多大,以及目标大小是多少——这里有一个不使用 Glue 的想法:
请注意,此设计存在一些限制/注意事项:
如果您特别需要 Glue,您可以只从 Lambda 调用 Glue 作业,而不是尝试在 Lambda 中自己执行。
【讨论】: