【发布时间】:2017-06-11 07:16:47
【问题描述】:
带有 S3 Glacier 的 Amazon Athena 日志分析服务
我们在 S3 中有数 PB 的数据。我们是https://www.pubnub.com/,我们将使用数据存储在我们网络的 S3 中以用于计费目的。我们将制表符分隔的日志文件存储在 S3 存储桶中。 Athena 给我们一个 HIVE_CURSOR_ERROR 失败。
我们的 S3 存储桶设置为在 6 个月后自动推送到 AWS Glacier。除了 Glacier 备份文件之外,我们的存储桶还有热的 S3 文件并且可以读取。因此,我们从 Athena 收到访问错误。错误中引用的文件是 Glacier 备份。
我的猜测是:不要将冰川备份保存在同一个存储桶中。由于我们的数据量大小,我们无法轻松使用此选项。我相信 Athena 在此设置中无法工作,我们将无法使用 Athena 进行日志分析。
但是,如果我们可以使用 Athena,我们会很高兴。 HIVE_CURSOR_ERROR 是否有解决方案以及跳过 Glacier 文件的方法?我们的 s3 存储桶是一个扁平存储桶没有文件夹。
上面和下面的屏幕截图中显示的 S3 文件对象名称已从屏幕截图中省略。 HIVE_CURSOR_ERROR 中的文件引用实际上是 Glacier 对象。您可以在我们的 S3 存储桶的屏幕截图中看到它。
请注意,我尝试在 https://forums.aws.amazon.com/ 上发帖,但那不是 bueno。
【问题讨论】:
-
我认为这可能是 Athena 中的一个错误。在 Athena 文档中,他们没有提到 Glacier。
-
我添加了更多细节,显示我们的 s3 对象文件名实际上处于冰川对象状态。
-
您可以使用 Glacier Select 和 SQL docs.aws.amazon.com/amazonglacier/latest/dev/…
-
连冰川还原都不行?
标签: amazon-web-services amazon-s3 amazon-glacier amazon-athena