【问题标题】:Why would an S3 object's ETag change under a copy?为什么 S3 对象的 ETag 在副本下会发生变化?
【发布时间】:2021-04-21 07:17:42
【问题描述】:

我正在尝试使用 boto3 在不同帐户的存储桶中的前缀之间执行 S3 同步。我的尝试通过列出账户 A 中源存储桶/前缀中的对象,列出账户 B 中目标存储桶/前缀中的对象,并复制前者中的 ETag 与后者。这似乎是正确的做法。

但是,似乎即使复制操作成功,每次执行复制时,目标对象的ETag都不一样。具体来说,

>>> # Here is the source object: {'Key': 'blah/blah/file_20210328_232250.parquet', 'LastModified': datetime.datetime(2021, 3, 28, 23, 38, 2, tzinfo=tzutc()), 'ETag': '"ba230f7a358cf1bee6c98250089da435"', 'Size': 52319, 'StorageClass': 'STANDARD'}
>>> client.copy_object(
CopySource={"Bucket": "source-bucket-in-acct-a", "Key": "blah/blah/file_20210328_232250.parquet"),
Bucket="dest-bucket-in-acct-b",
Key="blah/blah/file_20210328_232250.parquet"
)
... 'CopyObjectResult': {'ETag': '"84f11f744cf996e16a3af0d6d2fbee07"', 'LastModified': datetime.datetime(2021, 4, 20, 2, 23, 40, tzinfo=tzutc())}}

请注意,ETag 已更改。如果我再次运行副本,它将再次具有不同的 ETag。我已经尝试了复制请求的各种附加参数(MetadataDirective="COPY" 等)。我可能遗漏了保留 ETag 的东西,但我的理解是 ETag 源自对象的数据,而不是其元数据。

现在,它在AWS documentation 中说,ETag 对于成功的非多部分复制操作是相同的,确实如此,但情况似乎并非如此。它不是多部分副本,我已经检查了实际数据;它们是相同的。因此,我的问题:

如果不是因为不成功的复制,对象的 ETag 如何更改?

【问题讨论】:

  • 应该可以的。它只发生在这个特定的对象上吗?你试过别的吗?
  • @Marcin 感兴趣的前缀中的每个对象都会发生这种情况。我知道这是因为“同步”在重新运行时复制前缀下的每个对象,因为源和目标之间的 etag 不同(这是代码中唯一要测试的条件,“这个对象是否已经在目标中”) .您认为这与加密有关吗?即,源对象使用账户 A 的 KMS 密钥加密,目标对象使用账户 B 加密。我不知道这是否有意义。我认为这没关系,但我很难过。这就是我在这里问的原因。
  • here 他们写道,根据加密,可以使用不同的算法。所以也许这可以解释你的问题?
  • @Marcin 是的,这似乎是唯一的解释。
  • 如果您不介意,我会通过链接提供一些信息的答案。

标签: amazon-web-services amazon-s3 boto3


【解决方案1】:

基于 cmets。

对象的 Etag 哈希计算不一致,不能完全用于检查对象的完整性。来自AWS blog

ETag 并不总是 MD5 摘要,它不能总是用于验证上传文件的完整性。

这是因为 ETag depend 计算对象是如何创建和加密的:

ETag 是否为 MD5 摘要取决于对象的创建和加密方式

【讨论】:

  • Here's 另一个链接明确指出,当使用 KMS 加密时,实体标签不是对象内容的哈希(在我的情况下,这是真的)。他们没有说 etag 在这种情况下代表什么,只是说它不代表对象的内容。但无论如何,这个对象是用一个 KMS 密钥解密的(在账户 A 中),然后用另一个 KMS 密钥加密(在账户 B 中),所以我显然应该期望实体标签是不同的。
  • @user4601931 谢谢。加密必须最有可能解释观察到的差异。两个对象使用不同的 KMS 密钥。
猜你喜欢
  • 1970-01-01
  • 2022-01-07
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多