截断并重新加载答案

【问题标题】：Truncate and reload截断并重新加载
【发布时间】：2019-06-10 06:58:01
【问题描述】：

我正在尝试截断 Neptune 数据库并通过批量加载重新加载相同的数据但是数据库没有考虑将相同的数据加载到 Neptune。我们使用 g.V().drop() 和类似的边缘。谁能帮我解决这个问题。我的项目涉及基于时间表的截断和重新加载修改后的数据，并且将具有相同的 ID

我们删除实例并重新创建 Neptune，然后加载工作正常

curl -X POST \
    -H 'Content-Type: application/json' \
    https://*:8182/loader -d '
    {
      "source" : "s3://***",
      "format" : "csv",
      "iamRoleArn" : "",
      "region" : "*",
      "failOnError" : "FALSE",
      "parallelism" : "MEDIUM"
    }'

提供的记录数和识别的 Neptune 批量加载器数量不匹配，对于第一次成功的相同数据重新加载失败

【问题讨论】：

嗨，Pradeep，您需要更多信息吗？否则，您介意接受答案，以便我们关闭这个吗？

标签： python amazon-web-services gremlin bulk-load amazon-neptune

【解决方案1】：

您确定您的删除请求已完全完成吗？根据您的数据规模，截断整个数据库可能需要一些时间和 IO，并且在几乎所有情况下，创建一个新集群并将其用于此类用例是一个更好的选择。在某些用例中，客户创建空集群（其中没有实例）并让他们的应用程序声明空集群，向其中添加一个实例，然后如果他们想要一个干净的 slate 数据库就开始使用它。

注意事项

删除大型数据库可能需要一些时间
删除数据库涉及大量 IO，并且会产生费用
删除集群并使用新集群通常更快，而且成本更低
您可以拥有几乎没有成本的空集群，并且您可以在需要时配置实例
将实例添加到现有集群或创建新集群通常需要不到 10 分钟的时间，您始终可以在应用程序中构建登录以提前计划并配置新数据库、切换应用程序然后终止旧集群 (有或没有最终快照）。

【讨论】：