【发布时间】:2019-09-02 07:23:58
【问题描述】:
我有一个 500GB 的表。我想根据时间戳将数据传输到另一个表。 表中有几个项目,我只想要另一个表中每个项目的最新条目。
考虑到桌子的大小,谁能推荐最好的 aws 服务来快速轻松地完成它?
我遇到了 aws 胶水、hivecopyactivity。这是最好的解决方案还是我可以使用其他任何服务?
【问题讨论】:
-
该表的分区键和排序键(如果有)是什么? “基于时间戳”:每个项目中是否有时间戳字段?如果没有,项目的时间戳在哪里定义?您在该表上有多少个全局二级索引?
-
还有一个问题,关于“我只想要每个项目的最新条目”。更新原始表时会发生什么(添加了具有较新时间戳的条目)。您是否也希望更新第二个表?如果是这样,那么您的应用程序可以容忍的传播延迟是多少?
-
@ItayMaman 该表将在提取期间冻结。是的,数据库中的每个条目都有时间戳。分区和排序键是不同的。我对另一列感兴趣,希望获得最新条目。
-
“最新条目”:具有相同主键的最新条目?具有相同的主键+排序键?还有什么?
-
@ItayMaman 别的。有列 x:String 既不是主键也不是排序键。我必须得到 x 的最新条目。
标签: amazon-web-services amazon-dynamodb extract etl