【发布时间】:2015-10-09 02:43:30
【问题描述】:
我已经将大量数据从 S3 加载到 hdfs 中,然后将数据插入到 impala 中的一个表中。
然后我针对这些数据运行查询,并希望将这些结果返回到 S3。
我正在使用 Amazon EMR 和 impala 1.2.4。如果无法将查询结果直接返回到 S3,是否有选项可以将数据返回到 hdfs,然后如何从那里将其发送回 S3?
我搞砸了 impala-shell -o filename 选项,但这似乎只适用于本地 linux 文件系统。
我认为这可能是一种常见情况,但无法找到任何有关在任何地方保存查询结果的信息。
任何指针表示赞赏。
【问题讨论】:
-
将结果存储在本地文件系统中并将其推送到 S3 在大数据的情况下不是一个好方法。最好的方法是在 S3 中创建一个外部表,并将输出数据填充到外部表中。
标签: amazon-s3 hdfs amazon-emr impala