【发布时间】:2017-09-24 20:10:19
【问题描述】:
我正在创建 Hive 外部表。文件格式为文本文件。但是查询需要很长时间才能执行。
我可以使用任何文件格式来快速访问数据吗?
【问题讨论】:
我正在创建 Hive 外部表。文件格式为文本文件。但是查询需要很长时间才能执行。
我可以使用任何文件格式来快速访问数据吗?
【问题讨论】:
ORC 是迄今为止从 HIVE 更快地访问数据的最佳文件格式。请注意,您必须确保按排序顺序为您搜索的列加载数据,以加快检索速度。这会使加载过程变慢。
我建议将 Partitioning 与 ORC(ZLIB 压缩)一起使用,因为这是我最近测试过的,并且看到了良好的性能改进。
有关ORC文件格式的详细信息,您可以参考(也有很多好文章) https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
【讨论】:
将其存储为 ORC 格式并使用 tez 执行引擎
set hive.execution.engine=tez;
【讨论】: