【发布时间】:2021-12-13 07:56:25
【问题描述】:
我想创建一个 hive 表,它将以 orc 格式和 snappy 压缩存储数据。 power bi 能否从该表中读取数据?您还为我的表格建议任何其他格式/压缩吗?
【问题讨论】:
我想创建一个 hive 表,它将以 orc 格式和 snappy 压缩存储数据。 power bi 能否从该表中读取数据?您还为我的表格建议任何其他格式/压缩吗?
【问题讨论】:
ORC 是一种特殊的文件格式,仅适用于 hive,并且针对 HDFS 读取操作进行了高度优化。 Power BI 可以使用 hive odbc 数据连接连接到 hive。所以,我认为如果你必须一直使用 hive,你可以使用这种格式来存储数据。但是如果你想要 hive 和 impala 的灵活性并使用 cludera 提供的 impala ODBC 驱动程序,你可以考虑使用 parquet。
现在,orc 和 parquet 都有各自的优缺点。主要的决定因素可能是访问数据的工具、嵌套数据的方式以及有多少列。
如果您有许多包含嵌套数据的列,并且想要同时使用 hive 和 impala 来访问数据,请使用 parquet。如果你的列很少,数据结构扁平,数据量很大,那就用 orc。
【讨论】: