【发布时间】:2017-04-22 00:40:55
【问题描述】:
使用 spark 和 Drill,我可以查询本地 parquet 文件。
presto 是否提供相同的功能? 换句话说,是否可以使用 presto 查询本地 parquet 文件——无需通过 HDFS 或 hive?
【问题讨论】:
-
这方面有什么更新吗?
使用 spark 和 Drill,我可以查询本地 parquet 文件。
presto 是否提供相同的功能? 换句话说,是否可以使用 presto 查询本地 parquet 文件——无需通过 HDFS 或 hive?
【问题讨论】:
我没有找到一个简单的方法来做到这一点。这已经很长时间了,我不确定目前是否还有其他选择。
我所做的是;创建一个自定义配置单元元存储,它将返回模式、带有我的 parquet 文件路径的表。在 presto 中,使用该元存储对其进行了配置,并且效果很好。
【讨论】:
据我了解,Presto 的本地文件仅适用于 http_request_logs(这就是为什么他们有设置:presto-logs.http-request-log.location)。我无法使用 Presto 查询本地镶木地板数据。
我能够使用 Apache Drill 查询数据。开箱即用,您可以使用本地文件系统切换以下目录并在其上运行常规 SQL:
# Start with /bin/drill-embedded
0: jdbc:drill:zk=local> select * from dfs.`/somedir/withparquetfiles/`
【讨论】: