在从 Drill 查询 HDFS 时需要帮助答案

【问题标题】：Need help in querying HDFS from drill在从 Drill 查询 HDFS 时需要帮助
【发布时间】：2015-08-20 11:20:32
【问题描述】：

我的笔记本电脑上安装了钻头和动物园管理员。我在笔记本电脑上启动了 HDFS，发现可以查询 HDFS 中的 csv 和 json 文件。现在我想查询位于另一台笔记本电脑中的文件。因此，我在另一台笔记本电脑上启动了 hdfs，当我给出 select * 查询时，它失败了（尽管我可以毫无问题地执行 show files 查询）。

我收到的错误在 Dropbox 链接中：

https://www.dropbox.com/s/5bgyw4jetweczoj/drill.log?dl=0

两台笔记本电脑都运行 Ubuntu

Apache 钻孔版本：1.1.0

我有以下问题：

1) 是否可以在hadoop集群外的机器上运行drill并查询集群中的hdfs文件？

2) 如果是，是否需要额外的配置更改？

【问题讨论】：

标签： apache hadoop hdfs apache-drill

【解决方案1】：

是的，可以在hadoop集群外的机器上运行drill，查询集群中的hdfs文件。从命令行启动钻壳（sqlline）并指定要连接的zookeeper quorum。见Using an Ad-Hoc Connection to Drill。您也可以使用 SQuirrel 进行连接。 Configuration for Windows 类似于 Linux。

【讨论】：

感谢您的回复。我会检查的。你知道我为什么会得到 BlockMissingException 吗？我尝试通过 Namenode UI 访问 hdfs 文件，没有任何问题。请参考上面提到的Dropbox链接中的日志。