Apache Drill - 查询 HDFS 和 SQL答案

【问题标题】：Apache Drill - Query HDFS and SQLApache Drill - 查询 HDFS 和 SQL
【发布时间】：2015-04-30 04:37:27
【问题描述】：

我正在尝试探索 Apache Drill。我不是数据分析师，只是一个基础设施支持人员。我看到关于 Apache Drill 的文档太有限了

我需要一些有关可与 Apache Drill 一起使用的自定义数据存储的详细信息

是否可以在没有 Hive 的情况下查询 HDFS，使用 Apache Drill 就像 dfs 一样
是否可以查询像 MySQL 和 Microsoft SQL 这样的旧 RDBMS

提前致谢

更新：

我的 HDFS 存储防御提示错误（无效的 JSON 映射）

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

如果我将hdfs:/// 替换为file:///，它似乎可以接受。

我从文件夹中复制了所有库文件

<drill-path>/jars/3rdparty to <drill-path>/jars/

无法让它工作。请帮忙。我根本不是开发人员，我是 Infra 人。

提前致谢

【问题讨论】：

标签： mysql apache hadoop hdfs apache-drill

【解决方案1】：

是的。

Drill 根据元数据直接识别文件的架构。有关更多信息，请参阅链接 -

https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources

还没有。

虽然有一个 MapR 驱动程序可以让您实现相同的目标，但现在 Drill 本身并不支持它。围绕这个问题已经进行了多次讨论，并且可能很快就会出现。

【讨论】：

非常感谢 Yash.. 我匆忙错过了 hdfs 部分
Drill 现在可以通过 JDBC 连接到 RDBMS：drill.apache.org/docs/rdbms-storage-plugin

【解决方案2】：

是的，drill 可以同时与 Hadoop 系统和 RDBMS 系统进行通信。事实上，您可以将查询加入两个系统。

HDFS存储插件可以是：

{
  "type": "file",
  "enabled": true,
  "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
  "workspaces": {
    "root": {
      "location": "/user/cloudera",
      "writable": true,
      "defaultInputFormat": null
    },
    "tmp": {
      "location": "/tmp",
      "writable": true,
      "defaultInputFormat": null
    }
  },
  "formats": {
    "parquet": {
      "type": "parquet"
    },
    "psv": {
      "type": "text",
      "extensions": [
        "tbl"
      ],
      "delimiter": "|"
    },
    "csv": {
      "type": "text",
      "extensions": [
        "csv"
      ],
      "delimiter": ","
    },
    "tsv": {
      "type": "text",
      "extensions": [
        "tsv"
      ],
      "delimiter": "\t"
    },
    "json": {
      "type": "json"
    }
  }
}

默认情况下，连接 URL 将是您的 mapR/Coudera URL，端口号为 8020。您应该能够使用配置密钥在系统上的 Hadoop 配置中发现这一点：“fs_defaultfs”

【讨论】：