【问题标题】:Apache Drill - Query HDFS and SQLApache Drill - 查询 HDFS 和 SQL
【发布时间】:2015-04-30 04:37:27
【问题描述】:

我正在尝试探索 Apache Drill。我不是数据分析师,只是一个基础设施支持人员。我看到关于 Apache Drill 的文档太有限了

我需要一些有关可与 Apache Drill 一起使用的自定义数据存储的详细信息

  1. 是否可以在没有 Hive 的情况下查询 HDFS,使用 Apache Drill 就像 dfs 一样
  2. 是否可以查询像 MySQL 和 Microsoft SQL 这样的旧 RDBMS

提前致谢

更新:

我的 HDFS 存储防御提示错误(无效的 JSON 映射)

{  
  "type":"file",
  "enabled":true,
  "connection":"hdfs:///",
  "workspaces":{  
    "root":{  
      "location":"/",
      "writable":true,
      "storageformat":"null"
    }
  }
}

如果我将hdfs:/// 替换为file:///,它似乎可以接受。

我从文件夹中复制了所有库文件

<drill-path>/jars/3rdparty to <drill-path>/jars/

无法让它工作。请帮忙。我根本不是开发人员,我是 Infra 人。

提前致谢

【问题讨论】:

    标签: mysql apache hadoop hdfs apache-drill


    【解决方案1】:
    1. 是的。

    Drill 根据元数据直接识别文件的架构。有关更多信息,请参阅链接 -

    https://cwiki.apache.org/confluence/display/DRILL/Connecting+to+Data+Sources

    1. 还没有。

    虽然有一个 MapR 驱动程序可以让您实现相同的目标,但现在 Drill 本身并不支持它。围绕这个问题已经进行了多次讨论,并且可能很快就会出现。

    【讨论】:

    【解决方案2】:

    是的,drill 可以同时与 Hadoop 系统和 RDBMS 系统进行通信。事实上,您可以将查询加入两个系统。

    HDFS存储插件可以是:

    {
      "type": "file",
      "enabled": true,
      "connection": "hdfs://xxx.xxx.xxx.xxx:8020/",
      "workspaces": {
        "root": {
          "location": "/user/cloudera",
          "writable": true,
          "defaultInputFormat": null
        },
        "tmp": {
          "location": "/tmp",
          "writable": true,
          "defaultInputFormat": null
        }
      },
      "formats": {
        "parquet": {
          "type": "parquet"
        },
        "psv": {
          "type": "text",
          "extensions": [
            "tbl"
          ],
          "delimiter": "|"
        },
        "csv": {
          "type": "text",
          "extensions": [
            "csv"
          ],
          "delimiter": ","
        },
        "tsv": {
          "type": "text",
          "extensions": [
            "tsv"
          ],
          "delimiter": "\t"
        },
        "json": {
          "type": "json"
        }
      }
    }
    

    默认情况下,连接 URL 将是您的 mapR/Coudera URL,端口号为 8020。您应该能够使用配置密钥在系统上的 Hadoop 配置中发现这一点:“fs_defaultfs

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2016-05-28
      相关资源
      最近更新 更多