【问题标题】:Using ignoreUnknownValues from Hadoop BigQuery Connector使用 Hadoop BigQuery 连接器中的 ignoreUnknownValues
【发布时间】:2015-04-02 03:51:12
【问题描述】:

我正在通过 Hadoop 传输非结构化事件数据,并希望将其放到 BigQuery 中。我有一个包含大部分字段的架构,但有些字段我想忽略或不知道。

BigQuery 有一个名为 ignoreUnknownValues 的配置字段,但我不知道如何从 Hadoop 连接器打开它。这可能吗?

【问题讨论】:

    标签: hadoop google-bigquery google-hadoop


    【解决方案1】:

    很遗憾,Hadoop 的 BigQuery 连接器目前不支持此功能;我们一定会在下一个版本中添加更灵活的配置自定义,并直接支持已知的配置设置,如ignoreUnknownValues。同时,如果您准备从源代码构建,您应该可以在 line 317 of BigQueryRecordWriter.java 之后添加:

    loadConfig.setIgnoreUnknownValues(true);
    

    然后您只需 mvn -Phadoop1 packagemvn -Phadoop2 package 并将您的自定义 BigQuery 连接器 jarfile 上传到 GCS 中的某个位置,最后在您的 bdutil_env.sh 中修改 BIGQUERY_CONNECTOR_JAR 以在重新部署之前指向您的自定义 jarfile。

    【讨论】:

      猜你喜欢
      • 2021-03-07
      • 1970-01-01
      • 2015-10-02
      • 1970-01-01
      • 2019-06-25
      • 1970-01-01
      • 2019-10-16
      • 2018-01-15
      • 2015-03-12
      相关资源
      最近更新 更多