使用来自 Hadoop BigQuery 连接器的 ignoreUnknownValues
Using ignoreUnknownValues from Hadoop BigQuery Connector
我正在通过 Hadoop 传输非结构化事件数据,并希望将其放入 BigQuery。我有一个包含大部分字段的架构,但有些字段我想忽略或不知道。
BigQuery 有一个名为 ignoreUnknownValues 的配置字段,但我不知道如何从 Hadoop 连接器打开它。这可能吗?
很遗憾,Hadoop 的 BigQuery 连接器目前不支持此功能;我们一定会在下一个版本中添加更灵活的配置自定义,并直接支持已知的配置设置,如 ignoreUnknownValues
。与此同时,如果你准备从源代码构建,你应该能够在 line 317 of BigQueryRecordWriter.java:
之后添加
loadConfig.setIgnoreUnknownValues(true);
然后您只需 mvn -Phadoop1 package
或 mvn -Phadoop2 package
并将您的自定义 BigQuery 连接器 jar 文件上传到 GCS 中的某个位置,最后修改 bdutil_env.sh
中的 BIGQUERY_CONNECTOR_JAR
以指向重新部署之前的自定义 jarfile。
我正在通过 Hadoop 传输非结构化事件数据,并希望将其放入 BigQuery。我有一个包含大部分字段的架构,但有些字段我想忽略或不知道。
BigQuery 有一个名为 ignoreUnknownValues 的配置字段,但我不知道如何从 Hadoop 连接器打开它。这可能吗?
很遗憾,Hadoop 的 BigQuery 连接器目前不支持此功能;我们一定会在下一个版本中添加更灵活的配置自定义,并直接支持已知的配置设置,如 ignoreUnknownValues
。与此同时,如果你准备从源代码构建,你应该能够在 line 317 of BigQueryRecordWriter.java:
loadConfig.setIgnoreUnknownValues(true);
然后您只需 mvn -Phadoop1 package
或 mvn -Phadoop2 package
并将您的自定义 BigQuery 连接器 jar 文件上传到 GCS 中的某个位置,最后修改 bdutil_env.sh
中的 BIGQUERY_CONNECTOR_JAR
以指向重新部署之前的自定义 jarfile。