【发布时间】:2019-11-27 23:53:42
【问题描述】:
我正在处理存储在 Amazon S3 上的 parquet 文件。需要提取这些文件并将其中的数据加载到 Azure 数据仓库中。
我的计划是:
Amazon S3 -> 使用 SAP BODS 将 parquet 文件移动到 Azure Blob -> 在这些 parquet 文件上创建外部表 -> 暂存 -> Fact/Dim 表
现在的问题是,在其中一个 parquet 文件中有一列存储为 array<string>。我可以使用该列的 varchar 数据类型在其上创建外部表,但如果我对该外部表执行任何 sql 查询操作(即选择),则会引发以下错误。
消息 106000,第 16 级,状态 1,第 3 行
HdfsBridge::recordReaderFillBuffer - 遇到意外错误 填充记录读取器缓冲区:ClassCastException:可选组 状态(列表){
重复组包{
optional binary array_element (UTF8);}
} 不是原始的
我尝试了不同的数据类型,但无法对该外部表运行选择查询。
如果还有其他选择,请告诉我。
谢谢
【问题讨论】:
标签: azure amazon-s3 hdfs parquet azure-sql-data-warehouse