【问题标题】:Parquet file written by Azure Time Series Insights Preview is not readableAzure 时序见解预览版编写的 Parquet 文件不可读
【发布时间】:2020-05-10 22:12:06
【问题描述】:

我们有一个连接到事件中心的 Azure 时序见解预览实例。传入事件作为 parquet 文件写入相关的冷存储数据帐户。当我尝试使用各种阅读器(如 parquet-[head|cat|etc] cmd 工具)打开 parquet 文件时,出现错误。

parquet-head的输出

org.apache.parquet.io.ParquetDecodingException:无法读取值 文件文件中的块-1中的0:20200123140854700_c8876d10_01.parquet

这里是更详细的问题示例。这是parquet-dump的输出

$ parquet-dump 20200123140854700_c8876d10_01.parquet
行组 0 -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------- 时间戳:INT64 SNAPPY DO:0 FPO:4 SZ:100/850/8.50 VC:100 ENC:PLAIN,RLE ST:[分钟: 2020-01-23T14:08:52.583+0000,最大值:2020-01-23T14:08:52.583+0000, num_nulls: 0] id_string: BINARY SNAPPY DO:167 FPO:194 SZ:80/76/0.95 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[最小值:dabas96,最大值:dabas96,num_nulls:0] dabasuploader_time_string: BINARY SNAPPY DO:313 FPO:855 SZ:705/2177/3.09 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0,未定义最小值/最大值] dabasuploader_prod_kwh_string: BINARY SNAPPY DO:1118 FPO:1139 SZ:62/58/0.94 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[min: 0, max: 0, num_nulls: 0] dabasuploader_pred_nxd_kwh_string: BINARY SNAPPY DO:1252 FPO:1488 SZ:319/390/1.22 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0,未定义最小/最大值] dabasuploader_pred_today_kwh_string: BINARY SNAPPY DO:1650 FPO:1903 SZ:336/404/1.20 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0, min/max not defined] java.lang.IllegalArgumentException: [solpos_altitude_double] 可选 double solpos_altitude_double 不在商店中: [[dabasuploader_time_string] 可选二进制 dabasuploader_time_string (STRING), [dabasuploader_pred_nxd_kwh_string] 可选二进制 dabasuploader_pred_nxd_kwh_string (STRING), [id_string] 可选 二进制 id_string (STRING), [timestamp] 可选 int64 时间戳 (TIMESTAMP(MILLIS,true)), [dabasuploader_pred_today_kwh_string] 可选二进制 dabasuploader_pred_today_kwh_string (STRING), [dabasuploader_prod_kwh_string] 可选二进制 dabasuploader_prod_kwh_string (STRING)] 100

solpos_altitude_double 来自我们上传到 eventthub 的事件。我的意思是,我们称之为solpos_altitude。根据文档,_double 后缀来自 TSI。

根据我能找到的所有 MS Azure 文档,阅读 parquet 文件应该没有问题。

有人知道出了什么问题吗? 如果需要更多信息,我很乐意提供。

【问题讨论】:

标签: azure parquet azure-timeseries-insights


【解决方案1】:

我认为这是一个由更改数据架构(漂移架构)引起的已知问题。我们目前正在对其进行修复。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2017-09-25
    • 2022-10-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-22
    相关资源
    最近更新 更多