【发布时间】:2020-05-10 22:12:06
【问题描述】:
我们有一个连接到事件中心的 Azure 时序见解预览实例。传入事件作为 parquet 文件写入相关的冷存储数据帐户。当我尝试使用各种阅读器(如 parquet-[head|cat|etc] cmd 工具)打开 parquet 文件时,出现错误。
parquet-head的输出
org.apache.parquet.io.ParquetDecodingException:无法读取值 文件文件中的块-1中的0:20200123140854700_c8876d10_01.parquet
这里是更详细的问题示例。这是parquet-dump的输出
$ parquet-dump 20200123140854700_c8876d10_01.parquet
行组 0 -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------------------- -------------------------------------- 时间戳:INT64 SNAPPY DO:0 FPO:4 SZ:100/850/8.50 VC:100 ENC:PLAIN,RLE ST:[分钟: 2020-01-23T14:08:52.583+0000,最大值:2020-01-23T14:08:52.583+0000, num_nulls: 0] id_string: BINARY SNAPPY DO:167 FPO:194 SZ:80/76/0.95 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[最小值:dabas96,最大值:dabas96,num_nulls:0] dabasuploader_time_string: BINARY SNAPPY DO:313 FPO:855 SZ:705/2177/3.09 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0,未定义最小值/最大值] dabasuploader_prod_kwh_string: BINARY SNAPPY DO:1118 FPO:1139 SZ:62/58/0.94 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[min: 0, max: 0, num_nulls: 0] dabasuploader_pred_nxd_kwh_string: BINARY SNAPPY DO:1252 FPO:1488 SZ:319/390/1.22 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0,未定义最小/最大值] dabasuploader_pred_today_kwh_string: BINARY SNAPPY DO:1650 FPO:1903 SZ:336/404/1.20 VC:100 ENC:PLAIN_DICTIONARY,PLAIN,RLE ST:[num_nulls: 0, min/max not defined] java.lang.IllegalArgumentException: [solpos_altitude_double] 可选 double solpos_altitude_double 不在商店中: [[dabasuploader_time_string] 可选二进制 dabasuploader_time_string (STRING), [dabasuploader_pred_nxd_kwh_string] 可选二进制 dabasuploader_pred_nxd_kwh_string (STRING), [id_string] 可选 二进制 id_string (STRING), [timestamp] 可选 int64 时间戳 (TIMESTAMP(MILLIS,true)), [dabasuploader_pred_today_kwh_string] 可选二进制 dabasuploader_pred_today_kwh_string (STRING), [dabasuploader_prod_kwh_string] 可选二进制 dabasuploader_prod_kwh_string (STRING)] 100
solpos_altitude_double 来自我们上传到 eventthub 的事件。我的意思是,我们称之为solpos_altitude。根据文档,_double 后缀来自 TSI。
根据我能找到的所有 MS Azure 文档,阅读 parquet 文件应该没有问题。
有人知道出了什么问题吗? 如果需要更多信息,我很乐意提供。
【问题讨论】:
-
在 MSDN 中提出了同样的问题,并将两者联系起来:social.msdn.microsoft.com/Forums/en-US/…
标签: azure parquet azure-timeseries-insights