【发布时间】:2018-10-14 02:24:46
【问题描述】:
直到最近 parquet 不支持 null 值 - 一个值得怀疑的前提。事实上,最近的一个版本终于添加了这种支持:
https://github.com/apache/parquet-format/blob/master/LogicalTypes.md
但是,spark 支持新的 parquet 功能还需要很长时间 - 如果有的话。这是关联的 (closed - will not fix) JIRA:
https://issues.apache.org/jira/browse/SPARK-10943
那么在将dataframe's 写成parquet 时,今天,人们对空列值做了什么?我只能想到 非常 丑陋可怕的 hack,比如编写空字符串和 .. 好吧 .. 我 不 知道如何处理数值来指示 null - 简短放入一些哨兵值并让我的代码检查它(这很不方便且容易出错)。
【问题讨论】:
标签: apache-spark parquet