【发布时间】:2020-12-27 00:30:21
【问题描述】:
我有一个程序,其输入应为 ORC 文件格式。
我希望能够检查提供的输入是否有效地是一个 ORC 文件。仅检查扩展名是不够的,因为用户可以省略扩展名。
以 Parquet 为例,如果第一行包含“PAR1”,我们可以check。
ORC 有没有等价的方法?
【问题讨论】:
-
检查文件开头的必要十六进制位?看看 BITs 是否符合您的要求?在 bash 中也可以这样做:
cat file.orc | head -1 | grep 'PAR1'
标签: scala apache-spark parquet orc