下载jar
从 maven repo 或您选择的任何位置下载 jar。只是谷歌它。发这篇文章的时候我可以从这里得到 parquet-tools。
如果您已登录 hadoop 框:
wgethttp://central.maven.org/maven2/org/apache/parquet/parquet-tools/1.9.0/parquet-tools-1.9.0.jar
此链接可能会在几天后停止工作。所以从 maven repo 获取新链接。
构建 jar
如果您无法下载 jar,您也可以从源代码构建 jar。克隆 parquet-mr 存储库并从源代码构建 jar
git 克隆https://github.com/apache/parquet-mr
mvn 清洁包
注意:你需要在你的盒子上安装 maven 来构建源代码。
读取拼花文件
您可以使用这些命令来查看 parquet 文件的内容-
检查 s3/hdfs 文件的架构:
hadoop jar parquet-tools-1.9.0.jar schema s3://path/to/file.snappy.parquet
hadoop jar parquet-tools-1.9.0.jar schema hdfs://path/to/file.snappy.parquet
头文件内容:
hadoop jar parquet-tools-1.9.0.jar head -n5 s3://path/to/file.snappy.parquet
查看本地文件内容:
java -jar parquet-tools-1.9.0.jar head -n5 /tmp/path/to/file.snappy.parquet
java -jar parquet-tools-1.9.0.jar schema /tmp/path/to/file.snappy.parquet
更多命令:
hadoop jar parquet-tools-1.9.0.jar –help