【发布时间】:2020-06-16 12:18:08
【问题描述】:
我有 parquet 格式的 hdfs 文件,有两种读取方式:
spark.read.parquet(hdfs_path)
pyarrow.hdfs.connect().read_parquet(hdfs_path)
请问这两者有什么区别,哪一个更好?
谢谢。
【问题讨论】:
标签: apache-spark pyspark hdfs
我有 parquet 格式的 hdfs 文件,有两种读取方式:
spark.read.parquet(hdfs_path)
pyarrow.hdfs.connect().read_parquet(hdfs_path)
请问这两者有什么区别,哪一个更好?
谢谢。
【问题讨论】:
标签: apache-spark pyspark hdfs
第一段代码spark.read.parquet() function 是 Apache Spark 的原生代码。它是 Apache Spark 源代码中DatasourceReader 类中定义的方法。它是在 Scala 中实现的
第二段代码pyarrow.hdfs.connect().read_parquet(hdfs_path) 也从 hdfs 读取 parquet 文件,但在 Apache Arrrow 中实现,并在 Python 中定义为 PyArrow 库。
第一个代码 sn-p 将读取 Spark Dataframe 中的 parquet 数据,您将从一开始就拥有所有可用的并行处理能力。
【讨论】: