【发布时间】:2019-05-27 17:10:50
【问题描述】:
我有一个 parquet 文件,我想先将文件中的 n 行读入 pandas 数据框。
我尝试了什么:
df = pd.read_parquet(path= 'filepath', nrows = 10)
它不起作用并给了我错误:
TypeError: read_table() got an unexpected keyword argument 'nrows'
我也尝试了 skiprows 参数,但这也给了我同样的错误。
或者,我可以读取完整的 parquet 文件并过滤前 n 行,但这需要更多的计算,我想避免。
有什么方法可以实现吗?
【问题讨论】:
-
Parquet 文件的部分按行读取现在是可能的(使用 PyArrow 作为后端),如下所示:stackoverflow.com/a/69888274/9962007