【发布时间】:2022-11-04 00:03:32
【问题描述】:
这是我的代码:
import pandas as pd
df = pd.read_parquet("file.parqet", engine='pyarrow')
df_set_index = df.set_index('column1')
row_count = df.shape[0]
column_count = df.shape[1]
print(df_set_index)
print(row_count)
print(column_count)
每次我想计算行数、列数等时,我可以在不读取镶木地板文件的情况下运行它吗?读入文件需要一段时间,因为它很大,我已经读过一次,但我不知道怎么读。
【问题讨论】:
-
一旦你做了
df = pd.read_parquet("file.parqet", engine='pyarrow'),那么数据帧就在内存中,任何随后对df的调用都不会打扰文件。您可以读取该文件,然后将其删除,并且仍然可以使用数据框。
标签: python pandas dataframe parquet