如何避免读取 pandas.read_excel 中的空行

【问题标题】：How to avoid reading empty rows in pandas.read_excel如何避免读取 pandas.read_excel 中的空行
【发布时间】：2020-03-30 10:53:39
【问题描述】：

我有一个包含一百万行的 Excel 表。只有前一百行左右有数据。剩余的行是空的和空白的。 pandas.read_excel 在内部使用 xlrd 来读取数据。反过来 xlrd 会读取整张纸并花费大量时间（大约 65 秒）。我尝试了下面的代码。但不能减少阅读时间。

df= pd.read_excel(file_path, sheetname=sheetname,nrows=1000, skiprows=1, header=None)

我的机器中有一个 8GB 内存，运行 Windows 10 操作系统。我正在使用熊猫 0.25.3

有没有其他优化的方案来减少阅读时间？

【问题讨论】：

【解决方案1】：

keep_default_na=False 参数可能会减少读取时间并忽略 excel 文件中的 NaN 值。

示例用法：

df = pd.read_excel('test.xlsx', keep_default_na=False)

【讨论】：