【问题标题】:How to avoid reading empty rows in pandas.read_excel如何避免读取 pandas.read_excel 中的空行
【发布时间】:2020-03-30 10:53:39
【问题描述】:

我有一个包含一百万行的 Excel 表。只有前一百行左右有数据。剩余的行是空的和空白的。 pandas.read_excel 在内部使用 xlrd 来读取数据。反过来 xlrd 会读取整张纸并花费大量时间(大约 65 秒)。我尝试了下面的代码。但不能减少阅读时间。

df= pd.read_excel(file_path, sheetname=sheetname,nrows=1000, skiprows=1, header=None)

我的机器中有一个 8GB 内存,运行 Windows 10 操作系统。 我正在使用熊猫 0.25.3

有没有其他优化的方案来减少阅读时间?

【问题讨论】:

    标签: python-3.x pandas


    【解决方案1】:

    keep_default_na=False 参数可能会减少读取时间并忽略 excel 文件中的 NaN 值。

    示例用法:

    df = pd.read_excel('test.xlsx', keep_default_na=False)
    

    【讨论】:

    • 这有帮助......时间从 65 秒减少到 54 秒......但是,我希望有大约 5 到 10 秒......
    • 据我所知read_csv 的工作速度比read_excel 快​​,所以如果您能够打开 excel 文件并将其保存为 CSV 文件,这可能会对您有所帮助。
    • 是的,我看到了一些关于转换为 csv 解决方案的问题帖子。我会试试的。谢谢
    • Read_csv 更快。谢谢!
    猜你喜欢
    • 2012-09-09
    • 1970-01-01
    • 1970-01-01
    • 2014-02-25
    • 2020-11-12
    • 2019-03-16
    • 2016-11-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多