【发布时间】:2019-05-29 11:30:33
【问题描述】:
我有一个非常大的 excel 文件,我只想加载前 100 行。看来pandas做的不是很好,在下面的命令中加载大约需要10秒:
pd.read_excel('excel/BigFile.xlsx', nrows=100)
这似乎与根本不传递 nrows 参数所花费的时间相同。有没有办法“快速”读取 excel 文件的前 100 行?如果不在 pandas 中,还有其他工具可以做得更好吗?
【问题讨论】:
-
延长时间可能是“import pandas as pd”这一行。在我的电脑上也需要 4-5 秒。这是一个巨大的图书馆。如果 10 秒太长,请尝试 xlrd 模块甚至 csv 模块(并保存为 csv - 知道您会丢失一些功能)。
-
作为对@NickDima 上述评论的回应,pandas docs 中说您可以使用 xlrd 引擎来读取文件。
-
@mariogarcc 如果您必须完全导入熊猫,问题仍然存在
-
@NickDima 对不起,为什么导入 pandas 有问题?我只是说,您可以尝试使用 pandas 提供的 xlrd 引擎,而不是导入其他模块。如果它解决了问题,很好;如果没有,我们可以搜索其他解决方案。
-
导入一个模块需要时间,而pandas是一个相当大的模块。不过应该不会有太大的不同,在我的笔记本电脑上导入 pandas 只需不到一秒钟的时间,而且在我的 PC 上基本上是即时的。