【发布时间】:2019-09-20 15:39:00
【问题描述】:
在 pandas 中读取小尺寸的 html 表是可以的,但是 10MB 范围内的大文件或 html 表中的 10000 行/记录让我等待 10 分钟仍然没有进展,而 csv 中的相同被快速解析。
请帮助加快在 pandas 中读取 html 表的速度,或将其转换为 csv。
file='testfile.html'
dfdefault = pd.read_html(file, header = 0, match='Client Inventory Details')
#print(dfdefault)
df = dfdefault[0]
【问题讨论】:
-
您能补充一些细节吗?可能还有更多上下文?
-
您在实际代码方面尝试过什么,如果代码很慢,您尝试了哪些不同的方法,您是否理解为什么它会变慢。与鸭子交谈meta.stackoverflow.com/questions/281270/…
-
@J...S 对于像 50 这样的较少项目很好,一旦文件像 10MB 或 1000 行,当我尝试读取 pandas 中的 html 表时,我看不到任何响应。
-
@AndrewAllen file=testfile.html' dfdefault = pd.read_html(file, header = 0, match='Client Inventory Details')
-
@AndrewAllen,到目前为止,我一直在处理 csv 文件并且工作正常,但是如果数据很大,我无法从 html 文件中读取数据,我在 csv 中有完全相同的数据,工作正常,我转向 html 的原因是我不需要做任何事情来获取它,html 会出现在我的电子邮件中。
标签: python html python-3.x pandas csv