【问题标题】:Script that converts html tables to CSV (preferably python)将 html 表转换为 CSV 的脚本(最好是 python)
【发布时间】:2015-05-22 09:43:12
【问题描述】:

我有大量要转换为 CSV 的 html 表格。将单个表格粘贴到 excel 中并将它们保存为 .csv 作品,将 html 表格粘贴到简单的在线转换器中也是如此。但是我有数千个单独的表,所以我需要一个可以自动执行转换过程的脚本。

我想知道是否有人对我如何做这件事有任何建议? Python 是我唯一有相当了解的语言,因此某种 Python 脚本将是理想的选择。我搜索了类似的问题,但是我发现的所有 python 示例对我来说都非常复杂,超出了我的基本理解水平。

任何建议将不胜感激。

【问题讨论】:

  • 这是一个相当广泛的问题——您需要一个 Python 程序,它可以提取 <table> 元素和 saves the result as a CSV 中包含的任何数据。我建议您先离开并尝试根据我在此处提供的链接编写一些内容,如果您对流程的特定部分有任何问题,请返回 Stack Overflow。跨度>

标签: python html html-table export-to-csv


【解决方案1】:

使用pandas。它具有将 html 表读入数据结构的功能,然后具有将该数据结构写入 csv 文件的功能。

import pandas as pd
url = 'http://myurl.com/mypage/'

for i, df in enumerate(pd.read_html(url)):
    df.to_csv('myfile_%s.csv' % i)

请注意,由于一个 html 页面可能有多个表格,因此获取表格的函数总是返回一个表格列表(即使只有一个表格)。这就是我在这里使用循环的原因。

【讨论】:

  • 很棒的脚本。我不知道这个 - 添加到我的#protips
  • 我玩过这个,我认为它会非常适合我的需求。谢谢!
猜你喜欢
  • 2017-01-31
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-02-11
  • 2019-07-07
  • 2018-03-22
  • 2021-05-29
  • 2017-11-03
相关资源
最近更新 更多