【问题标题】:Scraping Wikipedia抓取维基百科
【发布时间】:2019-05-24 10:52:27
【问题描述】:

我想爬维基百科的表格,但我遇到了困难。

  1. 在这个网站 (https://en.wikipedia.org/wiki/List_of_chemical_elements) 上,我希望将整个列表导入为数据框。
  2. 在这个网站(https://en.wikipedia.org/wiki/Hydrogen),我想在页面右侧导入汇总表数据。

对我来说最好的方法是什么?提前致谢!

【问题讨论】:

  • 你将不得不写一些代码。

标签: python web-scraping wikipedia


【解决方案1】:

你可以试试下面这样的熊猫

>>>import pandas as pd

>>>table = pd.read_html('https://en.wikipedia.org/wiki/List_of_chemical_elements')

>>>table[1]

【讨论】:

    【解决方案2】:

    我已经找到了第一个问题的答案。谢谢大家。

    summary_url = 
    requests.get('https://en.wikipedia.org/wiki/List_of_chemical_elements').text
    summary_soup = bs(summary_url,'html')
    summary_table = summary_soup.find('table',{'class':'wikitable sortable collapsible'})
    
    array = []
    
    rows = summary_table.findAll('tr')
    header = [col.text for col in rows[1].findAll('th')]
    
    for row in rows[2:-1]:
        tmp_row = []
        for column in row.findAll('td'):
            tmp_row.append(column.text)
        array.append(tmp_row)
    
    df_raw = pd.DataFrame(array, columns=header)
    

    【讨论】:

      猜你喜欢
      • 2017-04-30
      • 2020-07-20
      • 2013-11-13
      • 1970-01-01
      • 1970-01-01
      • 2020-07-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多