【问题标题】:Scraping data from within multiple div classes into pandas data frame将多个 div 类中的数据抓取到 pandas 数据框中
【发布时间】:2018-10-31 14:58:07
【问题描述】:

我正在从仪表板上抓取一些数据,并且一直试图将多个 div classes 中的一些数据放入 pandas 数据框中。我应该如何尝试转换这样的东西:

[<div class="map-item" data-companyname="Apical Group" data-country="INDONESIA" data-district="Jakarta Utara" data-latitude="-6.099396000" data-longitude="106.951478000" data-millname="AAJ Marunda" data-province="Jakarta" data-report="http://naturalhealthytreat.com/sites/neste-daemeter.com/files/AAJ_Marunda.pdf" id="map_item_4645">AAJ Marunda</div>,
 <div class="map-item" data-companyname="Apical Group" data-country="INDONESIA" data-district="Lubuk Gaung" data-latitude="1.754005000" data-longitude="101.363532000" data-millname="Sari Dumai Sejati" data-province="Riau" data-report="http://naturalhealthytreat.com/sites/neste-daemeter.com/files/Sari_Dumai_Sejati.pdf" id="map_item_4646">Sari Dumai Sejati</div>,
 <div class="map-item" data-companyname="Kutai Refinery Nusantara " data-country="INDONESIA" data-district="Balikpapan" data-latitude="-1.179099000" data-longitude="116.788274000" data-millname="Kutai Refinery Nusantara " data-province="Penajam Paser Utara" data-report="http://naturalhealthytreat.com/sites/neste-daemeter.com/files/Kutai_Refinery_Nusantara_.pdf" id="map_item_4647">Kutai Refinery Nusantara </div>]

进入这样的数据框:

no  companyname country district    latitude    longitude   millname    province    report
1   Apical Group    INDONESIA   Jakarta Utara   -6.099396   106.951478  AAJ Marunda Jakarta http://naturalhealthytreat.com/sites/neste-daemeter.com/files/AAJ_Marunda.pdf
2   Apical Group    INDONESIA   Lubuk Gaung 1.754005    101.363532  Sari Dumai Sejati   Riau    http://naturalhealthytreat.com/sites/neste-daemeter.com/files/Kutai_Refinery_Nusantara_.pdf
3   Kutai Refinery Nusantara    INDONESIA   Balikpapan  -1.179099   116.788274  Kutai Refinery Nusantara    Penajam Paser Utara http://naturalhealthytreat.com/sites/neste-daemeter.com/files/Kutai_Refinery_Nusantara_.pdf

到目前为止,这是我从网页中获取多个 div 类的代码:

from bs4 import BeautifulSoup
import requests

# Link of Neste dashboard
url = 'http://nestetraceabilitydashboard.com/nestes-pfad-traceability-dashboard' 
page = requests.get(url).content
soup = BeautifulSoup(page, "html.parser")

divList = soup.findAll('div', attrs={ "class" : "map-item"})

【问题讨论】:

    标签: python pandas beautifulsoup


    【解决方案1】:

    我们可以使用.attrs 属性访问标签的属性。所以我们可以创建一个包含所有标签属性(除了class和id)的字典,并将它传递给一个数据框。

    from bs4 import BeautifulSoup
    import requests
    import pandas as pd
    
    url = 'http://nestetraceabilitydashboard.com/nestes-pfad-traceability-dashboard' 
    page = requests.get(url).text
    soup = BeautifulSoup(page, "html.parser")
    
    divList = soup.findAll('div', attrs={"class" : "map-item"})
    data = {}
    for div in divList:
        for k,v in div.attrs.items(): 
            if k not in ('class', 'id'):
                k = k.split('-')[1]
                data[k] = data.get(k, []) + [v]
    
    df = pd.DataFrame(data)
    print(df.head(3))
    

    数据框:

                     companyname    country       district      latitude  \
    0               Apical Group  INDONESIA  Jakarta Utara  -6.099396000
    1               Apical Group  INDONESIA    Lubuk Gaung   1.754005000
    2  Kutai Refinery Nusantara   INDONESIA     Balikpapan  -1.179099000
    
           longitude                   millname             province  \
    0  106.951478000                AAJ Marunda              Jakarta
    1  101.363532000          Sari Dumai Sejati                 Riau
    2  116.788274000  Kutai Refinery Nusantara   Penajam Paser Utara
    
                                                  report
    0  http://naturalhealthytreat.com/sites/neste-dae...
    1  http://naturalhealthytreat.com/sites/neste-dae...
    2  http://naturalhealthytreat.com/sites/neste-dae...
    

    关于requests的建议

    最好使用.text 而不是.content,因为它保存了解码后的响应内容(文本)。因此,请始终使用.text,除非响应 a 是二进制文件(图像、pdf 等)。

    关于BeautifulSoup

    findAll 用于向后兼容bs3,在bs4 中它被重命名为find_all。另外,您可以将属性用作keyword arguments,例如:

    find_all('div', class_="map-item")
    

    这里我使用class_ 作为类属性,因为class 是Python 关键字,但对于其他属性(id、href 等),您可以按原样使用它们的名称。

    【讨论】:

    • 谢谢@t.m.adam,这些对我来说真的很有帮助!
    • 您的每一个回答都为我提供了新的学习机会。我永远不会寻找那个变量作为回应。我已经能够使用BeautifulSoup 来获得它。明天我可能有最后一个问题,然后我会提出任何问题来描述我将来可能遇到的任何问题。与您联系总是很愉快。谢谢。
    猜你喜欢
    • 2019-05-16
    • 1970-01-01
    • 1970-01-01
    • 2020-09-16
    • 1970-01-01
    • 1970-01-01
    • 2021-10-09
    • 2020-03-27
    • 1970-01-01
    相关资源
    最近更新 更多