【问题标题】:extracting data from website using beautifulsoup4 and parse into csv使用 beautifulsoup4 从网站中提取数据并解析为 csv
【发布时间】:2020-03-10 20:15:30
【问题描述】:

我刚开始使用 python,我有点迷茫。基本上问题是我想从这个网站中提取数据:“https://www.berufsstart.de/unternehmen/bundesland/baden-wuerttemberg-top-100.php”并让所有 100 家公司的员工人数和他们的城市解析成一个 csv。我以前从未使用过beautifulsoup,而且我发现的每个教程都只使用简单的代码。我会分享我的代码,但它并没有越来越多地试图理解这个概念。我不期望 100% 完成的解决方案,更多关于如何开始这个项目的解释。

提前感谢各位!

【问题讨论】:

    标签: csv parsing beautifulsoup


    【解决方案1】:
    from bs4 import BeautifulSoup
    import requests
    import csv
    
    
    r = requests.get(
        "https://www.berufsstart.de/unternehmen/bundesland/baden-wuerttemberg-top-100.php")
    
    soup = BeautifulSoup(r.text, 'html.parser')
    
    numbers = []
    names = []
    cities = []
    for num in soup.findAll("div", class_="col-sm-2"):
        num = num.get_text(strip=True, separator=",")
        if num:
            numbers.append(num.split(',')[1])
    for name in soup.findAll("strong", class_="h2"):
        names.append(name.text)
    for city in soup.findAll("div", class_="col-sm-5 infobereich"):
        cities.append(city.get_text(strip=True, separator=" ").split(" ")[1])
    
    with open("kas.csv", 'w', newline="") as f:
        writer = csv.writer(f)
        writer.writerow(["Name", "City", "Number"])
        for a, b, c in zip(names, cities, numbers):
            writer.writerow([a, b, c])
    
    print("Done")
    

    输出:view-online

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-03-03
      相关资源
      最近更新 更多