使用 beautifulsoup4 从网站中提取数据并解析为 csv

【问题标题】：extracting data from website using beautifulsoup4 and parse into csv使用 beautifulsoup4 从网站中提取数据并解析为 csv
【发布时间】：2020-03-10 20:15:30
【问题描述】：

我刚开始使用 python，我有点迷茫。基本上问题是我想从这个网站中提取数据：“https://www.berufsstart.de/unternehmen/bundesland/baden-wuerttemberg-top-100.php”并让所有 100 家公司的员工人数和他们的城市解析成一个 csv。我以前从未使用过beautifulsoup，而且我发现的每个教程都只使用简单的代码。我会分享我的代码，但它并没有越来越多地试图理解这个概念。我不期望 100% 完成的解决方案，更多关于如何开始这个项目的解释。

提前感谢各位！

【问题讨论】：

标签： csv parsing beautifulsoup

【解决方案1】：

from bs4 import BeautifulSoup
import requests
import csv


r = requests.get(
    "https://www.berufsstart.de/unternehmen/bundesland/baden-wuerttemberg-top-100.php")

soup = BeautifulSoup(r.text, 'html.parser')

numbers = []
names = []
cities = []
for num in soup.findAll("div", class_="col-sm-2"):
    num = num.get_text(strip=True, separator=",")
    if num:
        numbers.append(num.split(',')[1])
for name in soup.findAll("strong", class_="h2"):
    names.append(name.text)
for city in soup.findAll("div", class_="col-sm-5 infobereich"):
    cities.append(city.get_text(strip=True, separator=" ").split(" ")[1])

with open("kas.csv", 'w', newline="") as f:
    writer = csv.writer(f)
    writer.writerow(["Name", "City", "Number"])
    for a, b, c in zip(names, cities, numbers):
        writer.writerow([a, b, c])

print("Done")

输出：view-online

【讨论】：