【发布时间】:2021-04-19 20:23:10
【问题描述】:
我是一个菜鸟,我刚开始将网络抓取作为一种爱好。
我想从https://www.fly4free.pl/forum/ 的论坛中抓取数据(帖子总数、主题总数和所有用户数)
photo of which data I want to scrape
看了一些 turotirals 我来到了这个代码:
from bs4 import BeautifulSoup
import requests
import datetime
import csv
source = requests.get('https://www.fly4free.pl/forum/').text
soup = BeautifulSoup(source, 'lxml')
csv_file = open('4fly_forum.csv', 'w')
csv_writer = csv.writer(csv_file)
csv_writer.writerow(['Data i godzina', 'Wszytskich postów', 'Wszytskich tematów', 'Wszytskich użytkowników'])
czas = datetime.datetime.now()
czas = czas.strftime("%Y-%m-%d %H:%M:%S")
print(czas)
dane = soup.find('p', class_='genmed')
posty = dane.find_all('strong')[0].text
print(posty)
tematy = dane.find_all('strong')[1].text
print(tematy)
user = dane.find_all('strong')[2].text
print(user)
print()
csv_writer.writerow([czas, posty, tematy, user])
csv_file.close()
我不知道如何让它每天运行一次,以及如何每天向文件添加一次数据。抱歉,如果我的问题对你们专业人士来说太幼稚了;),这是我的第一个培训任务。
另外,我的 csv 文件看起来不太好,我希望数据能很好地格式化成列
我们将不胜感激任何帮助和见解。 提前谢谢 德维丘
【问题讨论】:
标签: python web-scraping beautifulsoup