【发布时间】:2018-02-28 08:53:46
【问题描述】:
我第一次尝试网页抓取一个网站,我想从一个日本动画网站的网页抓取中创建一个 csv 文件,其中包含标题、性别、工作室和动画持续时间。
我只设法用该代码收集了第一页标题的数据:
import requests
from bs4 import BeautifulSoup
res = requests.get("http://www.animeka.com/animes/series/~_1.html")
soup = BeautifulSoup(res.content, "html.parser")
anime_containers = soup.find_all('table', class_ = 'animesindex')
names = []
for container in anime_containers:
if container.find_all('td', class_ = 'animestxt') is not None:
name = container.a.text
names.append(name)
import pandas as pd
test_df = pd.DataFrame({'anime': names})
print(test_df)
并得到类似的东西:
anime
0 "Eikou Naki Tensai-tachi" kara no Monogatari
1 "Eiyuu" Kaitai
2 "Parade" de Satie
3 ?l DLIVE
4 'n Gewone blou Maandagoggend
5 +Tic Neesan
6 .hack// Terminal Disc
7 .hack//G.U. Returner
8 .hack//G.U. Trilogy
我不知道如何收集性别、工作室和持续时间以及如何在不重复相同代码的情况下抓取所有其他页面
这是页面查看的源代码-source:http://www.animeka.com/animes/series/~_1.html
【问题讨论】:
-
和?你有什么问题?
-
我不知道如何收集性别、工作室和持续时间,以及如何在不重复相同代码的情况下抓取所有其他页面,我只从第一页获得数据,有 466 页。
标签: python web-scraping beautifulsoup pyspark