【发布时间】:2015-03-01 09:59:54
【问题描述】:
我正在尝试收获一些国际象棋游戏,并在此处的一些帮助下完成了基础知识。主要功能如下所示:
import requests
import urllib2
from bs4 import BeautifulSoup
r = requests.get(userurl)
soup = BeautifulSoup(r.content)
gameids= []
for link in soup.select('a[href^=/livechess/game?id=]'):
gameid = link['href'].split("?id=")[1]
gameids.append(int(gameid))
return gameids
基本上发生的情况是我转到特定用户的 URL,例如 http://www.chess.com/home/game_archive?sortby=&show=live&member=Hikaru,grab html 并抓取游戏 ID。这适用于一页。 但是有些用户玩了很多游戏,由于每页只显示 50 个游戏,他们的游戏被列在多个页面上。例如 http://www.chess.com/home/game_archive?sortby=&show=live&member=Hikaru&page=2(或 3/4/5 等) 这就是我卡住的地方。如何循环浏览页面并获取 ID?
【问题讨论】:
标签: python html web-scraping beautifulsoup html-parsing