【发布时间】:2015-05-06 00:18:46
【问题描述】:
对不起,如果这是一个模糊的标题。我试图在一致的基础上抓取 XKCD 网络漫画的数量。我看到http://xkcd.com/ 总是在首页上放着他们最新的漫画,并在网站下方写着:
Permanent link to this comic: http://xkcd.com/1520/
其中 1520 是展出的最新漫画的编号。我想刮掉这个数字,但是,我找不到任何好的方法。目前,我所有的尝试看起来都很像:
soup = BeautifulSoup(urllib.urlopen('http://xkcd.com/').read())
test = soup.find_all('div')[7].get_text().split()[20][-5:-1]
我的意思是.. 在技术上 是可行的,但如果网站上的任何内容稍有变动,它可能会严重损坏。我知道必须有更好的方法来在首页的 a 部分中搜索 http:xkcd.com/####/ 并返回 #### 但我似乎找不到它。 Permanent link to this comic: http://xkcd.com/1520/ 行似乎有点飘来飘去,没有任何类型的标签、类或 ID。任何人都可以提供任何帮助吗?
【问题讨论】:
标签: python python-2.7 web-scraping beautifulsoup