Beautifulsoup 刮书目录答案

【问题标题】：Beautifulsoup scraping book catalogueBeautifulsoup 刮书目录
【发布时间】：2011-11-01 10:53:06
【问题描述】：

for i in range(1,1000000):

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
    soup = BeautifulSoup(page) #retreive

    books = soup.findAll("div",{"id":"Title"}) #process

我需要为发布者浏览整个目录。我需要检索：

图书图片
标题
版本
出版商
发布日期
价格货币
ISBN13
描述（在 ajax 选项卡中）

【问题讨论】：

我需要为目录中的每一本书提取图片。
您能提供代表一本书的 HTML 块吗？
palgrave.com/products/title.aspx?pid=265934 - 这是一本书的 URL。其中的 id 是：Title、Edition、Publisher、PubDate、PriceCurrency、ISBN13 和 Jacket 是图书图片所在的位置。

标签： screen-scraping beautifulsoup

【解决方案1】：

使用 XPath 从这些位置提取内容

【讨论】：