【发布时间】:2011-11-01 10:53:06
【问题描述】:
for i in range(1,1000000):
page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
soup = BeautifulSoup(page) #retreive
books = soup.findAll("div",{"id":"Title"}) #process
我需要为发布者浏览整个目录。 我需要检索:
- 图书图片
- 标题
- 版本
- 出版商
- 发布日期
- 价格货币
- ISBN13
- 描述(在 ajax 选项卡中)
【问题讨论】:
-
我需要为目录中的每一本书提取图片。
-
您能提供代表一本书的 HTML 块吗?
-
palgrave.com/products/title.aspx?pid=265934 - 这是一本书的 URL。其中的 id 是:Title、Edition、Publisher、PubDate、PriceCurrency、ISBN13 和 Jacket 是图书图片所在的位置。
标签: screen-scraping beautifulsoup