【问题标题】:Beautifulsoup scraping book catalogueBeautifulsoup 刮书目录
【发布时间】:2011-11-01 10:53:06
【问题描述】:
for i in range(1,1000000):

    page = urllib2.urlopen("http://www.palgrave.com/products/title.aspx?pid="+str(i))
    print "http://www.palgrave.com/products/title.aspx?pid="+str(i)
    soup = BeautifulSoup(page) #retreive

    books = soup.findAll("div",{"id":"Title"}) #process

我需要为发布者浏览整个目录。 我需要检索:

  • 图书图片
  • 标题
  • 版本
  • 出版商
  • 发布日期
  • 价格货币
  • ISBN13
  • 描述(在 ajax 选项卡中)

【问题讨论】:

  • 我需要为目录中的每一本书提取图片。
  • 您能提供代表一本书的 HTML 块吗?
  • palgrave.com/products/title.aspx?pid=265934 - 这是一本书的 URL。其中的 id 是:Title、Edition、Publisher、PubDate、PriceCurrency、ISBN13 和 Jacket 是图书图片所在的位置。

标签: screen-scraping beautifulsoup


【解决方案1】:

使用 XPath 从这些位置提取内容

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-08-05
    • 1970-01-01
    • 2020-03-14
    • 1970-01-01
    • 1970-01-01
    • 2022-11-10
    • 2019-08-31
    • 2021-09-02
    相关资源
    最近更新 更多