【发布时间】:2017-04-08 06:05:14
【问题描述】:
我正在尝试在 OldNavy 网页上抓取产品的网址。然而,它只是给出了产品列表的一部分而不是整个列表(例如,当 URL 超过 8 个时,只给出 8 个)。我希望有人能帮忙找出问题所在。
from bs4 import BeautifulSoup
from selenium import webdriver
import html5lib
import platform
import urllib
import urllib2
import json
link = http://oldnavy.gap.com/browse/category.do?cid=1035712&sop=true
base_url = "http://www.oldnavy.com"
driver = webdriver.PhantomJS()
driver.get(link)
html = driver.page_source
soup = BeautifulSoup(html, "html5lib")
bigDiv = soup.findAll("div", class_="sp_sm spacing_small")
for div in bigDiv:
links = div.findAll("a")
for i in links:
j = j + 1
productUrl = base_url + i["href"]
print productUrl
【问题讨论】:
-
此代码不起作用 - 您有没有
""的 url 和j的错误。在提出问题之前检查代码。
标签: python selenium-webdriver web-scraping beautifulsoup web-crawler