【发布时间】:2014-06-01 07:42:13
【问题描述】:
我试图从这个网站上抓取所有链接,但当我这样做时,我得到了一个意想不到的结果。我发现这是因为 javascript 而发生的。
在“查看所有类别”选项卡下,您将找到所有主要产品类别。如果您将鼠标悬停在任何类别上,它将展开类别。我想要每个主要类别的链接。
url = 'http://www.snapdeal.com/'
data = urllib2.urlopen(url)
page = BeautifulSoup(data)
#print data
for link in page.findAll('a'):
l = link.get('href')
print l
但是,这给了我一个与我预期不同的结果(我关闭了 javascript 并查看了页面源,输出来自这个源)
我只想找到每个主要类别的所有子链接。任何建议将不胜感激。
【问题讨论】:
标签: python python-2.7 web-scraping beautifulsoup lxml