【发布时间】:2012-06-14 01:50:27
【问题描述】:
我的意图是achieve the pagination from javascript functions,所以例如我将URL作为http://events.justdial.com/events/index.php?city=Hyderabad,从这个URL你可以看到页面末尾的分页,所以如果你观察到它们是写的HTML通过将href 标记为# 的JavaScript 函数,我只是想收集那些href 标记,即使它们是#。
以下是我的代码
class justdialdotcomSpider(BaseSpider):
name = "justdialdotcom"
allowed_domains = ["www.justdial.com"]
start_urls = ["http://events.justdial.com/events/index.php?city=Hyderabad"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
pagination = hxs.select('//div[@id="main"]/div[@id="content"]/div[@id="pagination"]/a').extract()
print pagination,">>>>>>>>>>>>>>>>>."
当我运行上面的代码时,我得到的结果为[],我的意思是没有,谁能告诉我如何通过 JavaScript onclick 函数实现分页以及为什么结果为空。我正在观察某种HTML 中的奇怪之处,例如分页中的一个页面的锚标记为 <a onclick="jdevents.setPageNo(2)" href="#">2</a>
但是当我尝试通过浏览器单击view page source查看此内容时,我看不到jdevents.setPageNo(2)的任何功能,(我希望如果我们能看到他在HTML中所做的事情,我们可以通过formdata作为请求发布)我是真的很困惑,无法通过这个。
【问题讨论】:
标签: javascript python href scrapy