【发布时间】:2011-02-18 20:35:41
【问题描述】:
我想使用 Ruby 抓取这个 ASP.NET 站点的搜索结果,最好只使用 Hpricot(我无法打开 Firefox 实例):http://www.ngosinfo.gov.pk/SearchResults.aspx?name=&foa=0
但是,我无法弄清楚如何浏览每页结果。基本上,我需要模拟点击这些链接:
<a href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$Pager1$2','')" class="blue_11" id="ctl00_ContentPlaceHolder1_Pager1">2</a>
<a href="javascript:__doPostBack('ctl00$ContentPlaceHolder1$Pager1$3','')" class="blue_11" id="ctl00_ContentPlaceHolder1_Pager1">3</a>
等等
我尝试使用 Net::HTTP 来处理帖子,但是虽然收到了正确的 HTML,但没有搜索结果(我可能没有正确执行此操作)。另外,页面的url不包含任何指示页面的参数,所以不能强制这样的结果。
任何帮助将不胜感激。
【问题讨论】:
-
试试这个,它对我有用。相当范式转变。 github.com/watir/watir-classic
标签: asp.net ruby screen-scraping