【发布时间】:2011-05-25 23:42:15
【问题描述】:
我一直在尝试从 hostels.com 抓取并最终解析一些数据(特别是可用性和价格),例如 http://www.hostels.com/hosteldetails.php/HostelNumber.11890。问题是,一旦您选择了住宿天数并选择“立即预订”,URL 字符串将不会传递任何内容(我相信这一切都是通过 Ajax 完成的),我无法直接转到特定的日期或时间范围。
我尝试过浏览器模拟器,例如 Selenium、IRobotSoft 和 FakeApp,虽然我确实让 Selenium 和 Fake 完成了大部分捕获完整源代码的工作,但在不得不抓取(并与其他软件解析)时它很丑陋并且仍然很乏味) 一天多页。
我还尝试过 HTML DOM Parser、PHP Scriptable Web Browser、HTMLUnit、cScrape.php、Crowbar。要么他们无法处理 Ajax,要么我连让他们跑起来都没有运气。
理想情况下,我想要一些可以从服务器运行的东西,并且依赖项尽可能少,但此时我只想让它运行。
现在花了很多时间试图让这个工作。我仍然觉得我不确定从哪里开始。有人能指出我正确的方向吗?我应该回去花更多时间在 HTMLUnit 上吗?对于这样的网站,最佳做法是什么?
谢谢
【问题讨论】:
标签: javascript html ajax parsing scrape