无法通过 Perl 抓取/抓取使用 javascript 的网页答案

【问题标题】：Trouble crawling/scraping webpages that use javascript with Perl无法通过 Perl 抓取/抓取使用 javascript 的网页
【发布时间】：2016-02-11 02:22:39
【问题描述】：

我一直在尝试自学如何抓取和抓取不同的网站。我对抓取/抓取有很好的感觉，但仅限于主要使用 HTML 的网站。现在我正在使用这个链接https://intel.taleo.net/careersection/10000/jobsearch.ftl

我正在使用 Perl (with mechanize) 来执行以下任务：我想编写一个爬虫/爬虫来单击左侧的“美国”复选框（过滤结果）然后收集所有作业的标题.但是，我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗？（示例代码会很有帮助）。

【问题讨论】：

您是否考虑过使用像PhantomJS 这样的无头浏览器？它的设置更多，但它支持完整的 Javascript。然后，您可以挂钩页面的事件并在页面加载/显示表单/获取结果后执行 JS 代码。

标签： javascript perl web-scraping web-crawler www-mechanize

【解决方案1】：

您需要分析页面并查看此单选按钮是如何实现的，以便使用 WWW-Mechanize 来模拟 Javascript 代码（如果那里有 JavaScript 代码）。

在 Perl 上，在一些开箱即用的处理 javascript 的抓取模块下面，您可以使用更简单的选项来处理 JavaScript：

1.WWW-Mechanize-Firefox which automate FireFox 
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium 
4.WWW::HtmlUnit  which based on Java HtmlUnit and can handle javascript

【讨论】：