【问题标题】:Trouble crawling/scraping webpages that use javascript with Perl无法通过 Perl 抓取/抓取使用 javascript 的网页
【发布时间】:2016-02-11 02:22:39
【问题描述】:

我一直在尝试自学如何抓取和抓取不同的网站。我对抓取/抓取有很好的感觉,但仅限于主要使用 HTML 的网站。现在我正在使用这个链接https://intel.taleo.net/careersection/10000/jobsearch.ftl

我正在使用 Perl (with mechanize) 来执行以下任务:我想编写一个爬虫/爬虫来单击左侧的“美国”复选框(过滤结果)然后收集所有作业的标题.但是,我找不到使用 Perl 导航到此单选按钮的方法。有人可以让我开始吗? (示例代码会很有帮助)。

【问题讨论】:

  • 您是否考虑过使用像PhantomJS 这样的无头浏览器?它的设置更多,但它支持完整的 Javascript。然后,您可以挂钩页面的事件并在页面加载/显示表单/获取结果后执行 JS 代码。

标签: javascript perl web-scraping web-crawler www-mechanize


【解决方案1】:

您需要分析页面并查看此单选按钮是如何实现的,以便使用 WWW-Mechanize 来模拟 Javascript 代码(如果那里有 JavaScript 代码)。

在 Perl 上,在一些开箱即用的处理 javascript 的抓取模块下面,您可以使用更简单的选项来处理 JavaScript:

1.WWW-Mechanize-Firefox which automate FireFox 
2.WWW-Mechanize-PhantomJS which based on PhatonJS Broweser and can handle javascript
3.WWW::Selenium which use Selenium 
4.WWW::HtmlUnit  which based on Java HtmlUnit and can handle javascript

【讨论】:

    猜你喜欢
    • 2021-06-04
    • 2023-02-03
    • 1970-01-01
    • 2017-03-07
    • 2020-06-18
    • 1970-01-01
    • 2018-09-21
    • 1970-01-01
    相关资源
    最近更新 更多