【问题标题】:unable to see body text in source code无法在源代码中看到正文
【发布时间】:2017-08-04 01:07:04
【问题描述】:

我正在尝试在确实中抓取职位列表,以计算资格要求中某事的次数。

问题是我无法识别某些网站源代码中的任何正文。有没有办法可以克服这个问题?

我正在使用beautifulsoup4 来完成任务。 Here 是其中一个网站的示例。

【问题讨论】:

  • 请发布您已经尝试过的操作以及方法。
  • 在寻求帮助时,您应该发布一些示例代码来突出您的进度。

标签: python regex web-scraping beautifulsoup


【解决方案1】:

该特定网站似乎将每个广告的实际内容“隐藏”到 iframe 中,原因不明。

实际内容可在this URL 获得(唯一的区别似乎是在URL 中添加了&in_iframe=1 查询参数)。

但是,请注意,您不能在浏览器中直接查看该 URL,因为它会检测到您没有通过 iframe 查看它并将您重定向到框架页面。

但是,您可以通过 cURL 和 grep 验证 URL 是否包含实际内容:

$ curl -k "https://jobs-te.icims.com/jobs/77373/data-scientist/job?hub=44&mode=job&iis=Job%2BBoard&iisn=Indeed&mobile=false&width=940&height=500&bga=false&needsRedirect=false&jan1offset=-300&jun1offset=-240&in_iframe=1" | grep quantitative

Daily work will involve performing one or more of the following activities: [...]

在页面上检测类似这样的技术的一般技术是使用浏览器的开发人员工具来查看发出的请求(在这种情况下,是 iframe 的子请求)以及自然而然的 DOM 树(iframe 就在那里) .

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2014-04-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2010-10-24
    • 1970-01-01
    相关资源
    最近更新 更多