【问题标题】:PhantomJS get no real content running on AWS EC2 CentOS 6PhantomJS 无法在 AWS EC2 CentOS 6 上运行真实内容
【发布时间】:2017-04-22 07:59:42
【问题描述】:

我在我的笔记本电脑上成功运行了 Python 3.5 中的 PhantomJS+Selenium,但是当我在 AWS EC2 CentOS 6 环境中使用它时,我没有收到错误但得到了显示的内容:

<html><head><meta content="no-cache" http-equiv="Pragma">
<meta content="-1" http-equiv="Expires">
<meta content="no-cache" http-equiv="CacheControl">
<meta content="IE=edge" http-equiv="X-UA-Compatible">
<meta content="text/html; charset=utf-8" http-equiv="Content-Type">
<link href="data:;base64,iVBORw0KGgo=" rel="shortcut icon">
<script>

(function(){
    var securemsg;
    var dosl7_common;

window["bobcmn"] = "11111011111010200000002200000005200000000224b7a934200000096300000000300000000300000006/TSPD/300000008TSPD_101300000004http200000000200000000";

有人可以帮我找出原因和可能的解决方案吗?非常感谢!

【问题讨论】:

  • 可能是由于频繁的攻击/抓取/等,AWS IP 地址范围被该站点阻止。
  • 谢谢,刚刚测试了几次。
  • 不太确定我明白了。什么已经测试了几次?结果如何?
  • 我只测试了几次获取网页的代码,所以我认为IP地址不会因为频繁抓取而被阻止。
  • 没说 :) 它可能由于该 IP 的先前用户的活动而被阻止。因此,某些方面可能会阻止整个 Amazon Ips 范围。这实际上是这里曾经讨论过的一个案例。

标签: python phantomjs


【解决方案1】:
http://stackoverflow.com/questions/34707532/python-post-request-not-returning-html-requesting-javascript-be-enabled

请看一下步步高的回答,很好的一点,基本上,你遇到了bot-defeat system。可以检测和反对像 PhantomJS 这样的无头浏览器。我猜如果它在调试,你可以使用 selenium 和 Chrome。

【讨论】:

    猜你喜欢
    • 2015-03-18
    • 1970-01-01
    • 2017-12-02
    • 2016-12-21
    • 2020-09-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-10-21
    相关资源
    最近更新 更多