【问题标题】:pycurl is working in an unexpected waypycurl 以一种意想不到的方式工作
【发布时间】:2015-09-04 14:06:41
【问题描述】:

我编写了一个使用 pycurl 访问 URL 的代码。我启用了 Tor。 该网址被重定向到其他网址。

下面是代码。

import pycurl
curl = pycurl.Curl()
curl.setopt(pycurl.URL, URL)
curl.setopt(pycurl.PROXY, '127.0.0.1')
curl.setopt(pycurl.PROXYPORT, 9050)
curl.setopt(pycurl.PROXYTYPE, pycurl.PROXYTYPE_SOCKS5_HOSTNAME)
curl.setopt(pycurl.USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0')
curl.perform()

它打印预期的 html 内容。 但是每当访问一个 URL 时,其他地方的计数就会增加。

现在,当我运行脚本时,我得到了html内容,但是计数没有增加,但是在一些在线html渲染网站(htmledit.squarefree.com/)中运行相同的html输出时 ),计数增加。

使用脚本本身自动增加计数有什么帮助吗?

谢谢。

【问题讨论】:

  • 你调用的 url 是什么?你在说这个计数是多少?
  • 这是一些通用 URL,例如 ohohohoho.com/kTdmJ,每当我访问此 URL 时,它都需要更新我保留的一些计数。
  • 你为什么使用 Tor?它似乎不像它的计数唯一 ip。
  • 我实际上是在制作一个机器人来匿名增加计数。
  • 什么是更新计数器?如果是一些 javascript,您将无法仅使用 curl 使其工作。

标签: python html tor pycurl


【解决方案1】:

当客户访问他们的网站时,服务器上某些数据的任何更新都可能通过 javascript 完成。

当一些网站内容被加载到客户端机器上时,它有一些javascript,这些javascript被执行到客户端机器上以通知服务器。现在,当通过浏览器访问网页时,将执行 javascript(如果启用了浏览器)。但是通过curl访问网页时,无法执行javascript。

我设法使用dryscrape 做到了。 Dryscrape 使用 http 协议。您可以阅读here 了解如何为dryscrape 启用socks5 协议。

【讨论】:

    猜你喜欢
    • 2015-05-31
    • 2020-08-09
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-10-29
    • 1970-01-01
    • 2013-12-27
    • 1970-01-01
    相关资源
    最近更新 更多