pycurl 以一种意想不到的方式工作答案

【问题标题】：pycurl is working in an unexpected waypycurl 以一种意想不到的方式工作
【发布时间】：2015-09-04 14:06:41
【问题描述】：

我编写了一个使用 pycurl 访问 URL 的代码。我启用了 Tor。该网址被重定向到其他网址。

下面是代码。

import pycurl
curl = pycurl.Curl()
curl.setopt(pycurl.URL, URL)
curl.setopt(pycurl.PROXY, '127.0.0.1')
curl.setopt(pycurl.PROXYPORT, 9050)
curl.setopt(pycurl.PROXYTYPE, pycurl.PROXYTYPE_SOCKS5_HOSTNAME)
curl.setopt(pycurl.USERAGENT, 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:8.0) Gecko/20100101 Firefox/8.0')
curl.perform()

它打印预期的 html 内容。但是每当访问一个 URL 时，其他地方的计数就会增加。

现在，当我运行脚本时，我得到了html内容，但是计数没有增加，但是在一些在线html渲染网站（htmledit.squarefree.com/）中运行相同的html输出时 )，计数增加。

使用脚本本身自动增加计数有什么帮助吗？

谢谢。

【问题讨论】：

你调用的 url 是什么？你在说这个计数是多少？
这是一些通用 URL，例如 ohohohoho.com/kTdmJ，每当我访问此 URL 时，它都需要更新我保留的一些计数。
你为什么使用 Tor？它似乎不像它的计数唯一 ip。
我实际上是在制作一个机器人来匿名增加计数。
什么是更新计数器？如果是一些 javascript，您将无法仅使用 curl 使其工作。

标签： python html tor pycurl

【解决方案1】：

当客户访问他们的网站时，服务器上某些数据的任何更新都可能通过 javascript 完成。

当一些网站内容被加载到客户端机器上时，它有一些javascript，这些javascript被执行到客户端机器上以通知服务器。现在，当通过浏览器访问网页时，将执行 javascript（如果启用了浏览器）。但是通过curl访问网页时，无法执行javascript。

我设法使用dryscrape 做到了。 Dryscrape 使用 http 协议。您可以阅读here 了解如何为dryscrape 启用socks5 协议。

【讨论】：