爬取搜索引擎的最匿名方式答案

【问题标题】：Most anonymous way to crawl a search engine爬取搜索引擎的最匿名方式
【发布时间】：2018-03-31 21:22:47
【问题描述】：

我正在用 Ruby 编写一个脚本，它使用一大堆搜索查询来搜索搜索引擎。我希望这个脚本在用户使用时保持匿名。到目前为止，脚本将更改用户代理并使用随机标头。我应该使用某种方式或某种搜索引擎来保持匿名吗？

我看到 DuckDuckGo 是一个好的开始，它还有一个 API，因此它显然不记录数据并使用 Tor，但是如果我想使用多个搜索引擎怎么办？例如，使用多个线程爬取多个搜索引擎，并在所有引擎上保持匿名。

我怎样才能做到这一点？

我知道 Rubys 代理功能，但我只是不完全确定如何使用它们是另一个问题。

【问题讨论】：

标签： ruby search-engine anonymous

【解决方案1】：

如果您想在 Internet 上匿名，最好的选择之一是 tor。您可以自己使用它并访问任何网站

首先你必须连接到 Tor 网络

tor --SOCKSPort 9050

那么你就可以使用这个gem了：https://github.com/astro/socksify-ruby

并匿名访问任何网站：

require 'socksify/http'
require 'net/http'
Net::HTTP.SOCKSProxy('127.0.0.1', 9050).start('some.website.com', 80) do |http|
  http.get('/')
end

如果您出于安全原因需要匿名，请阅读 tor 文档，如果您想正确使用它，它是完整且重要的。

目标网站很容易知道流量是从tor网络来的（但不知道流量从哪里来），爬的时候要合理，不要让站长屏蔽tor...

【讨论】：

我对@987654324@ 部分感到困惑，它有什么作用？抱歉，我对代理及其工作原理知之甚少
它告诉监听端口 9050。然后你用 Net::HTTP.SOCKSProxy 连接到这个端口。您的 Http 请求将通过代理发出
所以基本上 Tor 是我通过端口 9050 连接的本地 IP？

【解决方案2】：

如果您每天需要一些请求，Tor 是一个不错的选择，但大多数搜索引擎都将 Tor 传出 IP 列入黑名单，因此我认为您不会享受良好的体验。如果您可以花一些钱购买可以使您的爬行活动保持匿名并避免您处理代理的麻烦的服务，那么我建议使用 ProxyCrawl API Anonymous Crawler Proxy。

API 易于使用，可免费试用并支持数百万个网站，价格随用随付。

【讨论】：