【发布时间】:2018-02-24 05:03:48
【问题描述】:
我的要求是通过在线搜索给定关键字来生成该关键字的报告。
我的计划是我的网络爬虫会
- 在 google 或 bing 或 yahoo 上搜索关键字
- 打开由 google、bing 或 yahoo 返回的网站页面/链接
- 使用这些页面制作报告。
因为我想制定一个遵守网络爬虫的规则。所以当我看到这些网站的robots.txt 时,我才知道搜索引擎已经阻止了网络爬虫搜索关键字,如
google.com/robots.txt
User-agent: *
Disallow: /search
我知道如果我尝试在搜索引擎上搜索关键字,我的 ip 可能会被阻止。
我的网络爬虫将执行的新计划
- 在 google 或 bing 或 yahoo 上搜索关键字(最多 2 - 3 次 在一天的不同时间段内)
- 由 google、bing 或 yahoo 返回的网站打开页面/链接 (在打开搜索引擎返回的每个页面/链接时延迟 2 - 3 分钟)
- 使用这些页面制作报告。
问题
- 让我知道,即使经过如此多的关注,谷歌也会阻止我的 ip ?这样的网络爬虫安全吗?
- 也让我知道使用代理隐藏/更改的好技巧 实际 IP 地址。
PS:我正在使用 Java 和 Jsoup 进行网络爬虫
【问题讨论】:
-
您应该使用搜索引擎提供的搜索 API。这样你就不会被屏蔽(尽管搜索仍然有限)。
标签: java proxy web-crawler jsoup search-engine