【问题标题】:How to web crawl on Google如何在 Google 上进行网页抓取
【发布时间】:2018-02-24 05:03:48
【问题描述】:

我的要求是通过在线搜索给定关键字来生成该关键字的报告。

我的计划是我的网络爬虫会

  1. 在 google 或 bing 或 yahoo 上搜索关键字
  2. 打开由 google、bing 或 yahoo 返回的网站页面/链接
  3. 使用这些页面制作报告。

因为我想制定一个遵守网络爬虫的规则。所以当我看到这些网站的robots.txt 时,我才知道搜索引擎已经阻止了网络爬虫搜索关键字,如

google.com/robots.txt

User-agent: *
Disallow: /search

我知道如果我尝试在搜索引擎上搜索关键字,我的 ip 可能会被阻止。

我的网络爬虫将执行的新计划

  1. 在 google 或 bing 或 yahoo 上搜索关键字(最多 2 - 3 次 在一天的不同时间段内)
  2. 由 google、bing 或 yahoo 返回的网站打开页面/链接 (在打开搜索引擎返回的每个页面/链接时延迟 2 - 3 分钟)
  3. 使用这些页面制作报告。

问题

  1. 让我知道,即使经过如此多的关注,谷歌也会阻止我的 ip ?这样的网络爬虫安全吗?
  2. 也让我知道使用代理隐藏/更改的好技巧 实际 IP 地址。

PS:我正在使用 Java 和 Jsoup 进行网络爬虫

【问题讨论】:

  • 您应该使用搜索引擎提供的搜索 API。这样你就不会被屏蔽(尽管搜索仍然有限)。

标签: java proxy web-crawler jsoup search-engine


【解决方案1】:

尝试 selenium 来完成您的工作。它用于自动化,所以我认为您的 ip 不会被任何服务提供商阻止。

【讨论】:

  • 它是一个测试软件。你能告诉我这有什么帮助吗?
  • 就像任何人在网页上的点击一样,您可以使用 selenium 来做到这一点,人们使用它来测试或监控生产服务器。同时,当您点击某个 url 或链接或单击网页中的任何位置时,您可以使用标准 java 代码从页面中获取数据。此链接将对您有所帮助:stackoverflow.com/questions/34804319/…
  • 我不想抓取特定的网址。由于关键字未知,因此我们无法确定要抓取的网站和网址的数量。
猜你喜欢
  • 1970-01-01
  • 2020-08-25
  • 1970-01-01
  • 2021-06-12
  • 2018-09-08
  • 2016-12-01
  • 1970-01-01
  • 2023-04-10
相关资源
最近更新 更多