如何在 Google 上进行网页抓取答案

【问题标题】：How to web crawl on Google如何在 Google 上进行网页抓取
【发布时间】：2018-02-24 05:03:48
【问题描述】：

我的要求是通过在线搜索给定关键字来生成该关键字的报告。

我的计划是我的网络爬虫会

因为我想制定一个遵守网络爬虫的规则。所以当我看到这些网站的robots.txt 时，我才知道搜索引擎已经阻止了网络爬虫搜索关键字，如

google.com/robots.txt

User-agent: *
Disallow: /search

我知道如果我尝试在搜索引擎上搜索关键字，我的 ip 可能会被阻止。

我的网络爬虫将执行的新计划

问题

PS：我正在使用 Java 和 Jsoup 进行网络爬虫

【问题讨论】：

【解决方案1】：

尝试 selenium 来完成您的工作。它用于自动化，所以我认为您的 ip 不会被任何服务提供商阻止。

【讨论】：

它是一个测试软件。你能告诉我这有什么帮助吗？
就像任何人在网页上的点击一样，您可以使用 selenium 来做到这一点，人们使用它来测试或监控生产服务器。同时，当您点击某个 url 或链接或单击网页中的任何位置时，您可以使用标准 java 代码从页面中获取数据。此链接将对您有所帮助：stackoverflow.com/questions/34804319/…
我不想抓取特定的网址。由于关键字未知，因此我们无法确定要抓取的网站和网址的数量。