【问题标题】:Scrape all google search result for a specific name抓取特定名称的所有谷歌搜索结果
【发布时间】:2013-08-04 01:49:55
【问题描述】:
我认为这个问题之前已经在这里得到了回答,但我找不到所需的主题。我是网络抓取的新手。我必须开发一个脚本来获取特定名称的所有谷歌搜索结果。然后它将根据该名称抓取相关数据,如果发现多个,数据将根据其名称进行分组。
我所知道的是,谷歌对抓取有某种限制。他们提供了自定义搜索 api。我仍然没有使用该 api,但希望从该 api 中获取与查询相对应的所有结果链接。但是,无法理解从该链接中抓取信息的理想过程是什么。非常感谢任何教程链接或建议。
【问题讨论】:
标签:
web-scraping
screen-scraping
google-search-api
【解决方案1】:
你应该提供更多你一直在做的事情,听起来你甚至没有尝试自己解决它。
不管怎样,如果你还在做的话:
您可以通过两种方式抓取 Google,一种是允许的,一种是不允许的。
a) 使用他们的 API,您每天可以获得大约 2k 个结果。
您可以以 2000 美元/年的价格将其提高到每天 3k 左右。您可以通过直接与他们联系来获得更多收益。
如果您只需要较少数量的请求并且主要对根据选择的关键字获取一些网站感兴趣,您将无法通过此方法获得准确的排名位置。
起点在这里:https://code.google.com/apis/console/
b) 你可以抓取真实的搜索结果
这是获得真实排名位置的唯一方法,用于 SEO 或跟踪网站位置。如果操作正确,它还可以获得大量结果。
你可以用谷歌搜索代码,我所知道的最高级的免费 (PHP) 代码位于 http://scraping.compunect.com
不过还有其他项目和代码sn-ps。
您可以从每天 300-500 个请求开始,这可以乘以多个 IP。如果您想走那条路线,请查看链接的文章,它解释得更详细并且非常准确。
也就是说,如果您选择路线 b),则您违反了 Google 的条款,因此要么不接受它们,要么确保不被发现。如果 Google 检测到您,您的脚本将被 IP/验证码禁止。不被发现应该是优先事项。