【发布时间】:2014-06-27 18:50:40
【问题描述】:
我正在尝试编写一个脚本来抓取当前排名前 10 的 PR/Alexa 网站。因为 PR/Alexa 经常变化。所以我的脚本应该解决这个问题,我的意思是,如果今天没有网站进入前 10,但可能是明天。
我不知道如何开始。我知道爬行概念,但在这里我被卡住了。可能有前 50 个站点甚至前 500 个站点。我当然可以配置。
我阅读了有关 Google 蜘蛛的信息,但对于这个简单的任务来说它非常复杂。 Google、Yahoo、Bing 如何在网络上抓取数十亿个网站。我只是好奇。光标点是什么,我的意思是谷歌如何识别新发布的站点。
好的,这些都是非常深刻的细节,我稍后会读到这些。现在我更关心我的问题。我如何爬取前 10 名 PR 网站。
您能否提供一个示例程序以便我更好地理解?
【问题讨论】:
-
没有一个简单的程序可以解决信息检索问题。 Google 和 Github 是您的朋友。
-
将此(每天更新)文件与 alexa top 1000 000 一起使用:s3.amazonaws.com/alexa-static/top-1m.csv.zip
标签: java python web-crawler pagerank alexa