【发布时间】:2010-02-22 20:01:26
【问题描述】:
我已经尝试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它将不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找那些 URL 并放置多个起始 URL?
有人对usng WebSphinx的API教程有好的网站建议吗?
【问题讨论】:
标签: java web-crawler wikipedia websphinx
我已经尝试过 WebSphinx 应用程序。
我意识到如果我将 wikipedia.org 作为起始 URL,它将不会进一步爬网。
因此,如何真正爬取整个维基百科?任何人都可以给一些指导吗?我是否需要专门去查找那些 URL 并放置多个起始 URL?
有人对usng WebSphinx的API教程有好的网站建议吗?
【问题讨论】:
标签: java web-crawler wikipedia websphinx
如果您的目标是抓取所有 Wikipedia,您可能需要查看可用的数据库转储。见http://download.wikimedia.org/。
【讨论】:
我不确定,但也许 WEBSphinx 的 UserAgent 被维基百科的 robots.txt 阻止
【讨论】:
您可能需要从一篇随机文章开始,然后从该文章开始抓取您可以找到的所有文章。当该搜索树用尽时,从新的随机文章开始。您可以使用您认为会引出最多文章的字词来为您的搜索播种,或者从首页上的精选文章开始。
另一个问题:为什么 WebSphinx 没有进一步爬取?维基百科会阻止标识为“WebSphinx”的机器人吗?
【讨论】:
除了使用上面提到的 Wikipedia 数据库转储,您还可以使用 Wikipedia 的 API 来执行查询,例如检索 100 篇随机文章。
【讨论】:
看看dbpedia,维基百科的结构化版本。
【讨论】: