【发布时间】:2010-12-03 20:43:06
【问题描述】:
我正在研究数学家谱项目的数据。我收集有关学生和顾问的所有信息,并对这些数据进行一些查询处理。准确地说,我从数学家谱项目http://www.genealogy.ams.org/ 的根 URL 爬取所有 HTML 页面,并收集我需要的所有信息并对此进行查询。出于实验目的,我需要在网上提供更多类似格式的数据。 任何人都可以推荐好的网站,我可以抓取一些有趣的信息。家谱以外的任何数据也是受欢迎的,但它至少应该有一些层次结构。 感谢您的所有建议。
【问题讨论】:
-
有什么原因不能写生成器来生成测试数据?我不太确定我理解你想要做什么......
-
我设计了一个框架,它可以爬取所有站点并从 HTML 页面中获取有用的字段并进行查询。该框架专为数学家谱项目设计,如页面。所以我需要一个类似的来测试框架是否也可以在其他网站上工作。
标签: screen-scraping web-crawler genealogy