【发布时间】:2014-05-30 15:42:38
【问题描述】:
我有一个网站http://www.op.nysed.gov/opsearches.htm,例如,用户选择职业并输入被许可人姓名并点击搜索 > 按钮将他们带到新页面以显示结果。
例如:
显示如下结果:
单击每个名称旁边的任何一组数字都会显示信息,例如:
为此,我查看了网络上的 scrapy、arachnode 和其他网络爬虫,但不太相信这是适合它的技术。
有人告诉我,我们必须从页面中抓取这些搜索结果。有什么可以做的吗?
爬虫可以像用户搜索一样抓取吗?
【问题讨论】:
-
你应该从哪里得到这些数据,所有的互联网?如果是这种情况,那么搜索可能需要几个月才能完成......
-
好的,我想我明白了,你想从页面上“窃取”该信息,对吧?
-
是的,几乎窃取了数据:)
标签: c# web web-crawler robots.txt