【发布时间】:2011-03-25 15:44:42
【问题描述】:
网站可以通过哪些方式阻止网络爬虫?您如何确定您的服务器是否正在被机器人访问?
【问题讨论】:
-
这是一道编程题吗?
-
我认为这会影响您编写网站的方式
-
添加这是一个现有的网站还是一个新的开发项目可能会有所帮助。无论您使用的是 RoR、.NET 技术,还是尚未做出该决定,而您只是在寻找高层次的想法(这甚至可能有助于指导决定使用哪种技术)
-
这是初步的,所以我只是想获得一些关于阻止网络爬虫的复杂和基本方法的高级想法。
-
HTTP访问就是HTTP访问。如果我编写一个下载您的网页的程序与我告诉 Firefox 做同样的事情有什么区别?没有本质上的区别。
标签: screen-scraping web-crawler scraper