【发布时间】:2011-05-25 07:33:33
【问题描述】:
由于网络爬虫在没有任何请求数据的情况下访问了我网站的某些部分,我收到了很多发送到我的电子邮件的错误,我想知道在 Django 中处理网络爬虫的最佳方法是什么?当我遇到空的 QueryDict 时是否应该发出重定向?
【问题讨论】:
标签: django search-engine
由于网络爬虫在没有任何请求数据的情况下访问了我网站的某些部分,我收到了很多发送到我的电子邮件的错误,我想知道在 Django 中处理网络爬虫的最佳方法是什么?当我遇到空的 QueryDict 时是否应该发出重定向?
【问题讨论】:
标签: django search-engine
您可以考虑实施robots.txt 以禁止抓取工具访问您网站中仅供人类使用的区域,例如表单。
【讨论】:
我认为您的视图应该适用于任何请求,在列表返回页面上显示“不正确的请求”消息。 500太丑了您确定用户不会在没有任何请求数据的情况下打开页面吗? QueryDict 的“get”方法可以帮助获取默认值。
【讨论】:
表现良好的爬虫应该只做 GET 请求。表单不应该是 GET 请求。
Ruby 和 Rails 使用 CRUD 映射
Create -> POST,
READ -> GET,
Update -> PUT,
Delete -> DELETE
只有没有附加信息的东西才应该是 GET 请求。
【讨论】:
<form method="get"...>