【发布时间】:2011-01-13 06:56:54
【问题描述】:
Google 的Webmaster guidelines 状态
允许搜索机器人在不使用会话 ID 或跟踪其在网站中的路径的参数的情况下抓取您的网站。这些技术对于跟踪个人用户行为很有用,但机器人的访问模式完全不同。使用这些技术可能会导致您网站的索引不完整,因为漫游器可能无法消除看起来不同但实际上指向同一页面的 URL。
我的 ASP.NET 1.1 站点使用自定义身份验证/授权,并且非常依赖会话 guid(类似于 this approach)。我担心允许非会话跟踪流量会破坏我现有的代码或引入安全漏洞。
允许非会话跟踪机器人抓取正常会话跟踪的网站有哪些最佳做法?除了检查用户代理之外,还有什么方法可以检测搜索机器人(我不希望人们将自己伪装成 googlebot 来绕过我的会话跟踪)?
【问题讨论】:
-
如果您的网页需要身份验证,它们可能不应该被编入索引。还是我在这里遗漏了什么?
-
只有一些需要身份验证。其余的都是可索引的
-
恶意用户将自己伪装成 Googlebot 会有什么优势?换句话说,您如何处理会影响冲浪/爬行(即手动/自动)的会话?
-
我们当前会话跟踪系统的一部分允许管理员通过 IP 地址搜索浏览历史记录。如果他们将自己伪装成 googlebot,它将绕过会话系统,我们将无法看到此类恶意用户试图在网站上做什么
-
另一个避免会话的原因。
标签: asp.net security session search-engine-bots