【问题标题】:Hide content from web crawlers with php. Is it possible?使用 php 隐藏来自网络爬虫的内容。是否可以?
【发布时间】:2013-03-03 15:37:41
【问题描述】:

我是编程新手,所以如果我说一些愚蠢的话,请不要评判我。

我想知道是否有任何方法可以欺骗网络爬虫,因此对于人类访问者而言,网站的某些内容与网络蜘蛛不同。

所以这是我想到的一个想法。

每次访问者进入页面时,都会有一个脚本从 facebook API 识别用户性别。如果有返回(如果用户在同一浏览器中连接到 facebook),那么将使用 PHP 将一些代码打印到页面代码中。如果是爬虫,则没有返回,所以该页面的源代码中不存在该代码。

我知道 PHP 是一种服务器端语言,因此网络爬虫无权扫描这些代码。如果我说的不对,请纠正我。

谢谢。

【问题讨论】:

  • 请参阅12 可能会对您有所帮助
  • 您假设所有人类访问者 a) 拥有 Facebook 帐户,b) 在访问您的网站时登录到 Facebook,并且 c) 他们的个人资料是公开的,或者他们明确授予您网站的访问权限他们的个人资料。

标签: php web-crawler


【解决方案1】:

我认为您尝试做的事情可以通过 robots.txt 完成

此文件可以位于您的网络目录的根目录,它定义了网络爬虫的规则。 见这里:http://www.robotstxt.org/

【讨论】:

  • robot.txt 不可靠。这更多是关于您对谷歌的要求,而不是任意的。另外,您认为用户从您的根目录手动打开robot.txt 时会看到什么?
  • 我知道 robots.txt 可以被一些爬虫忽略。无论如何感谢您的回答。
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多