【问题标题】:Protecting data on webserver from site grabbers/copiers保护网络服务器上的数据免受站点抓取者/复制者的侵害
【发布时间】:2013-01-20 02:57:11
【问题描述】:

我将 mp3 文件放在我的网络服务器上的公用文件夹中(我将它放在公用文件夹中,以便我网站上的播放器可以访问这些文件),我不担心用户是否能够下载 MP3当播放器正在播放该文件时,他可能可以查看,但是我还要注意他无法查看文件的直接 url。但我想保护这些文件免受站点抓取软件的侵害,这样 some1 就无法窃取服务器上的所有文件。

问题的另一部分是:站点抓取软件的范围是什么,我可以通过为我的目录关闭索引来阻止它们,还是它们也可以访问其 url 未嵌入页面的文件?

请帮忙

【问题讨论】:

  • 有权限!= 可以找到。当然,任何抓取软件都可以暴力测试所有可能的文件名。
  • 没错,Bergi,那么,有什么解决方案可以达到目的。我还研究了诸如 robots.txt 文件之类的选项或使用 .htaccess 排除站点抓取工具 [但所有这些解决方案都不能完全证明我需要知道所有可用的现有软件]
  • 如果您网站的任何用户都可以访问这些文件,那么每个抓取者也将拥有。
  • 那么,有什么方法可以保护这些文件吗?我不能将它们放在根文件夹之外,因为这也会限制我的播放器访问这些文件

标签: php javascript .htaccess .htpasswd


【解决方案1】:

恐怕无法阻止用户获取您的文件。为了播放音频文件,用户的网络浏览器必须将其下载到他们的本地机器上。

您可以通过在超链接上使用 robots.txtrel="nofollow" 属性来阻止符合标准的 Web 抓取器抓取文件,但这些解释是客户端的,因此抓取器可以忽略有需要的时候才看到它们(我曾经写过一个 webgrabber,它甚至都不看这些。这主要是出于懒惰,而不是出于恶意)。

tl;dr:如果您不希望人们下载文件,请不要将其放到互联网上。

【讨论】:

  • Philipp,我已经研究过 robots.txt 方法,但正如你所说,它很容易被忽略,但我想要实现的是许多网站已经在使用的。像 saavn.comgrooveshark.com 这样的任何音乐网站,它们都会保护他们的音乐格式抓取器。他们是怎么做到的?
  • @RohitG 给我一个免费的周末,我为这些网站写一个抓取工具。
  • 相信我,这会对他们造成很大的伤害;)
  • @RohitG 以前好像没有人做过:addons.mozilla.org/en-us/firefox/addon/grooveshredder
  • 这是一个不错的附加组件 [ofcourse 仅用于教育目的] 但是,如果您再次阅读我的问题,您会发现我已经相信用户可以下载正在播放器中播放的文件,但我关心的是保护文件免受可以一次性下载所有文件的站点抓取器的侵害。并且还可能导致带宽问题甚至服务器崩溃。以 you tube 为例,我们可以轻松下载正在播放的视频,但我们无法通过站点抓取器访问所有这些视频。希望这能进一步澄清我的问题/要求。
猜你喜欢
  • 2010-10-16
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2017-11-06
  • 1970-01-01
  • 2014-05-04
相关资源
最近更新 更多