【问题标题】:What does it mean when I see some IPs look at hundreds of pages on my website?当我看到一些 IP 浏览了我网站上的数百个页面时,这意味着什么?
【发布时间】:2009-05-28 03:53:00
【问题描述】:

当我在我的日志中看到一些 IP 滚动浏览我网站上的 100 多个页面时,我应该怎么做?我有一个 wordpress 博客,看起来这不是一个真实的人。这种情况几乎每天都会发生在不同的 IP 上。

更新:哦,我忘了提,我很确定它不是搜索引擎蜘蛛。主机名不是搜索引擎,而是来自印度的某个随机人(以“.in”结尾)。 我关心的是,如果它是一个刮刀,我能做些什么吗?或者它可能比刮刀更糟糕,例如黑客?

【问题讨论】:

  • 欢迎上网。当你把东西放到网上时,任何人都可以拿走它。就是这样的想法。
  • 我更害怕是黑客什么的
  • 我很难理解以“.in”结尾的主机名与它不是搜索引擎之间的联系。

标签: wordpress ip-address


【解决方案1】:

这是一个蜘蛛/爬虫。搜索引擎使用它们来编译他们的列表,研究人员使用它们来弄清楚互联网的结构,互联网档案馆使用它们来为后代下载互联网内容,垃圾邮件发送者使用它们来搜索电子邮件地址,以及许多更多这样的情况。

查看日志中的用户代理字符串可能会为您提供有关他们正在做什么的更多信息。行为良好的机器人通常会表明他们是谁/什么 - 例如,Google 的搜索机器人被称为 Googlebot。

【讨论】:

  • 好的,所以主机名不是来自 googlebot.com 或类似的东西,我很确定它不是蜘蛛
  • 这并不意味着它不是蜘蛛。那里有很多不起眼的蜘蛛。此外,用户代理和主机名是不同的东西。
  • wget 使得递归抓取所有链接可访问的页面变得相当容易,甚至可以控制内容类型(抓取页面+图像、仅页面等)、递归深度、跟随外部链接等上。所以,它可能是一个使用 wget 或类似的东西的人,但是,是的,同意它可能是一个更自动的蜘蛛
  • 从安全的角度来看,以防万一它不是蜘蛛,有什么我可以或应该做的吗?谢谢
  • 我可以在家中使用我的个人 IP 地址创建一个蜘蛛。有 FOSS 软件可以为您索引互联网的一部分。或者我可以编写自己的蜘蛛软件。另外,您担心它们会抓取屏幕,这离蜘蛛网不远。蜘蛛基本上是组织良好的屏幕抓取工具。
【解决方案2】:

如果您担心脚本小子,我建议您检查错误日志。脚本通常会寻找您可能没有的东西;例如在我运行的一个系统上,我没有 ASP,但是,我可以知道脚本小子何时探测了该站点,因为我在错误日志中看到很多尝试查找 ASP 页面。

【讨论】:

  • 你怎么知道这是试图寻找一个 ASP 页面?
  • 如,此人请求大量页面,例如 admin.asp、management.asp、login.asp 等。他们只是试图尽快找到任何漏洞,而不是仔细分析。
  • @Chris:Paul 的回答符合我的经验。
【解决方案3】:

可能是某个脚本小子想要利用您博客(或服务器)中的漏洞。那个,或者一些网络爬虫。

【讨论】:

    【解决方案4】:

    这可能是一个蜘蛛机器人为您的网站编制索引。 “用户代理”可能会放弃它。如果动态生成的 Wordpress 网站不是所有的博客页面,而是包含诸如 css、js 和图像之类的内容,那么它可能很容易有 100 多个 GET 请求。

    【讨论】:

      猜你喜欢
      • 2018-01-19
      • 2012-01-05
      • 2021-03-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-11-30
      • 1970-01-01
      • 2013-07-03
      相关资源
      最近更新 更多