【发布时间】:2015-07-11 17:35:13
【问题描述】:
在我的 symfony2 应用程序中,几天前我犯了一个错误,在一个特定页面中,未连接的用户可以在表单中发布任何数据而无需任何验证。
我在不到 1 小时的时间内收到了 500 多个不相关内容的条目,现在这个问题已经解决了。
现在,即使恶意软件无法再发布,它仍然会访问这个唯一的页面,每分钟一次。我在同一页面上有一个浏览量,然后它会异常膨胀。
我试图过滤掉机器人,但似乎这个很聪明。我的代码:
public function increaseViewCount(ViewCountInterface $entity, $andFlush = true)
{
$detector = $this->get('vipx_bot_detect.detector');
$id = 'viewcount' . get_class($entity) . $entity->getId();
if
(
(empty($_SERVER['HTTP_USER_AGENT']) || !preg_match('~(bot|crawl|slurp|spider)~i', $_SERVER['HTTP_USER_AGENT']))
&& strstr($this->get('request')->headers->get('referer'), 'foodmeup')
&& $detector->detectFromRequest($this->container->get('request')) === null
&& $this->get('session')->get($id) == false
)
{
$entity->increaseCount();
$this->persist($entity);
if ($andFlush) $this->flush($entity);
$this->get('journal_manager')->addJournalEntry('view', array(
'HTTP_USER_AGENT' => $_SERVER['HTTP_USER_AGENT'],
'REMOTE_ADDR' => $_SERVER['REMOTE_ADDR'],
'time' => time(),
'date' => date("d/m/Y H:i:s"),
'referer' => $this->get('request')->headers->get('referer')
), $entity->getId(), get_class($entity));
$this->get('session')->set($id, true);
}
return $this;
}
但是(如您所见,我记录了条目)我得到的结果如下:用户代理不包含任何机器人名称。
Paramètre Valeur
HTTP_USER_AGENT Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.124 YaBrowser/14.10.2062.12521 Safari/537.36
REMOTE_ADDR 91.200.12.7
time 1430510089
date 01/05/2015 21:54:49
referer mywebsite/permettre-de-suggerer-une-photo-sur-les-elements-qui-n-en-ont-pas
所以我有它的 IP,我发现最后一小时的最后 100 次访问都来自乌克兰的某个地方。
不过,当我检查我的 googleAnalytics 帐户时,并没有这些访问的痕迹。
- 那么我该如何解决这个问题呢?
- 实施 javascript viewcount 是最安全的方法吗?
- 我还没有设置机器人陷阱,但是这里的 IP 每次都会改变,所以我不确定它是否能在这种情况下工作。
- 我可以检索哪些其他数据来更好地了解如何解决这个问题?
【问题讨论】:
-
这个机器人是你的用户代理日志中的唯一实例吗?如果是这样,只需通过 UA 阻止 - 使用所有这些版本号,其他人不太可能使用它。 This is also of interest.
-
嗯,确实,UA 在东欧使用。我没有看到我的目标之一拥有它的理由,所以我会阻止 YaBrowser,谢谢!
-
没有问题。我想知道 GA 是否因为它需要 JavaScript 而没有注册命中,但该机器人是基于 cURL 的并且没有 JS 引擎。
标签: php symfony web-crawler user-agent bots