【问题标题】:How to detect spam sites using php? [duplicate]如何使用 php 检测垃圾邮件站点? [复制]
【发布时间】:2013-06-06 21:45:17
【问题描述】:

我是 PHP 新手,我正在尝试开发一个系统来捕捉那些试图将垃圾邮件站点输入到社交网站的人。 (例如在 pinterest、博客网站等中的评论或帖子。)

以下是我正在使用的方法:当用户在帖子/评论字段中输入文本时,我将浏览所有文本并提取其中的所有 URL。那么:

  1. 将网页的标题与该网页的正文进行比较,以查看标题字段中有多少单词包含在正文中。然后给它一个排名。
  2. 将元标记与网页正文进行比较,并查看元标记是否包含在网页正文中。然后给它一个排名。
  3. 将锚文本与该网页的正文进行比较
  4. 将 URL 中的关键字与网页正文进行比较
  5. 检查网页是否包含色情文字。
  6. 通过将 URL 与在线数据库进行比较来检查列入黑名单的网站。

您能否告诉我是否有任何其他方法可以用来确定给定 URL 的用户是垃圾邮件还是营销网站?任何帮助将不胜感激。

【问题讨论】:

    标签: php html spam


    【解决方案1】:

    这个问题实际上似乎并不是特定于 php 的。不过不管怎样……

    这是一个类似的帖子,有一些想法

    Detecting a (naughty or nice) URL or link in a text string

    此外,有关该主题的科学论文可能值得一看。这是一个帮助您入门的方法。

    http://dl.acm.org/citation.cfm?id=2093493&dl=ACM&coll=DL&CFID=337935760&CFTOKEN=13189143

    【讨论】:

    • 非常感谢您抽出宝贵时间为我提供所有这些信息。最后一个链接真的很有帮助。谢谢。
    猜你喜欢
    • 2016-05-07
    • 2011-01-24
    • 2012-12-30
    • 1970-01-01
    • 2018-06-21
    • 2011-02-22
    • 2012-03-06
    • 2011-09-18
    • 2015-05-18
    相关资源
    最近更新 更多