【发布时间】:2014-08-10 11:26:15
【问题描述】:
我一直在寻找可以帮助识别社交媒体上任何用户帖子的tags 并识别该帖子的主题/离题或垃圾评论的开源工具。即使找了一整天,我也找不到任何合适的工具/库。
在这里,我提出了我自己的算法,用于标记属于 7 个类别(工作、讨论、事件、文章、服务、买卖、人才)的用户帖子。
最初,当用户发布帖子时,他标记了他的帖子。标签可以像marketing, suggestion, entrepreneurship, MNC etc。所以考虑一下我有标签的一些帖子以及它们属于哪个类别。
步骤:
-
对用户帖子执行 POS(词性)标记。 这里可以做两件事。
只考虑名词。名词可以代表 post more 的标签 直觉上我猜
同时考虑名词和形容词。在这里我们可以收集大量 名词和形容词的数量。可以使用此类词的频率 识别该帖子的标签。
对于每个用户定义的标签,我们将收集属于特定标签的帖子的 POS。例子。考虑用户分配的标签
marketing,并且该标签的帖子包含POS词SEO和adwords。假设marketing标签的10个帖子分别包含SEO and adwords5和7次。所以下次当用户发布没有任何标签但包含POS词SEO时。SEO在营销标签中出现7的次数最多,因此我们将预测此帖子的marketing标签-
接下来的步骤是为 POST 识别垃圾邮件或离题评论。 考虑
Job类别的一篇用户帖子。这篇文章包含标签marketing。现在我将检查数据库中最常见的 10-15 个词性标签(即名词和形容词)以进行营销。并行我有该评论的 POS 标签。我会检查这篇文章的 POS(noun & adj) 是否包含属于
marketing的最常见的标签(我们可以考虑 15-20 个这样的 POS 标签)。
如果 cmets 中的 POS 与任何最常见的营销 POS 不匹配,那么该评论可以说是离题/跨度
你有什么建议可以让这个算法更直观吗?
我猜 SVM 可以帮助分类,对此有何建议?
除了这种机器学习技术可以帮助学习系统来预测标签和垃圾邮件(离题)cmets
【问题讨论】:
标签: php algorithm nlp data-mining stanford-nlp