【问题标题】:A smarter way to categorize by keywords? [closed]一种更智能的按关键字分类的方法? [关闭]
【发布时间】:2013-01-13 13:34:17
【问题描述】:

我们的网站包含用户生成的内容,用户可以使用主题标签对其内容进行分类。为了使搜索内容更容易,我们正在考虑创建“兴趣”类别,例如:

Sex, Hobbies, Current Events, etc.  

实现此目的的一种方法是将关键字与每个兴趣类别相关联。因此,如果用户点击兴趣爱好,系统会搜索我们与兴趣爱好相关的关键字,例如:

Hobbies -> cars, cooking, reading, etc.  

但是,这种方法似乎受到限制,因为用户可以发布带有“性感”字样的 hotrod 图片,而在我们的系统中,“性感”一词与两个兴趣类别相关联:“性”和“时尚” & 美丽”。

关于如何使这种方法更智能的任何建议?或者,关于公司如何实施这样的事情的建议/建议?

【问题讨论】:

  • 请阅读 FAQHow to Ask 以获取编写好的 SO 问题的提示。提示:这不是一个编码问题,所以它在 SO 上“不具建设性”。
  • @JimGarrison 不同意,正如(链接的)常见问题解答所说:特定的编程问题软件算法在 SO 中也是受欢迎的。跨度>
  • 来自thisthis 的问题我注意到您使用了我在下面推荐的方法。所以,你可以接受我的回答。

标签: database data-mining categorization


【解决方案1】:

或许您应该对类别进行加权。找到所有匹配的单词,并为所有类别赋值,如下所示:

  • 为每个无疑属于该类别的单词添加 3
  • 为每个可能属于更多类别的单词加 1

这是一种有偏的权重(偏向独特的词),这样您可以更好地确定图片所属的位置。

此外,您可以构建一个 - 不断变化的 - 权重矩阵,即哪个词与某个类别的相关程度。常用词的重要性较低(因为每个人都在使用它们)。

此外,根据分类的文本,您可以自动扩展单词列表,并自动对它们进行分类。例如,如果一个新的游戏名称出现在单词列表中(称为“abc”),您会注意到“abc”出现在 hobby 类别的很多文本中,没有别的地方。所以,你可以把这个词和这个类别联系起来。

构建自动学习系统是一个非常令人兴奋的领域!

【讨论】:

  • 感谢您的回复。我不禁认为,即使有您的建议,我提出的解决方案也会成为一个非常劳动密集型的解决方案,因为我想象一个人必须始终为每个兴趣更新关键字列表。你会同意吗?是您提出的典型解决方案还是有更复杂的方法。
  • 不完全是。我错过了一件事:图片必须在上传时进行分类(对于当前库存,您可以离线进行)。您只能搜索类别,而不是单词(这是一种更快的方法)。管理员没有任务,一切都在进行中。首先,您索引所有单词,并计算它们出现在哪些类别中,以及出现了多少次。这会给你一个频率矩阵。在此基础上,您计算 重要性矩阵,您将在上传新图片时使用该矩阵。关键是,你如何计算重要性。
  • 这个答案令人满意吗?
  • 我不太明白为什么要对图片进行分类。另外,为每个单词分配一个值不是需要大量的劳动吗?我们可能有数千个关键字。
  • 图片需要分类的主要原因是:If a user clicks on Hobbies, the system will search for the keywords。因此,搜索就像“查找属于某个类别的单词,并查找所有文本中的所有单词”。这真的很耗时,而且没有必要,因为所有这些都是静态的 - 不会随时间而改变。因此,您可以在上传时执行一次。对于您的第二个问题:分配的主要内容是您不必手动进行。你是一个程序员,为此写一个算法。
猜你喜欢
  • 2022-01-21
  • 1970-01-01
  • 2019-04-22
  • 1970-01-01
  • 2018-02-13
  • 2013-03-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多