【问题标题】:How Do You Categorize Based On Text Content?您如何根据文本内容进行分类?
【发布时间】:2010-09-09 02:13:12
【问题描述】:

如何根据内容自动查找文本类别?

【问题讨论】:

  • 原帖没有说明作者是否已经有分类,想要分类,还是没有分类,需要发现。

标签: algorithm cluster-analysis machine-learning nlp


【解决方案1】:
  1. 阅读Data Mining: Practical Machine Learning Tools and Techniques - Ian H. Witten, Eibe Frank
  2. 使用 WekaOrange

【讨论】:

    【解决方案2】:

    我建议您查看与Natural Language Toolkit 捆绑的文本分类库。即使您不熟悉 Python,我想您也会发现该 API 相当直观。 NLTK Book 中有很多很好的例子,邮件列表中的人也很有帮助。

    【讨论】:

      【解决方案3】:

      进行文本分类的最简单方法是使用bag-of-words 表示。每个文档中的单词/ n-gram 单词可以用作特征。有了这个,您可以将每个文档表示为度量空间中的向量。随后,您可以将clustering 应用于内容相似的文档分组。例如,您可以使用带有这些向量的 k-means 聚类来将词汇相似的文档聚类在一起。

      基于 Python 的文本挖掘工作台,NTLK 非常适合快速试验此类任务(通常,python 非常适合处理文本)。您可能会发现它很有用。

      【讨论】:

        【解决方案4】:

        【讨论】:

        • 链接已失效:(
        【解决方案5】:

        对内容(无论是文本还是多媒体)进行分类的最佳方式是使用taxonomy。 大多数著名的 CMS 都内置了对分类法的支持。 Drupal 在各种 CMS 中对 taxonomy 的支持最好。

        【讨论】:

        • 我认为这不是最好的方法。我称之为一种方式
        猜你喜欢
        • 2020-07-03
        • 1970-01-01
        • 1970-01-01
        • 2017-05-29
        • 2013-04-30
        • 2017-04-27
        • 2023-04-11
        • 2015-03-24
        • 2013-06-07
        相关资源
        最近更新 更多