【发布时间】:2010-09-09 02:13:12
【问题描述】:
如何根据内容自动查找文本类别?
【问题讨论】:
-
原帖没有说明作者是否已经有分类,想要分类,还是没有分类,需要发现。
标签: algorithm cluster-analysis machine-learning nlp
如何根据内容自动查找文本类别?
【问题讨论】:
标签: algorithm cluster-analysis machine-learning nlp
【讨论】:
我建议您查看与Natural Language Toolkit 捆绑的文本分类库。即使您不熟悉 Python,我想您也会发现该 API 相当直观。 NLTK Book 中有很多很好的例子,邮件列表中的人也很有帮助。
【讨论】:
进行文本分类的最简单方法是使用bag-of-words 表示。每个文档中的单词/ n-gram 单词可以用作特征。有了这个,您可以将每个文档表示为度量空间中的向量。随后,您可以将clustering 应用于内容相似的文档分组。例如,您可以使用带有这些向量的 k-means 聚类来将词汇相似的文档聚类在一起。
基于 Python 的文本挖掘工作台,NTLK 非常适合快速试验此类任务(通常,python 非常适合处理文本)。您可能会发现它很有用。
【讨论】:
【讨论】: