文本分类算法答案

【问题标题】：Algorithm for text classification文本分类算法
【发布时间】：2011-04-22 21:19:11
【问题描述】：

我有数百万个简短（最多 30 个字）的文档，我需要将它们分成几个已知的类别。一个文档可能匹配多个类别（很少，但可能）。文档也可能不匹配任何类别（也很少）。我也有数以百万计的文件已经被分类。我应该使用什么算法来完成这项工作。我不需要做的很快。我需要确保算法正确分类（尽可能）。
我应该使用什么算法？在 C# 中是否有 in 的实现？
感谢您的帮助！

【问题讨论】：

标签： c# artificial-intelligence machine-learning text-processing

【解决方案1】：

您可以通过 libsvm.net 库在 C# 中使用 SVM 算法对文本进行分类。

【讨论】：

为什么迟到（而且不太完整的答案）？

【解决方案2】：

恕我直言，这里的主要问题是文档的长度。我想我会称它为短语分类，并且由于 twitter 的事情，这方面的工作正在进行中。您可以引入额外的文本，对 30 个单词执行网络搜索，然后分析最热门的匹配项。有一篇关于这个的论文，但我现在找不到。然后我会尝试使用特征向量方法（吉米的回答中的 tdf-idf）和用于分类的多类 SVM。

【讨论】：

【解决方案3】：

查看term frequency and inverse document frequency 和cosine similarity 以查找重要词以创建类别并根据相似性将文档分配到类别

编辑：

找到一个例子here

【讨论】：

【解决方案4】：

有趣的文章：

【讨论】：

【解决方案5】：

也许是决策树与 NN 相结合？

【讨论】：