【问题标题】:Algorithm for text classification文本分类算法
【发布时间】:2011-04-22 21:19:11
【问题描述】:


我有数百万个简短(最多 30 个字)的文档,我需要将它们分成几个已知的类别。一个文档可能匹配多个类别(很少,但可能)。文档也可能不匹配任何类别(也很少)。我也有数以百万计的文件已经被分类。我应该使用什么算法来完成这项工作。我不需要做的很快。我需要确保算法正确分类(尽可能)。
我应该使用什么算法?在 C# 中是否有 in 的实现?
感谢您的帮助!

【问题讨论】:

    标签: c# artificial-intelligence machine-learning text-processing


    【解决方案1】:

    您可以通过 libsvm.net 库在 C# 中使用 SVM 算法对文本进行分类。

    【讨论】:

    • 为什么迟到(而且不太完整的答案)?
    【解决方案2】:

    恕我直言,这里的主要问题是文档的长度。我想我会称它为短语分类,并且由于 twitter 的事情,这方面的工作正在进行中。您可以引入额外的文本,对 30 个单词执行网络搜索,然后分析最热门的匹配项。有一篇关于这个的论文,但我现在找不到。然后我会尝试使用特征向量方法(吉米的回答中的 tdf-idf)和用于分类的多类 SVM。

    【讨论】:

      【解决方案3】:

      查看term frequency and inverse document frequencycosine similarity 以查找重要词以创建类别并根据相似性将文档分配到类别

      编辑:

      找到一个例子here

      【讨论】:

        【解决方案4】:
        【解决方案5】:

        也许是决策树与 NN 相结合?

        【讨论】:

          猜你喜欢
          • 2011-04-04
          • 1970-01-01
          • 2015-11-10
          • 2015-03-06
          • 2012-05-26
          • 1970-01-01
          • 1970-01-01
          • 1970-01-01
          • 2017-07-10
          相关资源
          最近更新 更多