【发布时间】:2020-06-10 16:53:19
【问题描述】:
我想实现一个小项目,将一组文档(file.txt)分类为多个类别,然后根据在 C++ 中使用 SVM 测试新文档。
我对此进行了广泛搜索,但仍然没有完全了解我需要做什么!我听说过 LIBLINEAR 库,但我不知道如何使用它, 如果我将使用 TF-IDF,是否需要为每个类设置一个向量?还是所有类的一个向量?如何使用 TF-IDF 测试新文档?我真的很困惑!
【问题讨论】:
我想实现一个小项目,将一组文档(file.txt)分类为多个类别,然后根据在 C++ 中使用 SVM 测试新文档。
我对此进行了广泛搜索,但仍然没有完全了解我需要做什么!我听说过 LIBLINEAR 库,但我不知道如何使用它, 如果我将使用 TF-IDF,是否需要为每个类设置一个向量?还是所有类的一个向量?如何使用 TF-IDF 测试新文档?我真的很困惑!
【问题讨论】:
是否要求它是用 c++ 编写的? Python 为机器学习任务(例如 svm 实现和使用)提供了许多有用的资源和即用型模块。
以 scikit-learn 为例,可以找到有关该主题的有用资源,例如:https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html
就您的问题而言-对于 TF-IDF 实施,您将需要每个文档的向量。 对于每个文档,都会列出其中的单词并分配值(TF-IDF 值)。
【讨论】: