我建议以下一般步骤
-
获取原始数据
您可以在 python 中读取excel file into a pandas dataframe。理想情况下,您将拥有一个看起来像这样的原始数据框
Filename Keep
0 X:\4. Economics ...\filexyz.pdf 0
1 X:\4. Economics ...\fileabc.pdf 1
2 X:\3. Finance ...\filetef.pdf 1
3 X:\3. Finance ...\file123.pdf 0
4 G:\2. Philosophy ..\file285.pdf 0
....
- 预处理/清理
这部分取决于您,例如您可以删除所有特殊字符和数字。这将留下如下字母
Filename Keep
0 "X Economics filexyz pdf" 0
1 "X Economics fileabc pdf" 1
2 "X Finance filetef pdf" 1
3 "X Finance file123 pdf" 0
4 "G Philosophy file285 pdf" 0
....
- 向量化字符串
为了让算法能够理解您的文本数据,您通常需要对它们进行矢量化处理。这意味着您将它们变成算法可以处理的数字。一个简单的方法是使用tf-idf and scikit-learn。在此之后,您的数据框可能看起来像这样
Filename Keep
0 [0.6461, 0.3816 ... 0.01, 0.38] 0
1 [0., 0.4816 ... 0.25, 0.31] 1
2 [0.61, 0.1663 ... 0.11, 0.35] 1
....
- 训练分类器
现在您已经有了可供算法使用的好数字,您可以使用 scikit-learn 训练分类器。随便搜索“scikit learn classification example”,你会发现很多。
一旦您拥有一个训练有素的分类器,您就可以将它的预测结果与它以前从未见过的测试数据进行比较。这样你就可以感受到准确性。
希望这足以让您入门!