【发布时间】:2016-07-19 08:06:19
【问题描述】:
所以我正在尝试使用朴素贝叶斯根据其文本对文档进行分类。每个文档可能属于 1 到 n 个类别(将其视为博客文章中的标签)。
我目前的方法是为 R 提供一个像这样的 csv
+-------------------------+---------+-------+-------+
| TEXT TO CLASSIFY | Tag 1 | Tag 2 | Tag 3 |
+-------------------------+---------+-------+-------+
| Some text goes here | Yes | No | No |
+-------------------------+---------+-------+-------+
| Some other text here | No | Yes | Yes |
+-------------------------+---------+-------+-------+
| More text goes here | Yes | No | Yes |
+-------------------------+---------+-------+-------+
当然,期望的行为是输入看起来像
Some new text to classify
还有类似的输出
+------+------+-------+
| Tag 1| Tag 2| Tag 3 |
+------+------+-------+
| 0.12 | 0.75 | 0.65 |
+------+------+-------+
然后根据一定的阈值,判断给定的文本是否属于标签1、2、3。
现在的问题是,在我找到的教程中,看起来输入应该更像
+--------------------------+---------+
| TEXT TO CLASSIFY | Class |
+--------------------------+---------+
| Some other text here | No |
+--------------------------+---------+
| Some other text here | Yes |
+--------------------------+---------+
| Some other text here | Yes |
+--------------------------+---------+
也就是说,每个类每个文本一个 ROW...然后使用它,是的,我可以训练朴素贝叶斯,然后使用 one-vs-all 来确定哪些文本属于哪些标签。问题是,我可以用更优雅的方式来做这件事吗(也就是说,训练数据看起来像我提到的第一个例子)?
我发现的一个例子是http://blog.thedigitalgroup.com/rajendras/2015/05/28/supervised-learning-for-text-classification/
【问题讨论】:
标签: r machine-learning text-classification naivebayes