【发布时间】:2023-03-12 21:10:01
【问题描述】:
我有以下数据集myDataSet:
sentence1 sentence2 lengthofsentence1 lengthOfsentence2 label
Thank you Thanks 9 6 1
Hello Hi 5 2 2
Goodbye Bye 7 3 3
Many thanks Thanks to you 11 13 1
. . . . .
. . . . .
. . . . .
我想使用SVM 进行分类。我可以只使用数字的第 3 列和第 4 列来创建我的训练集:
train_data <- myDataSet[3:4]
lables <- myDataSet[5]
train <- svm(train_data, lables, type = "C-classification")
但我想知道如何使用前四列创建训练集?事实上,我想使用第 1、2、3、4 列,其中两个是文本,其余是数字来创建训练集。我看了这个页面:SVM Tutorial: How to classify text in R,但它只是针对类型为文本的列。
【问题讨论】:
-
您只能将数字数据输入 SVM,因此您必须找到一些有意义的方式来表示您的文本数据。在
sentence1, sentence2中,有多少种可能的组合?如果一个合理的数字,考虑将它们表示为虚拟变量。每个级别 1 个。 -
如果
SVM不适合我的目的,你推荐什么分类算法? @山姆 -
SVM绝对可以用于目的。您只需要对数字表示单词进行更多研究。您已经开始计算每个句子的字符数,但这种方法是有问题的。许多句子的单词数相同,但含义可能完全不同! -
这就是为什么我也想使用前两列作为分类的文本。 @山姆
标签: r dataset classification text-classification training-data