【发布时间】:2017-09-04 12:36:33
【问题描述】:
我已经成功实现了 SVM 分类器。我没有使用 scikit 方法。我目前正在使用不同类型的数据对其进行训练。现在,我想针对单个文本输入对其进行测试。 我尝试使用 pandas,但后来我不得不改变我的方法,所以我决定不使用它。 该分类器被用于带有正面、负面和中性标签的情绪分析。馈送到分类器的数据集由来自 twitter 的推文组成。 这是我的分类器:https://pastebin.com/JZ5LVLW7
因此,我需要帮助在 python 中设计一个函数,该函数将接受一个字符串输入,将其与我的特征列表进行比较并生成一个二进制向量。或者如果有其他选择,请提出建议。 示例:如果我的文本输入是“足球是欧洲的一项流行运动” 因此,提议的函数将扫描特征列表(已经在测试数据的帮助下生成),如果特征列表中出现“足球”、“流行”、“运动”、“欧洲”等特征词,它将append 1 or else 0. 因此,通过函数扫描后,输出应该类似于 [..., 1,0,1,1,0,0,0,...]。
【问题讨论】:
-
分类器是干什么用的,特征是什么,目标是什么?
-
抱歉省略了一些细节。分类器用于带有正面、负面和中性标签的情感分析,它包含从推文数据集中提取的特征。
-
所以你的意思是为文本输入生成one-hot特性? scikit 有一些文本功能工具。
-
热门功能?只是一个特征向量,它扫描特征列表并生成 1(如果存在输入特征)或 0 的二进制数组。请检查示例。
标签: python machine-learning svm