如何通过应用 WEKA 计算垃圾短信的“特征向量”？

【问题标题】：How can I calculate "feature vector" of spam texts via application of WEKA?如何通过应用 WEKA 计算垃圾短信的“特征向量”？
【发布时间】：2016-03-24 20:21:12
【问题描述】：

我想实现邮件过滤；在 WEKA 应用中通过机器学习将电子邮件分类为垃圾邮件或合法（文本分类）。

如何通过 WEKA 应用获取数据集的“特征向量”？该向量应包含频率最高、权重最高的 100 个垃圾邮件词。

数据集：http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

【问题讨论】：

标签： machine-learning classification weka feature-extraction

【解决方案1】：

我没有使用 WEKA，但我每年使用 Matlab 做同样的事情，这是斯坦福大学的 Andrew NG 博士在第 7 周提供的 coursera 机器课程的一部分。要创建特征向量，您可以搜索电子邮件以查看每个单词是否存在。那么特征向量将是一个由 0 和 1 组成的向量，其中 1 表示相应的单词存在，而 0 表示不存在。

【讨论】：