【问题标题】:How can I calculate "feature vector" of spam texts via application of WEKA?如何通过应用 WEKA 计算垃圾短信的“特征向量”?
【发布时间】:2016-03-24 20:21:12
【问题描述】:

我想实现邮件过滤;在 WEKA 应用中通过机器学习将电子邮件分类为垃圾邮件或合法(文本分类)。

如何通过 WEKA 应用获取数据集的“特征向量”?该向量应包含频率最高、权重最高的 100 个垃圾邮件词。

数据集:http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/smsSpamCollection.arff

【问题讨论】:

    标签: machine-learning classification weka feature-extraction


    【解决方案1】:

    我没有使用 WEKA,但我每年使用 Matlab 做同样的事情,这是斯坦福大学的 Andrew NG 博士在第 7 周提供的 coursera 机器课程的一部分。 要创建特征向量,您可以搜索电子邮件以查看每个单词是否存在。那么特征向量将是一个由 0 和 1 组成的向量,其中 1 表示相应的单词存在,而 0 表示不存在。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2012-12-05
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多