【问题标题】:How should i model the training set in my neural network?我应该如何在我的神经网络中对训练集进行建模?
【发布时间】:2012-10-30 20:43:07
【问题描述】:

我有一个愚蠢的困惑,但它让我很困扰。我必须为垃圾邮件检测制作一个人工神经网络。到目前为止,我已经开发了用于开发邮件的 tfidf 向量和分别计算该矩阵的 PCA 的模块。 问题是我的邮件直接从收件箱中读取。 对于培训,我希望使用我的垃圾邮件箱,然后使用已用于开发未读邮件向量的相同类。如何将它们标记为垃圾邮件?

我应该开发这样的东西吗

   HashMap<HashMap<String,Double>,Integer> trainingSet;

第一个参数是通过 PCA 降维的 mailVector,而 Integer 是标签 1-Spam 和 0 表示 nonSpam,然后将向量写入文件并从中读取? 或者我应该让我的代码更灵活,而不是现在直接从收件箱中读取,它应该从已经存在的在线垃圾邮件和垃圾邮件中读取,然后将它们建模为邮件对象[我有一个 MailMessage 类,它定义了像主题这样的成员, body , mailvector 等用于邮件,然后用它来构建术语索引,最后是向量],形成向量,然后形成一个训练集,训练后我可以让他们阅读我的收件箱?

任何见解将不胜感激!

【问题讨论】:

    标签: java neural-network classification spam training-data


    【解决方案1】:

    我会对你说实话。坦率地说,英语中的单词并不多。如果您有一个非常大的输入向量(比如数万个),您可能会获得最有效的性能。事实上,您甚至可以在没有隐藏层的情况下购买。

    对于图像识别等来说,具有数千个点的输入向量并不少见。

    【讨论】:

    • 谢谢 解决了!对不起,我才看到你的回答!:)
    • 很高兴听到你成功了?。
    猜你喜欢
    • 1970-01-01
    • 2017-06-19
    • 1970-01-01
    • 2018-02-25
    • 2011-04-07
    • 1970-01-01
    • 1970-01-01
    • 2011-10-30
    • 1970-01-01
    相关资源
    最近更新 更多