【发布时间】:2016-08-29 01:24:40
【问题描述】:
我正在使用 Matlab 中的 nntool 开发一个神经训练网络,我有 11250 个不同长度的文本文件作为输入(从 10 到 500 个单词,或者如果我消除了多余的单词,假设是 10 到 200 个单词),我没有找不到一种很好的方法来将此输入文本表示为数字数据来运行我的训练算法。 我考虑过创建一个单词词汇表,但我发现这个词汇表包含 16000 个不同的单词,非常庞大。一些文本文件之间有一些共同点。
【问题讨论】:
-
你的神经网络的总体目标是什么?...预期输出是什么?例如,如果这是一个垃圾邮件分类器,那么通常会使用一个二进制向量,即词汇表的大小,其中 0/1 表示存在特定单词。
标签: matlab neural-network nntool