【问题标题】:Text representation for Neural training Network神经训练网络的文本表示
【发布时间】:2016-08-29 01:24:40
【问题描述】:

我正在使用 Matlab 中的 nntool 开发一个神经训练网络,我有 11250 个不同长度的文本文件作为输入(从 10 到 500 个单词,或者如果我消除了多余的单词,假设是 10 到 200 个单词),我没有找不到一种很好的方法来将此输入文本表示为数字数据来运行我的训练算法。 我考虑过创建一个单词词汇表,但我发现这个词汇表包含 16000 个不同的单词,非常庞大。一些文本文件之间有一些共同点。

【问题讨论】:

  • 你的神经网络的总体目标是什么?...预期输出是什么?例如,如果这是一个垃圾邮件分类器,那么通常会使用一个二进制向量,即词汇表的大小,其中 0/1 表示存在特定单词。

标签: matlab neural-network nntool


【解决方案1】:

为了快速解决,您应该寻找“词袋”或“tfidf”。如果你不知道这是什么,你应该从这里开始:https://en.wikipedia.org/wiki/Vector_space_modelhttps://en.wikipedia.org/wiki/Document_classification

你读过任何关于 NLP 的书吗?也许这个可能很有价值:http://www.nltk.org/book/ 一开始。

【讨论】:

    猜你喜欢
    • 2011-04-07
    • 1970-01-01
    • 2010-11-20
    • 2019-09-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-10-30
    相关资源
    最近更新 更多