神经训练网络的文本表示

【问题标题】：Text representation for Neural training Network神经训练网络的文本表示
【发布时间】：2016-08-29 01:24:40
【问题描述】：

我正在使用 Matlab 中的 nntool 开发一个神经训练网络，我有 11250 个不同长度的文本文件作为输入（从 10 到 500 个单词，或者如果我消除了多余的单词，假设是 10 到 200 个单词），我没有找不到一种很好的方法来将此输入文本表示为数字数据来运行我的训练算法。我考虑过创建一个单词词汇表，但我发现这个词汇表包含 16000 个不同的单词，非常庞大。一些文本文件之间有一些共同点。

【问题讨论】：

你的神经网络的总体目标是什么？...预期输出是什么？例如，如果这是一个垃圾邮件分类器，那么通常会使用一个二进制向量，即词汇表的大小，其中 0/1 表示存在特定单词。

标签： matlab neural-network nntool

【解决方案1】：

为了快速解决，您应该寻找“词袋”或“tfidf”。如果你不知道这是什么，你应该从这里开始：https://en.wikipedia.org/wiki/Vector_space_model 或 https://en.wikipedia.org/wiki/Document_classification。

你读过任何关于 NLP 的书吗？也许这个可能很有价值：http://www.nltk.org/book/ 一开始。

【讨论】：

猜你喜欢

2011-04-07
1970-01-01
2010-11-20
2019-09-15
1970-01-01
1970-01-01
1970-01-01
1970-01-01
2018-10-30

相关资源

下载 2023-04-10
下载 2022-12-18
下载 2023-01-25

最近更新更多

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode