【发布时间】:2016-01-24 00:34:50
【问题描述】:
当谈到普通的人工神经网络或任何标准机器学习技术时,我了解训练、测试和验证集应该是什么(概念上和经验法则比率)。但是,对于一个双向 LSTM (BLSTM) 网络,如何拆分数据让我很困惑。
我正在尝试改进对包含受监控健康值的个体受试者数据的预测。在最简单的情况下,对于每个主题,都有一个长时间的值序列(>20k 值),并且该时间序列的连续部分从一组类别中标记出来,具体取决于主题的当前健康状况。对于 BLSTM,网络同时对所有向前和向后的数据进行训练。那么问题是,如何为一个主题拆分时间序列?
- 我不能只取最后 2,000 个值(例如),因为它们可能都属于一个类别。
- 而且我不能随机分割时间序列,因为这样学习和测试阶段都将由不连贯的块组成。
最后,每个主题(据我所知)都有略微不同(但相似)的特征。那么,也许,因为我有成千上万的科目,我是否会在一些科目上进行训练、在一些科目上进行测试并在其他科目上进行验证?但是,由于存在学科间差异,如果我只考虑一个学科开始,我将如何设置测试?
【问题讨论】:
标签: python neural-network time-series keras recurrent-neural-network