【发布时间】:2023-03-03 18:40:01
【问题描述】:
我正在启动一个使用神经网络生成音乐的项目。鉴于我的样本规格,我想知道我应该考虑哪种类型的网络。这是我正在使用的。
我正在训练的音乐旨在作为经典任天堂声音芯片的指令集播放。所以,很明显,我的训练集采用了相同的格式。下面是一行指令的样子:
第 00 行:E-1 00 F P80 V00 ...:B-0 00 F P80 V00 ...:D-5 00。 P80 : 1-# 00 F V00
我基本上可以将其解析为与所使用的某些乐器的音高和音量相对应的值。即,我们可以将其更改为类似数组的东西
[16、15、11、15、90、1、15]
或其他东西,只是简单地说。无论如何,这些指令以相当快的速度输入到声音芯片仿真器中(比如 256 用于 3 小节歌曲)。因此,整首歌曲可以仅表示为一个 long 二维数组。
在我读到的内容中,LSTM 是一种非常流行的音乐生成策略,但我想知道我是否可以做一些事情,比如在代表整首歌曲的二维数组上最小化损失?既然每首歌曲发送了这么多指令,那么使用 LSTM 是否合理?我应该从训练完整歌曲改为一次做几个小节吗?
我也想从头开始做这个项目,而不使用库。我希望它对创建逼真的神经网络有困难和忠实,但我不希望它变得疯狂困难。谢谢。如果您有任何关于如何处理此类事情的资源,请告诉我!
【问题讨论】:
标签: machine-learning neural-network deep-learning lstm recurrent-neural-network