【发布时间】:2012-07-13 00:46:36
【问题描述】:
我想在公共数据集中测试我的音乐流派算法,以与其他预先存在的算法进行比较。在 MIREX 的情况下,所有数据都不可用。 我发现 GTZAN 数据集在链接中可用(marsyas.info/download/data_sets) 但是,我现在无法使用它。
你知道我怎样才能得到这些数据吗?因为我使用 MFCC 以外的其他功能,所以我需要流派注释以及音乐。
提前致谢。
【问题讨论】:
标签: classification
我想在公共数据集中测试我的音乐流派算法,以与其他预先存在的算法进行比较。在 MIREX 的情况下,所有数据都不可用。 我发现 GTZAN 数据集在链接中可用(marsyas.info/download/data_sets) 但是,我现在无法使用它。
你知道我怎样才能得到这些数据吗?因为我使用 MFCC 以外的其他功能,所以我需要流派注释以及音乐。
提前致谢。
【问题讨论】:
标签: classification
我知道很久以前就已经回答了这个问题,但我觉得有必要用我的答案更新这个帖子。
根据您的类型分类实现,我假设它是基于内容的分类(频谱图在深度学习方法中广泛使用,但是您确实提到了 MFCC),您可能会发现很容易找到已提取特征的数据集从音频。这可能是直接将您的结果与其他方法进行比较的最简单方法。
为此,您可以使用拉丁音乐数据库,您可以从here 获得,免费音乐档案,您可以从here 获得,希腊音乐或音频数据集,您可以从@987654323 获得@,CAL10k/CAL500 数据集,您可以从 here 获取,以及您可以从 website 获取的几乎任何其他数据集。
否则,我建议您自己提取这些特征,使用一些特征提取库或工具箱,这样就可以使用 GTZAN 或 Ballroom 数据集(或其他任何有音频文件的数据集)。 betatester07 的链接目前仍然有效!
我发现最容易使用的特征提取方法是 jAudio 或 LibROSA,分别用于 Java 和 Python。使用 jAudio,您也可以从命令行调用它,或者只使用 gui,它还接受批处理文件,因此您可以一次处理一大堆音频文件。使用这些提取方法,如果它们在您尝试实现或比较的论文中抬起丑陋的头脑,您可以获得与那些标准特征相匹配的所有特征。
使用这些标准“基准”数据集时要小心,因为它们仍然存在缺陷。为此,您想查看 Sturm 的work。
希望有帮助:)
【讨论】:
编辑:现在看来,Marsyas 页面托管在 marsyasweb.appspot.com,您可以在 data sets 子页面中找到 GTZAN 数据库的链接。
我还在为我的大学项目寻找 GTZAN 数据集,我发现 http://marsyas.info 已关闭,所以我使用了 google web cache for marsyas.info/download/data_sets(查看更多信息)。幸运的是,GTZAN 数据集托管在http://opihi.cs.uvic.ca,您可以download them!
但在使用数据集之前请注意许可 (来自缓存的 marsyas 下载页面的信息):
此数据集用于 G. Tzanetakis 和 P. Cook 在 2002 年 IEEE Transactions on Audio and Speech Processing 中著名的流派分类“音频信号的音乐流派分类”论文。
不幸的是,数据库是在我研究的早期逐渐收集的,所以我没有标题(显然没有版权许可等)。这些文件是在 2000-2001 年从各种来源收集的,包括个人 CD、收音机、麦克风录音,以代表各种录音条件。尽管如此,我还是应要求将其提供给研究人员,主要用于比较等目的。如果您打算使用此数据集发布实验结果,请联系 George Tzanetakis (gtzan@cs.uvic.ca)。
数据集包含 1000 个音轨,每 30 秒长。它包含 10 个流派,每个流派由 100 首曲目表示。曲目均为 .wav 格式的 22050Hz 单声道 16 位音频文件。
也许您还会对其他数据集感兴趣,例如 Magnatagatune - http://tagatune.org/Magnatagatune.html。
【讨论】:
听起来您可能想要Million Songs Dataset,它拥有一百万首歌曲,带有音频功能、标签、歌词等,由 Echonest 和 Labrosa 发布。当然,这是假设您正在处理音乐元数据和转录。
如果您正在寻找原始音频……那是另一回事。我不知道您是否想发表,在这种情况下,知识产权法可能是一个更重要的因素。但是对于私人测试,我怀疑你可以只使用你自己的音乐库中的文件(例如,iTunes 下载已经有一个流派标签来测试你的算法)。
免责声明:我不是律师。接受我的法律建议,风险自负。
【讨论】:
我也在寻找这样的基准。
我在一篇名为“通过特征提取和机器学习从声音到‘感觉’ - 导出用于表征音乐的高级描述符”的论文中找到了这一点:
目前在音乐方面正在进行一些努力 信息检索社区编译大型存储库 标记的音乐可供所有感兴趣的研究人员使用 没有版权问题。值得注意的例子是 Masataka Goto 的 RWC 音乐数据库 (http://staff.aist.go.jp/m.goto/RWC-MDB), IMIRSEL(国际音乐信息检索系统评估) 伊利诺伊大学厄巴纳-香槟分校实验室)项目 (http://www.music-ir.org/evaluation — 另见 [12]),以及新的 FreeSound 倡议 (http://freesound.iua.upf.edu)。
但我找不到任何有用的东西。获取第一个提到的数据库副本的过程是描述here,但它看起来很复杂!
【讨论】: