GTZAN 音乐流派数据集 [关闭]答案

【问题标题】：GTZAN music genre dataset [closed]GTZAN 音乐流派数据集 [关闭]
【发布时间】：2012-07-13 00:46:36
【问题描述】：

我想在公共数据集中测试我的音乐流派算法，以与其他预先存在的算法进行比较。在 MIREX 的情况下，所有数据都不可用。我发现 GTZAN 数据集在链接中可用（marsyas.info/download/data_sets）但是，我现在无法使用它。

你知道我怎样才能得到这些数据吗？因为我使用 MFCC 以外的其他功能，所以我需要流派注释以及音乐。

提前致谢。

【问题讨论】：

标签： classification

【解决方案1】：

我知道很久以前就已经回答了这个问题，但我觉得有必要用我的答案更新这个帖子。

根据您的类型分类实现，我假设它是基于内容的分类（频谱图在深度学习方法中广泛使用，但是您确实提到了 MFCC），您可能会发现很容易找到已提取特征的数据集从音频。这可能是直接将您的结果与其他方法进行比较的最简单方法。

为此，您可以使用拉丁音乐数据库，您可以从here 获得，免费音乐档案，您可以从here 获得，希腊音乐或音频数据集，您可以从@987654323 获得@，CAL10k/CAL500 数据集，您可以从 here 获取，以及您可以从 website 获取的几乎任何其他数据集。

否则，我建议您自己提取这些特征，使用一些特征提取库或工具箱，这样就可以使用 GTZAN 或 Ballroom 数据集（或其他任何有音频文件的数据集）。 betatester07 的链接目前仍然有效！

我发现最容易使用的特征提取方法是 jAudio 或 LibROSA，分别用于 Java 和 Python。使用 jAudio，您也可以从命令行调用它，或者只使用 gui，它还接受批处理文件，因此您可以一次处理一大堆音频文件。使用这些提取方法，如果它们在您尝试实现或比较的论文中抬起丑陋的头脑，您可以获得与那些标准特征相匹配的所有特征。

使用这些标准“基准”数据集时要小心，因为它们仍然存在缺陷。为此，您想查看 Sturm 的work。

希望有帮助:)

【讨论】：

【解决方案2】：

编辑：现在看来，Marsyas 页面托管在 marsyasweb.appspot.com，您可以在 data sets 子页面中找到 GTZAN 数据库的链接。

我还在为我的大学项目寻找 GTZAN 数据集，我发现 http://marsyas.info 已关闭，所以我使用了 google web cache for marsyas.info/download/data_sets（查看更多信息）。幸运的是，GTZAN 数据集托管在http://opihi.cs.uvic.ca，您可以download them！

但在使用数据集之前请注意许可（来自缓存的 marsyas 下载页面的信息）：

此数据集用于 G. Tzanetakis 和 P. Cook 在 2002 年 IEEE Transactions on Audio and Speech Processing 中著名的流派分类“音频信号的音乐流派分类”论文。

不幸的是，数据库是在我研究的早期逐渐收集的，所以我没有标题（显然没有版权许可等）。这些文件是在 2000-2001 年从各种来源收集的，包括个人 CD、收音机、麦克风录音，以代表各种录音条件。尽管如此，我还是应要求将其提供给研究人员，主要用于比较等目的。如果您打算使用此数据集发布实验结果，请联系 George Tzanetakis (gtzan@cs.uvic.ca)。

数据集包含 1000 个音轨，每 30 秒长。它包含 10 个流派，每个流派由 100 首曲目表示。曲目均为 .wav 格式的 22050Hz 单声道 16 位音频文件。

也许您还会对其他数据集感兴趣，例如 Magnatagatune - http://tagatune.org/Magnatagatune.html。

【讨论】：

【解决方案3】：

听起来您可能想要Million Songs Dataset，它拥有一百万首歌曲，带有音频功能、标签、歌词等，由 Echonest 和 Labrosa 发布。当然，这是假设您正在处理音乐元数据和转录。

如果您正在寻找原始音频……那是另一回事。我不知道您是否想发表，在这种情况下，知识产权法可能是一个更重要的因素。但是对于私人测试，我怀疑你可以只使用你自己的音乐库中的文件（例如，iTunes 下载已经有一个流派标签来测试你的算法）。

免责声明：我不是律师。接受我的法律建议，风险自负。

【讨论】：

我认为 MSD 没有歌词。

【解决方案4】：

我也在寻找这样的基准。
我在一篇名为“通过特征提取和机器学习从声音到‘感觉’ - 导出用于表征音乐的高级描述符”的论文中找到了这一点：

目前在音乐方面正在进行一些努力信息检索社区编译大型存储库标记的音乐可供所有感兴趣的研究人员使用没有版权问题。值得注意的例子是 Masataka Goto 的 RWC 音乐数据库 (http://staff.aist.go.jp/m.goto/RWC-MDB)， IMIRSEL（国际音乐信息检索系统评估）伊利诺伊大学厄巴纳-香槟分校实验室）项目（http://www.music-ir.org/evaluation — 另见 [12]），以及新的 FreeSound 倡议 (http://freesound.iua.upf.edu)。

但我找不到任何有用的东西。获取第一个提到的数据库副本的过程是描述here，但它看起来很复杂！

【讨论】：