INTERSPEECH 2020 AutoSpeech论文征集&挑战赛正式启动

近日，国际语音领域顶级会议INTERSPEECH 2020正式公布了“Special Sessions & Challenges”议程，其中由第四范式、南方科技大学、西北工业大学、ChaLearn、Google联合主办的AutoSpeech 2020于近期公开征集论文，投稿者可在5月8日前提交与AutoSpeech主题有关的论文。作为此次会议的竞赛环节，第二届AutoSpeech挑战赛也正式开赛，旨在让参赛选手设计开发全自动的语音多标签分类系统，自动挖掘声纹、语种、情感等各类语音信息。

近年来，深度学习在说话人识别、语言识别和情感识别等语音相关任务中取得了显著的成功。而随着语音类应用需求量的不断增长，对语音分类技术及系统也提出了更高的需求。然而，这些语音相关任务的复杂性往往超出了非专家的能力范围。在实际应用中，在没有语音处理等相关专业知识储备的情况下，则很难使深度学习系统获得良好的性能。自动深度学习（AutoDL）是一种无需人工干预、针对特定范围任务的动态学习系统，因具备降低深度学习系统门槛等特性成为行业研究的重要方向。

AutoSpeech 2020以“可自动构建语音类深度学习系统”为目标，通过举办AutoSpeech挑战赛、论文投稿及分享等形式，推动AutoDL技术在语音领域的落地及快速发展。此前，第四范式已先后组织了面向图像、语音、自然语言处理等技术领域的AutoDL系列赛事，如AutoSpeech、AutoCV、AutoNLP等，引起学术界和产业界的关注。作为第二届AutoSpeech挑战赛，比赛难度将进一步升级。

论文征集

AutoSpeech 2020将遵循INTERSPEECH 2020相同的论文提交政策，被提交的论文属于官方正式会议论文，由AutoSpeech 2020 Special Session择优录取。本次，主办方接收以AutoSpeech为主题的论文，包括（但不限于）：

- Meta Learning

- Transfer Learning

- Network Architecture Search

- Few-shot Learning

- Reinforcement Learning

- Model Compression

- Data Augmentation

- Hyperparameter Optimization

- Learning to Learn

- Algorithm Configuration

- Model Selection

- Model Initialization

此外，语音相关的论文也可投稿，包括（但不限于）：

- Automatic Speech Recognition

- Analysis of Paralinguistics in Speech and Language

- Speaker Identification

- Language Identification

- Emotion Classificaton

- Accent Recognition

- Music Genre Classification

即使作者不参与比赛，也具备投稿资格。

关于比赛

AutoSpeech竞赛旨在为语音相关任务提出自动解决方案，这一挑战仅限于来自不同语音分类领域的多标签分类问题。当只提供原始数据（语音特征）和元信息时，所提供的解决方案有望发现多种副语言、语音属性信息，如说话人、语言、情感等。

主办方为本次比赛准备了15个语音分类数据集。其中包括 5个离线公共数据集（用于选手开发和训练自己的AutoSpeech程序）、5个线上公共数据集（用于盲测，选手无法获得数据集任何信息）、5个私有数据集（用于盲测，选手无法获得数据集任何信息）。

赛事挑战

在第一届AutoSpeech挑战赛中，许多解决方案在自动语音分类任务的性能上取得了显著进步，但当数据集变大以及标签类别更多时，比赛仍极具挑战性。此外，选手面临的其他挑战还包括：

- 如何在口语会话中自动发现各种副语言信息？

- 如何从语音数据中自动提取不同任务的有效特征？

- 如何自动处理长时和短时语音数据？

- 如何自动设计有效的神经网络结构？

- 如何建立和自动适应预先训练的模型？

此外，选手还应考虑：

- 如何自动有效地选择合适的机器学习模型和超参数？

- 如何使解决方案更通用，即如何使其适用于未知的任务？

- 如何保证计算和内存成本可以接受？

赛事规则

本次挑战赛分为三个阶段（反馈阶段、检查阶段和最终阶段）。首先，选手通过5个可下载的公共数据集，离线开发AutoSpeech解决方案。然后进入反馈阶段，参赛者将自己的AutoSpeech程序代码上传到平台上，并通过在另外五个验证数据集测试，得到其性能的即时反馈。反馈阶段结束后，将进入检查阶段，参赛选手只允许在私有数据集上提交一次代码，以便进行调试。此时，参赛选手将无法阅读详细的日志，但是他们能够看到提交的代码是否报告错误。最终阶段，参赛选手的AutoSpeech程序在五个测试数据集上进行评估。最终阶段的排名将决定获胜者。