语音可以作为一种生物识别的形式,通过对说话人语音的采样,我们对说话的身份进行验证,在语音助手、安防等领域有着广泛的应用场景。
相对于基于文本内容的说话人识别,文本无关的验证因减少了变化的约束,从而更具挑战性。语音样本可以通过不同的录音设备获取,多种设备带来的比特率不匹配、信道噪声、背景噪声等进一步增加了说话人识别的挑战。
本届大赛语音赛道我们围绕当下备受关注的智能家居、语音助手等应用场景设计赛题,开展说话人识别相关领域的比赛。
参赛选手需要设计并训练具有鲁棒性的模型,可以胜任跨设备的文本无关的说话人识别任务。详见赛题说明。
本次大赛语音赛道数据集由希尔贝壳 AI Shell提供。

竞赛协议
2020未来杯高校AI挑战赛 选手报名协议
报名与组队
选手以组队形式参赛,每支队伍可包含1-5名成员,队长创建队伍成功后,可邀请成员加入队伍并完成审核。报名截止后,组队信息不可再进行变更。
报名选手必须为高校在校学生,并按要求完成实名认证。
综合评审与晋级
根据有效提交的得分排名,区域排名前列的选手可入围线下评审。通过线下评审综合评分,区域排名前列选手可以晋级决赛。
资源提供
参赛队伍可使用大赛提供的已标注数据集,可申请高性能GPU使用机时。
奖项设置
总奖金额 144,000元。
区域赛
获奖说明:各分赛道区域赛阶段,各区域中系统评定分数前五名的队伍进入区域赛答辩环节,最终在区域赛答辩环节中获得各区域内前三名及优秀奖的队伍可获得以下奖励权益:
奖学金
- 第一名队伍:5000 元 /队
- 第二名队伍:2000 元 /队
- 第三名队伍:1000 元 /队
奖励/荣誉
- 可参加知名企业大数据及AI专项培训、现场授课、在线直播;
- 获得知名企业的就业、实习机会;
- 业内专家、大咖指导和交流;
- 入围区域赛答辩环节的队伍均可获得中国青少年发展基金会授予的奖学金荣誉证书。
决赛
- 获奖说明:决赛阶段,各区域赛答辩环节中评定分数前三名的队伍晋级线上决赛,线上决赛综合评审前五名的队伍进入总决赛答辩环节,最终在总决赛答辩环节中获得本赛道前三名及优秀奖的队伍可获得以下奖励权益:
奖学金
- 第一名队伍:50000 元 /队
- 第二名队伍:20000 元 /队
- 第三名队伍:10000 元 /队
奖励/荣誉
- 可参加知名企业大数据及AI专项培训、现场授课、在线直播;
- 获得知名企业就业、实习机会;
- 业内专家、大咖指导和交流;
- 入围总决赛的队伍均可获得中国青少年发展基金会授予的奖学金荣誉证书;
- 获奖学生将获得IEEE会员资格。

决赛赛题说明
任务目标
为跨设备的语音识别服务设计说话人识别模块。有若干说话人共享使用语音识别服务,每个说话人使用若干句语音进行注册。这些说话人使用不同的设备注册和访问该服务,要求自动识别出每一句输入来自哪一个说话人。
规则说明
参赛队伍须建立模型,并使用指定训练集训练模型。
测试集将在指定日期发布。测试集发布后,72小时内选手可提交结果。系统将即时计算线上客观成绩。每支参赛队伍每天有3次提交机会。
附属规则
- 各队选手不允许私下传递代码,可以选择公开开源的进行交流;
- 选手须提供预训练模型的数据源信息,确保预训练过程亦可被复现;
- 不得使用主办方规定之外的数据集进行模型训练;
- 违反上述规则将被取消比赛资格。
数据集
一、训练集
训练数据集:希尔贝壳提供的 AISHELL-2 中文语音数据库。
不得使用主办方指定的数据集之外的数据进行训练。
二、测试集
测试集将于10月26日15:00发布。
数据集规格
- 人数:8
- 设备:iOS Phone/Android Phone/Android PAD/HI-FI
- 距离:-1.5M(后1.5米)/0.25M/1M/3M/5M/L3M(左3米)/R3M(右3米) 七个点位中随机抽取
- 语句:包含醒词,数字串和自由文本。
语音数据分为注册数据和测试数据两部分。
A) 注册数据
注册数据中,每人说话人都会使用9句话注册自己的声纹。
B) 测试数据
测试数据中,包含已注册说话人的若干条语音。
数据集详细信息见“数据集”页面。
测试和结果提交
测试集发布的同时,提交通道同时开放,72小时后通道关闭,每个参赛队伍有5次提交机会。
参数选手须将训练、数据预处理、预测程序、训练后的模型(参数)和预测结果完整提交至服务器。
相关程序必须可以完整复现提交结果。
预测程序能够输出如下规格的结果数据文件,CSV格式输出结果形如:
FileID,SpeakerID
ae998e7c5e74ade76c83c884f42ca9bc,1
07767576a9e8b468d38567bf3116396d,3
…
字段说明:
FileID 文件ID,与测试集中测试文件ID一一对应; SpeakerID 预测的说话人ID。
计分公式

S最终得分,N表示用于测试的语音数,pi表示说话人的预测是否正确,正确为1,错误为0。