网易 AI Lab 斩获全球顶级声纹识别竞赛冠军?
近日,全球最大的语音大会INTERSPEECH 2020公布了SdSV声纹识别大赛的结果。网易AI Lab在众多国际顶级团队中脱颖而出,在文本相关声纹识别赛道综合排名中获得第一名,单模式第一名。凸显了网易AI Lab在语音声纹识别技术领域的领先地位。
本次国际声纹识别大赛是行业内非常权威的比赛。参赛队伍来自众多国际知名高校和企业,包括近两年来世界上各种声开发者_JAVA技巧纹识别大赛的“常胜将军”:布尔诺理工大学、新加坡传播学院、约翰霍普金斯大学等。
在比赛中,网易AI Lab创新性地提出了一种基于通用X-Vector和PLDA算法的无ASR文本相关声纹识别算法。与传统的深度说话人嵌入方法相比,该算法不依赖语音识别,能够在多语言环境下同时验证说话人和文本内容。
采用MinDCF(最小检测成本)和EER(等错误率)作为评价指标。网易AI Lab的单一模型在这两项指标上都是最好的,其中EER达到1.67%,比第二名低11.6%,远低于游戏X-Vector基线系统(EER=9.05%)。
在评价算法系统性能时,经常输出ROC曲线来描述FAR(误识别率)和FRR(误识别率)之间的关系。
简单来说,在声纹识别中,误识别率是“取不应匹配的声纹作为匹配声纹”的比例,拒识率是“取应匹配的声纹作为不匹配声纹”的比例。
在安全性要求非常高的应用场景中,FAR值会设置得更低,因为误判的代价非常高,但这样做会导致FRR值增加,用户体验下降。
等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与直线相交45度的点,是衡量声纹识别算法系统综合性能的重要指标。EER值越小,系统性能越好。
声纹识别是一种生物特征识别技术,也称为说话人识别,是一种通过声音识别说话人的技术。
目前,人工智能主要有三个研究方向:视觉识别、智能语音和NLP自然语言处理。其中,在语音识别领域,声纹识别属于相对蓝海市场,主要解决“我就是我”的身份认证问题,多用于安全验证场景。
从近年来的市场趋势来看,银行、金融服务和保险已经成为声纹识别应用的主导领域。
随着技术的不断成熟和融合,声纹识别技术将逐步融入日常生活,根据不同应用场景的特点进行针对性开发将具有很大的应用价值。
网易AI Lab声纹识别技术已经应用于游戏场景。除了游戏身份验证,还可以根据音色对用户进行分类,丰富玩家的画像,从而更精准地为玩家推荐志同道合的朋友,匹配实力相当的对手,为玩家带来更好的游戏体验。
精彩评论