看看Skype实时翻译功能到底是如何工作的?
在今年5月的Re/Code大会和今年7月的WPC 2014上,微软分别展示了Skype Translator,即实时翻译功能。这个功能一度被很多业内人士认为是对同声传译行业发展的威胁。现在用户可以直接在Windows 8.1和Win开发者_如何学Pythondows 10上体验Skype实时翻译功能的预览版。值此之际,让我们来看看Skype的实时翻译功能是如何工作的。
背景技术应用,Skype的实时翻译功能其实是微软研究院机器翻译团队的研究成果,这个功能是基于机器学习技术、语音识别技术、机器翻译技术等来打造的。
在实时翻译功能的预览阶段,用户对实时翻译功能的体验和测试越多,机器学习技术收集的数据就越丰富。当用户使用Skype实时翻译功能时,通话内容将被系统记录为数据。当这些海量的数据被输入到机器学习系统中时,机器学习系统会建立一个统计模型来分析用户对话的上下文。当用户说出一个句子时,机器学习系统会将该句子与统计模型中的数据进行比较,然后将语音转换为单词或单词转换为外语。
除了机器学习技术,Skype的实时翻译功能还采用了经过特别优化的语音识别技术和自动机器翻译技术,相应地完成了语音识别和自动机器翻译两项任务。在完成语音识别和自动机器翻译两项任务的过程中,系统要对用户的语音措辞进行调整,使语言更加流畅。即使在翻译结果显示在屏幕上之前,系统也必须在翻译的句子中添加标点符号,并调整单词的大小写。语音识别技术多年来一直是一个研究课题,但在过去,这项技术也遇到了困难,因为它需要解决识别灵敏度、噪声干扰等问题。
后来微软研究院的研究人员在语音识别中加入了深度神经网络(DNNs),提供一种类似人脑处理语音的环境,极大地降低了语音识别的错误几率,提高了可靠性。
事实上,机器翻译技术也用于网页的必应翻译。研究人员将语法和统计模型相结合,使Skype实时翻译功能更好地应对会话翻译任务。此外,微软还在Skype的实时翻译功能中增加了一个“机器人”,负责在翻译和转录交换的过程中创建通话并向语音引擎发送语音流媒体。
未来的挑战尽管Skype的实时翻译功能看起来非常先进,但它也面临着许多挑战。众所周知,世界上已知的语言有5651种,公认的独立语言有4200种,其中有19种被100多万人使用。汉语是使用最广泛的语言,英语是30多个国家使用最广泛的语言。世界上被人们深入研究过的语言大约有500种,几乎没有研究过的语言有1500种,占世界上没有书面语言的语言的四分之三。微软研究院希望这一功能能够拉近人与人之间的距离,跨越人与人之间交流的障碍,因此语言的多样性成为了Skype实时翻译功能最大的挑战。就Skype实时翻译功能的预览版而言,已经支持多达40种语言的即时短信翻译,但语音翻译暂时只支持英语和西班牙语。
虽然有些人说同一种语言,但每个人的语言表达是不同的。比如在人类说话的过程中,我们根据上下文停顿,或者使用“嗯”“啊”等词语。通过机器学习技术,我们可以暂停句子。但是,Skype的实时翻译功能不能很好地照顾到单词的细节,有些单词可能会被翻译,而有些单词可能很难翻译。相关团队希望尽可能收集用户的反馈来解决这个问题。
还有口语翻译。人类是独特的,我们的口头语言受到国家、地区、文化和宗教信仰等因素的影响。Skype的实时翻译功能长期致力于口语翻译。我们期待微软研究院未来能够提升Skype口语实时翻译的能力。
精彩评论