日常沟通与文字最大的不同点在于我们拥有的语调与节奏,而谷歌最新的人工智能翻译原型不仅能翻译书面上的意思,连声音的音调与节奏也能一并拿下。
这个系统被称为Translatotron,谷歌的研究人员在最近的一篇博客中详细介绍了它的工作原理。他们并没有表示Translatotron很快就会进入商业领域,但这很可能会实现。正如谷歌的翻译主管今年早些时候向The Verge解释的那样,该公司目前的目标是为其翻译工具添加更多的细微差别,创造更逼真的语音。
虽然捕捉人类声音的变化对外行人来说是最令人印象深刻的,但Translatotron对人工智能工程师的吸引力在于,它可以直接将语音从音频输入转换为音频输出,而无需将其转换为通常的中间文本。
这种人工智能模型被称为端到端系统,因为辅助任务或操作没有停止。谷歌说,让端到端的翻译更快地产生结果,同时避免了在多个翻译步骤中引入错误的风险。
更有趣的是,模型处理的数据不是原始音频。相反,它使用光谱图数据,或声音的可视化详情。从本质上说,这意味着我们相当于在用图片的形式把一种语言翻译成另一种语言,这令人难以置信。
尽管谷歌经常推出新语言和翻译工具,但它们的表现往往不如预期那样,包括现在这个人工智能模型,其适应性和准确性仍有待考究,但人工智能一直在前进,未来也将会越来越好。