(《麻省理工科技评论》中英文版APP现已上线,年度订阅用户每周直播科技英语讲堂,还有科技英语学习社区哦~)

将文本转换为自然语音(TTS)的技术已经研究了十几年。过去几年,TTS已经取得了巨大进展,一个完整TTS的各个单独子系统也都有很大改善。而谷歌通过结合Tacotron和WaveNet等过去研究工作的思路,其发布的新产品Tacotron2

有了进一步提升。谷歌没有使用复杂的语言和声学功能作为输入。相反,谷歌的产品用神经网络生成人声,它仅仅是由语音示例和相应的文本训练得到的 。

在《NaturalTTSSynthesisbyConditioningWaveNetonMelSpectrogramPredictions》这篇论文中,谷歌对新系统有全面的介绍。简而言之,它的工作原理是这样的:谷歌用序列到序列(sequence-to-sequence)模型优化的TTS,将字母序列映射为音频编码序列的功能。在一段12.5

毫秒一帧的音频频谱图中,系统不仅能捕捉单词发音,还能获取音量、语速、语调等很多细节。最终 ,这些特性将经由一个类似WaveNet的架构转化为一段24KHz的波形。

论文地址:

图丨Tacotron2模型架构详解图,图片下半部分展示了序列对序列模型如何将字母序列映射成音频谱,更多技术细节请参考论文。

用户可以听一下Tacotron2的音频样本,这些样本是谷歌最新TTS系统的成果。在一次评估中,谷歌邀请听众对生成语音的自然度进行评级,谷歌获得了能够与专业录音媲美的评分。

虽然谷歌的样本听起来还不错,但仍有一些棘手问题需要解决。比如,系统在复杂单词(比如「decorum」与「merlot」)的发音上有困难。极端情况下,它甚至会随机产生奇怪的噪音。另外,系统还不能实时生成音频。而且,谷歌还不能对生成的语音进行控制,比如让它听起来开心或忧伤。每个问题都是一个有趣的研究课题。

郑州美展文化传播有限公司 | 燃油 | 有限公司 | 福德 | 代办 | 湖南 | 股份有限公司 | 公寓 | 大理阿鹏 | www.timoxf.com