百度發佈升級版 Deep Voice 2，神經網絡實時生成，完美模仿數百種聲音（論文下載）

機器學習人工智能科技新智元 2017-05-28

新智元報道

百度在官方博客介紹了升級版 Deep Voice 2：

今年2月，百度硅谷 AI Lab 發佈了 Deep Voice 1，這是一個完全使用深度神經網絡生成人類語音的系統。與其他使用神經網絡的文本到語音（text-to-speech，TTS）系統不同的是，Deep Voice 1是實時運行的，能在需要播放語音時非常快速地合成音頻，因此適用於媒體或對話界面之類的交互應用。通過訓練能夠從大量數據和簡單特徵學習的深度神經網絡，我們創建了一個非常靈活而且高質量的實時語音合成系統。

今天，我們很高興地宣佈推出 Deep Voice 2，這是 Deep Voice 系統的第二代版本。短短三個月時間，我們已經將第一代系統只能生成20小時語音，只有一種聲音，擴大到數百小時語音，並且可以擁有數百種聲音。Deep Voice 2能夠從數百種聲音學習，並且能夠完美地模仿這些聲音。與傳統的這類系統不同，傳統的系統需要使用同一個說話人的數十小時的語音來訓練，但 Deep Voice 2只需每個說話人不到半小時的語音數據，就可以學會數百種獨特的聲音，同時擁有高音質。

Deep Voice 2 通過尋找不同聲音之間的共同特徵來學習語音。具體來說，每個聲音對應一個單個的向量，即總結了如何模仿目標聲音來生成語音的約50個數字。與以前的 TTS 系統都不同，Deep Voice 2 是從頭開始學習這些特徵，不需要任何關於這些聲音的區別的指導。

音頻片段試聽地址：http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

論文：Deep Voice 2: Multi-Speaker Neural Text-to-Speech

有關 Deep Voice 2 的更多信息，請閱讀我們的論文。

百度發佈升級版 Deep Voice 2，神經網絡實時生成，完美模仿數百種聲音（論文下載）

相關推薦