百度發佈升級版 Deep Voice 2,神經網絡實時生成,完美模仿數百種聲音(論文下載)

機器學習 人工智能 科技 新智元 2017-05-28
百度發佈升級版 Deep Voice 2,神經網絡實時生成,完美模仿數百種聲音(論文下載)

新智元報道

百度發佈升級版 Deep Voice 2,神經網絡實時生成,完美模仿數百種聲音(論文下載)

百度在官方博客介紹了升級版 Deep Voice 2:

今年2月,百度硅谷 AI Lab 發佈了 Deep Voice 1,這是一個完全使用深度神經網絡生成人類語音的系統。與其他使用神經網絡的文本到語音(text-to-speech,TTS)系統不同的是,Deep Voice 1是實時運行的,能在需要播放語音時非常快速地合成音頻,因此適用於媒體或對話界面之類的交互應用。通過訓練能夠從大量數據和簡單特徵學習的深度神經網絡,我們創建了一個非常靈活而且高質量的實時語音合成系統。

今天,我們很高興地宣佈推出 Deep Voice 2,這是 Deep Voice 系統的第二代版本。短短三個月時間,我們已經將第一代系統只能生成20小時語音,只有一種聲音,擴大到數百小時語音,並且可以擁有數百種聲音。Deep Voice 2能夠從數百種聲音學習,並且能夠完美地模仿這些聲音。與傳統的這類系統不同,傳統的系統需要使用同一個說話人的數十小時的語音來訓練,但 Deep Voice 2只需每個說話人不到半小時的語音數據,就可以學會數百種獨特的聲音,同時擁有高音質。

Deep Voice 2 通過尋找不同聲音之間的共同特徵來學習語音。具體來說,每個聲音對應一個單個的向量,即總結了如何模仿目標聲音來生成語音的約50個數字。與以前的 TTS 系統都不同,Deep Voice 2 是從頭開始學習這些特徵,不需要任何關於這些聲音的區別的指導。

音頻片段試聽地址:http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

論文:Deep Voice 2: Multi-Speaker Neural Text-to-Speech

百度發佈升級版 Deep Voice 2,神經網絡實時生成,完美模仿數百種聲音(論文下載)

有關 Deep Voice 2 的更多信息,請閱讀我們的論文。

相關推薦

推薦中...