'斬獲國際語音合成大賽亞軍、與科大訊飛同臺競豔,深聲科技到底是家怎樣的公司?'

"

雷鋒網 AI 科技評論按:智能語音作為人工智能領域技術比較成熟的細分方向之一,對於初創企業來說,是其進入人工智能領域的入口之一,然而從市場上來看,這一賽道的頭部企業國外如谷歌、蘋果,國內如 BAT,因其資本優勢以及先發性的技術沉澱,對該市場有較強的壟斷性,因而初創企業要想在僅剩不多的市場份額中求生存或者分一杯羹,技術實力是關鍵之一。

對於去年才成立的深聲科技而言,不遺餘力地深耕技術,也是其在這一賽道中突出重圍的命門所在。就在剛落幕不久的 Blizzard Challenge 2019 國際語音合成大賽上,深聲科技就倚仗其在智能語音技術上的紮實積累,首次參賽就在一眾老牌選手中脫穎而出,一舉斬獲亞軍,成為本屆比賽中的一匹黑馬。

"

雷鋒網 AI 科技評論按:智能語音作為人工智能領域技術比較成熟的細分方向之一,對於初創企業來說,是其進入人工智能領域的入口之一,然而從市場上來看,這一賽道的頭部企業國外如谷歌、蘋果,國內如 BAT,因其資本優勢以及先發性的技術沉澱,對該市場有較強的壟斷性,因而初創企業要想在僅剩不多的市場份額中求生存或者分一杯羹,技術實力是關鍵之一。

對於去年才成立的深聲科技而言,不遺餘力地深耕技術,也是其在這一賽道中突出重圍的命門所在。就在剛落幕不久的 Blizzard Challenge 2019 國際語音合成大賽上,深聲科技就倚仗其在智能語音技術上的紮實積累,首次參賽就在一眾老牌選手中脫穎而出,一舉斬獲亞軍,成為本屆比賽中的一匹黑馬。

斬獲國際語音合成大賽亞軍、與科大訊飛同臺競豔,深聲科技到底是家怎樣的公司?

圖源:深聲科技

與科大訊飛同臺競豔,四項指標其中兩項超越冠軍

作為語音合成界最具權威性和影響力的國際賽事,Blizzard Challenge 對於該領域的關注者而言並不陌生,例如語音界的領頭羊之一科大訊飛就頻頻報道過其在該賽事中取得的成績,並自該賽程首次於 2005 年舉辦後的第二年開始就一直參賽至今。

除科大訊飛以外,在Blizzard Challenge 的歷屆賽事中,既有來自微軟亞洲研究院、IBM研究院、阿里巴巴、搜狗等知名企業的團隊,也不乏英國愛丁堡大學、英國劍橋大學、美國卡內基-梅隆大學、日本東京大學、新加坡南洋理工大學等頂級高校的身影。Blizzard Challenge在該領域的影響力,可見一斑。

而今年,Blizzard Challenge 首次以中文作為主任務,同時以羅振宇脫口秀風格聲音作為合成樣本,以故事、百科、詩詞等文本為合成形式,除此之外,還加上了英文混讀、兒化音等偏門難點任務,堪稱 Blizzard Challenge“史上最難”賽程。不僅如此,今年的Blizzard Challenge 更是史上最火爆的一屆,入圍隊伍達到 24支,與去年的10支隊伍足足翻了約1.5倍。

面對這一“史上最難”賽程以及以科大訊飛等老牌廠商為首的 24支隊伍,深聲科技能夠以稍低於科大訊飛的成績拿下亞軍完成在 Blizzard Challenge 上的精彩首秀,具體表現又是怎樣的呢?

注:Blizzard Challenge 2019最終排名。官方分別用26個字母作為各參賽隊伍的代號,其中字母“A”為原聲(即羅振宇本人錄音);字母“I”為深聲科技語音合成系統代號;“M ”為科大訊飛語音合成系統代號。圖源:深聲科技

據悉,Blizzard Challenge 2019比賽共有四項指標:MOS(自然度)、PER(拼音-不包含聲調-錯誤率)、PTER(拼音-包含聲調-錯誤率)、Sim(相似度)。

在其中的PER和PTER兩項指標中,深聲科技的錯誤率為 0.092、0.103,均低於冠軍科大訊飛的0.098、0.107,這就意味著深聲科技在系統可懂性方面,表現比本屆比賽的冠軍還要更勝一籌。

而MOS自然度指標則是本次比賽中最重要的一項指標,由所有測評人員對音頻的總體效果進行打分,滿分為 5 分。最終,深聲科技的合成效果平均 MOS 分為4.3分,稍低於科大訊飛的 4.5分,與真人原聲的4.7分更是僅差0.4分。

比較遺憾的是,深聲科技在第四項指標Sim上的表現較為一般,得分為 3.3 分。不過據深聲科技透露,這主要是因為其在5月初提交比賽數據時,使用了表現不穩定的多說話人聲碼器技術,導致了合成聲音稍稍偏離了真人原聲。目前,該問題已徹底解決。

更值得一提的是,在本次比賽中,深聲科技使用的參賽系統實際上是其當時已上線的商用系統,而不是還無法走出實驗室的試驗性技術。一個商用系統能夠在比賽中取得如此成績,深聲科技所擁有的語音合成技術實力是相當雄厚的。

綜合成績排名第二,四項指標其中兩項甚至超過冠軍,深聲科技這份亮麗的成績單背後所倚仗的技術實力不可小覷,那具體都有哪些呢?我們下面來看。

深聲科技語音合成技術大解析:雖起步晚,實力卻強

深聲科技在智能語音這條賽道上的起步雖然較晚,但是在技術的沉澱和積累上卻很強勢。雖僅成立一年多,深聲科技就自主研發出了一整套領先的智能語音技術。

從核心技術上來看,深聲科技有七大核心技術,包括聲音定製、語音分離、語音合成、智能語音降噪、音頻處理算法、語音識別和語音轉換。其中以語音分離為例,能夠基於其領先的端到端深度學習方法,在保留原始音頻信號中所有細節的前提下,能夠同時完美地將單通道歌曲中人聲和伴奏聲分離出來。

"

雷鋒網 AI 科技評論按:智能語音作為人工智能領域技術比較成熟的細分方向之一,對於初創企業來說,是其進入人工智能領域的入口之一,然而從市場上來看,這一賽道的頭部企業國外如谷歌、蘋果,國內如 BAT,因其資本優勢以及先發性的技術沉澱,對該市場有較強的壟斷性,因而初創企業要想在僅剩不多的市場份額中求生存或者分一杯羹,技術實力是關鍵之一。

對於去年才成立的深聲科技而言,不遺餘力地深耕技術,也是其在這一賽道中突出重圍的命門所在。就在剛落幕不久的 Blizzard Challenge 2019 國際語音合成大賽上,深聲科技就倚仗其在智能語音技術上的紮實積累,首次參賽就在一眾老牌選手中脫穎而出,一舉斬獲亞軍,成為本屆比賽中的一匹黑馬。

斬獲國際語音合成大賽亞軍、與科大訊飛同臺競豔,深聲科技到底是家怎樣的公司?

圖源:深聲科技

與科大訊飛同臺競豔,四項指標其中兩項超越冠軍

作為語音合成界最具權威性和影響力的國際賽事,Blizzard Challenge 對於該領域的關注者而言並不陌生,例如語音界的領頭羊之一科大訊飛就頻頻報道過其在該賽事中取得的成績,並自該賽程首次於 2005 年舉辦後的第二年開始就一直參賽至今。

除科大訊飛以外,在Blizzard Challenge 的歷屆賽事中,既有來自微軟亞洲研究院、IBM研究院、阿里巴巴、搜狗等知名企業的團隊,也不乏英國愛丁堡大學、英國劍橋大學、美國卡內基-梅隆大學、日本東京大學、新加坡南洋理工大學等頂級高校的身影。Blizzard Challenge在該領域的影響力,可見一斑。

而今年,Blizzard Challenge 首次以中文作為主任務,同時以羅振宇脫口秀風格聲音作為合成樣本,以故事、百科、詩詞等文本為合成形式,除此之外,還加上了英文混讀、兒化音等偏門難點任務,堪稱 Blizzard Challenge“史上最難”賽程。不僅如此,今年的Blizzard Challenge 更是史上最火爆的一屆,入圍隊伍達到 24支,與去年的10支隊伍足足翻了約1.5倍。

面對這一“史上最難”賽程以及以科大訊飛等老牌廠商為首的 24支隊伍,深聲科技能夠以稍低於科大訊飛的成績拿下亞軍完成在 Blizzard Challenge 上的精彩首秀,具體表現又是怎樣的呢?

注:Blizzard Challenge 2019最終排名。官方分別用26個字母作為各參賽隊伍的代號,其中字母“A”為原聲(即羅振宇本人錄音);字母“I”為深聲科技語音合成系統代號;“M ”為科大訊飛語音合成系統代號。圖源:深聲科技

據悉,Blizzard Challenge 2019比賽共有四項指標:MOS(自然度)、PER(拼音-不包含聲調-錯誤率)、PTER(拼音-包含聲調-錯誤率)、Sim(相似度)。

在其中的PER和PTER兩項指標中,深聲科技的錯誤率為 0.092、0.103,均低於冠軍科大訊飛的0.098、0.107,這就意味著深聲科技在系統可懂性方面,表現比本屆比賽的冠軍還要更勝一籌。

而MOS自然度指標則是本次比賽中最重要的一項指標,由所有測評人員對音頻的總體效果進行打分,滿分為 5 分。最終,深聲科技的合成效果平均 MOS 分為4.3分,稍低於科大訊飛的 4.5分,與真人原聲的4.7分更是僅差0.4分。

比較遺憾的是,深聲科技在第四項指標Sim上的表現較為一般,得分為 3.3 分。不過據深聲科技透露,這主要是因為其在5月初提交比賽數據時,使用了表現不穩定的多說話人聲碼器技術,導致了合成聲音稍稍偏離了真人原聲。目前,該問題已徹底解決。

更值得一提的是,在本次比賽中,深聲科技使用的參賽系統實際上是其當時已上線的商用系統,而不是還無法走出實驗室的試驗性技術。一個商用系統能夠在比賽中取得如此成績,深聲科技所擁有的語音合成技術實力是相當雄厚的。

綜合成績排名第二,四項指標其中兩項甚至超過冠軍,深聲科技這份亮麗的成績單背後所倚仗的技術實力不可小覷,那具體都有哪些呢?我們下面來看。

深聲科技語音合成技術大解析:雖起步晚,實力卻強

深聲科技在智能語音這條賽道上的起步雖然較晚,但是在技術的沉澱和積累上卻很強勢。雖僅成立一年多,深聲科技就自主研發出了一整套領先的智能語音技術。

從核心技術上來看,深聲科技有七大核心技術,包括聲音定製、語音分離、語音合成、智能語音降噪、音頻處理算法、語音識別和語音轉換。其中以語音分離為例,能夠基於其領先的端到端深度學習方法,在保留原始音頻信號中所有細節的前提下,能夠同時完美地將單通道歌曲中人聲和伴奏聲分離出來。

斬獲國際語音合成大賽亞軍、與科大訊飛同臺競豔,深聲科技到底是家怎樣的公司?

圖源:深聲科技官網

而進一步從語音合成的整條鏈路上來看,深聲科技也是業內少有的擁有語音合成全鏈路技術能力的公司,主要包括語料庫製作、文本分析模塊、高表現力的語音合成後端、高性能聲碼器。

  • 針對語音合成語料庫製作這一語音合成流程中複雜而困難的環節,深聲科技自主研發的數據標註平臺,採用自動標註+人工校正的模式,在確保高質量的前提下,大大節省了語料庫製作成本和時間週期,使深聲能夠快速響應客戶聲音定製化的需求。

  • 深聲科技的文本分析模塊包含文本正則化、G2P(文本轉音素)和韻律分析,藉助深度學習技術,準確率相比目前行業的主流方法有較大的提升,即便在遇到多音詞如“打的”,“美的”,“朝陽”時,也能輕鬆辨別。

  • 深聲科技研發的高表現力語音合成後端採用了可控的端到端技術,無論在情感的表現力上,還是在合成的準確率、音質穩定性、音色可控性上都超越當前行業的主流方法。

  • 深聲科技研發的高性能聲碼器結合語音算法和網絡模型,在提升合成效率的同時,解決了噪聲、沉悶、機械感強等音質問題,合成出清晰流暢的、與真人相媲美的聲音,不僅能夠滿足大規模的實時語音交互應用的需求,還能滿足對音質長時間使用場景的嚴苛需求。

曾獲小米數千萬天使投資,擁有領先 AI 團隊

在智能語音乃至整個人工智能行業近年來都一路高歌猛進的背景色中,於去年3月份成立的深聲科技顯得有些低調。實際上,早在去年7月份的時候,深聲科技就獲得了小米科技的數千萬天使投資,成為小米投資生態中的一家黑馬級企業,而它今年在 Blizzard Challenge 2019 中所獲得的佳績,算是給小米投資做了一次很好的迴應。

靠技術立足的深聲科技,自然離不開一支強悍的技術團隊的支持。據介紹,深聲科技的核心成員都是來自中科院、中山大學、華南理工、日本早稻田大學等海內外頂級院校的博士、碩士人才,並且其中大部分都曾就職於騰訊、網易、YY等國內知名互聯網企業,無論是技術實力,還是行業經驗,在行業內都是領先的。

有了資金、技術、團隊等的加持,深聲科技目前在智能客服、有聲讀物、新聞播報、語音助手等場景的落地上也取得了一些成果,獲得了包括金山、小米及其生態鏈企業等客戶的高度評價和口碑。

同時,雷鋒網 AI 科技評論還獲悉,深聲科技在不久後還將會推出更加重磅的應用落地。屆時,大眾也將會獲得一個更加深入認識和了解深聲科技的好機會,大家拭目以待!

對於深聲科技智能語音技術感興趣的讀者,可前往深聲科技的官網 http://www.deepsound.cn/ 或微信小程序“深聲AI”親身體驗。

"

相關推薦

推薦中...