'百度超谷歌躍升全球第二，硬核語音技術成搶奪智能音箱“C位”的王牌'

音箱語音識別技術技術百度 Google 硬件算法人工智能阿里巴巴集團夏日無處不音樂亞馬遜公司雷鋒網 2019-09-02

雷鋒網 AI 科技評論按：日前，據科技市場研究企業 Canalys 發佈的第二季度全球智能音箱市場報告，百度繼今年上一季度超越阿里後，再度超越該行業的“雙寡頭”之一谷歌，成為全球第二大智能音箱供應商。

圖源：Canalys 報告

在智能音箱這一賽道，相比其他頭部廠商，百度入局稍晚，如今卻能力壓群雄取得一系列亮眼成績。百度系智能音箱作為 C 端可體驗產品，普通用戶對其音質、聽感等各方面都有較為直觀的感受，而所有優質體驗的背後，百度在智能語音技術上的積累可謂功不可沒。從智能音箱的遠場語音識別、對話交互技術甚至產品硬件技術，百度始終堅持“親力親為”，為智能音箱積澱了一整套完善一體的技術儲備和解決方案，從而為小度智能音箱的體驗提供了強大的後盾支持。

圖源：Canalys 報告

“百度發佈SMLTA模型，帶來語音技術世界級突破”、“小度智能音箱首度落地完全意義上的全雙工連續交互技術”，無論是語音喚醒、語音交互，還是遠場信號處理、聲學技術乃至產品硬件技術，百度都給智能語音技術領域帶來過不少驚豔的突破創新，得到 C 端用戶的認可，經過市場的檢驗，這也是對百度在智能語音技術一系列突破性進展的最好迴響。

除了在智能語音領域有著整體全面的技術佈局，在每一項語音技術上，百度更是在不斷深耕。下面，AI 科技評論將聚焦智能音箱這一遠場語音識別產品的關鍵性技術，主要從語音喚醒算法、語音交互模式、遠場信號處理、語音聲學技術以及產品硬件技術五個維度，來對百度蓄力爆發的小度智能音箱背後的黑科技進行揭祕。

語音喚醒算法：誤喚醒控制從手工調節到海量數據訓練驅動

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。然而在智能音箱這一遠場語音識別載體中，而技術本身，外部環境對於語音喚醒質量的高低有著非常直接的影響。例如當外部噪音很大時，誤喚醒等問題就非常突出了。

而百度，除了面臨所有智能音箱產品都面臨的此類挑戰外，還存在其內部獨有的喚醒技術難點。包括，第一，“小度小度”作為百度智能音箱的喚醒詞，雖朗朗上口，但它相對於市面上其他音箱常用的“你好xx”、“xx同學”技術上更不容易控制誤報率；第二，百度的產品矩陣豐富，更使得喚醒技術所面臨的外部環境更加複雜多變，因而對喚醒的精度和誤報的控制提出了更高的挑戰。

針對這些挑戰和技術難點，百度首先從算法層面實現了語音喚醒技術的突破，即將誤喚醒的控制由對著測試集手工調節變成了海量數據訓練驅動的過程，並具體從兩個方面提升了模型的建模能力：

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，索負樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；
第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

不僅如此，百度還直接從喚醒技術的維度對小度智能音箱的語音喚醒功能進行優化和改進，研發出了一套純端到端的聲學模型/決策模型的二級喚醒技術，能夠兼顧高召回率和極低的誤報率。其中，聲學模型還採用粗粒度的喚醒詞音節作為建模單元，引入海量負例數據優化，利用喚醒詞音節尖峰搜索代替了維特比解碼，大幅度提高了聲學模型的檢出效果；而決策模型則採用了深層卷積網絡，可對喚醒詞進行整詞置信估計，同時實現了高喚醒召回、低誤報率和較低的資源佔用。

語音交互模式：首度落地完全意義上的全雙工連續交互技術

“每輪對話之前，都要喚醒一次”，這是當下市面上多數智能音箱的常態，也是人們在使用智能音箱期間的最大槽點之一。人們對於智能音箱“像人與人一樣交流”的憧憬要想實現，首要條件之一就是要能夠做到：持續對話。

在智能音箱的連續交互能力上，百度為小度智能音箱研發的全雙工免喚醒能力的表現，非常出色。這項能力組合應用了語音語義聯合的尾點檢測技術、全雙工語音識別技術、置信度技術和語音語義一體化技術，在實現“一次對話，多輪交互”的同時，還能快速響應，並良好地區分用戶交互意圖。

圖源：Canalys 報告

語音喚醒算法：誤喚醒控制從手工調節到海量數據訓練驅動

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，索負樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；
第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

語音交互模式：首度落地完全意義上的全雙工連續交互技術

實際在連續交互能力上，國外早已有 Google home 智能音箱實現了 Continued Conversation 的功能、Amazon echo 智能音箱實現了 Follow Up的功能，國內亦有小雅音箱可實現多次交互功能，但這些，都不是完全意義上的全雙工連續交互。

百度，則是首家在智能音箱行業應用全雙工連續交互技術的企業。

遠場信號處理：回聲消除等多重突破性技術齊頭並進

對於遠場語音識別而言，遠場信號處理技術貫穿了整個語音交互的過程，技術的強弱將持續影響到整個語音交互體驗。而這實際上是最容易受到外界環境干擾的環節，因而對於如何更好地對這項技術進行完善，需要實際落地到非常具體的場景和問題中去找答案。

多通道回聲消除技術：播放音樂時也能接收用戶命令

當我們在大聲唱歌的同時，如果遠處有個人在衝你大聲說話，你能不能聽清他說什麼？智能音箱同樣也會遇到這樣的問題，因為人離設備的麥克風的距離往往很遠而設備自身揚聲器離麥克風的距離很近，所以當用戶在智能音箱在播放音樂時下達語音命令，往往得不到準確回覆，甚至得不到回覆。

在這一場景下，回聲消除技術就非常重要了。對此百度研發出了能夠根據硬件與環境自適應的多通道回聲消除技術，以及音量自適應的兩級後處理和雙模式下（回聲和非回聲模式）的噪音抑制技術，確保在任意音量下，回聲都能被很好地消除以及說話人的聲音能被很好地保留，在確保語音喚醒的精度、降低迴聲殘餘引起的誤喚醒的情況下，還能在全雙工連續交互技術的加持下實現高精準的語音交互成功率。

噪音抑制與增益控制技術：可自適應感知聲場環境抑制噪聲

我們一般都將音箱放置在家裡的哪個位置？回答一般是電視櫃、床頭櫃、書桌等靠近牆邊、牆角的地方，這就帶來了聲音遮擋、反射問題等一眾問題，會大大加劇智能音箱判斷說話人在哪以及誰才是說話人的難度。

智能音箱只有擁有硬核的降噪能力，才能應對這一場景中的問題。基於已有端到端遠場語音交互的整體解決方案所具備的遠場信號處理與聲學模型的優勢，百度主要從兩個方面來提高智能音箱在此場景下的降噪效果：一方面，研發了語音解混響、聲源定位、場景分析、干擾抑制及聲場自適應的噪音抑制與增益控制技術；另一方面，利用喚醒與識別模型反饋的語音特徵信息，為聲源定位提供準確的說話人後驗信息，與此同時由遠場信號處理為喚醒與識別模型提供多維信號決策信息。

除了回聲消除、降噪等常規的遠場信號處理技術優化，百度作為一家佔據了巨大市場份額，並擁有多個產品品類的智能音箱廠商，對於用戶體驗的關注可謂非常周到，因而即便在一些非常特殊的場景和細節問題上，也不遺餘力地從技術上進行優化：

例如考慮到用戶在家中同時擁有多臺小度智能音箱產品，會出現在喚醒小度時出現多臺智能音箱設備同時響應的問題，百度研發了多設備協同交互技術，可準確判斷用戶距離不同設備的遠近，從而智能選擇距離用戶最新的設備進行響應；而針對智能音箱的麥克風拾音孔出現堵塞、進水等問題，則從0到1研發了麥克風異常的實時監測技術，並在算法中加入抗風險的冗餘模塊，即使設備麥克風在出問題的情況下，依然可以實現高精度語音交互，同時將麥克風異常上報服務端，為產品售後及維修提供可靠信息。

語音聲學設計：首創 Deep Peak 2、SMLTA 兩大突破性模型

深度尖峰技術Deep Peak 2 模型

去年初，百度發佈的 “深度尖峰技術Deep Peak 2 模型”在行業內引起的廣泛關注，而百度智能音箱在該模型的加持下，無論是在解碼速度還是語音識別的效率和準確性上，都已實現了行業領先。

Deep Peak 2 模型，其全稱為基於 LSTM 和 CTC 的上下文無關音素組合建模，該模型通過聲學模型學習和語言信息學習相分離的訓練方法，使用音素組合來保留最重要的音素連接特性，從而避免了上下文無關建模時的過擬合問題。

進一步講，該模型基於音節建模的核心優勢在於，音節是人發音的邏輯單元，軌跡明確，是存在完整軌跡的最小單元，而不同音素之間的分界線非常模糊，容易讓網絡“困惑”。同時，音節的時長比狀態和音素都要長，相比更不易受背景噪聲、信道、場景、說話人等音素的影響，因此 Deep Peak2模型對數據多樣性的兼容性更好。同時，比起粒度更大的建模單元，例如詞，建模單元的數目適中，其建模單元也不會過大，能顯著帶來更快的解碼速度。

後續，百度更針對現實場景中對於中英文混雜語音識別的需求，研發了基於Deep Peak2的中英文統一建模的音節模型，採用上下文無關的音節對中英文統一建模的方法，語音系統可通過中英文系統識別語音指令，並直接輸出中英文識別結果和中文識別結果，融合後返回給用戶。

Deep Peak 2 模型的再度進化：世界首個上線的端到端建模的SMLTA 模型

Deep Peak 2 模型之後，百度再度通過引入局部注意力和多級注意力，首創基於注意力（Attention）模型的端到端 SMLTA模型（流式多級的截斷注意力模型），成功解決了高頻查詢的高精度要求問題。

需要注意的是，雖然學術界對於將多注意力模型引入智能語音任務中的嘗試不少，然而此前一直都尚未成功應用到工業界的商用智能語音服務中，因而百度提出的SMLTA模型，是工業界大規模使用注意力模型進行語音識別的首例。

從技術層面來看，SMLTA模型所實現的創新，可以用四個點來概括：截斷、流式、多級、基於CTC & 注意力。下面我們逐個來看。

SMLTA模型可以看成是讓 DeepPeak2 通過結合注意力機制來獲取更大範圍和更有層次的上下文信息，其中的“流式”表示可以直接對語音的小片段（而不是必須整句），進行一個片段一個片段地增量解碼；“多級”表示堆疊多層注意力模型；而最後的“截斷”則表示利用 CTC 模型的尖峰信息，把語音切割成一個一個小片段，使得注意力模型建模和解碼都可以在這些小片段上展開，進而能夠克服傳統注意力模型在大範圍內進行注意力建模帶來精度不佳的問題。

進一步，考慮到CTC模型得到的尖峰的描述信息存在一定的插入和刪除錯誤，容易造成截斷得到的子塊邊界的不準確性，進而影響系統的識別性能。為此，百度在該模型中又創新性地提出兩級Attention結構對截斷的子塊特徵進行逐級篩選，最後再經過解碼器的LSTM模型輸出最後的概率分佈。

圖源：Canalys 報告

語音喚醒算法：誤喚醒控制從手工調節到海量數據訓練驅動

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，索負樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；
第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

語音交互模式：首度落地完全意義上的全雙工連續交互技術

百度，則是首家在智能音箱行業應用全雙工連續交互技術的企業。

遠場信號處理：回聲消除等多重突破性技術齊頭並進

多通道回聲消除技術：播放音樂時也能接收用戶命令

噪音抑制與增益控制技術：可自適應感知聲場環境抑制噪聲

語音聲學設計：首創 Deep Peak 2、SMLTA 兩大突破性模型

深度尖峰技術Deep Peak 2 模型

Deep Peak 2 模型的再度進化：世界首個上線的端到端建模的SMLTA 模型

從技術層面來看，SMLTA模型所實現的創新，可以用四個點來概括：截斷、流式、多級、基於CTC & 注意力。下面我們逐個來看。

圖：基於CTC尖峰截斷的流式多層注意力模型工作原理圖

據悉，與目前業內最好的基於CTC模型的語音識別系統相比，SMLTA基於截斷的端到端語音識別建模方法，讓語音識別錯誤率的下降幅度達15%以上。

產品硬件技術：相同的價位，更佳的語音和音質體驗

而除了語音識別技術，在當下的智能音箱市場，一款音箱要成為“好賣”的音箱，其中一個非常重要的因素就是性價比。如何將智能音箱的成本降到儘可能低，並擁有比同價位的競品更加出色的音質，同時還能夠有效控制住音頻失真確保喚醒識別率呢？

圖源：Canalys 報告

語音喚醒算法：誤喚醒控制從手工調節到海量數據訓練驅動

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，索負樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；
第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

語音交互模式：首度落地完全意義上的全雙工連續交互技術

百度，則是首家在智能音箱行業應用全雙工連續交互技術的企業。

遠場信號處理：回聲消除等多重突破性技術齊頭並進

多通道回聲消除技術：播放音樂時也能接收用戶命令

噪音抑制與增益控制技術：可自適應感知聲場環境抑制噪聲

語音聲學設計：首創 Deep Peak 2、SMLTA 兩大突破性模型

深度尖峰技術Deep Peak 2 模型

Deep Peak 2 模型的再度進化：世界首個上線的端到端建模的SMLTA 模型

從技術層面來看，SMLTA模型所實現的創新，可以用四個點來概括：截斷、流式、多級、基於CTC & 注意力。下面我們逐個來看。

圖：基於CTC尖峰截斷的流式多層注意力模型工作原理圖

據悉，與目前業內最好的基於CTC模型的語音識別系統相比，SMLTA基於截斷的端到端語音識別建模方法，讓語音識別錯誤率的下降幅度達15%以上。

產品硬件技術：相同的價位，更佳的語音和音質體驗

以百度音質、聽感最好的大金剛系列智能音箱為例，百度在硬件技術層面率先做了以下嘗試：

首先，在喇叭選型+音腔設計上，百度智能音箱選用了兩隻規格更大的2英寸全頻喇叭，加兩片91mm*51mm被動低音輻射器，經過將零件巧妙地佈局在有限的音箱空間中，音腔容積達到了400CC，有力地保證了音效的全面輸出。

其次，在結構設計上，百度智能音箱採用了創新的設計思路，其中以整體外觀為例，零指示燈環與黑色外殼融為一體，通過模具注塑一次成型，實現了外觀的零縫隙、零段差，並減少了整機的零件數量，有效降低了整機的成本。

同時，在電路設計上，百度智能音箱選用單電路板硬件設計方案、硬件PCB設計，並申請了相關專利，是國內主流智能音箱產品中首創性的單電路板設計方案。而該單板方案的優勢是集成度高，可降低生產組裝成本，並減少單板佔整機內部空間，從而留出空間加大音腔，提升音質的基礎。

AI科技評論總結

整體而言，智能語音作為AI 領域相對比較成熟的細分方向，近年來在產品落地方面也都走在其他技術的前面。但這些技術具體落地到某個具體場景或特殊場景中時，面臨的挑戰依舊巨大。如何不斷優化智能語音技術，並實現技術的大規模產品落地，依舊是該領域需要大力探索的主題。

而這正是百度等智能語音廠商正在做、並且擅長做的事情。以百度提出的SMLTA 模型為例，這是全世界範圍內首個基於注意力技術的在線語音識別服務的大規模上線，在發佈之際不僅引起了工業界的廣泛關注，更成為了學術界的大事件。正如我們在上文中也提到的，在此前已經有很多專家和學者嘗試在語音識別任務中引入注意力模型，然而這種嘗試一直無法走出實驗室。因而百度所取得的這項突破性進展，無論對百度自身的技術佈局而言，還是對整個智能語音領域而言，都意義重大。

未來，智能音箱要想取得更加明顯的體驗提升，背後技術的突破創新是繞不開的一個話題。百度語音技術團隊不斷在攻堅克難，算法迭代創新，並善於將之應用在落地產品中。就在前不久，百度語音首席架構師賈磊的迴歸，又將為百度語音技術帶來怎樣的變化和突破？拭目以待。