'智能時代銷量領先的代表作是小度嗎？'

技術語音識別技術音箱百度算法人工智能 Google 智造營 2019-09-04

智能時代的到來，最重要的是與人類相關的智能產品落地體驗，給人類可以帶來什麼？

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。

然而在智能音箱這一遠場語音識別載體中，技術本身以及外部環境對於語音喚醒質量的高低，有著非常直接的影響。

智能時代的到來，最重要的是與人類相關的智能產品落地體驗，給人類可以帶來什麼？

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。

然而在智能音箱這一遠場語音識別載體中，技術本身以及外部環境對於語音喚醒質量的高低，有著非常直接的影響。

例如當外部噪音很大時，誤喚醒等問題就非常突出了。

針對這些挑戰和技術難點，百度首先從算法層面實現了語音喚醒技術的突破，即將誤喚醒的控制由對著測試集手工調節變成了海量數據訓練驅動的過程，並具體從兩個方面提升了模型的建模能力：

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；

第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

智能時代的到來，最重要的是與人類相關的智能產品落地體驗，給人類可以帶來什麼？

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。

然而在智能音箱這一遠場語音識別載體中，技術本身以及外部環境對於語音喚醒質量的高低，有著非常直接的影響。

例如當外部噪音很大時，誤喚醒等問題就非常突出了。

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；

第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

不僅如此，百度還直接從喚醒技術的維度對小度智能音箱的語音喚醒功能進行優化和改進，研發出了一套純端到端的聲學模型/決策模型的二級喚醒技術，能夠兼顧高召回率和極低的誤報率。其中，聲學模型還採用粗粒度的喚醒詞音節作為建模單元，引入海量例數據優化，利用喚醒詞音節尖峰搜索代替了維特比解碼，大幅度提高了聲學模型的檢出效果；而決策模型則採用了深層卷積網絡，可對喚醒詞進行整詞置信估計，同時實現了高喚醒召回、低誤報率和較低的資源佔用。

在智能音箱的連續交互能力上，百度為小度智能音箱研發的全雙工免喚醒能力的表現，非常出色。這項能力組合應用了語音語義聯合的尾點檢測技術、全雙工語音識別技術、置信度技術和語音語義一體化技術，在實現“一次對話，多輪交互”的同時，還能快速響應，並良好地區分用戶交互意圖。

智能時代的到來，最重要的是與人類相關的智能產品落地體驗，給人類可以帶來什麼？

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。

然而在智能音箱這一遠場語音識別載體中，技術本身以及外部環境對於語音喚醒質量的高低，有著非常直接的影響。

例如當外部噪音很大時，誤喚醒等問題就非常突出了。

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；

第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

實際在連續交互能力上，國外早已有 Google home 智能音箱實現了 Continued Conversation 的功能、Amazon echo 智能音箱實現了 Follow Up的功能，國內亦有小雅音箱可實現多次交互功能，但這些，都不是完全意義上的全雙工連續交互。

百度，則是首家在智能音箱行業應用全雙工連續交互技術的企業。

去年初，百度發佈的 “深度尖峰技術Deep Peak 2 模型”在行業內引起的廣泛關注，而百度智能音箱在該模型的加持下，無論是在解碼速度還是語音識別的效率和準確性上，都已實現了行業領先。

Deep Peak 2 模型，其全稱為基於 LSTM 和 CTC 的上下文無關音素組合建模，該模型通過聲學模型學習和語言信息學習相分離的訓練方法，使用音素組合來保留最重要的音素連接特性，從而避免了上下文無關建模時的過擬合問題。

進一步講，該模型基於音節建模的核心優勢在於，音節是人發音的邏輯單元，軌跡明確，是存在完整軌跡的最小單元，而不同音素之間的分界線非常模糊，容易讓網絡“困惑”。同時，音節的時長比狀態和音素都要長，相比更不易受背景噪聲、信道、場景、說話人等音素的影響，因此 Deep Peak2模型對數據多樣性的兼容性更好。同時，比起粒度更大的建模單元，例如詞，建模單元的數目適中，其建模單元也不會過大，能顯著帶來更快的解碼速度。

智能時代的到來，最重要的是與人類相關的智能產品落地體驗，給人類可以帶來什麼？

人要跟智能音箱進行對話，第一道關卡便是語音喚醒，因而語音喚醒對於後續的整個用戶體驗而言，至關重要。

然而在智能音箱這一遠場語音識別載體中，技術本身以及外部環境對於語音喚醒質量的高低，有著非常直接的影響。

例如當外部噪音很大時，誤喚醒等問題就非常突出了。

第一，利用大量容易獲得的無標註負例數據，以及有限的有標註正例數據，樣本的描述和挖掘方法、正樣本的加噪擴充以及構造海量的訓練樣例；

第二，探索新的模型學習策略，採用聚焦學習的方法，讓有限體積的模型能夠從海量的數據中高效地學習有用的知識，同時簡化系統的流程。

百度，則是首家在智能音箱行業應用全雙工連續交互技術的企業。

後續，百度更針對現實場景中對於中英文混雜語音識別的需求，研發了基於Deep Peak2的中英文統一建模的音節模型，採用上下文無關的音節對中英文統一建模的方法，語音系統可通過中英文系統識別語音指令，並直接輸出中英文識別結果和中文識別結果，融合後返回給用戶。

智能語音作為AI 領域相對比較成熟的細分方向，近年來在產品落地方面也都走在其他技術的前面。這些技術具體落地到某個具體場景或特殊場景中時，面臨的挑戰依舊巨大。如何不斷優化智能語音技術，並實現技術的大規模產品落地，依舊是該領域需要大力探索的主題

'智能時代銷量領先的代表作是小度嗎？'

相關推薦