'離線語音識別技術為啥也要蹭AIoT的熱度？'

語音識別技術技術算法智能家居人工智能硬件物聯網人機交互軟件深度學習上海深圳華強微電子 2019-08-08

智能家居作為物聯網最重要的應用場景之一被越來越多的用戶所認可。特別是語音識別等人工智能技術的融入將智能家居帶入A-IoT時代。但在一些應用場景下，智能家居的簡單操控並不需要聯網控制，為了能夠實現更好的人機交互，由用戶本地操控將更加方便，因此離線語音技術也為用戶體驗增色不少。同時針對實現離線語音識別的IC而言，面對如今複雜的使用場景也提出了更高的要求，這也對廠商提出了新的挑戰。

針對性方案解決離線語音識別口音及環境噪聲問題

在語音識別領域中，有許多情況下用戶會發現語音識別的準確率並不高，即使在如今的在線語音識別中，需要進行實時轉寫也沒有到令人滿意的層度，這還是在基於雲端強大運算的基礎上。

對於離線語音而言，由於其指令相對固定，因此只需對相應語音指令集進行處理，這對於離線語音識別IC的處理能力要求並不高，但這並不意味著離線語音識別是一件非常容易的技術。在實際使用過程中，還可能遇到用戶口音及環境噪音等問題，如何將離線語音識別做好還需要廠家進行鍼對性的調試。

針對性方案解決離線語音識別口音及環境噪聲問題

對此，《華強電子》記者採訪到深圳唯創知音電子有限公司研發總工程師張興琪，他表示：“對於用戶口音的問題，可以選擇不同的語音模型來處理，如果產品需要銷往全國各地，那麼可以使用音素模型，音素模型已經採集過較多的錄音樣本，對各地口音的處理相對比較平均；如果產品只需要銷往某個地區（例如湖南、貴州），可以使用整詞模型，整詞模型只採集該地區的錄音樣本進行訓練，那麼對於該地區，語音識別IC的辨識率將會達到一個很好的效果。”

隨後，張興琪表示：“一般我們推薦用戶使用音素模型的方式，像我們的WTK6900B、WTK6900C系列的IC，在3米左右的距離都能達到一個很好的效果，當然如果需要更遠距離的一個辨識方案，就需要使用支持神經網絡架構的IC，採集足夠的語音庫，像我們的WTK6900F芯片，支持遠場拾音，10米距離能夠達到90%以上的辨識率。”

針對性方案解決離線語音識別口音及環境噪聲問題

上海華鎮電子科技有限公司總經理朱建強則從系統性出發，闡述了離線語音識別如何有效的進行工作：“目前的離線語音識別是一套完整的系統，包括了聲學前端處理算法（遠場拾音、麥陣、語音增強、波束成型、降噪、回聲抑制等）和語音識別算法，環境中的噪音，通過聲學前端處理，處理後乾淨的聲音再送到語音識別引擎裡處理，確保喚醒識別的準確性。誤喚醒這一塊，目前華鎮的語音喚醒引擎通過了百度測試規範嚴苛的測試，誤喚醒可以做到<4次/24小時。”

可以看到，目前廠商對於離線語音識別已經有了非常成熟的解決方案。針對口音問題可以採用不同的語音模型來解決，如果在全國發行，可以採用音素模型，而只針對某地發售，則可以採用整詞模型。至於噪音干擾，可以先經過聲學前端，在送入語音識別引擎進行處理，能夠有效降低噪音干擾，提升識別準確率。

深度神經網絡語音識別技術幫助廠商快速完成指令詞調試

雖然針對語音喚醒指令做了針對性的調試，但離線語音模塊中還擁有數量眾多的操作性指令，如果與喚醒詞一樣做特別訓練將極大地增加廠商的工作量，同時在成本上也並不划算。

張興琪對此表示：“對於語音命令詞較多的用戶，我們推薦使用目前最先進的深度神經網絡語音識別技術，從語音輸入開始，語音檢測，語音特徵提取及DNN運算完全採用硬件架構設計，軟件主要進行語音解碼，實現了高識別率、高實時性，在一般情況下，效果可達直接商用的程度。”

針對性方案解決離線語音識別口音及環境噪聲問題

深度神經網絡語音識別技術幫助廠商快速完成指令詞調試

華鎮方面也給出了類似的解決方案，朱建強認為：“華鎮的語音識別引擎採用了TDNN的語法識別算法，後臺有完整的聲學模型（訓練了各種口音、各個年齡層的普通話的遠近場錄音），大詞彙量的識別指令，文字編輯後和聲學模型生成語法文件，語音識別時，到語法文件中去做搜索，所以修改指令會非常方便。華鎮的語音大腦6291模組，支持用戶動態更新識別指令集。”

在面對大量指令詞時，採用TDNN、DNN等語音識別算法，與完備的語法文件相結合，將能快速的讓眾多指令詞達到可商用程度，後續也能通過一些語音大腦模組，進行動態更新識別指令集，保證離線識別的準確率。

算法迭代與集成化將有效降低離線識別IC成本

由於離線語音IC中通常集成了自身的語音庫，雖然可以更為方便的使用戶通過語音控制設備，但同時也增加了硬件成本。但通常在很多時候，性價比往往成為廠商在採購離線語音IC的首選條件，如果能夠在不降低語音識別IC性能的前提上再降低成本，那麼將更加受到廠商的青睞。

朱建強認為目前可以從幾個方面入手降低離線語音IC的成本，成本的下降有很多關鍵因素，主要是芯片，外圍的電路也很重要，還有就是算法的演進，佔用的算力會越來越少。如今芯片集成度越來越高，集成了ADC/DAC/RAM/ROM，外圍電路會比較簡單，整體BOM成本也會很低。算法的迭代和成熟，許多需要消耗大量算力的計算，可以通過語音識別專用芯片裡的硬件加速來完成（比如DSP、NPU），這些配合算法的專用語音識別芯片的出現，也會進一步降低成本。

針對性方案解決離線語音識別口音及環境噪聲問題

深度神經網絡語音識別技術幫助廠商快速完成指令詞調試

算法迭代與集成化將有效降低離線識別IC成本

唯創知音方面也提出了類似的解決方案，張興琪認為：“在不影響語音識別IC性能的情況下，用戶可將MCU功能集成到語音識別IC上，不需要解碼語音播放的，可以去掉外部存儲器，我們會根據客戶的需求推薦最合適的方案，比如眼部按摩器、頸部按摩器等產品，不同詞條數、不同應用場景。我們有完整的一套解決方案，能夠有效降低客戶成本。”

由於離線語音指令相對較短，因此在ROM上也可以進行更具成本性的選擇，張興琪表示：“智能家居使用場景中對成本要求比較低，詞條命令少的可以選擇OTP ROM，在詞條與播放內容都較多，且需要更換詞條的可以選擇FLASH ROM。”

在智能家居語音提示時間長度上，朱建強認為：“目前語音控制智能家居場景裡，提示音部分都是存儲在Flash裡，每句提示音都相對較短，通常在5秒以內。”

當前集成化成為離線語音識別IC降低成本的首要選擇，比如將MCU功能集成在語音識別IC上，可以極大地精簡整體BOM成本，而在ROM的選擇上，詞條命令較少的可以選擇OTP ROM，詞條相對較多的可以選擇Flash。同時算法的迭代優化，將有效的減少算力需求，從側面降低離線語音識別IC的成本。

5G技術對智能家居市場影響深刻離線與在線融合成必然趨勢

目前可以看到，在智能家居使用場景中，用戶不僅希望能夠通過語音對智能產品進行控制，同時還希望能夠有聯動效應，即通過對某個智能產品下達語音指令後，達到控制另一個智能家居的效果。而在未來，離線語音識別又將向何發展？

針對通過離線語音來控制其他設備的設想，朱建強表示可以採用這些方案來實現，“集成有離線語音識別芯片的設備控制其他設備時，目前主要是通過外置IoT模組來實現，比如Wi-Fi、BLE、RF433、Zigbee、紅外、2.4G等，以後的發展趨勢，離線語音識別+IoT會逐步融合，硬件上集成在一起，也就是最近大家熱炒的AIoT方案。”

針對性方案解決離線語音識別口音及環境噪聲問題

深度神經網絡語音識別技術幫助廠商快速完成指令詞調試

算法迭代與集成化將有效降低離線識別IC成本

5G技術對智能家居市場影響深刻離線與在線融合成必然趨勢

面對未來離線語音的發展時，尤其在5G時代離線語音又將如何跟進，張興琪認為：“人工智能以及5G已經形成了一個趨勢，但從目前來看，支持在線的設備以及5G資費都比較昂貴，未來幾年雖然會有一定的衝擊，但問題不會太大，5G主要還是在智能家居以及汽車電子行業影響比較大。當然，隨著人工智能以及5G技術的發展，我們也會跟緊腳步，像我們正在研發的手機識別技術，它將打破對於傳統手機識別的理解，相信在未來也會佔據一席之地。”

朱建強表示認同：“隨著5G的到來，網絡端處理速度會越來越快，芯片端的處理是否還需要，以華鎮的觀察，不管是離線識別還是雲端在線識別，都需要前端聲學處理，隨著離線識別芯片處理能力越來越強，邊緣計算的普及，會進一步加快離線在線的融合，常用的語音指令控制（離線識別）+複雜語音交互（雲端識別），實現離在線識別是最優的方案。”

5G的普及已近在咫尺，這顯然會對智能家居市場造成較大影響，但由於5G資費相對昂貴，一直保持在線語音將造成較高的功耗，使用離線語音喚醒，再用在線語音解析已成為當前的趨勢。同時，隨著離線識別IC處理能力的加強及邊緣計算的普及，都將進一步促使離線與在線的融合。

'離線語音識別技術為啥也要蹭AIoT的熱度？'

相關推薦