語音識別怎麼就能把語音變成字兒呢？深度講解（2）

語音識別人工智能機器學習文章產品經理的人工智能產品經理的人工智能 2017-08-25

如今2017年大半年已經過去了，不知道大家的願望是否都已經在逐步接近的過程當中？
自從上一篇文章《我想知道AI人機交互系統後臺是怎麼工作的？深度講解》獲得一批科技愛好者的喜歡之後，小編也
稍微總結了一下其他幾種人工智能基礎技術原理，來繼續給大家分享下去。

在AI越來越普遍令大家感到新鮮的同時，一些專業名詞也讓大家開始熟悉起來，起碼也都能瞭解到一些術語所代表的含義。

例如：語音識別就是把語音信息變成文字的技術；自然語言處理就是能讓機器人理解人類通用語言的技術；人臉識別就是拍

個照就能認出你是誰的技術。不能不說技術的普及，生活水平的提高會讓人們對技術基礎的理解程度也越來越高，接受

能力也變得很高。

經典案例：90年代我國開始研究二維碼，但是大家並不熟悉，關鍵在於沒有產品使得二維碼變得普及，幾年前微信

和支付寶開始率先使用二維碼支付後，二維碼迅速成為大街小巷最普及的東西，大家從一開始的質疑到將信將疑最後變

成信任，這就是技術普及的力量，讓這種新鮮的技術變成一種社會的常識。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

這篇文章我會詳細給大家解釋一下語音識別技術為什麼能把語音信號變成文字？

過程的第一部分就是發送一段語音信號，有點像是心電圖頻率的波動，下圖我們先介紹一下語音識別的整個流程，先有

個概念。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

語音識別流程圖

這段音頻進入語音識別引擎之後，就會送出識別到的文本，我們將這個文本發送給語義分析並處理，進而得到相似度最

高的答案，併合成文本發送到語音合成引擎之中進行語音輸出。

那麼重點來了這個【ASR】是怎麼讓語音變成文字的？

接下來我們繼續分解，看下圖

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

語音預處理

語音信號通過我們的接口送進語音引擎中，這段語音信號的質量其實是比較差的，這段語音有周圍的噪聲，機器本身噪

聲，所以我們先要做的處理就是降噪、回聲消除、端點檢測，可能大家不是很理解回聲消除是怎麼抑制回聲的，我給個

原理圖示大家應該就明白了

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

做完了語音預處理之後，把相對比較純淨的信號發送給特徵提取部分，這個部分主要幹什麼呢？

我們人和人是不同的，膚色、身高、體重、樣子這些都是特徵，而語音部分我們提取什麼呢？信號頻率、振幅，這其實

就是每個人音色不同的祕密所在，將這些特徵提取送到語音識別引擎的聲學模型中去。它會自動匹配這些語音信息最大

概率的發音漢字。說白了就是這個讀音是哪個漢字的讀法，然後把這個漢字單獨拎出來。

其實什麼是聲學模型呢？簡單來講就是一種刻畫（拼音讀法）韻母a、o、e，聲母b、p、m這些的模型，那這些模型是怎

麼來的？它是怎麼知道這個字怎麼讀的呢？這個時候我們就需要輸入一些音頻訓練集了，例如我們正常說話一段話，同

時輸入剛才說的那一段話的文本，機器會自動取出其中不同的因素，並且拿去繼續訓練模型，修正誤區。這樣對於機器

算法來說，有了輸入和輸出，還能不斷優化自身模型。算法是不是很神奇。這些不同因素數據會先進行預處理，例如百

度就做了一定的加噪處理，這樣在噪聲環境下魯棒。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

其中語音識別模塊除了聲學模型之外還有一個同等重要的模塊就是語言模塊，什麼叫語言模塊呢？就是刻畫文本和文本

之間概率權重的。那麼語言模型是怎麼來的，假如我們要想做醫學領域的語言模型，那就要讓它去學習很多醫學術語，

這個時候就需要我們準備這些術語做成一個詞表，但是同樣需要數據清洗，原始數據會有些垃圾，在做一些權重的正規

化，並送到模型中去訓練，從而得出或者優化原有模型。簡單說你提前給醫學領域的專用術語背下來了，下次一聽到相

關的語音你就能記起來這個專用術語。

例如【板藍根】，訓練之後一聽到這個語音就不會識別成【版爛根】

這樣我們最終就能得到這個語音識別的模型，並且我們可以通過繼續迭代來優化這個模型

既然模型有了，那怎麼看好還是差呢？有幾個方面來分辨。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

理想音頻就是識別質量較好的情況，但是現實生活中語音識別往往回因為各種情況導致識別效果不佳，比如丟音，比如

你按下手機麥克風按鈕時，還沒有啟動錄音你就開始說話了，那沒啟動時說的語音就被丟棄了，這種情況識別就差很多

了，什麼叫截幅呢？就是一般語音識別都是用兩個字節來表示一個語音的取值範圍，當你的增益太大就會被自動截掉，

識別的效果也較差了。

回過頭來，我們剛才所得到的語音訓練模型只是一種特定情況下得到的語音模型，不具備普適性。為何這麼說呢？

我們所得到的醫學領域模型，假設是用手機錄音採集的語料，那麼這個模型就是近場識別模型，一旦同樣的術語【板藍

根】你用手機詢問就能回答正確，但是你一旦用音箱遠場詢問，那很可能就得出錯誤的回答，這叫聲學一致性。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

同樣，不同領域也需要文本一致性，你希望這個領域能多識別該領域的專業詞彙那就需要多訓練這個領域的核心詞彙，

否則就會出現【板藍根】的情況。

語音識別怎麼就能把語音變成字兒呢？深度講解（2）

最後，通過不斷的獲取到不同的音頻數據、文本數據，並繼續迭代優化，我們會得到更好的模型，識別更準的效果。

好了，這就是語音識別的細節，這也是一種科技的魅力，完成了我們看似簡單的動作。

如果大家喜歡，請多關注多打賞，值得學習多收藏，有問題請留言，作者會一一解答。

相關推薦

'2019深度學習語音合成指南'

"雷鋒網AI科技評論編者按：人工合成人類語音被稱為語音合成。這種基於機器學習的技術適用於文本轉換語音（text-to-speech）、音樂生成、語音生成、語音支持設備、導航系統以及為視障人士提供無障礙服務。在這篇文章中，我們將研究基於深度學習而進行的研究或模型框架。在我們正...

語音合成深度學習人工智能跳槽那些事兒技術數據庫 Google 文章音樂機器學習算法 2019-09-05

'Breeno語音可召喚微軟小冰，OPPO開放平臺正在深度賦能開發者'

"今日，OPPO與微軟共同宣佈達成合作，ColorOS系統的智能助理Breeno語音將解鎖“召喚小冰”的能力。通過Breeno語音“召喚小冰”（ColorOS 6以上，Breeno語音版本5.2.0以上），就能進入微軟小冰模式，輕鬆完成切換。此功能現已全量上線， Breen...

微軟小冰 OPPO 微軟人工智能技術市場營銷張家輝任賢齊瀏覽器楊紫人機交互音樂物理 2019-09-01

'搜狗推“個性化語音識別”，將顛覆與改變未來人機交互模式'

"專業機構發佈《2019年語音技術》報告稱，語音將成為未來十年決定性主題之一，與人工智能一起從根本上改變人與機器的關係。近日，搜狗輸入法在語音輸入領域率先推出“個性化語音識別”功能，突破語音識別技術瓶頸，大幅優化個人詞彙錄入的直接準確性，在語音輸入領域實現“更懂用戶”。搜...

語音識別技術搜狗人機交互技術人工智能搜狗拼音輸入法輸入法移動互聯網虛擬現實 2019-08-19

'搜狗發佈“個性化語音識別”，能知人善察你的每句口頭禪'

"《2019年語音技術》報告內容顯示：語音是未來十年決定性主題之一，將與人工智能一起從根本上改變人與機器的關係。最近，搜狗輸入法在語音輸入領域率先推出“個性化語音識別”功能，在語音輸入領域實現“更懂用戶”。不僅解決了語音識別的技術難題，而且還明顯提升了個人詞彙錄入的準確性。...

語音識別技術搜狗技術搜狗拼音輸入法人工智能輸入法移動互聯網 2019-08-16

'人工智能之語音識別(ASR)'

"人工智能之語音識別(ASR)，AI產品經理必須知道的語音識別技術原理！語音識別（Automatic Speech Recognition，簡稱ASR），是語音交互中最基礎的一個AI技術環節，常見的如siri，智能音箱等。一、核心概念1、語音識別（Automatic Spe...

語音識別技術人工智能 Siri Google 算法 Word 技術音箱輸入法產品經理 Alexa Internet 2019-08-08

'離線語音識別技術為啥也要蹭AIoT的熱度？'

"智能家居作為物聯網最重要的應用場景之一被越來越多的用戶所認可。特別是語音識別等人工智能技術的融入將智能家居帶入A-IoT時代。但在一些應用場景下，智能家居的簡單操控並不需要聯網控制，為了能夠實現更好的人機交互，由用戶本地操控將更加方便，因此離線語音技術也為用戶體驗增色不少...

語音識別技術技術算法智能家居人工智能硬件物聯網人機交互軟件深度學習上海深圳 2019-08-08

'語音識別再惹爭議，拿什麼保護我們的隱私安全？'

"智能音箱正藉助AI的力量入主我們每一個人的家庭，可最近，它卻惹出了不少麻煩。美國當地時間7月11日，谷歌對外承認了其讓承包商收聽由谷歌虛擬助手記錄的用戶音頻。無獨有偶，今年4月，亞馬遜智能音箱Echo也被曝出隱私問題。你是否想過，入主客廳的智能音箱正在悄悄記錄你的一言一行...

技術音箱語音識別技術信息安全 Google 人工智能亞馬遜 Alexa Internet 智能手機算法區塊鏈雲計算跳槽那些事兒小米科技黑客 Facebook 百度 2019-07-17

'百度錢晨談小度智能音箱：從設計上也能提高語音識別能力'

"三言財經7月12日消息，近年來，智能音箱作為“語音交互入口”，越來越受到大眾的歡迎。根據國際數據公司(IDC )發佈的《IDC中國智能家居設備市場季度跟蹤報告》顯示，百度的智能音箱產品一季度出貨量為340萬臺，已位列國內市場第一。而這據其去年三月發佈第一款產品，僅僅過去一...

音箱語音識別技術設計智能家居百度技術工業設計算法人工智能硬件藝術 2019-07-16

'語音識別再惹爭議，拿什麼保護我們的隱私安全？'

語音識別技術技術人工智能亞馬遜音箱信息安全 Google Alexa Internet 智能手機區塊鏈算法跳槽那些事兒小米科技雲計算黑客 Facebook 百度歷史 2019-07-15

滴滴國際產品重點規劃：全球首例智能語音識別技術落地嘗試

今日，滴滴副總裁、國際化產品技術部負責人卜崢在香港RISE創新大會上透露了滴滴的國際產品重點規劃。其中，滴滴日本和滴滴澳洲即將推出司機免接觸語音接單功能，...

滴滴打車語音識別技術技術人工智能算法增強現實軟件自然語言處理日本通信 2019-07-13

基於深度自編碼器神經網絡完成語音識別的預訓練方法

（此處已添加圈子卡片，請到今日頭條客戶端查看）深度自編碼器神經網深度自編碼器神經網也是一種無監督模型，其輸出向量與輸入向量同維，訓練的目標是使其目標值等於...

深度學習人工智能語音識別技術算法今日頭條 CNN 技術生物大數據 2019-07-05

語音識別技術康佳K1成AI人工智能應用新星

隨著AI人工智能步入快車道，人工智能應用於彩電行業的步伐也不斷加快。數據顯示,，人工智能電視市場份額同比增幅達80%，人工智能或將成為彩電產品標配。這些均...

語音識別技術人工智能人臉識別康佳技術智能家居智能電視電視機音箱人機交互電視劇移動互聯網 2019-06-23

語音識別裡的人工智能還看搜狗，搜狗智能錄音筆C1體驗分享

5G賦能下的萬物互聯已經成為當下科技產品發展的主流趨勢，人工智能更是科技發展到現在，連接現在與未來最為亮眼的一環。人工智能聽著就很高大上，但是它的高端性與...

搜狗人工智能語音識別技術電腦雲計算上海算法筆記本電腦 2019-06-19

搭載了人工智能語音助手的音箱，哪款最智能、最好用呢？

市面上智能音箱不斷地推陳出新，種類繁多，但大多數的智能音箱都只是實現了藍牙連接功能和FM等接連播放功能，而所謂的真正“人工智能”功能方面並沒有實現多少，歸...

人工智能音箱智能家居 QQ音樂智能硬件 Siri 音樂操作系統小米科技蘋果公司騰訊雲計算人機交互出門問問哈曼卡頓騰訊QQ 藍牙 Google 琥珀技術騰訊硬件阿里雲計算小米電視天貓掃地機器人百度蜻蜓FM 相聲投資新聞 2019-06-09

按1、按2、再按3...語音客服喜歡“躲貓貓”，專家：超過40秒不接應處罰

“有售後問題請找客服”，企業推銷產品，優質的客服往往是賣點之一，但真的遇到事情要找客服時，你就會發現，有時候解決問題簡直比登天還難。要麼讓你按1、按2、再...

技術人工智能機器人算法銀行可視化技術中國農業銀行知識產權重慶中國政法大學張宇跳槽那些事兒黑龍江省 2019-06-03

科技武裝到牙齒液晶儀表盤、AI語音識別你想到的配置它都有

[愛卡汽車國內新車原創]2019年5月18日，哈弗F7x極智運動版將於19:00舉行上市發售儀式，作為F7x系列中的第三款車型，新車採用了當下流行的溜...

設計長城哈弗語音識別技術運動型多用途車人工智能時尚無人駕駛體育 2019-05-19

加碼語音識別、雙屏互動? 新技術賦能在線教育

新民晚報訊（記者張鈺芸）隨著手機、平板電腦等數碼設備的普及，在線教育有了隨時隨地學習的便利條件。嚐到了科技革新帶來的甜頭，在線教育機構之間的競爭，已經從...

在線教育語音識別技術技術智能手機平板電腦人工智能 ?? 硬件不完美媽媽 ??? 2019-04-29

除了和錘子同款的語音識別瑞虎3x還有啥？

奇瑞的戰略2.0中，產品年輕化是其最核心的品牌理念。繼艾瑞澤5和瑞虎7之後，戰略2.0的第三款車瑞虎3x也已經在做上市的準備。這款“4G智趣SUV”究竟...

SUV 瑞虎3 瑞虎3x 語音識別國產車 2019-01-28

比思域更適合年輕人開，搭載語音識別系統僅6萬

汽車市場的不斷髮展，就是將高科技的產品逐漸應用到汽車之中，如今的汽車中除了有著比從前更為可靠的三大件以外，它的實用性和安全性也比從前更高，更是有一些汽車搭...

國產車本田思域機器學習東風啟辰語音識別 2018-12-07

語音識別最大的問題解決了！在嘈雜的環境中都可識別你的聲音

我們都知道，人工智能的應用層，分為幾個大的領域，而語音識別則是目前被應用到的最廣泛也是最成熟的技術。在語音識別中，一直有幾個難點尚未突破，比如大部分手機上...

語音識別人工智能機器學習人機交互 AI小智君 2017-10-31

推薦中...