獨家|一文讀懂語音識別(附學習資源)

語音識別 機器學習 人工智能 創業 THU數據派 2017-07-21

獨家|一文讀懂語音識別(附學習資源)

一、前言

6月27日,美國權威科技雜誌《MIT科技評論》公佈2017全球最聰明50家公司榜單。科大訊飛名列中國第一、全球第六。全世界排在科大訊飛前面企業分別是:英偉達、Spacex、亞馬遜、23andme、Alphabet。 《MIT科技評論》認為,“科大訊飛旗下的語音助手是中國版的Siri,其可攜帶實時翻譯器則是一款傑出的人工智能應用,克服了方言、俚語和背景雜音,可將漢語精準地翻譯成十幾種語言。科大訊飛在中國語音技術市場的佔有率70%。”越來越多的人認為,語音識別將成為下一代交互革命的關鍵技術。

與此同時,在日常生活中,我們已經習慣用Siri或者Cortana這樣的語音助手在一些特定的情況下幫我們解決一些小問題,如在開車時制定本週的日常,簡短地回覆他人消息等等,然而,在大多數情況下語音助手的使用率並不高,據研究機構CreativeStrategies的調查-有62%的安卓用戶從未使用過語音助手,而這個數字蘋果用戶中則是70%。是語音識別的技術還不夠先進,還是人們不需要語音助手呢?Amazon Echo的成功或許能給我一些啟示。

Amazon Echo是亞馬遜公司於2014年11月推出的一款家庭語音助手,能夠實現 包括購物、控制智能家居、閱讀Kindle、預約Uber、跟蹤(亞馬遜)快遞、訂披薩、計時、算術、放音樂、找手機、模仿雨聲等等諸多功能,一經推出就點燃了市場的熱情,據國外研究機構統計,2015年Echo的銷量是170萬臺左右,2016年則增長至650萬餘臺,而截至2017年1月,亞馬遜Echo的全球銷量已超過700萬臺,預計今年將突破1100萬臺。另據eMarketer的一份報告,在美國智能音箱市場,亞馬遜Echo佔據的市場份額超過70%。

同樣是語音助手,為何Echo與Siri的境況如此不同呢,有研究者認為,這主要是兩種產品使用環境不同而導致的。對於大多數人而言,在公共場合拿出手機,對著一個機器人說話不但缺乏隱私,同時多少有些不適;而在家庭中,面對家人和朋友,這點就能夠有效避免,同時安靜的環境更能有效提高機器識別的速度與精度,可以認為,Amazon Echo精準地切入了市場。然而,其他巨頭也不甘人後,紛紛推出了自己的家庭智能語音助手:蘋果推出了Home pod, 而google 也推出了google home. 看來,一場語音大戰已經風雨欲來。

二、語音識別的基本原理

所謂語音識別,就是將一段語音信號轉換成相對應的文本信息,系統主要包含特徵提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特徵往往還需要對所採集到的聲音信號進行濾波、分幀等預處理工作,把要分析的信號從原始信號中提取出來;之後,特徵提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特徵向量;聲學模型中再根據聲學特性計算每一個特徵向量在聲學特徵上的得分;而語言模型則根據語言學相關的理論,計算該聲音信號對應可能詞組序列的概率;最後根據已有的字典,對詞組序列進行解碼,得到最後可能的文本表示。

獨家|一文讀懂語音識別(附學習資源)

1. 聲學信號預處理

作為語音識別的前提與基礎,語音信號的預處理過程至關重要。在最終進行模板匹配的時候,是將輸入語音信號的特徵參數同模板庫中的特徵參數進行對比,因此,只有在預處理階段得到能夠表徵語音信號本質特徵的特徵參數,才能夠將這些特徵參數進行匹配進行識別率高的語音識別。

首先需要對聲音信號進行濾波與採樣,此過程主要是為了排除非人體發聲以外頻率的信號與50Hz電流頻率的干擾,該過程一般是用一個帶通濾波器、設定上下戒指頻率進行濾波,再將原有離散信號進行量化處理實現的;之後需要平滑信號的高頻與低頻部分的銜接段,從而可以在同一信噪比條件下對頻譜進行求解,使得分析更為方便快捷;分幀加窗操作是為了將原有頻域隨時間變化的信號具有短時平穩特性,即將連續的信號用不同長度的採集窗口分成一個個獨立的頻域穩定的部分以便於分析,此過程主要是採用預加重技術;最後還需要進行端點檢測工作,也就是對輸入語音信號的起止點進行正確判斷,這主要是通過短時能量(同一幀內信號變化的幅度)與短時平均過零率(同一幀內採樣信號經過零的次數)來進行大致的判定,具體可以參考文末【參考文獻】。

2. 聲學特徵提取

完成信號的預處理之後,隨後進行的就是整個過程中極為關鍵的特徵提取的操作。將原始波形進行識別並不能取得很好的識別效果,頻域變換後提取的特徵參數用於識別,而能用於語音識別的特徵參數必須滿足以下幾點:

  • 特徵參數能夠儘量描述語音的根本特徵;

  • 儘量降低參數分量之間的耦合,對數據進行壓縮;

  • 應使計算特徵參數的過程更加簡便,使算法更加高效。 基音週期、共振峰值等參數都可以作為表徵語音特性的特徵參數。

目前主流研究機構最常用到的特徵參數有:線性預測倒譜系數(LPCC)和 Mel 倒譜系數(MFCC)。兩種特徵參數在倒譜域上對語音信號進行操作,前者以發聲模型作為出發點,利用 LPC 技術求倒譜系數。後者則模擬聽覺模型,把語音經過濾波器組模型的輸出做為聲學特徵,然後利用離散傅里葉變換(DFT)進行變換。

所謂基音週期,是指聲帶振動頻率(基頻)的振動週期,因其能夠有效表徵語音信號特徵,因此從最初的語音識別研究開始,基音週期檢測就是一個至關重要的研究點;所謂共振峰,是指語音信號中能量集中的區域,因其表徵了聲道的物理特徵,並且是發音音質的主要決定條件,因此同樣是十分重要的特徵參數。關於這二者的詳細提取方法以及目前主流的特徵參數LPCC、MFCC等詳細方法在此不再贅述,可以查閱文末【參考文獻】。此外,目前也有許多研究者開始將深度學習中一些方法應用在特徵提取中,取得了較快的進展,這部分將在第3章中進行比較詳細的介紹。

3. 聲學模型

聲學模型是語音識別系統中非常重要的一個組件,對不同基本單元的區分能力直接關係到識別結果的好壞。語音識別本質上一個模式識別的過程,而模式識別的核心是分類器和分類決策的問題。

通常,在孤立詞、中小詞彙量識別中使用動態時間規整(DTW)分類器會有良好的識別效果,並且識別速度快,系統開銷小,是語音識別中很成功的匹配算法。但是,在大詞彙量、非特定人語音識別的時候,DTW 識別效果就會急劇下降,這時候使用隱馬爾科夫模型(HMM)進行訓練識別效果就會有明顯提升,由於在傳統語音識別中一般採用連續的高斯混合模型GMM來對狀態輸出密度函數進行刻畫,因此又稱為GMM-HMM構架。

同時,隨著深度學習的發展,通過深度神經網絡來完成聲學建模,形成所謂的DNN-HMM構架來取代傳統的GMM-HMM構架,在語音識別上也取得了很好的效果,將在第3章中進行介紹,本章先對於高斯混合模型-隱馬爾科夫模型(GMM-HMM)的基本理論進行介紹。

3.1 高斯混合模型

對於一個隨機向量 x,如果它的聯合概率密度函數符合公式2-9,則稱它服從高斯分佈,並記為 x ∼ N(µ, Σ)。

獨家|一文讀懂語音識別(附學習資源)

獨家|一文讀懂語音識別(附學習資源)

其中,µ 為分佈的期望,Σ 為分佈的協方差矩陣。高斯分佈有很強的近似真實世界數據的能力,同時又易於計算,因此被廣泛地應用在各個學科之中。但是,仍然有很多類型的數據不好被一個高斯分佈所描述。這時候我們可以使用多個高斯分佈的混合分佈來描述這些數據,由多個分量分別負責不同潛在的數據來源。此時,隨機變量符合密度函數。

獨家|一文讀懂語音識別(附學習資源)

其中,M 為分量的個數,通常由問題規模來確定。

我們稱認為數據服從混合高斯分佈所使用的模型為高斯混合模型。高斯混合模型被廣泛的應用在很多語音識別系統的聲學模型中。考慮到在語音識別中向量的維數相對較大,所以我們通常會假設混合高斯分佈中的協方差矩陣 Σm 為對角矩陣。這樣既大大減少了參數的數量,同時可以提高計算的效率。

使用高斯混合模型對短時特徵向量建模有以下幾個好處:首先,高斯混合模型的具有很強的建模能力,只要分量總數足夠多,高斯混合模型就可以以任意精度來逼近一個概率分佈函數;另外,使用 EM 算法可以很容易地使模型在訓練數據上收斂。對於計算速度和過擬合等問題,人們還研究出了參數綁定的 GMM 和子空間高斯混合模型 (subspace GMM) 來解決。除了使用 EM 算法作最大似然估計以外,我們還可以使用和詞或音素錯誤率直接相關的區分性的誤差函數來訓練高斯混合模型,能夠極大地提高系統性能。因此,直到在聲學模型中使用深度神經網絡的技術出現之前,高斯混合模型一直是短時特徵向量建模的不二選擇。

但是,高斯混合模型同樣具有一個嚴重的缺點:高斯混合模型對於靠近向量空間上一個非線性流形 (manifold) 上的數據建模能力非常差。例如,假設一些數據分佈在一個球面兩側,且距離球面非常近。如果使用一個合適的分類模型,我們可能只需要很少的參數就可以將球面兩側的數據區分開。但是,如果使用高斯混合模型描繪他們的實際分佈情況,我們需要非常多的高斯分佈分量才能足夠精確地刻畫。這驅使我們尋找一個能夠更有效利用語音信息進行分類的模型。

3.2 隱馬爾科夫模型

我們現在考慮一個離散的隨機序列,若轉移概率符合馬爾可夫性質,即將來狀態和過去狀態獨立,則稱其為一條馬爾可夫鏈 (Markov Chain)。若轉移概率和時間無關,則稱其為齊次 (homogeneous) 馬爾可夫鏈。馬爾可夫鏈的輸出和預先定義好的狀態一一對應,對於任意給定的狀態,輸出是可觀測的,沒有隨機性。如果我們對輸出進行擴展,使馬爾可夫鏈的每個狀態輸出為一個概率分佈函數。這樣的話馬爾可夫鏈的狀態不能被直接觀測到,只能通過受狀態變化影響的符合概率分佈的其他變量來推測。我們稱以這種以隱馬爾可夫序列假設來建模數據的模型為隱馬爾可夫模型。

對應到語音識別系統中,我們使用隱馬爾可夫模型來刻畫一個音素內部子狀態變化,來解決特徵序列到多個語音基本單元之間對應關係的問題。

獨家|一文讀懂語音識別(附學習資源)

在語音識別任務中使用隱馬爾可夫模型需要計算模型在一段語音片段上的可能性。而在訓練的時候,我們需要使用 Baum-Welch 算法[23] 學習隱馬爾可夫模型參數,進行最大似然估計 (Maximum Likelihood Estimation, MLE)。Baum-Welch 算法是EM (Expectation-Maximization) 算法的一種特例,利用前後項概率信息迭代地依次進行計算條件期望的 E 步驟和最大化條件期望的 M 步驟。

4. 語言模型

語言模型主要是刻畫人類語言表達的方式習慣,著重描述了詞與詞在排列結構上的內在聯繫。在語音識別解碼的過程中,在詞內轉移參考發聲詞典、詞間轉移參考語言模型,好的語言模型不僅能夠提高解碼效率,還能在一定程度上提高識別率。語言模型分為規則模型和統計模型兩類,統計語言模型用概率統計的方法來刻畫語言單位內在的統計規律,其設計簡單實用而且取得了很好的效果,已經被廣泛用於語音識別、機器翻譯、情感識別等領域。

最簡單又卻又最常用的語言模型是 N 元語言模型 (N-gram Language Model,N-gram LM) 。N 元語言模型假設當前在給定上文環境下,當前詞的概率只與前N-1 個詞相關。於是詞序列 w1, . . . , wm 的概率 P(w1, . . . , wm) 可以近似為

獨家|一文讀懂語音識別(附學習資源)

為了得到公式中的每一個詞在給定上文下的概率,我們需要一定數量的該語言文本來估算。可以直接使用包含上文的詞對在全部上文詞對中的比例來計算該概率,即

獨家|一文讀懂語音識別(附學習資源)

對於在文本中未出現的詞對,我們需要使用平滑方法來進行近似,如 Good-Turing估計或 Kneser-Ney 平滑等。

5. 解碼與字典

解碼器是識別階段的核心組件,通過訓練好的模型對語音進行解碼,獲得最可能的詞序列,或者根據識別中間結果生成識別網格 (lattice) 以供後續組件處理。解碼器部分的核心算法是動態規劃算法 Viterbi。由於解碼空間非常巨大,通常我們在實際應用中會使用限定搜索寬度的令牌傳遞方法 (token passing)。

傳統解碼器會完全動態生成解碼圖 (decode graph),如著名語音識別工具HTK(HMM Tool Kit) 中的 HVite 和 HDecode 等。這樣的實現內存佔用較小,但考慮到各個組件的複雜性,整個系統的流程繁瑣,不方便高效地將語言模型和聲學模型結合起來,同時更加難以擴展。現在主流的解碼器實現會一定程度上使用預生成的有限狀態變換器 (Finite State Transducer, FST) 作為預加載的靜態解碼圖。這裡我們可以將語言模型 (G),詞彙表(L),上下文相關信息 (C),隱馬爾可夫模型(H)四個部分分別構建為標準的有限狀態變換器,再通過標準的有限狀態變換器操作將他們組合起來,構建一個從上下文相關音素子狀態到詞的變換器。這樣的實現方法額外使用了一些內存空間,但讓解碼器的指令序列變得更加整齊,使得一個高效的解碼器的構建更加容易。同時,我們可以對預先構建的有限狀態變換器進行預優化,合併和剪掉不必要的部分,使得搜索空間變得更加合理。

小結:

在過去,最流行的語音識別系統通常使用梅爾倒譜系數MFCC或者相對頻譜變換-感知線性預測 RASTA-PLP,作為特徵向量,使用高斯混合模型-隱馬爾科夫模型GMM-HMM作為聲學模型,用最大似然準則,ML和期望最大化算法來訓練這些模型。

三、語音識別的前沿領域

早在上個世紀八十年代,就有研究者在語言識別中使用神經網絡作為分類器。但受限於當時機器的計算能力,語音數據的稀少,以及對語音基本單元建模的選擇等等因素,神經網絡分類器並沒有在後來成為語音識別系統中成為主流,效果不如使用高斯混合模型。但隨著新世紀人們對神經網絡的重新認識,深度學習的風潮再次席捲了語音界,人們紛紛轉向研究深度神經網絡在語音識別中的應用。深度神經網絡模型是區分性 (discriminative) 的模型,對於區分不同的基本單位這個任務來說,比需要描述完整分佈的產生性 (generative) 模型高斯混合模型模型需要的參數相對更少,更容易獲得好的效果。

隨著深度學習的大熱,諸如人工神經網絡ANN,卷積神經網絡CNN以及重要的反向傳播BP等重要概念已經廣為人知,在此就不再進行贅述。

1. 深度學習與聲學特徵提取

一種最簡單的在傳統 HMM-GMM 系統中應用神經網絡的方法就是使用神經網路進行特徵學習。這樣的方法不用修改已有的語音識別框架,可以在不大改系統的基礎上提高系統的性能。

利用傳統的語音特徵提取算法(如MFCC 或 PLP)提取的特徵只對單幀信號作用,不能很好地涵蓋有效語音信息,也易受噪聲汙染。對於語音的特徵學習和語音識別而言,這個目標可以歸納為對原始頻譜特徵的使用或是對波形特徵的使用。過去 30 年以來,雖然對語音頻譜進行變換丟失了原始語音數據的部分信息,但是多種“手工製作”的特徵促進了 GMM-HMM 系統識別率的巨大提升。其中最成功的是非自適應的餘弦變換,它促進了 MFCC特徵的產生。餘弦變換近似地去除了特徵成分之間的相關性,這對使用對角協方差陣的 GMM 來說很重要的。然而,當深度學習模型替代 GMM 模型後以後,使得去除特徵之間的相關性變得無關緊要。

在利用DNN進行特徵提取中,存在兩種比較常見的思路:第一種是瓶頸 (bottlenec, BN) 特徵。我們需要構造一個瓶頸形狀的神經網絡,即其中有一個隱藏層的維度比其他的隱藏層的維度相對小很多。接下來,我們既可以使用自動編碼器 (auto encoder) 對網絡進行無監督訓練,也可以令網絡的輸出目標為狀態後驗概率,通過 BP 算法進行有監督訓練。訓練完成後,將瓶頸後面的網絡結構刪去,取此時網絡的輸出為特徵。這樣獲得的 BN 特徵可以被認為是一種非線性的特徵變換和降維技術。在構建 HMM-GMM 聲學模型時,我們通常將 BN 特徵和傳統短時特徵如 MFCC等拼接在一起,共同作為 HMM-GMM 模型的輸入進行學習。工作中使用經過預訓練的深度神經網絡替代傳統 BN 特徵中常常使用的淺層網絡,結合區分性訓練的方法使系統的性能得到了大幅度的提升。另一種特徵學習方法為使用串聯 (tandem) 特徵。在工作中,串聯特徵首先使用神經網絡分類器估算音素的後驗概率,然後將網絡輸出的向量通過 PCA 做正交化作為 HMM-GMM 系統輸入的特徵。這樣的串聯方法比直接使用神經網絡混合模型和標準 GMM 模型的效果都要好。而 Sivadas 等人 在串聯特徵中使用了層次化的結構,將原來單一的神經網絡替換為多個神經網絡,分別被訓練為具有不同的功能而又層次化地組織在一起。這種方法比原有單一神經網絡的參數規模少,訓練時間更短,同時獲得了更好的性能。

2. 深度學習與聲學建模

隨著深度神經網絡在語音識別中的作用被一步步更深地挖掘,直接採用HMM-DNN 混合模型便成了更好的選擇。在 HMM-DNN 混合模型中,我們將不同狀態使用的多個 GMM 模型通過一個深度神經網絡代替。我們需要訓練一個深度神經網絡,訓練目標是估算輸入的語音幀在每一個 HMM 狀態下的後驗概率,即P(qt = s|xt)。為了能夠正確的估算在不同狀態的後驗概率,我們通常需要先通過已有的 HMM-GMM 模型和標註生成訓練語料的強制對齊信息 (force alignment) 作為網絡訓練的目標。而強制對齊信息的好壞也很大程度上影響訓練好的 HMM-DNN混合模型系統性能,[38] 的工作中人們通過迭代使用新訓練好的 HMM-DNN 混合模型生成對齊信息重新訓練 HMM-DNN 混合模型的方式進一步提高了系統的性能。另外,我們通常會使用相鄰的多個幀的特徵複合而成的特徵作為神經網絡的輸入,增強網絡對相鄰信息的利用能力。

3. 未來的研究方向

目前採用深度學習結合隱馬爾科夫模型的語音識別系統已經取得了較好的識別效果,如百度 Deep Speech 2 的短語識別的詞錯率降到了3.7%,微軟英語語音識別詞錯率達到了 5.9%,並且已經推向了商業應用,但目前的智能語音識別還是存在著相當的提升空間。

在機器之心主辦的第一屆全球機器智能峰會(GMIS 2017)上,騰訊 AI Lab 副主任、西雅圖人工智能研究室負責人俞棟發表了主題為《語音識別領域的前沿研究》的演講,探討分享了語音識別領域的 4 個前沿問題:

研究方向一:更有效的序列到序列直接轉換的模型

語音識別實際上是把語音信號的序列轉化為文字或詞的序列,所以很多人認為要解決這個問題,找到一個行之有效、序列到序列的轉換模型就可以了。

從前的絕大部分研究是通過對問題做假設,然後據此在語音信號序列到詞序列之間構造若干個組件,把語音信號序列逐步轉換成詞的序列。這些假設中的許多部分,比如短時平穩假設和conditional independence假設,在某些特定場合是合理的,但是在很多真實的場景下是有問題的。而序列到序列直接轉換的模型背後的思路是說,如果我們去掉基於有問題的假設而設計的這些組件,然後以從訓練數據中學到的轉換模型來替換,就有可能找到更好的方法,使序列轉換更準確。這樣做另外一個好處是整個的訓練過程也可以變簡單。

研究方向二:雞尾酒會問題

在安靜環境下的語音識別系統已經接近了人類的水平。目前也有很多實際的應用,但目前的語音識別系統在強噪聲干擾情況下還很難達到實用化要求。對於人類的聽覺系統則有一種“雞尾酒會效應”,我們在具有背景噪聲干擾的情況下,可以將注意力集中在某一個人的談話之中,而這種人類聽覺系統的功能目前語音識別系統還很難實現,該問題在遠場麥克風時會體現的更為明顯,一種可能的方法就是採用麥克風陣列,同時從多位置、多角度捕捉聲音信號來提升識別的效果,但這未必是最優的解決方案,未來通過對大腦的進一步研究可能會為我們帶來啟發。

研究方向三:持續預測與適應的模型

在語音識別領域,能否建造一個持續做預測系統呢?這樣可以不斷根據已有的識別結果來為下一次識別進行改進,而目前在語音識別上,普遍上還是僅僅將語音與文本做簡單的匹配從而進行識別,對於語言中具體信息間的聯繫利用還是非常不足的,因此如果可以建造一個更好的模型,它能夠持續地做識別。它需要的特點是什麼呢?一個是它能夠非常快地做Adaptation,使得下一次再做識別的時候,我們有辦法把類似信息用更好的方式壓縮在模型裡面,所以在下一次可以很快做識別。

研究方向四:前後端聯合優化

傳統來講,前端的信號處理技術一般只用到當前狀態下的語音的信號信息。而機器學習方法用到很多的訓練器裡學到的信息,但是很少用到當前幀的信息,它不進行數據建模,所以我們有沒有辦法把這兩種方法比較好地融合在一起,這是目前很多研究組織發力的一個方向。

另外,我們有沒有辦法更好地把前端的信號處理跟後端的語音識別引擎做更好的優化。因為前端信號處理有可能丟失信息,且不可在後端恢復。所以我們有沒有辦法做一個自動的系統,能夠比較好地分配這些信息的信號處理,使得前端可以比較少地丟失信息,從而在後端把這些信息更好地利用起來。

四、資源推薦

資源站

http://www.52nlp.cn/%e4%b9%a6%e7%b1%8d

我愛語音識別,裡邊有各種書籍、課程等各種資源,還有交流論壇

書籍

  • 黃學東博士的Spoken Language Processing

  • L. Rabiner教授和美國國家工程院院士莊炳煌教授合著的Fundamentals of Speech Recognition

  • 劍橋大學前副校長、英國皇家工程院院士Steve Young教授 HTK工具包的手冊,HTK Book。

工具包

  • HTK

HTK( http://htk.eng.cam.ac.uk )是劍橋大學開發的一個非常經典的語音識別工具包,全球大約有10萬專業用戶。HTK使用C語言編寫的,最早的代碼已經有20多年的歷史了。關於HTK的一個故事是與它有關的劍橋Entropy公司曾經被微軟公司購買,在獲得Entropy的語音團隊後,微軟公司又將HTK的版權還給了劍橋大學,日後成為了免費的開源工具。HTK的最大優點是代碼和功能非常穩定,並且集成的都是最主流的語音識別技術;並且HTK的很多擴展包本身也非常經典,比如最重要的統計語音合成工具包HTS。HTK的另一大優點是它有相對最完善的文檔手冊,也就是前文提到的HTK Book。HTK的缺點之一是更新相對緩慢,並且部分代碼由於編寫時間比較久,需要一定的更新。HTK在2015年底已經更新了包含有神經網絡技術的3.5 beta版本。HTK的另一個缺點是目前缺乏易用的腳本系統,HTK附帶的資源管理(RM)數據集的例子雖然涵蓋了GMM-HMM、自適應、區分性訓練、DNN等主要技術,但部分腳本使用tcsh編寫,不方便上手。

  • Kaldi

Kaldi( Kaldi · GitHub )是一個使用C++編寫的全面向對象的工具包。Kaldi是傳說中發現咖啡的咖啡之神的名字,用這個名字的意思據說是希望工具包像咖啡那樣容易、方便、流行,具體方式之一包括髮布大量比較適合初學者上手的可以直接運行的腳本和例子,所以據說國內很多語音公司都是直接使用Kaldi或從Kaldi的源代碼學習技術。Kaldi是由前微軟公司研究院的Dan Povey博士與捷克的BUT大學聯合開發的。另外值得一提的是,Dan Povey博士也是HTK的作者之一,於是Kaldi和HTK的技術思路比較相近,但經過若干年的發展,Kaldi集成的技術已經多於HTK。這部分是因為HTK開發協議不同:由於Kaldi用戶協議比較開放,於是經常可以第一時間集成很多新技術。但優點和缺點往往是伴生的,Kaldi的一個缺點是目前由於貢獻者比較多,所以代碼的branch比較多,並且有時會有不穩定或有問題的代碼更新,所以如果使用最新的代碼時常會遇到問題,甚至有時有版本前後不兼容的情況。所以使用Kaldi比較新的功能的話,推薦多比較幾個branch看看。並且Kaldi暫時缺少完善的手冊,所以入門的話可以考慮多向有經驗的用戶討論請教。

  • CNTK

最近另一個非常值得推薦的新工具包是微軟公司由俞棟博士領銜開發的CNTK( Computational Network Toolkit (CNTK) ),其中關於神經網絡的功能非常強大,據說優於Kaldi中許多常用的神經網絡branch。CNTK的一大亮點是定位於多種問題的組合,比如機器翻譯+語音識別等等。但這樣也導致CNTK並不是完全專業的語音識別工具,需要配合Kaldi等工具使用。據說微軟公司正在對CNTK進行優化和更新,未來優化後的版本有望從源代碼質量到運行效率都有顯著提升。另外,CNTK毫無疑問也是以上工具包中對Windows平臺支持最好的,比較符合國內的使用習慣。

課程

http://cs224d.stanford.edu/

斯坦福大學在三月份開設了一門“深度學習與自然語言處理”的課程:CS224d: Deep Learning for Natural Language Processing,授課老師是青年才俊 Richard Socher,他本人是德國人,大學期間涉足自然語言處理,在德國讀研時又專攻計算機視覺,之後在斯坦福大學攻讀博士學位,拜師NLP領域的巨牛 Chris Manning 和 Deep Learning 領域的巨牛 Andrew Ng,其博士論文是《Recursive Deep Learning for Natural Language Processing and Computer Vision》,也算是多年求學生涯的完美一擊。畢業後以聯合創始人及CTO的身份創辦了MetaMind,作為AI領域的新星創業公司,MetaMind創辦之初就拿了800萬美元的風投,值得關注。

演講

https://v.qq.com/x/page/b0389gr6qsy.html

參考文獻:

王一蒙. 語音識別關鍵技術研究[D]. 電子科技大學, 2015.

劉超. 語音識別中的深度學習方法[D]. 清華大學, 2016.

張建華. 基於深度學習的語音識別應用研究[D]. 北京郵電大學, 2015.

周盼. 基於深層神經網絡的語音識別聲學建模研究[D]. 中國科學技術大學, 2014.

柯登峰, 徐波. 互聯網時代語音識別基本問題[J]. 中國科學:信息科學, 2013, 43(12):1578-1597.

GMIS 2017 | 騰訊AI Lab副主任俞棟:語音識別研究的四大前沿方向,機器之心

更多精彩乾貨內容,敬請搜索關注清華-青島數據科學研究院官方公眾平臺“數據派THU”

相關推薦

推薦中...