搜狗陳偉：從語音識別到交互驅動力和挑戰

語音識別搜狗搜狗拼音移動互聯網 AI早餐匯 AI早餐匯 2017-08-26

在7月28日的「QingCloud Insight 2017」上，麥思博（msup）組織了主題為“AI落地實踐”的專場論壇。搜狗語音交互技術中心研發總監陳偉在本場帶來了題為《從語音識別到語音交互》的演講。

本文為早餐君根據速記整理而成，在不改變講者原意的情況下做了編輯和縮略。特別感謝青雲QingCloud、麥思博（msup）、搜狗同學的貢獻。

陳偉：搜狗語音交互技術中心研發總監，語音技術負責人，負責搜狗語音識別、語音合成、機器翻譯、聲紋識別、手寫識別等多項技術的研發工作，同時負責搜狗知音引擎語音技術的研發，致力於通過技術和產品的創新提升語音交互品質，為用戶提供優質的語音使用體驗。

以下為陳偉的演講內容。

我叫陳偉，來自於搜狗語音交互技術中心，主要研究語音方面的技術應用，很高興與大家分享搜狗語音所做的工作。我們團隊是在2012年成立，主要做語音識別，用於搜狗的手機輸入法上。

移動互聯網興起以後，手機成為人的一部分，使用鍵盤做輸入的方式在很多情況下不方便，所以語音會成為很重要的輸入方式。

在做了一段時間的語音識別後，我們發現，語音交互會是未來智能語音或者人機交互的主要方式。光有識別是不夠的，在過去幾年，我們的主要工作在語音交互。

我們在2016年8月3日發佈了搜狗語音交互解決方案，今天跟大家分享的是在做語音識別和語音交互中的心得。

搜狗語音識別效果提升背後的三大驅動力

這張圖體現了2010年以後AI技術的興起，為真正落地的產品帶來了質的飛躍。左邊軸描述的是線上語音識別錯誤率的下降。

從準確率，或者從錯誤率來看，最初（2012年）接近40%的字錯誤率，2016年上半年，把同樣的測試級做到接近4.8%，2017年在3%左右。也就是說，在安靜或者相對安靜環境下，線上的語音識別準確率能夠達到97%。

右邊軸代表的是數據的變化。最初，因為沒有數據，使用了第三方API快速積累用戶數據，在過去幾年中快速拿到了3萬小時以上的數據類型。

隨著深度學習技術發展，以及大數據驅動，（數據和算法）相得益彰，帶來線上語音識別能力，從不可用變成可用或者好用狀態。

目前，在搜狗語音識別客戶端，每天可以蒐集2.5億次語音識別請求，相當於是22萬小時的數據。

搜狗陳偉：從語音識別到交互驅動力和挑戰

這張圖可以看到引發深度學習和技術驅動產品主要有三方面的因素。首先有大量的數據，現在搜狗輸入法一天差不多22萬小時原始數據。

搜狗陳偉：從語音識別到交互驅動力和挑戰

其次，深度學習算法，最早期是深度神經網絡，到循環神經網絡，以及序列模型，各種模型複合在一起的複雜算法。現在這個圈子很活躍，每天都有很多論文出現。

再者，跟計算有關，當大量數據以及複雜算法出現後，就會考慮如何能在可控時間範圍內，穩定產出好的模型、能力，這就依賴於運算。

最初，數據很少，更多依賴於幾塊卡或者單卡，GPU卡，到現在是上百萬卡。從G級別，演變到P級別的運算能力。數據、運算、算法，三個因素共同驅動了技術從不可為變成可為。

這是近幾年用到的主要算法，有很多模型，從端到端，更多的避免了複雜的流水線處理，直接是目標驅動的算法。

深度學習領域，在往深和寬兩個維度發展，搜狗在語音方面做到50多層的CN（神經網絡）結構，以及各種複合結構，序列到序列，這個結構在翻譯（應用）上已經成功。在語音應用方面也在不斷嘗試，算法方面變得更深更寬。並且，新的網絡結構在不斷出現。

搜狗陳偉：從語音識別到交互驅動力和挑戰

運算方面，如何更好的將多塊GPU組合起來，更好的驅動多卡的框架。搜狗在內部也有自己的深度學習平臺，解決了不同結點之間的通信和數據傳輸，以及各種各樣的神經網絡結構。

搜狗語音識別的主要應用場景

在上述因素的共同驅動下，搜狗基於語音識別能力的線上輸入法錯誤率大幅下降。自從2012年開始在搜狗輸入法上使用，到現在，語音識別落地的場景主要分兩種類型：聽寫，轉寫。

聽寫，人對著麥克風說話，隨著語音的不斷錄入會實時出現文字，更多的是強調低延時的語音結果輸出。

轉寫，更多是有了大量的語音數據，如何離線產生語音識別結果。

搜狗陳偉：從語音識別到交互驅動力和挑戰

主要用在什麼場景？聽寫主要在演講，產品叫搜狗聽寫，在大會或者演講場景，演講者不斷說話，屏幕上會實時出現結果，從今年起已經支持了近百場的規模。

直播，教育機構的線上教育，老師講課，以前是學生記筆記，現在是語音識別把老師講課的內容識別成文字，當直播課程結束以後，可能出現一個二維碼，學生只要掃碼就可以得到老師講課的全部筆記。

法院，以前在庭審的過程中法官和嫌疑犯在溝通過程中書記員需要記錄，現在兩個麥克風可以解決這個問題，法官和嫌疑人每個人面前都有一個麥克風，實時把內容轉化為問卷。

醫療，醫生病例的整理。金融、電信，主要是客服，比如有大量客服數據，需要監控客服質量，以及客服和用戶的對話過程，這些場景下正在逐漸使用轉寫的技術。

語音識別更好地提升了輸入的效率。

除此之外，我們團隊也在做一些其他技術，例如如何把語音和其他技術結合起來。給大家舉兩個目前在做的比較重要的項目。

一個是搜狗機器同傳技術，希望輔助人工同傳，在今年的很多演講場合會出現搜狗同傳。（展示了王小川在烏鎮互聯網大會上演講時搜狗機器同傳的場景）。不只是中文語音轉化為中文文本，還將英文翻譯成中文。另外，就是語音識別、理解、合成組成的語音交互技術。

智能語音交互——搜狗知音引擎

接下來聊語音交互。搜狗從去年開始提出了自己的人工智能戰略：自然交互+知識計算。搜狗的使命就是讓用戶表達和獲取信息更簡單。自然交互和語音交互過程中核心在於語言，除了語音作為主要模態，更多是多模態的輸入，包括語音、圖象。當語音->語言的時候有語音識別，語言和語言之間是翻譯，跨語言的交流。

搜狗陳偉：從語音識別到交互驅動力和挑戰

語音交互，2011年蘋果推出Siri以後，國內大規模出現了助手類產品，搜狗語音助手在2013年推出，在業界做的不錯。可以看到它大致的能力，講個笑話，說我要找衛生間，它會直接推送一個肯德基，讓你知道肯德基有衛生間。

搜狗陳偉：從語音識別到交互驅動力和挑戰

業界這種助手類的產品到後來證明是失敗了，基本上沒有存活下來。主要原因有幾點，所謂通用的雲技術能力遠遠達不到通用的能力，大家想把這個事做的沒有任何的產品邊界是比較難的。另外到底有沒有命中用戶的剛需，用戶有沒有很強的意願每天打開助手做各種各樣的交互。在去年，我們把語音交互的解決方案叫作搜狗知音引擎。

我們把知音引擎限定在三個範圍：車裡、客廳、戶外。

搜狗陳偉：從語音識別到交互驅動力和挑戰

剛需場景主要在於它怎麼解放雙手，甚至有時候解放雙眼。開車時手被方向盤綁定必須要使用語音；在房間客廳裡夠不著很遠距離，同時可能像音響這種連屏幕都沒有，必須使用語音；在戶外走路可能用鍵盤打字特別不方便，甚至不安全，可不可以使用語音。

複雜場景下解決語音識別的四個“殺手鐗”

如何做好語音交互，是不是把這三項技術簡單串聯起來就可以了？這是前年春節時候一個山東大漢的視頻，大家看一下。

這麼搞笑的效果是山東口音造成的嗎？不是，對於語音識別，口音是一方面，另外是噪聲。在很強的口音，以及噪聲很大的環境下對於識別準確率依然是很沉重的打擊。

語義理解上，能否支持多輪對話。有的場景是問北京天氣怎麼樣，它會給一個答案，你接著問明天、後天、上海的呢？問了一圈機器就蒙了。糾錯，剛才示例中一個很大的問題就是錯了無法糾正。此外，很多方案是基於模板做的，如何能精確理解人的自然語言。

另外，全雙工的持續交互。所謂的全雙工就是我在聽你說話的過程中，我會實時打斷你，雙方之間是並行處理的兩個通道，如何解決？不能簡單優化某個單點能力，而是通過組合成有效的整體系統能力。

分開來看，對於識別這件事情。之前說在搜狗輸入法上達到2.5億次請求的場景更多的是近場語音聽寫過程，拿著手機離嘴很近才會說，可以天然地規避很多噪聲。

當擴展到車載、智能家居場景下，其實把人和設備的距離拉的比較遠，比如對著音響，或者對著車載設備至少是接近於60公分或者一米以外的距離。對於高噪環境下的語音交互可能是未來語音交互的主要場景。

如何去解決呢？我列了幾個關鍵點。

搜狗陳偉：從語音識別到交互驅動力和挑戰

第一，單麥克風和多麥克風的陣列算法。解決噪音，業界有很多算法，對工業界來說，麥克風陣列已經成為標配，如果想做好場景，麥克風陣列能更好地獲取目標說話人方向的聲音，而不是全方位的聲音。它可以做說話人的聲源定位，很好地把空間切割開，告訴目標說話人在哪個位置，我的陣列指向你，獲取語音。

第二，回聲消除和打斷。我們對著設備說話的時候，其實麥克風收到的聲音是音樂加了說話的聲音，或者是機器的聲音加上說話的聲音，是混合在一起的聲音。如何把機器的聲音去掉只留下我的聲音，其實就是回聲消除，有了這個能力之後可以穩定獲取到人的聲音，有了多麥克風陣列可以做到遠距離的識音。

第三，語音喚醒和離線識別。語音喚醒在於如何能夠把機器的語音助手調起來，要說一些喚醒詞，大家會看到最近業界瘋狂發佈了很多音箱，區別在喚醒詞（能力）。

離線識別，對於很多場景很重要。我們很難永遠聯網，開車到某偏遠地段，想用語音控制的時候，沒有網絡就幹不成。離線的好處是不用聯網，基本忽略網絡延遲的能力。搜狗在離線方面會把任務限定在一些命令詞上，比如幫我調低音量等等，這樣準確率能夠得到保證。

第四，聲紋識別。這是在以上三個通用能力之外的個性化能力，具體是指，會區分不同的人來做這件事情。比如今年和一些電視廠商推了很多語音方案，就涉及到面對小朋友在使用電視的時候，是否要加兒童鎖，首先要判定是不是小朋友。或者，當有一個人對著電視在說什麼的時候，可以判定你是誰，比如喜歡看愛情片，下次再說的時候給你推薦很多的愛情片。

從可用到好用更智能的交互和服務

除了技術之外，產品能做什麼？現在語音識別還做不到百分之百，準確率可能再提升幾個點，能從一個可用到好用的狀態。語音最大的問題在於人們在說的過程中，結果有很強的不確定性，無法預期是否有錯，糾錯的時間，或者糾錯的成本非常高。

搜狗陳偉：從語音識別到交互驅動力和挑戰

我們用產品思維去思考，能不能彌補這些缺陷。比如，如何去避免錯字，我叫章硯，因為存在多音字，我會說立早章，硯臺的硯。機器有沒有可能理解人類自然糾錯的語言。

搜狗陳偉：從語音識別到交互驅動力和挑戰

我們去年首先在搜狗輸入法發佈了語音糾錯能力，大部分能力來源於搜狗的輸入法和搜索的能力，比如說單人旁的他，立早章，這些偏旁部首的描述，還有嘉節的嘉，組詞的方式，用了知識圖譜的能力。在這些能力共同作用下，希望用產品的方式彌補目前語音識別可能出現的一些錯誤。

這個能力在剛剛發佈的一款搜狗地圖導航裡已經使用了。舉個例子，北京有一個同音的小區叫風（楓）林綠洲，一個大風的風，一個楓葉的楓。我們的助手會彈出，有兩個地名，一個是風林綠洲在哪兒，還有一個楓林綠洲在哪兒。我們支持另外一種說法我要去楓林綠洲，楓葉的楓，這樣可以降低交互成本。糾錯能力對於交互依然非常重要。

除此之外，因為場景逐漸從通用變成垂直，如何對接到不同垂直場景下的內容和服務非常重要。現在針對人機交互，除了多輪對話和知識圖譜的能力之外，我們主要是依靠搜狗各種各樣的產品日誌、數據，比如生活信息、娛樂消費、知識問答，這是搜狗目前已經有的。

有了剛才說到的語音識別、理解、合成能力，給大家看一下我們在兩三個月之前做的一款智能車載後視鏡，會在下半年發佈。

過程中秀的是多輪交互能力，中間不斷轉換主題，不停的打斷，機器在對話過程中可以隨時打斷他，機器可以終止自己的播報，切入下一個話題。