搜狗陳偉:從語音識別到交互 驅動力和挑戰

在7月28日的「QingCloud Insight 2017」上,麥思博(msup)組織了主題為“AI落地實踐”的專場論壇。搜狗語音交互技術中心研發總監 陳偉 在本場帶來了題為《從語音識別到語音交互》的演講。

本文為早餐君根據速記整理而成,在不改變講者原意的情況下做了編輯和縮略。特別感謝青雲QingCloud、麥思博(msup)、搜狗同學的貢獻。

陳偉:搜狗語音交互技術中心研發總監,語音技術負責人,負責搜狗語音識別、語音合成、機器翻譯、聲紋識別、手寫識別等多項技術的研發工作,同時負責搜狗知音引擎語音技術的研發,致力於通過技術和產品的創新提升語音交互品質,為用戶提供優質的語音使用體驗。

以下為陳偉的演講內容。

我叫陳偉,來自於搜狗語音交互技術中心,主要研究語音方面的技術應用,很高興與大家分享搜狗語音所做的工作。我們團隊是在2012年成立,主要做語音識別,用於搜狗的手機輸入法上。

移動互聯網興起以後,手機成為人的一部分,使用鍵盤做輸入的方式在很多情況下不方便,所以語音會成為很重要的輸入方式。

在做了一段時間的語音識別後,我們發現,語音交互會是未來智能語音或者人機交互的主要方式。光有識別是不夠的,在過去幾年,我們的主要工作在語音交互。

我們在2016年8月3日發佈了搜狗語音交互解決方案,今天跟大家分享的是在做語音識別和語音交互中的心得。

搜狗語音識別效果提升背後的三大驅動力

這張圖體現了2010年以後AI技術的興起,為真正落地的產品帶來了質的飛躍。左邊軸描述的是線上語音識別錯誤率的下降。

從準確率,或者從錯誤率來看,最初(2012年)接近40%的字錯誤率,2016年上半年,把同樣的測試級做到接近4.8%,2017年在3%左右。也就是說,在安靜或者相對安靜環境下,線上的語音識別準確率能夠達到97%

右邊軸代表的是數據的變化。最初,因為沒有數據,使用了第三方API快速積累用戶數據,在過去幾年中快速拿到了3萬小時以上的數據類型。

隨著深度學習技術發展,以及大數據驅動,(數據和算法)相得益彰,帶來線上語音識別能力,從不可用變成可用或者好用狀態。

目前,在搜狗語音識別客戶端,每天可以蒐集2.5億次語音識別請求,相當於是22萬小時的數據。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

這張圖可以看到引發深度學習和技術驅動產品主要有三方面的因素。首先有大量的數據,現在搜狗輸入法一天差不多22萬小時原始數據。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

其次,深度學習算法,最早期是深度神經網絡,到循環神經網絡,以及序列模型各種模型複合在一起的複雜算法。現在這個圈子很活躍,每天都有很多論文出現。

再者,跟計算有關,當大量數據以及複雜算法出現後,就會考慮如何能在可控時間範圍內,穩定產出好的模型、能力,這就依賴於運算。

最初,數據很少,更多依賴於幾塊卡或者單卡,GPU卡,到現在是上百萬卡。從G級別,演變到P級別的運算能力。數據、運算、算法,三個因素共同驅動了技術從不可為變成可為。

這是近幾年用到的主要算法,有很多模型,從端到端,更多的避免了複雜的流水線處理,直接是目標驅動的算法。

深度學習領域,在往兩個維度發展,搜狗在語音方面做到50多層的CN(神經網絡)結構,以及各種複合結構,序列到序列,這個結構在翻譯(應用)上已經成功。在語音應用方面也在不斷嘗試,算法方面變得更深更寬。並且,新的網絡結構在不斷出現。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

運算方面,如何更好的將多塊GPU組合起來,更好的驅動多卡的框架。搜狗在內部也有自己的深度學習平臺,解決了不同結點之間的通信和數據傳輸,以及各種各樣的神經網絡結構。

搜狗語音識別的主要應用場景

在上述因素的共同驅動下,搜狗基於語音識別能力的線上輸入法錯誤率大幅下降。自從2012年開始在搜狗輸入法上使用,到現在,語音識別落地的場景主要分兩種類型:聽寫,轉寫。

聽寫,人對著麥克風說話,隨著語音的不斷錄入會實時出現文字,更多的是強調低延時的語音結果輸出

轉寫,更多是有了大量的語音數據,如何離線產生語音識別結果。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

主要用在什麼場景?聽寫主要在演講,產品叫搜狗聽寫,在大會或者演講場景,演講者不斷說話,屏幕上會實時出現結果,從今年起已經支持了近百場的規模。

直播,教育機構的線上教育,老師講課,以前是學生記筆記,現在是語音識別把老師講課的內容識別成文字,當直播課程結束以後,可能出現一個二維碼,學生只要掃碼就可以得到老師講課的全部筆記。

法院,以前在庭審的過程中法官和嫌疑犯在溝通過程中書記員需要記錄,現在兩個麥克風可以解決這個問題,法官和嫌疑人每個人面前都有一個麥克風,實時把內容轉化為問卷。

醫療,醫生病例的整理。金融、電信,主要是客服,比如有大量客服數據,需要監控客服質量,以及客服和用戶的對話過程,這些場景下正在逐漸使用轉寫的技術。

語音識別更好地提升了輸入的效率。

除此之外,我們團隊也在做一些其他技術,例如如何把語音和其他技術結合起來。給大家舉兩個目前在做的比較重要的項目。

一個是搜狗機器同傳技術,希望輔助人工同傳,在今年的很多演講場合會出現搜狗同傳。(展示了王小川在烏鎮互聯網大會上演講時搜狗機器同傳的場景)。不只是中文語音轉化為中文文本,還將英文翻譯成中文。另外,就是語音識別、理解、合成組成的語音交互技術

智能語音交互——搜狗知音引擎

接下來聊語音交互。搜狗從去年開始提出了自己的人工智能戰略:自然交互+知識計算。搜狗的使命就是讓用戶表達和獲取信息更簡單。自然交互和語音交互過程中核心在於語言,除了語音作為主要模態,更多是多模態的輸入,包括語音、圖象。當語音->語言的時候有語音識別,語言和語言之間是翻譯,跨語言的交流。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

語音交互,2011年蘋果推出Siri以後,國內大規模出現了助手類產品,搜狗語音助手在2013年推出,在業界做的不錯。可以看到它大致的能力,講個笑話,說我要找衛生間,它會直接推送一個肯德基,讓你知道肯德基有衛生間。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

業界這種助手類的產品到後來證明是失敗了,基本上沒有存活下來。主要原因有幾點,所謂通用的雲技術能力遠遠達不到通用的能力,大家想把這個事做的沒有任何的產品邊界是比較難的。另外到底有沒有命中用戶的剛需,用戶有沒有很強的意願每天打開助手做各種各樣的交互。在去年,我們把語音交互的解決方案叫作搜狗知音引擎。

我們把知音引擎限定在三個範圍:車裡、客廳、戶外。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

剛需場景主要在於它怎麼解放雙手,甚至有時候解放雙眼。開車時手被方向盤綁定必須要使用語音;在房間客廳裡夠不著很遠距離,同時可能像音響這種連屏幕都沒有,必須使用語音;在戶外走路可能用鍵盤打字特別不方便,甚至不安全,可不可以使用語音。

複雜場景下解決語音識別的四個“殺手鐗”

如何做好語音交互,是不是把這三項技術簡單串聯起來就可以了?這是前年春節時候一個山東大漢的視頻,大家看一下。

這麼搞笑的效果是山東口音造成的嗎?不是,對於語音識別,口音是一方面,另外是噪聲。在很強的口音,以及噪聲很大的環境下對於識別準確率依然是很沉重的打擊。

語義理解上,能否支持多輪對話。有的場景是問北京天氣怎麼樣,它會給一個答案,你接著問明天、後天、上海的呢?問了一圈機器就蒙了。糾錯,剛才示例中一個很大的問題就是錯了無法糾正。此外,很多方案是基於模板做的,如何能精確理解人的自然語言。

另外,全雙工的持續交互。所謂的全雙工就是我在聽你說話的過程中,我會實時打斷你,雙方之間是並行處理的兩個通道,如何解決?不能簡單優化某個單點能力,而是通過組合成有效的整體系統能力。

分開來看,對於識別這件事情。之前說在搜狗輸入法上達到2.5億次請求的場景更多的是近場語音聽寫過程,拿著手機離嘴很近才會說,可以天然地規避很多噪聲。

當擴展到車載、智能家居場景下,其實把人和設備的距離拉的比較遠,比如對著音響,或者對著車載設備至少是接近於60公分或者一米以外的距離。對於高噪環境下的語音交互可能是未來語音交互的主要場景。

如何去解決呢?我列了幾個關鍵點。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

第一,單麥克風和多麥克風的陣列算法解決噪音,業界有很多算法,對工業界來說,麥克風陣列已經成為標配,如果想做好場景,麥克風陣列能更好地獲取目標說話人方向的聲音,而不是全方位的聲音。它可以做說話人的聲源定位,很好地把空間切割開,告訴目標說話人在哪個位置,我的陣列指向你,獲取語音。

第二,回聲消除和打斷。我們對著設備說話的時候,其實麥克風收到的聲音是音樂加了說話的聲音,或者是機器的聲音加上說話的聲音,是混合在一起的聲音。如何把機器的聲音去掉只留下我的聲音,其實就是回聲消除,有了這個能力之後可以穩定獲取到人的聲音,有了多麥克風陣列可以做到遠距離的識音。

第三,語音喚醒和離線識別。語音喚醒在於如何能夠把機器的語音助手調起來,要說一些喚醒詞,大家會看到最近業界瘋狂發佈了很多音箱,區別在喚醒詞(能力)。

離線識別,對於很多場景很重要。我們很難永遠聯網,開車到某偏遠地段,想用語音控制的時候,沒有網絡就幹不成。離線的好處是不用聯網,基本忽略網絡延遲的能力。搜狗在離線方面會把任務限定在一些命令詞上,比如幫我調低音量等等,這樣準確率能夠得到保證。

第四,聲紋識別。這是在以上三個通用能力之外的個性化能力,具體是指,會區分不同的人來做這件事情。比如今年和一些電視廠商推了很多語音方案,就涉及到面對小朋友在使用電視的時候,是否要加兒童鎖,首先要判定是不是小朋友。或者,當有一個人對著電視在說什麼的時候,可以判定你是誰,比如喜歡看愛情片,下次再說的時候給你推薦很多的愛情片。

從可用到好用 更智能的交互和服務

除了技術之外,產品能做什麼?現在語音識別還做不到百分之百,準確率可能再提升幾個點,能從一個可用到好用的狀態。語音最大的問題在於人們在說的過程中,結果有很強的不確定性,無法預期是否有錯,糾錯的時間,或者糾錯的成本非常高。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

我們用產品思維去思考,能不能彌補這些缺陷。比如,如何去避免錯字,我叫章硯,因為存在多音字,我會說立早章,硯臺的硯。機器有沒有可能理解人類自然糾錯的語言。

搜狗陳偉:從語音識別到交互 驅動力和挑戰

我們去年首先在搜狗輸入法發佈了語音糾錯能力,大部分能力來源於搜狗的輸入法和搜索的能力,比如說單人旁的他,立早章,這些偏旁部首的描述,還有嘉節的嘉,組詞的方式,用了知識圖譜的能力。在這些能力共同作用下,希望用產品的方式彌補目前語音識別可能出現的一些錯誤。

這個能力在剛剛發佈的一款搜狗地圖導航裡已經使用了。舉個例子,北京有一個同音的小區叫風(楓)林綠洲,一個大風的風,一個楓葉的楓。我們的助手會彈出,有兩個地名,一個是風林綠洲在哪兒,還有一個楓林綠洲在哪兒。我們支持另外一種說法我要去楓林綠洲,楓葉的楓,這樣可以降低交互成本。糾錯能力對於交互依然非常重要。

除此之外,因為場景逐漸從通用變成垂直,如何對接到不同垂直場景下的內容和服務非常重要。現在針對人機交互,除了多輪對話和知識圖譜的能力之外,我們主要是依靠搜狗各種各樣的產品日誌、數據,比如生活信息、娛樂消費、知識問答,這是搜狗目前已經有的。

有了剛才說到的語音識別、理解、合成能力,給大家看一下我們在兩三個月之前做的一款智能車載後視鏡,會在下半年發佈。

過程中秀的是多輪交互能力,中間不斷轉換主題,不停的打斷,機器在對話過程中可以隨時打斷他,機器可以終止自己的播報,切入下一個話題。

相關推薦

推薦中...