智能語音行業研究報告

智能家居大數據穿戴設備移動互聯網行業報告研究院 2017-06-10

智能語音行業研究報告

一、智能語音：談入口太早，但不可或缺

智能音箱是檯面上的狂歡，本質還在用戶、數據和服務

自2014年11月Amazon推出收款基於語音交互的智能音箱Echo以來，2015年科大訊飛發佈智能音箱叮咚，2016年穀歌發佈智能音箱Google Home。

而進入2017年以後更是密集，5月聯想發佈智能音箱，Amazon發佈帶觸屏的Echo Show，微軟聯手音頻設備製造商哈曼.卡頓合作打造Invoke，6月蘋果發佈HomePod。同時國內BAT等互聯網巨頭也紛紛有意入局。

智能語音行業研究報告

智能音箱本身不是目的，爭奪的是背後的用戶、數據以及服務入口。其實基於語音交互技術的入口產品可以是音箱、電視等家居產品，甚至可以是室內可及的智能設備，之所以選擇音箱作為突破口，只不過看重這樣一款在初期能承擔除交互之外其他功能的載體。

對於用戶而言，需要的是能夠將眾多繁雜的應用和接口進行封裝的工具，不再需要自己主動到每一個具體應用上獲取服務，而是藉助語音交互統一的入口提供。對於巨頭公司而言，目的在於藉此獲得移動互聯網之後一個能夠獲取用戶數據並持續提供服務的入口。

單就智能音箱而言，交互體驗和連接的服務是影響用戶選擇的重要因素。拋開智能音箱的設定，其本質是一款基於語音進行人機交互的智能硬件，在算法層面涉及到降噪、遠場識別、喚醒與打斷以及多輪會話、語義分析等自然語言理解技術，硬件層面主要涉及到進行聲音採集的麥克風陣列技術以及聲音播放時揚聲器處理。軟硬件的協同配合方能使得人機交互更為自然。

如果說播放音樂是傳統音箱的主要功能，那麼對於智能音箱而言，這已經幾乎成為附帶選項，互相之間拼的不是、或者說不只是音質問題，更多是人機交互的體驗，以及交互背後所能支撐和兼容的服務數量與質量。無論是對接線上的互聯網服務，還是線下智能家居系列產品，若無法形成產品、應用以及數據的生態閉環，則智能音箱的入口目標就難以達成。

智能語音行業研究報告

國內智能音箱的慘淡銷量還與消費習慣相關，用戶培育需要時間。與Amazon Echo千萬量級銷量相比，國內科大訊飛與京東聯合發佈的叮咚音箱銷量似乎遜色不止一籌。除了在技術和應用層面可能存在的差異之外，各自根植的土壤環境也有著先天的差異。

若去掉“智能”的概念，智能音箱首先是個音箱，與歐美超過85%的家庭音箱普及率相比，國內甚至不足20%，在對音樂以及音箱設備的需求觀念上的差異導致音箱對歐美人群或許是“生活剛需”，而對國內用戶或許目前還只是少部分人的愛好。正如前文所述，音箱只是恰好成為載體之一，最核心的依然是物聯網時代智能終端的人機交互入口。

信息獲取與表達決定語音交互成為階段性不可或缺的一環

互聯網PC時代人機交互主要依賴鼠標和鍵盤，移動互聯網時代觸摸屏交互成為標配，那麼人工智能時代的交互會由哪種方式主宰？基於語音控制的智能音箱還是智能電視？

這些或許有可能成為智能家居入口，但即便Amazon Echo已然達到千萬級銷量及超過1萬項技能點，似乎也不足以成為人工智能時代交互入口的產品擔當。

智能語音行業研究報告

從信息獲取以及表達的角度來看，交互入口的演變必然是從習慣到本能的革命。從信息獲取來看，研究表明，人的各種感覺器官從外界獲取信息來源=視覺60%+聽覺20%+觸覺15%+味覺3%+嗅覺2%。

其中視覺、聽覺及觸覺累計高達95%，基於此或許就不難理解為何無論是互聯網時代的PC還是移動互聯網時代的智能機，不僅無法離開鍵鼠套裝和觸摸傳感器，而且還無法離開那塊或大或小的顯示屏。

從信息表達來看，1967年美國著名心理學家、傳播學家艾伯特梅拉比安等人經過大量實驗，提出人類在溝通中全部的表達信息=肢體語言信息55%+聲音信息38%+語言信息7%，或許這也能在一定程度上解釋為何各家智能音箱先後登場卻依然未能挑起入口大梁。

我們認為，從鍵鼠輸入的抽象符號到觸摸屏直接的滑動與按壓，這已經在一定程度上靠近了人類習慣，而未來的交互方式將更為接近人的本能。

語音或許是人機交互的階段性成果，基於語音的人機交互或許會成為某個特定場景的入口，但語音與肢體動作的融合或許更可能擔當得起一個時代的交互入口，至於更為遙遠的未來，或許會有類似腦電波等其他方式。

智能語音行業研究報告

二、智能語音相關技術及發展歷史

智能語音主要研究人機之間語音信息的處理和反饋問題，從表現形式來看，即研究如何通過語音實現人機交互，相關支撐技術主要可劃分為基礎語音技術、智能化技術以及大數據技術。

智能語音行業研究報告

語音識別準確率在引入深度學習之後得到快速提升。語音目標在於使機器最終能夠將識別語音中的內容、說話人、語種等信息。在技術思路經歷了基於標準模板匹配和基於統計模型(HMM）兩個階段；

2010年開始由微軟的俞棟、鄧力等與Hinton合作，在語音識別領域引入深度學習替換傳統的特徵提取，隨著深度學習的引入以及在此基礎上派生的各類模型的組合，語音識別準確率大幅提升。

智能語音行業研究報告

2017年3月IBM通過長短時記憶、WaveNet語言模型和三個強聲學模型的組合，在Switchboard數據集上電話語音識別錯誤率降低到5.5%，無論是對比微軟2016年測試結果給出的人類速記員5.9%錯誤率還是此次IBM給出的人類5.1%，機器都已經極為接近人類水平。

智能語音行業研究報告

語音合成已有200多年悠久歷史，表現力尚有待繼續提升。在計算機技術出現之前主要模仿人體發聲原理製作相應硬件，計算機技術出現後音質、音色和自然度都有提升。隨著技術演進，語音合成的複雜度、自然度和音質都已取得不錯的成績，目前研究重點在於提高合成音的表現力，如語氣和情感等。

智能語音行業研究報告

聲紋識別目前也正向著深度學習方向發展，但不管是用傳統算法還是深度學習，都需要事先建立聲紋庫。

聲紋識別主要根據語音波形反饋的說話人生理和行為特徵，自動識別說話人身份，在安全性上可與指紋、掌形和虹膜等生物識別技術相媲美，目前已經用於公安和司法系統證據鑑定中的身份鑑別，以及銀行支付過程的身份認證。

聲紋識別和語音識別結合，能通過識別內容防止錄音假冒，和情緒識別結合，則可以感知識別對象是否處於受脅迫狀態。聲紋識別需要相應的聲紋庫，且至少要保證合理的性別、年齡段、地域、口音、職業分佈。

測試樣本應該涵蓋文本內容是否相關、採集設備、傳輸信道、環境噪音、錄音回放、聲音模仿、時間跨度、採樣時長、健康狀況和情感因素等主要影響因素，因而聲紋數據庫成為聲紋識別技術突破的重要門檻。目前最全的是公安部的聲紋鑑別庫。

自然語言理解目前尚處於淺層語義分析階段，大致包含詞法分析、句法分析、語義分析這三個既遞進又相互包含的層面。

目前機器對句子的理解還只能做到語義角色標註層面，即標出句中的句子成分和主被動關係等，屬於淺層語義分析技術。未來要讓機器更好地理解人類語言，並實現自然交互，還有待深度學習等機器學習方法的進步。

智能語音行業研究報告

多輪對話，主要建立在語音識別、合成以及自然語言理解等技術基礎之上，自然度和準確度有待提高。

多輪對話系統一般分為任務型和閒聊型，任務型是協助用戶完成具體的某項事情，如：設置鬧鍾、查天氣等；而閒聊型是實現人機的情感聊天互動，如陪護型機器人。多輪對話相比單輪對話方式提高了用戶交互的自然度和準確度。

對話管理是實現多輪對話系統的核心，功能分為對話狀態追蹤(DST)和對話決策(Dialog Policy)，前者作用是更新對話狀態，記錄到目前為止用戶所有的聊天記錄和系統行為，後者依據DST對話狀態產生系統行為，即決定下一步反饋或調用等行為。

智能語音行業研究報告

三、智能語音產業發展現狀

市場規模快速擴大，且國內增速顯著超過全球

在移動互聯網、大數據、雲計算、深度學習等技術的發展推動下，智能語音技術漸趨成熟，行業發展進入場景應用佈局階段。移動互聯網、智能家居、汽車、醫療、教育等領域的應用帶動智能語音產業規模持續快速增長。

2015年全球智能語音市場規模達62.1億美元，同比增長34.2%。中國智能語音產業市場規模也逐步擴大，2015年40.3億元產業規模約佔全球市場份額10%，且增速顯著高於全球市場，預計至2017年份額佔比將提升到14%。

智能語音行業研究報告

各要素齊發力，推動智能語音形成完整產業鏈

借用我們前序報告中提出的人工智能商業化應用“人機料法環”模型，智能語音產業在人才儲備、計算設施、數據積累、技術算法以及應用場景等五要素共同推動下已形成較為完整的產業鏈。

智能語音行業研究報告

從產業鏈角度，智能語音行業可分為四個部分。基礎研究機構：語音合成、語音識別、聲紋識別等基礎技術的研發和技術輸出；語音語義數據提供商：為算法研究或技術輸出機構提供語音、語義數據庫以及定製化的數據採集和處理；

語音技術提供商：將基礎技術轉換為軟件或行業整體解決方案，提供嵌入式或平臺式的語音軟件服務、行業智能語音系統整體解決方案；智能語音應用提供商：智能移動設備、智能車載系統、智能家居等智能終端廠商，以及輸入法、娛樂等各類APP或軟件客戶端等，從產品屬性來看主要包括消費級產品和專業級行業應用。

智能語音行業研究報告

算法紅利逐漸消失，一家獨大轉向多方競爭

隨著深度學習的引入和發展，智能語音的算法紅利正逐漸消失。Nuance自2005年與ScanSoft合併後，成為全球最大的語音技術廠商，憑藉自身先進的語音識別、自然語言理解技術以及優秀的語音解決方案在2012年全球語音市場中佔據62%，加上谷歌、微軟合計佔據超過85%。

2010年深度學習首次引入語音識別，隨後配合計算能力的提升和海量語音語料數據的積累，識別準確率得到大幅提升。儘管2015年Nuance全球市場份額仍居第一，但已大幅下降至31.6%，而谷歌、蘋果、微軟及科大訊飛市場份額增長較快，分別達到28.4%、15.4%、8.1%和4.5%。

科技巨頭對於深度學習算法及機器學習框架的開源使得智能語音技術的調用變得更為簡單，模塊化的設計使得應用部署與實施門檻顯著降低。

目前中國智能語音市場被科大訊飛、百度和蘋果佔據絕大多數市場份額，2015年三家合計達79%。其中，科大訊飛市場份額為44.2%，處於市場領先地位。百度進入勢頭強勁，市場份額增長快速。

美國權威雜誌《麻省理工科技評論》公佈的2016年十大突破技術，百度硅谷的Deep Speech2智能語音技術赫然在列。谷歌、微軟、蘋果、百度等互聯網巨頭在資金、數據和2C應用用戶拓展三方面優勢明顯，各方強勢介入將使得全球智能語音行業由一家獨大演變成多方參與競爭的格局。

智能語音行業研究報告

技術驅動，場景應用並藉助數據形成正反饋，三者成為智能語音行業的主要壁壘。技術算法壁壘：隨著智能語音技術的發展,語音識別技術日益成熟，開源語音識別工具降低了語音識別的門檻，但使用過程的穩定性仍有待解決。

語音識別技術進入突破量變到質變的臨界點，相關技術和配套設施的研發能夠為企業築起護城河，百度、搜狗、科大訊飛等公司安靜狀態下語音識別準確率大都達到 97%,目前均在向更高準確率以及非標準環境下的應用發展。

應用場景壁壘：2B應用涉及金融、電信、醫療、交通等行業，這些行業對系統的穩定性要求非常高，非常重視實際應用案例情況,會通過嚴格的招投標選擇最具實力和經驗的智能語音技術和服務供應商，一旦通過評測會保持穩定合作，新企業進入壁壘較高；2C應用層面互聯網巨大具有商業應用和信息入口優勢。

數據積累壁壘：智能語音在各場景應用用戶體驗和客戶粘度提升的關鍵是積累真實環境下的各種語音資料和文本資料進行迭代優化，智能語音應用後形成數據閉環將不斷提升壁壘優勢。

目前智能語音產業的參與者可以分為三大類型：從科研實驗室走出來的獨立語音技術研發和服務提供商，如源於斯坦福研究院STAR實驗室的Nuance、與中國科學技術大學合作的科大訊飛，圍繞智能語音技術研發到應用各環節的初創企業。

如思必馳、雲知聲、出門問問、聲智科技、三角獸、驀然等創業公司，希望搶佔下一代人機交互入口的科技巨頭，如蘋果、谷歌、微軟、亞馬遜、百度、騰訊、搜狗等。

2010年開始，互聯網巨頭紛紛通過自主研發或者併購/參股的方式深入佈局智能語音產業參股的方式深入佈局智能語音產業。在智能語音上的佈局重點圍繞虛擬助手，並且為佔據一定的市場先機，紛紛開始佈局智能車載、智能傢俱、智能醫療、可穿戴設備等細分市場。

智能語音行業研究報告

融合場景、借力硬件提升語音技術實用和穩定性

由於語音信號的多樣性和複雜性，在真實使用場景中，考慮到空間距離、背景噪音、其他人聲干擾、回聲、方言、口音等問題，準確率會大打折扣。提高現實場景中的用戶體驗是智能語音技術完成質的突破的關鍵，涉及技術包括遠場語音識別、喚醒目標檢測、全雙工交互、個性化識別技術等。

2016年10月intel與科大訊飛宣佈合作共同研發AI芯片，將麥克風陣列、遠場語音識別等功能集成到SOC當中，形成完整的遠場語音交互鏈條。

智能語音行業研究報告

目前近場、發音標準的語音識別已經相當成熟，手機端Siri即可視為這一類型，國內科大訊飛、百度、搜狗等在近場、安靜環境下的語音識別準確率都已提升到97%以上。

但對於遠場語音識別而言，雖然從技術原理上來看與近場幾乎相同，但由於音源和麥克風之間的空間距離增大，聲音傳播過程會受到其他人聲、回聲等影響，在具體使用場景下準確率依然對軟硬件都提高了技術要求。

四、智能語音的應用前景

巨頭搶灘虛擬語音助手，並逐漸切入場景應用

語音交互的特點是簡單、快速、解放雙手和眼睛，在很多場景能夠給用戶帶來巨大的體驗優化。例如：避免繁瑣操作：手機眾多APP中直接用語音進入一個應用。

很小或沒有屏幕：智能電視中用語音直接打開特定節目替代操作不便的遙控器、通過智能穿戴設備訪問互聯網。手眼無暇顧及：如開車過程、會議記錄。發掘語音數據的價值：如利用電子病歷語音數據輔助診療。

互聯網女皇Mary Meeker在《2016年互聯網趨勢》中指出，語音交互將成為人機交互的新範式。而事實上隨著智能語音技術的逐漸成熟以及自然語言理解的發展，語音已經成為不同場景下人與智能設備之間交互的重要手段。

巨頭紛紛以虛擬語音助手切入智能語音應用場景。由於物聯網涉及太多領域，跨平臺、跨設備、跨品牌等諸多因素制約產業發展，統一標準是物聯網行業發展的基礎，在此邏輯基礎上谷歌、微軟、亞馬遜等科技巨頭紛紛以智能虛擬助手作為切入口，打造開放平臺、以開源形式吸引開發者構建應用開發生態。

智能語音行業研究報告

面向消費級產品和專業級行業應用，虛擬數字助手用戶數與市場規模快速增長。語音、語義等相關技術的可用性逐漸提高，帶來虛擬數字助手市場的擴張。從應用方向和場景來看，主要用於消費級產品和專業級行業應用。

消費級市場主要是2C或2B2C，應用於衣食住行等生活場景，如手機、智能車載、智能家居、可穿戴設備等。專業級行業應用主要是2B，應用於特定場景，如醫療、教育、呼叫中心、庭審等各個行業。

根據Tractica的預測，活躍消費者虛擬助手用戶數量將從2015年3.9億上升至2021年18億，活躍企業虛擬助手用戶數量將從2015年1.55億上升至2021年8.43億。虛擬助手市場規模將從2015年16億美元增長至2021年158億美元。

智能語音行業研究報告

消費級產品應用場景

消費級市場智能虛擬助手的功能是基於語音交互實現設備控制、日程管理、信息查詢、生活服務、情感陪伴等。

一方面可以通過開放平臺接入第三方應用和服務豐富智能虛擬助手的功能，目前手機虛擬助手正是通過連接各類APP征服終端，另一方面可植入智能硬件終端，向汽車、家居、可穿戴設備等產品延伸，建立消費級智能語音產品的生態體系。

智能語音+車載

開車時雙手和雙眼被佔用，語音交互成為該場景下最合適的交互方式。智能語音與汽車的結合主要為智能車載產品，通過語音完成導航、音樂搜索與播放、信息聽寫等。隨著車聯網的發展，未來將跟社交、娛樂、餐飲等服務進一步結合，在保證安全的前提下提升駕乘體驗。

騰訊汽車等相關調研機構的數據顯示智能車載系統的迭代更新過程中，語音交互的作用和重要性已經越來越得到車主的認可。IMS Research預計到2019年全球將有55%的新車搭載智能語音系統。

在智能車載領域，Nuance、蘋果、谷歌、科大訊飛、百度等語音識別巨頭分別推出Dragon Drive車載語音開發平臺、CarPlay、AndroidAuto、汽車語點系統、CarLife等智能車載系統，並紛紛與汽車廠商達成合作，搶佔智能車載新興市場。

智能語音行業研究報告

智能語音+家居

智能家居產業處於快速發展期，語音控制逐漸成為常見技能點。智能語音可以跟電視、音響、空調、窗簾、燈具、玩具等各種家用設備和智能家居控制中樞系統相結合，通過語音交互實現一個入口控制全部功能。

大數據及人工智能技術的推動、關鍵技術與部件成本的下降以及產業聯盟標準化協議的建立帶來智能家居市場規模的快速增長。Statista研究數據顯示，2016年全球智能家居市場規模已經達到168億美元，其中中國市場佔7%，預計到2021年全球智能家居市場規模將達到793億美元，中國市場份額上升至17%。

智能語音行業研究報告

國外互聯網巨頭紛紛以智能家居產品與智能語音相結合的方式進入智能家居領域。蘋果於2014年推出HomeKit智能家居平臺，並與Siri不斷加強融合。

亞馬遜2014年推出的搭載Alexa的Echo智能音箱，通過語音可以實現播放音樂、新聞、網購下單、Uber叫車、定外賣等任務，根據CIRP、RBC Capital Market等公司的估計，自2014年發售以來，Echo系列產品累計銷售量接近一千萬臺，銷售額達到8-10 億美元。

2016年穀歌推出Google Home智能音箱，搭載Google Assistant虛擬助手，積極強化Google Assistant在智能家居領域的佈局。從互聯網巨頭的佈局可以看出智能語音與智能家居的融合是大勢所趨。

智能語音+可穿戴設備

可穿戴設備受硬件形態的約束，語音交互方式相比觸摸交互方式具有顯著優勢。智能語音技術的引入可將設備從智能手機上解放出來，創造獨立體驗。例如出門問問Ticwear內置貼片式SIM芯片與3G通訊模塊，擁有獨立通訊號碼並可實現實時在線，支持包括語音撥號、短信、拍照，微信語音回覆，語音搜索等功能在內的全中文語音交互。

智能語音在可穿戴設備上的滲透促進可穿戴設備產業及智能語音應用的增長。蘋果2016年發布無線耳機AirPods，能與蘋果手機上的Siri進行語音交互。

根據市場調研公司Slice Intelligence發佈的美國無線耳機市場線上銷售情況報告，蘋果2016年發佈的AirPods在上市銷售的一個月後迅速佔據了無線耳機市場26%的市場份額。

根據前瞻產業研究院的預測，中國健身及運動類可穿戴設備市場規模將從2015年90億元左右增加至2021年244億元，年複合增長率達18%，智能語音在可穿戴設備上的滲透將促進智能語音產業規模快速增長。

智能語音行業研究報告

專業級行業應用場景

專業級市場虛擬助手適用於多種應用場景，從實現功能來看主要形式有語音識別轉寫以及語音、語義內容的分析，以醫療、教育和客服三個領域為例，語音技術與場景的深度融合將為技術壁壘構建應用端的護城河。

智能語音+醫療

智能語音在醫療行業的應用主要有三種：語音導診機器人；電子病歷語音錄入與轉寫、臨床報告語音錄入與轉寫。語音錄入大大提高醫生工作效率和工作質量；患者能夠通過語音電子病歷系統下載打印，能夠擁有完整、清晰易懂的病歷；醫院可以科學管理診療過程和診療信息。

隨著語音病歷的積累，利用大數據技術和深度學習技術能夠挖掘醫學案例語音資料的價值，實現智能輔助診療。

Nuance是全球智能語音醫療解決方案的龍頭企業。Nuance的醫療解決方案已經覆蓋了全美72%的醫療機構，客戶遍及全球30多個國家，每年獲得3億多醫患交流數據。

每年為超過50萬名醫生、1萬個醫療機構提供服務，醫療產品也實現了多樣化：臨床文檔改良（CDI）、臨床語音識別、實時聽寫、計算機輔助編碼、醫療質量把控、移動雲計算等。

國內科大訊飛也積極佈局醫療領域，2016年與北京大學口腔醫院口腔數字化醫療技術和材料國家工程實驗室共建基於語音的門診病歷採集系統正式進入試點，目前科大訊飛的智能語音系統已在北大口腔、瑞金醫院、301醫院等超過20家醫院落地使用。

智能語音行業研究報告

智能語音+教育

智能語音在教育上的應用主要圍繞教育體系下“學、練、測、評 ”等核心需求，主要產品有智能語音訓練與評測、互動教學等。

作為國內智能語音在教育方面的應用先行者，科大訊飛已經將智能語音技術應用在口語訓練與考試、互動教學以及兒童早教智能硬件等產品，而基於語音基礎上拓展開的語義分析技術則開始逐漸應用於主觀題評閱等環節。

智能語音行業研究報告

智能語音+客服

智能語音與客戶服務的結合能夠運用在金融、電信、交通、智能語音與客戶服務的結合能夠運用在金融、電信、交通、O2O、旅遊等各個行業，主要形式有、旅遊等各個行業，主要形式有智能問答、語音質檢、語料挖掘、隱私保護。

相比傳統客戶服務，智能語音的引入能夠發揮三方面的作用：降低企業運營成本，智能客服有效減少客服坐席，減少培訓成本，智能語音質檢能夠提升質檢效率，降低質檢人力成本。

提高營銷能力，智能客服能夠實現快速反應、為重點和熱點問題提供快速統一答覆，確保服務標準化24小時全天候在線為客戶提供問題解決方案，輔助商業決策。

語音識別全文轉寫能夠實現全量客服質檢，同時可以利用自然語言處理技術分析文本，挖掘客戶信息，輔助制定企業商業策略。充分尊重客戶隱私，隱藏客戶真實身份，防止人工客服對客戶的騷擾。

根據中國產業信息網的數據，2014年中國呼叫中心坐席總數達85萬個，呼叫中心座席規模近年來保持穩定增長，隨著人口紅利的消失，企業對智能客服的需求會越來越強烈，智能語音在客服領域有較大的滲透空間。

智能語音行業研究報告

智能語音在呼叫中心領域的應用已較為廣泛，Nuance、科大訊飛、騰訊、阿里巴巴等都佈局了相應業務。

其中，科大訊飛提供的智能客服解決方案已成功應用於電信、金融、電力、交通和教育等行業，在國內主流行業市場佔有率達到80%。主要客戶有中國移動10086、中國聯通10010、工商銀行、招商銀行、中信銀行、深圳發展銀行等。

人臉識別行業研究報告

中國人工智能研究報告

人工智能之終端芯片研究報告

智能語音行業研究報告

一、智能語音：談入口太早，但不可或缺

二、智能語音相關技術及發展歷史

三、智能語音產業發展現狀

四、智能語音的應用前景

相關推薦