VR系統的人機交互進階-語音篇

語音識別技術發展多年,在眾多領域已經被廣泛運用。國外上有蘋果的Siri,谷歌的Google Assistant,亞馬遜的Alexa等產品;國內有科大訊飛、雲知聲、盛大、捷通華聲、搜狗語音助手、紫冬口譯、百度語音等產品。

VR系統的人機交互進階-語音篇

語音識別成文字的準確度已經非常高了,現在順風、京東的快遞小哥使用的PDA進行地址輸入的時候都是直接通過麥克風進行語音輸入,基本沒有什麼轉換錯誤,準確程度非常高。現在的智能手機已經把語音輸入作為標配了,一些翻譯軟件,通過語音到語音的翻譯,效果也很好,可以說現在的語音識別技術非常成熟。

VR系統的人機交互進階-語音篇

如果僅僅只是讓機器聽懂用戶下的指令,目前的識別技術早就能夠勝任了,平叔相信VR的很多控制都會採用語音識別技術。VR軟件平臺巨頭Unity已經在他們的開發平臺引入了語言識別模塊,以後的應用開發者將會非常便利的使用語言進行人機互動。

VR系統的人機交互進階-語音篇

語言識別作為這幾年最火的AI方向之一,目前從理論基礎到工程實現都有了很大的突破,但是想要達到人機無違和感的交流顯然還遠遠不夠,智能手機的語音輸入系統大多數需要在線識別,這會帶來比較大的延時,如果想要快速的識別需要內嵌語音識別的芯片。目前的語音識別技術用在文字輸入、翻譯等實時性要求不是特別高的場景沒有問題,但是應用到操作控制就不一定夠用。

在VR系統中整合進語音系統就需要集成識別芯片、麥克風等模塊,這樣會進一步增加VR頭盔的成本,也會增加頭盔的重量,還會消耗一定的計算性能。現在的VR頭盔首要的技術難關還集中在顯示效果方面,語音識別這一塊的技術很有可能不會打包集成而是利用現有的解決方案。

就VR頭盔領頭羊Facebook來說,他們早在2015年初就收購了語音識別技術公司Wit.ai,所有Rift的說不定啥時候突然就提供了語音識別功能,這個目前對Facebook來說很容易。

這裡要特別介紹一個在語音識別技術上很牛的中國企業–科大訊飛,這家公司是依託中國科技大學的語音識別實驗室成長起來的,目前在國內已經處於語音識別技術的寡頭地位,識別精度在國際上也名列前茅(不過查了一下這家公司的幾大股東都是國資背景,第一大股東居然是中移動,平叔對國字號在高科技產業上有偏見,呵呵)。

VR系統的人機交互進階-語音篇

總的來說,語言肯定會作為VR時代的重要人機互動手段,鑑於現階段語言識別技術的現狀,這塊將會優先作為人機互動的技術之一優先發展。

相關推薦

推薦中...