思必馳高始興:十年賭語音交互,從寒冬的孤守者到人工智能新貴

人工智能 物聯網 語音識別 機器人 品途公司志 2017-07-16

思必馳高始興:十年賭語音交互,從寒冬的孤守者到人工智能新貴

品途公司志(ID:e-qika) 作者:尹磊

去年十一月,搜狗、百度和科大訊飛接連召開發佈會,幾乎在同一時段宣佈各自中文語音識別準確率達到了97%。

然而,這個令人興奮的數字,卻有一個先決條件——只能適用於安靜的、近距離的環境下。

換句話說,97%的準確率目前只與手持移動終端相匹配。在物聯網場景下,這個數字難以作為背書。

而這往往成為人們對語音交互應用的認知誤區。

“識別率達到99%也沒用,因為現在的核心問題是怎麼做好語音交互,而不是語音識別。”

思必馳創始人兼CEO高始興對品途說,人機對話的核心不單是語音識別,當把語音技術真正應用在物聯網,交互就不單要依靠耳朵,還要結合更多的理解,包括結合大腦的對話,結合語音合成,甚至未來對眼神、情緒的判斷。

思必馳的紅海策略

在人工智能領域,我們經常聽到搜狗、百度、科大訊飛這些大廠,而由於一直在B端默默耕耘,思必馳這個公司的名氣,相較於它的功績,是被低估了的。

它是世界人機對話挑戰賽的冠軍;而在國際評測中,思必馳的錯誤率是7.09%,超越了10%的國際水平;另外,在高盛“全球人工智能生態報告”中,國內只有兩家公司入圍高盛名單“全球最具競爭力的人工智能公司”,其中之一就是思必馳。

技術領域內,思必馳在全球也是領先的。

語音識別在不同的場景裡,會面對大量的技術挑戰,比如噪聲,比如距離,高始興解釋稱,“現在一流的語音公司,在手機上的語音識別基本都很高了,但手機我們是拿到嘴邊,定向的輸入,而使用智能音箱、智能電視、智能機器人時,是有一段距離的,還有噪聲的干擾,我們不可能對電視去喊。所以真正將交互做好,絕對不僅僅是語音識別,還有聲學和信號處理等多方面問題,在物聯網和一些行業應用中很複雜,會有幾何倍數的挑戰。”

儘管技術研發上很有挑戰,但人工智能現在發展依然火熱,這個熱代表是錢熱、湧入的競爭對手多,資本依然具有翻雲覆雨的能力。

在這片紅海里廝殺,有些企業遍地開花,有些則專攻垂直領域。但這個領域邊際廣闊,想要崛起,高始興的詞條是“極致”,這意味著思必馳選擇了深扎垂直領域。

在被寄予厚望的AI未來世界,思必馳走向極致的路徑,一是要靠專注,二是靠技術驅動。

“人工智能這種技術,它還是很創新的,落到不同的行業,週期、挑戰都特別大,無論是教育、物聯網還是金融醫療……不專注你就肯定做不到極致;而且這裡邊一定是技術驅動的,專注於對行業的理解,迅速把技術原形到產品原形,再到產品、商品形成一個循環。這就是為什麼思必馳做智能硬件,並且有這麼大的研究團隊。”

思必馳還實行產學研一體化,與上海交通大學成立智能人機交互聯合實驗室,由思必馳首席科學家俞凱負責,主要從事前沿和底層的技術研究,相關技術成果和知識產權都歸思必馳所有並轉化。

思必馳團隊目前超過300人,其中做底語音技術的近百人,這在國內面向物聯網市場的企業中,規模屈指可數。

站穩垂直領域:車載、家居、機器人

一般整個產業鏈達到成熟,往往是產品端已經做到了極致,從渠道端能夠鋪下去,隨後內容生態越來越豐富。就像當年的蘋果,它將體驗和生態做到極致,隨之讓用戶的使用得心應手。

對於思必馳來說,車載、家居、機器人,是其專攻的三大垂直領域,並希望以此來達到蘋果公司所創造的極致用戶體驗。

思必馳所提供的產品服務,一方面是思必馳對話操作系統AIOS系統(AISpeech Operating System思必馳人工智能操作系統)——運行於Android、Linux、阿里雲OS等主流操作系統之上,目前主要用於車載領域(AIOS For Car)和家居領域(AIOS For Home);另一方面是軟硬一體化的芯片模組。它提供聲源定位、個性喚醒、語音識別、語義理解、多輪對話等功能,主要用於家居和機器人領域。

目前,思必馳針對家居和機器人領域,推出四麥線性陣列和環形六麥陣列等軟硬一體化的解決方案。另外還跟君正、慶科、全志等芯片廠商建立戰略合作,推出內置語音交互的芯片模塊。

智能車載

智能車載是思必馳最重要的領域,在智能後視鏡市場,思必馳佔據著60%左右的市場份額。

語音交互是車內的剛性需求,據統計,國內30%的交通事故是打電話、看微信導致,因為沒有其他的交互手段,語音交互成了最自然的剛性需求。

另外,無論是前端還是後端,車聯網的整個產品體驗都在提升,越來越多人不再把車當成交通工具,而是一個生活空間。這一空間定位的轉變,自然就會帶來更多服務,語音交互也成了最主要的調用方式,目前國內機動車保有量在3億左右,每年的出貨量是2500萬,據高始興預計,5年以後,市面上30%~50%的機動車,都會有語音交互系統。

“這很嚇人的,假設咱們說30%,即使按3億的保有量來算,就是9000萬,接近一個億的車載用戶代表著什麼?”

“車聯網語音交互的活躍度是50%,你要知道在手機端上能達到50%的,除了微信可能也就只有支付寶,這個量級其實是很恐怖的。”

智能家居

而在智能家居市場,亞馬遜Echo的出現帶火了整個行業,也帶動了智能語音技術在家居領域的廣泛應用。目前,思必馳在家居領域的落地產品包括智能音箱、智能電視、冰箱空調、路由中控等硬件設備,而最近大熱的音箱類目,小米互聯網音箱、聯想智能音箱、阿里天貓精靈X1,均採用了思必馳的語音技術。

“物聯網是個長期的市場,現在智能音箱非常火爆,但這類智能終端如果僅僅只有語音識別的能力,那還只是玩具,它真正需要的是語音交互。為什麼亞馬遜的Echo出來後,很多企業都開始做智能音箱?是因為它是一個生態。它通過人工智能的賦能,讓終端成為智能終端,智能終端什麼意思呢?用戶無所不為。無論是給設備放到本地也好,放到雲端也好,一定是需要整體的語音交互系統,人工智能操作系統。這在中國是遲早的事,但不一定是智能音箱,我們只是看到它浮出來了,所以我們要試一下。”

智能機器人

思必馳合作的機器人廠商也以家庭陪伴和育兒機器人為主,客戶包括樂橙機器人、小蘿蔔機器人、360發佈的小巴迪、360小巴迪和其生態鏈機器人金剛蟻小憶等,都採用了思必馳的智能語音技術。

迎接爆發

“我知道會爆發,但真的不知道是哪一天,因為預言不可能那麼準。”

2007年移動互聯網方興未艾,PC上已經有語音的應用,但場景有限。高始興的團隊在英國劍橋成立,並在2008年回國,團隊核心技術人員均來自劍橋大學,去年被蘋果收購的語音技術公司VocallQ的創始人,正是他們創立劍橋公司時的合夥人。

2011年蘋果的SIRI發佈,高始興為之一振,他意識到語音技術的春天不遠了,“當時我們在後臺的數據提升非常快,這也說明這個事的用戶價值體現越來越明顯。”

按照高始興的解釋,現在的思必馳準確來說始於2012年。“2007年的業務我們已經打包賣掉了,因為我們那個時候還是研究院的品牌,對我來說,最大的轉折就是在2012年。”

思必馳之前曾將語音技術應用於英語口語教育業務,後來獲得聯想之星和啟迪等三方聯合投資,逐步把人力、精力及資本都專注到了智能硬件領域,並將口語教育業務剝離,成立子公司——馳聲科技,後被網龍全資收購。

在2016年初,思必馳B輪融資中拿到阿里巴巴的2億人民幣,繼續加快市場拓展和海外佈局。時隔半年,在2016年9月,思必馳又拿到一輪新的鉅額融資,思必馳逐漸成為了資本追逐的目標。

人機交互的很多理論,源自人與人交互的研究,尤其是社會心理學、認知心理學、認知神經科學等等,TheMedia Equation更是為此奠定了理論基礎,這本“聖書”核心的觀點就是人與計算機的交互行為,與人人的交互是高度相同的,很多時候甚至是潛意識的。

儘管有學術根據,也有大批量的資本入局,但直到目前,人們對語音交互是否能真正成為下一代的入口,依然存在爭議。但從2007年的矇昧時期開始,高始興就篤信這個未來,而且認定這個需求會越來越大。高始興和他的團隊已經用了10年時間來證明他們的判斷,並在國際技術領域留下濃墨重彩的一筆,我們無法具象地描述人工智能的時代會是什麼面貌,但可以肯定的是,正是這樣一批人推動著時代變革,並重啟商業世界的規則。

對話高始興

品途:為什麼在語音交互上,思必馳以及國內的技術會在全球異軍突起?

高始興:幾個方面:第一,在國際上做語音識別也好,人機對話也好,我們是蠻早的,特別是人機對話。另外我們的首席科學家俞凱,是幾個大的國際語音項目的核心繫統搭建人,人機對話的奠基,他也是參與者之一,一個公司或者一個研究方向,領軍人物非常關鍵。第二,思必馳創業10年,我們一直是技術驅動型的公司,人工智能時代技術驅動非常關鍵,而且核心人才我們基本上沒怎麼流動,還招了一批劍橋、來自於香港、新加坡、以色列,包括清華、北大、中科大、中科院、上海交大、南京大學的優秀學生。第三,任何一個技術都有產業化的樓梯,我們一直在結合產業去做,而且相對比較聚焦,我們會聚焦到物聯網,在這兒做的很紮實。底層的技術你要做的工程化,做到產品化、商業化還是有很多挑戰的,其實當你完成這個路徑以後,很多數據過來,對場景的理解,行當的理解,就是有助於你這個技術提升。

品途:整個供應鏈上議價空間最大的是否還是語音技術?

高始興:應該說是。因為第一,語音技術是這個產品的核心定義,其核心的智能還是語音智能、語音交互;另外,它是一個入口,沒有入口不行,而且你沒有第二個交互界面。

品途:你眼中的科大訊飛?

高始興:我覺得第一他們是非常了不起的,你想我們在2007年開始創業,我管那時候叫“冬天”,但他們在1998年就開始了,那是寒冬,什麼人工智能,當時也沒有這個說法,那時候更沒人知道語音識別;第二,這個行業其實還處在春天,甚至是在初春,未來的5到30年,是一場第四次工業革命。相比來說,訊飛是遍地開花,類似於一個草原生態,而思必馳,我覺得是一個大數據平臺,就是Focus在一個領域,找一個能夠葉茂枝繁的路徑。

相關推薦

推薦中...