羅永浩親自道歉 這家語音識別公司為何如此低調?

語音識別 人工智能 創業 物聯網 金融界 2017-04-25
羅永浩親自道歉 這家語音識別公司為何如此低調?

從語音雲平臺到全力押注物聯網人工智能,等到風口的雲知聲走的並不容易。

/

文|《中國企業家》記者 王雷生 編輯|馬吉英 攝影|鄧攀

雲知聲CEO黃偉走進公司產品展示間,看了一圈,還是沒有想到如何配合攝影師,表現人與機器間的語音交互。

展示間裡擺放著空調、電視、抽油煙機等等,而云知聲的產品,則是嵌入在這些電器裡的語音芯片及背後的語音識別技術,有了它,消費者通過語音就可以對這些電器進行控制。

這多少與雲知聲的處境有些類似。即便曾登上幾家機構的獨角獸榜單,也是不少知名企業的合作伙伴,雲知聲的名字卻並不為公眾熟知。

這家創業近五年的語音識別公司,從語音雲平臺做起,曾為小i機器人(300024,買入)、搜狗、錘子科技、樂視等明星企業和產品提供語音解決方案。2014年開始,它幾乎把所有資源全部押在了物聯網(IoT)領域。

兩年的研發打磨後,2016年,雲知聲先後與格力、美的、華帝等合作推出智能化家電產品。不久前的中國家電及消費電子博覽會上,雲知聲開發的人工智能芯片拿下2017年艾普蘭——核芯獎。

雲知聲透露,截至2016年底,搭載雲知聲智能語音SDK的車機產品出貨量已超過600萬臺,在中國後裝車機市場“佔據比較高的市場份額”;醫療領域,2016年4月,醫療語音錄入系統落戶北京協和醫院後,到年底有近100家醫院完成測試;在教育領域,雲知聲稱,得益於與滬江網、一起作業網等企業的合作,已成為“國內最大的語音評測雲”。雲知聲的下一個方向,是兒童陪伴機器人。

如今,雲知聲終於等到人工智能風口。

語音識別專家、百度前首席科學家吳恩達預測,當語音識別的準確率從95%上升到99%時,語音識別將會成為人類與計算機交互的新方式。而在2016年底,百度、科大訊飛(002230,買入)、搜狗公佈的數據顯示,三家公司的語音識別率都已達到97%。

創業者和資本也在加速湧入。

據不完全統計,2017年前4個月,有10餘家智能語音公司先後獲得融資。3月1日,三角獸科技宣佈獲得5000萬元A輪融資;4月6日,出門問問獲得大眾集團投資的1.8億美元,有評論表示,這輪融資後,出門問問可能將成為智能語音識別領域新的獨角獸;醫語通等垂直領域創業公司也得到了資本的支持。

2014年末,亞馬遜智能音箱Alexa推出,兩年多的時間裡估值接近百億美元,更是刺激了諸多大公司在這一領域加大投入。

熱潮的背後,有一個邏輯被越來越多公司認可,作為人機交互最主要方式之一,智能語音將成為萬物互聯(愛基,淨值,資訊)時代的入口。

尤其在智能家居、車載等重點領域,各大公司幾乎都在佈局,隨著各個公司實力的增強,未來在垂直領域的競爭也在所難免。

羅永浩的道歉

2011年,在中國科學院自動化所碩博連讀加工作了10年之後,“技術上做的很漂亮”卻深感體制內難以實現產業化的樑家恩,決定出來看看,“當時互聯網、移動互聯網比較熱,想看看這些人到底在搞啥。”2011年,他加入了由黃偉剛剛創辦的盛大創新院語音分院。

這一年10月,搭載英文版SIRI語音助手的iPhone4s推出,迅速成為科技界矚目的焦點。樑家恩認真研究過Siri之後,覺得以自己的技術能力,做一個Siri這樣的中文語音助手並不難。“我們覺得語音已經幹了12年了,是不是出來要做點事情?當時我就琢磨,出來試一試,做不成也就認了,不能連嘗試的勇氣都沒有。”

2012年初,他從盛大創新院辭職,創辦雲知聲。與一些尚未開始創業就手握天使投資的創業者不同,雲知聲的起步顯得頗為窘迫,創始人自掏腰包、連續幾個月純投入,一度連發工資都很困難。2012年6月,創始團隊不得不以個人名義向投資人借款,才最終把公司註冊下來。

儘管做語音識別的大方向很清晰,但是這條路該怎麼走,樑家恩當時並沒有想清楚。資料顯示,2012年8月,雲知聲推出了一款名為“愛說說”的語音助手。不到一個月,雲知聲又推出了語音雲平臺,外界的質疑蜂擁而至——一家小創業公司開始就做平臺,就是自己找死。

這多少有些無奈,因為雲知聲的手上,語音數據量非常小,“做人工智能,如果我們搜不來數據,就是無米之炊,技術再牛沒用。”樑家恩說道,“我們判斷整個人工智能,它未來的智能一定是在雲端的,這也是我們做雲平臺的邏輯。”

在數據量上沒有優勢,就在算法上想辦法。雲平臺推出來不到一個月,樑家恩就在淘寶上買回來了幾個遊戲顯卡,開始搭建GPU(圖形處理器)平臺,研究深度學習在語音識別的應用。

雲平臺的推出使數據量猛增,雲知聲準確率達到85%,兩個月後上線的深度學習算法,將準確率提高至91%。這也成為雲知聲之後發展的根基。“現在來看,我們當時的路走對了。”樑家恩說。

幾乎就在平臺上線的同時,Siri中文版推出,百度、搜狗等國內巨頭都想搶先發布自己的中文語音助手。對於當時需要藉助外部技術的搜狗而言,它面臨兩個選擇,一邊是一家已成立10餘年的上市公司,一邊是剛誕生幾個月的創業公司雲知聲。

搜狗進行了非常謹慎的測試,發現兩家技術水平上不分伯仲,但云知聲在處理器的速度上更快,並且通過對私有云優化,將服務器數量從5臺優化到了1臺,成本大大降低,最終決定與雲知聲合作。2012年11月確定合作後,雲知聲只用了兩週就完成了對搜狗語音服務的支持。

真正讓雲知聲走向公眾視線的,是公司與錘子科技羅永浩的合作。

2013年3月15日,距離錘子原定的27日的發佈會僅剩12天,下午4點半,老羅發了一個微博,“請問北京有靠譜的語音技術供應商嗎?我們已經等不了了!”

樑家恩當時正在上海出差,看到消息,馬上通知聯合創始人、時任CTO康恆去找羅永浩。經過實驗室裡一週的調試,搭載雲知聲解決方案的錘子手機操作系統被羅永浩帶上了發佈會現場。

過程卻很不順利。老羅衝著語音助手說“左小祖咒”,結果卻播出了盧冠廷的《一生所愛》,現場多次演示失敗,老羅顯得很尷尬。他不停的向雲知聲道歉,“我們在辦公室測試時成功率95%,這是我們自己團隊調試的不好,早知道就不點出來你們的名字了。”

但云知聲著實火了。1個月後,它又亮相樂視第一代超級電視發佈會,此後相繼與inwatch、易信等達成合作,一時無限風光。

商業化焦慮

彼時,儘管是很多明星產品的合作伙伴,但云知聲自己卻沒有一款核心的移動互聯網產品,語音雲平臺的商業化價值也不被市場看好。

“許多新技術公司很看重技術平臺的威力,但要把技術平臺實現商業化的轉變,在中國花的時間非常漫長。當B端公司在用戶方面有比較大話語權的時候,往往不會在意底層的技術平臺。”雲知聲投資人、啟明創投創始主管合夥人鄺子平說。

創業一年半之後,雲知聲的商業化路徑依然不夠清晰。“第一個一年半,我們就是數據+算法。整個一年半里面,我們沒有過多涉足商業,並不是認為商業不重要,而是感覺還沒到那個時間點。”樑家恩說。但有一點他很清楚,“我們的定位肯定不能只是幫別人幹活。如果我們變成一個項目外包團隊,其實是沒前途的。”

如何實現商業化落地,成了樑家恩最焦慮的問題。鄺子平投資雲知聲後,花了不少精力與團隊探討如何商業化落地。他們選擇了一些垂直行業,比如金融。但是雲知聲很快發現,這個領域各家都有非常成熟的客戶,更大的競爭對手砸下重金。“我們意識到競爭太激烈了,就很快退了出來。”鄺子平說。

2013年底,一直在團隊外部協助的黃偉正式加入雲知聲,擔任CEO,樑家恩則轉去做了CTO。

他們給雲知聲重新進行了定位,“我們明白,我們做不過BAT,不要去想著跟BAT競爭。再去拷貝一個科大訊飛也不可能。我們只能尋找一個雲知聲自己的定位跟方向。”黃偉說。

與樂視超級電視的合作給雲知聲帶來了靈感。團隊發現,語音交互與硬件結合的體驗非常好,相比較留存率和活躍率都不太好的語音助手,樂視電視的用戶活躍度非常高。“既然樂視能做起來,說明語音跟硬件緊密結合這條路徑應該是通的。接下來,我們主要看跟什麼產品結合能做起來。”樑家恩說。

他們發現,不只是電視,語音跟各種各樣的家居都可以結合。另一個有利因素是,BAT和雲知聲最大的競爭對手都還沒有重點關注這一領域,行業也尚未形成壁壘。黃偉決定,“我們定位給物聯網提供人工智能服務。”

2014年初,雲知聲開始全力以赴投入IoT人工智能。一些業務開始被重組,Android應用市場顯示,雲知聲語音助手、語音輸入法也都在2014上半年停止更新。

在哪些行業落地?智能家居是最重要的一個方向,另一個重要的應用場景則是開車時的人車語音交互,為了暫時避開與NUANce、科大訊飛的直接競爭,雲知聲選擇了汽車後裝市場。

黃偉和樑家恩的經驗也起到不小的作用。加盟盛大創新院之前,黃偉曾任職於摩托羅拉中國研究院語音識別部門,後來他所在團隊被賣給了Nuance。這家國際語音巨頭的醫療業務收入佔比最高,這讓黃偉看到了醫療行業的機會。

而樑家恩在中科院工作時,用了三年時間,和同事一起開發過一套英語口語評測系統。

最終,雲知聲圈定了智能家居、車載、教育和醫療四個領域。

但做智能家居遠非把手機語音助手移植到家用電器上那樣簡單。與手機採用的近場語音識別不同的是,智能家居產品離用戶普遍較遠,需要採用遠場語音識別技術,噪音、聲波衰減等等問題都需要解決,芯片自身的功耗必須足夠低,並且可以冷喚醒。

“其實遠場識別做降噪是非常艱苦的。我們從2014年開始做,一直到2016年我們才真正量產。”樑家恩談起兩年的研發時說,“很多公司不可能下這個決心,或者有這個信心去死磕這些點。我們覺得這就是未來的一個方向,多難都要過去。”

經過一年研發,2014年底,雲知聲的雲端芯有了雛形,2015年開始跟客戶一起打磨適配。也是2015年底,雲知聲商務團隊正式組建。為商業化路徑焦慮了三年多的樑家恩開始覺得,“這事比較有譜了。”

“這是我創業以來最輕鬆的一個年會。”不久前的雲知聲年會上,黃偉感慨道。

持久戰

創始人全是理工科博士,做技術研發出身,樑家恩曾有過擔憂,“我們不能做一個成也技術,敗也技術的團隊。”在他看來,太拘泥於技術,或者太相信“靠技術打天下”很有可能讓創業走向失敗。“我們比較早意識到,除了技術之外,其他我們都不會,所以我們就要花時間去想,去學。”

而這也正是打動鄺子平的地方。這位在科技領域任職和投資超過30年的投資人,見過無數的技術創業者,“很多科學家覺得自己那麼好的技術,在市場上肯定受歡迎,對於非技術的東西不一定會太注意,產品化方面做得不夠細緻。”鄺子平說。

但云知聲給他的感覺卻不一樣,“他們的技術功底特別好,當時國內做語音識別的就幾個團隊,他們是公認的頂尖的一撥人。”而更打動他的,是從創業一開始,雲知聲就意識到必須找到商業化的途徑。“他們非常認真地思考、嘗試如何把技術落到垂直領域,這些做法與很多科學家創業團隊不一樣。”

2013年10月,雲知聲獲得啟明創投領投的近億元A輪融資。2014年底,雲知聲宣佈5000萬美金B輪融資,投資方包括高通、啟明創投。2016年4月的公開報道中,黃偉稱雲知聲於2015年底已完成了數千萬美金B+輪融資,但不便透露投資方身份及更為詳細的融資金額。

創業伊始,雲知聲就意識到資金對於技術團隊的重要性,在不確定技術何時才能落地成為產品的情況下,就必須多拿錢,讓公司有足夠長的時間窗口活下去。“過去幾年如果沒有資本市場對我們不斷輸血和幫助的話,我們也走不到今天。”黃偉說。

但黃偉對資本的選擇也有著自己嚴格的標準。最重要的一條,就是絕對不接受對賭。“不是說我沒有信心,凡是有這種要求的人,我覺得是對我們的價值不認可。對賭協議會對團隊造成很大的壓力,壓力之下動作一定會變形。”

第二就是選擇長線投資人,不只是看品牌,更要看是第幾期基金,“比方說第三期基金,存續期是5+2,現在是第6年,這肯定不適合。如果是一個新基金或者是長期基金的話,這個我會要。”

他也關注資本背後的資源,2014年雲知聲全力研發“AI芯”之際,就引入了全球最大的無線芯片廠商高通的投資。下一步,“能夠帶來業務協同,或者國內IPO對我們有幫助的,都會優先考慮。”黃偉說。

精挑細選的背後,是他對人工智能創業的理解,在他看來,人工智能因為有比較高的門檻,不會像其他行業大起大落,也不會突然死亡,“這樣的公司看起來很難,但它每一年每一步都會變得越來越好”。正因為如此,需要投資人和創業者做好持久戰的準備。

資本與創業熱情湧動,創新工場創始人、語音識別專家李開復不止一次發出警告:“語音識別是所有技術裡面最不成熟的,當我看到一個個計劃非常擔憂,因為這些計劃99%會死掉。”在他看來,語音的識別和理解完全不同,即便準確地把每個語音變成文字,但它並不理解這些詞的含義。

“語音識別這10年來的突破,更多是在感知層面的突破,而在包括理解在內的認知層面,人都沒有搞清楚自己是如何認知的。後邊的路還比較長,還有很多的坑,需要我們逐步去解決。”樑家恩說。

在某種程度上,黃偉和樑家恩也認可人工智能創業出現泡沫化的觀點,而能從這波人工智能創業熱潮裡脫穎而出的公司,不僅僅技術要過硬,商業上也要足夠敏感,扎入到行業裡,形成技術、商業、數據的閉環,這樣才有機會。

“今天整個行業裡大家更看重的是能不能落地,落地了能幹嘛。如果說這個問題解決不好的話,熱潮也會跌入低谷。”黃偉說。

相關推薦

推薦中...