數據分析起家的海雲數據,還想向脣語識別衝刺

機器之心原創

作者:高琳

編輯:藤子

再次談起公司發展的下一步時,馮一村難掩興奮。

作為海雲數據創始人兼 CEO,不僅是因為其自主研發的脣語識別技術,提高英文識別準確率,更重要的是,馮一村找到了脣語識別的變現之道。

「脣語識別能幫助聾啞人、老人交流,裁定體育賽事語言暴力。在公安領域,也具有顛覆意義。」馮一村分析。因為大量視頻只有圖像,沒有聲音,如能識別視頻中犯罪嫌疑人的講話內容,將會提高刑偵效率。

正因如此,馮一村說,海雲數據未來將不遺餘力地投入脣語識別的研究。

成立於 2013 年的海雲數據,以數據可視化分析起家,旗下數據可視化分析平臺「圖易」具備 12 層神經網絡,分佈式 GPU,可實現數據自動匹配,並能通過智能數據實現深度學習。當馮一村無意中發現,企業內部研究院將脣語識別加入現有的數據可視分析系統,他很快意識到,這個嘗試對現有業務的突破具有重要價值。

2016 年 12 月,海雲數據聯合重慶公安科研所研究脣語識別。

數據分析起家的海雲數據,還想向脣語識別衝刺

海雲脣語識別測試

馮一村介紹,脣語識別是典型的 AI 應用,集機器視覺與自然語言處理,從圖像中連續識別出人臉,並提取此人連續的口型變化特徵,將其輸入模型,識別出講話人口型對應的發音,從而計算出可能性最大的表達語句。而成熟的脣語識別系統需要建立在大量人臉特徵樣本的基礎之上,通過帶記憶的深度神經網絡,保證結果的最大準確性。

在 2017 年 3 月的亞洲大數據可視分析峰會上,海雲數據在正式發佈脣語識別技術時稱,其由 1 萬小時新聞式脣語節目訓練而成的脣語識別 AI,英文識別準確率達 80%,中文準確率達到 71%。不過,馮一村認為,「若要投入實戰,準確率需要 90% 甚至 95% 以上。」

數據分析起家的海雲數據,還想向脣語識別衝刺

1 萬小時新聞類節目進行脣語識別訓練

更早一些時候,一則脣語識別 AI 超過人類專家的消息還曾刷屏研究界。2016 年 11 月,牛津大學工程科學系與谷歌母公司 Alphabet 下屬公司 DeepMind 合作進行脣語識別開發,選擇英國 BBC 5000 個小時的電視節目,總共 118000 個句子作為訓練素材,最終結果是相比人類專家 12.4% 的準確率,AI 的準確率為 46.8%。

但對一家商業化公司來說,縮小準確率差距的前提下找準方向也同樣重要。「AI 要在特定領域解決特定問題,初創企業更需要找準細分領域。」馮一村分析他的業務邏輯,「我們做脣語識別,至少公安、政法委、軍隊、教育四個行業可以應用。」

馮一村尤其看好脣語識別在公安領域的應用,因為這是海雲數據的優勢。事實上,海雲數據正是發家於此。

眾所周知,城市交通卡口處都有攝像頭,但大量攝像頭的背後需要公安指揮中心部署更多警力監控視頻。而海雲數據的數據可視化分析技術則能有效改善這類狀況,通過將卡口處的視頻、犯罪分子的數據、戶籍數據、車輛數據等實時呈現在同一個平臺,公安人員能直觀瞭解卡口數據、警力部署、出警信息、犯罪線索等信息,既能實時判斷警力部署、犯罪分子行動軌跡等情況,還能降低人力成本,提高效率。

為了深入理解公安業務,海雲數據聘請了老專家,他們熟悉公安業務系統,從業經驗長達數十年。正是如此,海雲數據佔據了公安領域三分之一的市場份額。

實際上,海雲數據並非第一天就做數據可視化分析,也並非第一天就將公安領域確定為目標。從創業之初的數據新聞,到數據可視化,再到奠定核心競爭力的數據可視化分析,海雲數據花了兩年試錯。

馮一村表示,傳統的數據可視化是將數據以圖形、圖表等形式呈現,強調結果的呈現效果,而數據可視化分析能實時有效地表達過程數據,可以實時分析,實時決策。

2015 年 6 月,馮一村重新確定技術方向——數據可視化分析,並將目標瞄向公安領域。「大數據可視化分析業務要產生商業價值,就需要與行業結合,落地業務層。」馮一村如此表示。而這需要真實有效的數據,同一領域不同客戶的業務邏輯也不能有太大差異,從而易於標準化並實現快速複製。公安領域就符合這樣的標準,舉個例子,北京與重慶的公安系統,業務都是刑偵,無太大變化。

由此,海雲數據建立了對 B 端客戶收取管理服務費的營收模式,馮一村稱,找到準確方向的海雲數據很快就實現了盈利,並在公安領域站穩腳跟。

2015 年 11 月,海雲數據在此前的底層架構基礎上,發佈可視化分析平臺「圖易 4.0」,經過迭代,「圖易 5.0」已具有一定 AI 智能,覆蓋 323 種數據源,651 個 API 接口,318729TB 數據量,涵蓋 20 多種行業。而基於圖易,海雲數據已推出「智航順」、「智警」、「金智」、「醫智佳」、「智勝」等細分領域產品。

如今,海雲數據團隊成員已達 300 多人,服務將近 90 家客戶,其中 76 家是世界 500 強企業,覆蓋行業也早已突破公安、民航等達到 13 個。

而在馮一村的規劃中,2017 年,海雲數據將拓展全新行業,發力大交通、大公安、軍民融合以及智慧城市四大領域。技術方向上,則雙管齊下,在深耕數據可視化分析的同時,繼續向脣語識別衝刺。

海雲數據融資進展:

  • 2013 年 4 月,種子資金 20 萬,投資人為海量創始人郝璽龍。

  • 2014 年 4 月,天使投資 300 萬,投資機構為華創盛景。

  • 2015 年 4 月,Pre-A 輪 1500 萬元,投資機構為東方富海。

  • 2016 年 3 月,A 輪 1 億元,上古資本(華創盛景創始人李漢生主導的另一家投資機構)領投,東方富海跟投。

相關推薦

推薦中...