科大訊飛的語音雲大數據實踐之路


在幾乎全民AI熱的今天,有人說,語音識別將會是第一個爆發大眾級應用的領域。說到語音識別,相信作為國內語音識別領域領軍企業的科大訊飛是最有發言權的。而對於正在語音識別領域鑽研的企業,相信瞭解一下科大訊飛的實踐經驗時必要的。

在飛馬網舉辦的FMI人工智能大會上,來自科大訊飛數據研究員算法部負責人的呂昕為我們詳細介紹了科大訊飛的語音雲大數據實踐之路。

科大訊飛的語音雲大數據實踐之路

呂昕

據呂昕介紹,科大訊飛的語音平臺在2010年發佈,這個AI平臺,經過七年的發展,現在已經有39萬的開發者,在平臺上使用科大訊飛的AI能力進行一些人工智能相關的開發。

科大訊飛一致認為,整個人工智能分為三個階段。

第一階段,計算智能。它的比較典型的應用就是最早的一個深藍的暴力窮舉,以及後面的搜索引擎的一個匹配。在這個方面是一個比較早期的AI應用,這個階段已經過去很多年了,而現在如果再繼續做一個搜索引擎,別人是不認為你們是在做AI這個事。

第二個階段的人工智能屬於感知智能。就是讓機器能力,就是現在最流行的語義識別、圖像識別,還有一些語義理解相關的。訊飛的開放語音雲平臺智能交互解決方案主要是在感知,都是一些感知智能相關的一些技術。

第三個階段叫做認知智能。這是一個比較縹緲,或者現在整個學術界都在努力做,也沒有成熟的方案。在這個階段,需要讓機器能理解,會思考,在這個領域,科大訊飛也是在做一些探索,但是技術還不是非常成熟。所以,目前平臺暫時不支持這些功能。

而平臺主要支持的功能是這麼兩類:

第一,身份的確認。因為科大訊飛是做雲出身的,所以對雲的處理非常強。現在這個應用,最早是在公司裡面作為考勤的APP,因為一個維度的確認如果不準,兩個維度其實是非常準的。

第二,以人機交互為中心。依託於語義合成,語義理解,和語音識別。目前這樣一個語音的平臺已經經過升級,現在是第二代的語音平臺的檢測方案。就是AI的能力,大家最早的平臺都是這樣的,偶然每個AI的能力是分開的,如果你需要識別,就去調識別引擎,現在我們直接認為,AI最重要的,AI最核心的並不是單個能力,而是需要多個AI能力的複合使用解決一些特定的問題。比如你就這樣語音翻譯,就是你說一句中文,翻譯成英文,讀出來,這個先調動識別引擎,再調翻譯引擎,再調合成引擎,現在這一套,會順序的把它調完實現一個功能。

在近40萬開發者用戶當中,有來自多個不同的行業,這也使得科大訊飛的數據更加全面、客觀。

科大訊飛的語音雲大數據實踐之路

在用戶數據裡可以得到很多用戶數據的維度,但是不同維度的數據價值是不一樣的,我們需要從用戶的一次性維度,可以產生這四類,但是我們需要找到價值比較高的數據,對它進行優先級比較高的挖掘,從而得到更加有效的信息。

用戶交互分為四類:

第一類,用戶的地理位置。在智能交互的大部分場景裡面,用戶會把一些GPS數據拿過來請求,所以我們還可以得到一些GPS數據。

第二類,APP的行為。你需要告訴他在什麼場景,在什麼APP上調用這樣的服務,所以在APP內部,我們知道對APP的使用行為,APP的使用行為,它的覆蓋面非常廣,用戶只要使用這個APP,就有這樣的數據過來,它的挖掘也是比較簡單的。

第三類,用戶的關鍵詞。我們可以對文本進行挖掘,從文本里挖掘用戶感興趣的關鍵詞。

第四,機型設備。為了做一些AI設備適配,它在分析的時候有一個價值。

另外,我們把數據分成四大類,通過四的類分別的分析,然後合起來,得到一個用戶非常直觀的一個屬性的描述。有了這些之後,建立了訊飛用戶數據平臺,構建這個平臺有三個目的。

科大訊飛的語音雲大數據實踐之路

第一,首先是為了用戶的分析。因為有了數據,就可以分析用戶是什麼樣的。 第二,可以對用戶進行深度挖掘。給用戶打一些標籤,給用戶提供個性化的服務,提升用戶體驗。

第三,受眾挖掘。比如和開發者建立合作關係的時候,進行一些和廣告相關的業務合作以及一些其他的個性化業務。

而整個平臺用戶標籤體系的構建主要是受兩方面的影響:

一、數據。有沒有數據,有什麼樣的數據,才能構建什麼樣的標籤。

二、業務需求是什麼。

科大訊飛的語音雲大數據實踐之路

那麼問題又來了:是不是我們使用語音的數據做一個調用就足夠了?

答案當然不是。呂昕告訴我們,語音雲的數據就是好幾類的,當我們做這樣一個用戶標籤體系的時候,我們只用語音數據,它的覆蓋是有限的,如果把所有數據都融合到一起,對用戶標籤的補充,使得用戶標籤更加全面,這是很有意義的。

廣告數據最大的意義並不是來刻劃標籤,而是用來做一個標籤驗證。

其次,呂昕還為我們分享了兩類標籤構建的算法:

第一類,基於文本。通過關鍵提取的技術,來了解用戶的需求,提高推薦的準確率。

第二類,基於APP的。對APP的刻劃是基於用戶使用APP的頻率,比如將用戶最近一個月之內的APP進行表徵。另外,在刻劃APP的時候,並非只是按照APP使用次數,而是對用戶的APP客戶基於用戶對每個APP的興趣,相比APP平均分配的一個東西。

科大訊飛的語音雲大數據實踐之路

IdMapping,就是做用戶各個維度的賬號的打通,基本所有做大數據的公司都在做。打通之後,不僅用戶UA的計算會更加的精準,而且當用戶換了一個設備,換了一個新設備的時候,打的標籤我可以用。IdMapping這個事情,其實跟標籤有關係,但是它有一個好處,給標籤插上翅膀,使標籤有更大的利用價值,並且使標籤可以在更多的領域發揮這樣的價值。

那麼我們有了標籤之後,標籤可以做什麼?

第一,可以做數據分析報告,基於標籤做用戶分析。

第二,可以做定向的受眾的Target,就是個性化推送,廣告的一些推送相關。

DMP助力廣告平臺

科大訊飛的語音雲大數據實踐之路

精準營銷的三個目的:第一,潛客挖掘。第二,提升廣告效果。第三,賣數據給需要的廠商。

目前DMP平臺的數據營銷的各個領域:行為分析、品牌分析、競品分析、受眾分析多個領域實現了全覆蓋。

以下是呂昕與觀眾的Q&A:

Q:你們對數據分析的時候給用戶加標籤,標籤是哪裡來的?是人工維護的嗎?

A:就是之前說的一個標籤體系是我們的五大類,2000多個細分的標籤分類,然後是每一類標籤都是一類一類使用,基於一個模型也好,自然語言處理方法也好,使用人工分析一個一個做出來的,因為標籤這個其實說白了,它裡面使用機器學習能解決的範圍很少,裡面有大量的髒活需要人工去做,尤其是在智能前期的儲備上。

Q:我們怎麼去識別在語音雲平臺上,怎麼去識別用戶購買的這樣的行為數據?

A:這其實並不是一個用戶購買的行為數據,我們其實用用戶輸入的文本,如果想去購買這個東西,首先可能有一個搜索行為,基於語音雲平臺,得到用戶對紙巾可能感興趣,可能購買的用戶,這個雖然不太準,但是這只是一個消費的解決方案。

相關推薦

推薦中...