今日頭條:一家以人工智能和機器學習做內容的技術公司

尋找中國AI企業獨角獸系列報道之二:

@本報記者 熊雯琳

企業檔案:

方向:AI個性化推薦

員工人數:3000

2016年營收狀況:60億元人民幣

估值:110億美元

融資情況:2012年7月,今日頭條獲得SIG海納亞洲等數百萬美元A輪投資;2013年9月獲得DST等數千萬美元B輪投資;2014年6月,完成由紅杉資本領投、新浪微博跟投的C輪1億美元的融資。

今日頭條:一家以人工智能和機器學習做內容的技術公司

這家公司正在風口:擁有中國最大的媒體渠道,每個月為1.6億用戶提供服務,每天有7800萬人在上面觀看新聞、視頻。然而它並非媒體,而是一家以人工智能和機器學習做資訊個性化推薦的技術公司。

沒錯,這家公司就是今日頭條。這家成立僅5年的互聯網公司發展相當迅猛,其以人工智能和機器學習為驅動核心的內容分發模式,引起了百度、阿里等互聯網巨頭的“注意”:百度將“內容分發”定為2017年戰略重點,在“內容分發”這一領域,今日頭條和百度、騰訊、阿里幾大巨頭站在了同一賽道里。

近日,本報記者獨家探訪了今日頭條總部,並且和剛剛成立1年的今日頭條人工智能(AI)實驗室科學家李磊博士聊了聊。

位於北京北三環邊的中航大廈鬧中取靜,遠遠的就能看到外牆上顯眼的紅色LOGO,而當天正好趕上今日頭條面試日,一樓的沙發坐滿了等待排隊預約的求職者。這家正在高速發展的公司需要不斷引入新鮮血液。

就在記者到訪之前兩天,今日頭條剛剛公佈微軟亞洲研究院常務副院長馬維英日前離職微軟,加入今日頭條出任副總裁,管理今日頭條人工智能(AI)實驗室的消息。

作為一家技術型公司,今日頭條如何將人工智能技術落地到產品運營中的?不論是國內還是國外,成立僅4年就成立獨立的人工智能實驗室的公司並不多見,這個“神祕”的組織到底是做什麼的?又承擔了今日頭條的哪些工作?

人工智能如何把信息分發做好?

根據TrustData發佈的數據顯示,2015年10月,今日頭條平均用戶每日打開時長為41.8分鐘,而網易新聞和鳳凰新聞分別是26.1分鐘和24.7分鐘,騰訊新聞僅為19.8分鐘,不到今日頭條的一半。2016年8月,今日頭條的平均用戶每日打開時長已經超過70分鐘。

數據背後顯示的其實是人工智能的威力。

作為一款個性化信息推薦引擎產品,今日頭條是國內最早一批把人工智能結合到移動應用場景中的產品:利用人工智能推薦算法提升信息分發效率。

實際上,在今日頭條最開始成立的兩年,很多人都認為今日頭條只是一個新聞客戶端,而如今,整個行業都在走向“智能分發”這條路。今日頭條也因此估值超過110億美元。如今,今日頭條上的內容越來越豐富,從文字到圖片、視頻、直播甚至問答、尋人。

2016年,今日頭條還成立了專注於人工智能的頭條實驗室,很多人慢慢開始理解今日頭條是一家技術公司。

今日頭條創始人張一鳴曾表示,今日頭條是把算法、工程、產品、運營這幾個方面在應用層面結合得最早的一家公司。

那麼人工智能如何幫助今日頭條把信息分發這件事做好的?在李磊看來,首先是需要有好的創作內容。去年奧運會期間,頭條實驗室推出一個自動寫作機器人Xiaomingbot(諧音小鳴 bot,即“張一鳴”),它會跟進奧運會賽程自動寫新聞稿。“這就是我們通過技術幫助它自動創作。“而信息分發的第二方面是需要做推薦,需要好的推薦算法。據李磊介紹,推薦的背後則涉及到理解內容和擁護,“理解內容本身需要很多儲備,比如詞袋模型,主題模型、語義分歧,關鍵詞提示等等。“第三個方面是互動。今日頭條將信息推給用戶,而用戶會在讀完以後與信息有交互以及評論。

“只有以上幾個部分做好了才能將信息與用戶的匹配做好,讓推薦更精準和個性化。”李磊說。

訪談:讓機器更瞭解你,就能得到你想要的內容

人物介紹:李磊,今日頭條科學家、人工智能(AI)實驗室總監。畢業於上海交通大學計算機系本科,卡耐基梅隆大學計算機系博士,加州大學伯克利分校博士後研究員。其博士畢業論文獲美國計算機學會SIGKDD最佳論文之一。在機器學習、數據挖掘和自然語言理解方面於國際頂級學術會議發表論文30餘篇,擁有三項美國技術發明專利。

AI與機器人尋找中國AI企業獨角獸系列報道之一::今日頭條人工智能實驗室成立時間挺早的,一般大公司在成立四年的時候似乎沒有這個機構設計的。能不能給我介紹下今日頭條人工智能實驗室具體是做什麼的?

李磊:今日頭條其實從2012年成立至今只有4年時間,你可以想想成立4年的時候那些大公司在做什麼?谷歌還在做搜索、facebook有研究院,百度還沒有實驗室。而今日頭條在2014年的時候就意識到整個團隊要在前沿技術上做非常大的投入。因為我們的產品和用戶數量非常大,對人工智能的需求也非常大,我們如何把推薦做好,那麼首先就是要學會運用機器學習、數據挖掘等技術來理解文章的主題、人物關係等等。而且對於機器學習來說,數據越多越有意義。去年初我們日活用戶達到3800萬的時候,我們相應也成立這個實驗室。目前我們有七位正式員工,還有一些實習生。

我們實驗室成立的初衷有兩點:第一個是希望能夠推動人工智能技術方面的研究,包括機器學習、自然語言理解、計算機視覺、人機交互與機器人等領域,與產品、技術相關的長期性問題和開放性問題的研究;第二我們也承擔一部分產品研發的責任。比如我們有一些研發的產品已經已經運用到今日頭條的產品上。比如寫稿機器人和一些視頻內容的分析理解等。

AI與機器人:寫稿機器人,聽起來很有趣,好多人都是因為它對今日頭條有了全新的認識,作為它的同行我也很感興趣。

李磊:這個是我們在去年奧運會期間做的一個新聞自動生成機器人,名叫Xiaomingbot。在去年8月里約奧運會的16天內自動創作了四百多篇文章,圍繞乒乓球、羽毛球、足球、網球四個類別寫 。在短短16天內,讀者總計一百萬。後面通過數據分析發現,在同一時間由專業體育記者所寫的體育新聞閱讀率和XiaomingBot寫出的新聞閱讀率差不多,甚至XiaomingBot新聞閱讀率會更高一些。

當然我們做新聞機器人的目的並不是取代新聞記者,而是幫助作者更快的創作出更高質量的內容。

AI與機器人:今日頭條的用戶,很多會吐槽,首頁打開並不是我想要的內容,甚至推薦大多是比較低俗,甚至比較八卦的內容?

李磊:這個就涉及到推薦算法中新用戶冷的啟動問題。我們的算法是默認在你首次啟動時候給你推薦關注人數較多的新聞,而八卦、熱點等正是人民群眾喜聞樂見的,所以會出現在首頁,但隨著你的閱讀、評論等行為的發生,機器能夠更多瞭解你的偏好,從而去推薦給你相關的內容。

當然,有些用戶會說,大家都關注的東西我並不感興趣,針對這些情況,我們也在做對冷啟動用戶的推薦算法調整,包括熱點內容與其他內容的平衡等等。

AI與機器人: 這個平衡似乎很難?比如有些人一段時間喜歡體育新聞,可過陣子又不關注了,用戶是善變的。

李磊:這又涉及到另外一個問題。我們現在採用的推薦算法有兩個,一個叫利用,也就是說從分析你過去的閱讀行為,利用這些數據對你進行預測,比如你可能過去對體育感興趣,我們就會為你推薦體育新聞;另一個叫發現,即儘可能去發現一些新的興趣點,可能是你喜歡的,也可能是你討厭的。用戶可以通過點擊頁面上的“不感興趣“與客戶端互動,不斷去調整,讓我們抓住你額外的興趣。這個實際上到技術端是比較難的問題。我們也會想一些辦法去更多瞭解用戶,比如希望用戶關注一些頭條號,我們通過用戶的訂閱行為來分析和推薦。

要知道,機器自動推薦每天的量非常大,這是人工不可能完成的任務,尤其是面對7800萬日活用戶,還要求每個人首頁個性化,這是非常難的。當然,我們在過去一年也對算法進行了調整,比如對標題黨以及低質內容的識別已經有非常大的改進,隨著數據的增多,我們的識別率會越來越高。

AI與機器人:在加入今日頭條之前,您曾經在百度深度學習研究院工作了兩年,能不能從個人的角度來談談,如今在內容分發、人工智能兩塊已經形成競爭的兩家公司?

李磊:毫無疑問,這兩家公司都是以人工智能為主的公司。尤其是在中國,企業研究院做的最好的事微軟亞洲研究院,而百度是本土最好的。我們也會參考他們的模式。

資訊

阿里遊戲發佈2017戰略:10億佈局IP生態

(本報記者 熊雯琳)3月16日,阿里遊戲在背景發佈了年度戰略佈局,包括10億資金助力遊戲IP生態發展,並與阿里文學、阿里影業、優酷聯手推出“IP裂變計劃”、推進手遊全球發行等,並宣佈開啟阿里遊戲全球發行聯盟戰略。

途家與螞蟻金服達成戰略合作

(本報記者 熊雯琳)3月23日,途家在京公佈了2017年的“3+1”發展戰略,從消費者、經營者、置業者和區域化這四個緯度展開介紹途家新一年的戰略,包括聚焦用戶體驗的產品服務升級、基於經營者的多平臺一鍵管理和途管家產品、基於可經營地產的兩大解決方案、全域旅遊導向的片區合作等多項內容被首度披露。

相關推薦

推薦中...