Strata Data Conference 北京見聞

大數據機器學習 Spark 微軟 TalkingData TalkingData 2017-08-03

在2017年這個炎熱的7月，由O'Reilly舉辦的Strata Data Conference 2017北京站繼去年之後第二年在北京舉辦。在去年，名字還叫做Strata+Hadoop Conference，可能由於Hadoop已經不能夠完全代表Big Data，今年的系列峰會從年初San Jose站開始就改名為了Strata Data Conference. 由於是Committee的成員，與去年一樣，我仍舊參與了候選主題的評選，並且主動報名參與了分會場的主持。同去年一樣，我今年仍舊是主持了5B+C的分會場，唯一的區別是去年僅僅主持的下午場，今年則是上下午全都是我主持的。

之所以報名參加主持，原因有兩個：第一個原因是我可以全天的從頭到尾聽一個主會場所有的內容，沒得選擇，有的時候就更專注。第二個原因則是作為host，能夠幫我們公司的小朋友們多弄些門票，讓他們有機會來多聽多學。一天聽下來，還是有值得記錄下來的東西，這裡分享給大家。

Angel:面向高維度的機器學習框架

上午主題演講結束後，5B+C的第一個演講嘉賓是來自於騰訊的黃明。實話說，一直不知道阿里明風的真名是黃明。知道明風是在大約3年以前了，那個時候Spark剛剛在國內興起。而北京的Spark社區活動一直組織的不錯，TalkingData由於是國內比較早引入Spark的，因此在屢次的Spark Meetup都有參加。其中有一期在Intel舉辦的Spark Meetup就請了明風來做分享。當時明風的主要的精力還是在Spark上進行圖計算相關的工作，分享的是GraphX相關的內容。

再後來，就聽說明風離開了阿里，加入了騰訊。去了騰訊，自然不能用花名，於是就恢復了本名黃明。在騰訊，黃明主要負責的就是大規模機器學習相關的平臺的研發，這個平臺就是去年騰訊公開宣佈將要開源的Angel。在2017年6月份，Angel 1.0.0正式發佈。截止到今天，Angel在github上得到了1900多個star，算是一個不錯的成績了。

演講開始前，簡單的和黃明聊了一會兒，提到了他為什麼想做Angel。實際上，在大數據時代，如何解決在十億以上規模並且有上億以上維度的機器學習模型訓練效率變成了一個很大的挑戰。不同的公司有不同的做法，TalkingData的數據科學團隊基於Spark開發了自己的大規模機器學習庫Fregata並且做了開源。行業內更常見的做法是基於Parameter Server來解決並行處理的問題。

不過正如黃明所說的，目前並沒有很好的開源的基於PS的大規模機器學習平臺。Petuum在融資後選擇了閉源，而其他的幾個框架都轉型做其他的了。正式基於這個原因，騰訊選擇基於Parameter Server開發一套開源的大規模機器學習平臺。從黃明的介紹看，整個平臺無論性能還是易用性上，都做得不錯。而且由於黃明本身是Spark社區的活躍分子，Angel可以支持Spark on Angel。這樣對於很多用Spark來做機器學習的同學來講，可以比較容易的利用Spark on Angel來實現大規模機器學習了。有興趣的同學可以嘗試一下Angle和Fregata，並且做個對比的測試。

多視圖建模與半監督學習：應用於海量用戶數據挖掘與行為分析

下午第一個主題是來自於聯想大數據的楊帆的這個題目。我對這個題目比較有興趣，因為他想解決的問題就是在訓練樣本不足的情況下，如果先用半監督學習來利用用戶行為數據進行樣本的擴充，然後再基於這些被擴充之後的樣本進行機器學習。這個主題的場景和我們目前基於設備行為數據進行人口統計學的預測的場景類似。以年齡為例子，他們的基本做法：

1，用二部圖傳播的方法，迭代找到有明顯年齡段傾向的文檔，並區分用戶年齡段。

2，發現頻繁序列模式強規則，找到高置信度的樣本，補充到樣本池中

3，同時用多個方法進行學習

4，每個方法預測結果中的高置信度樣本都補充到標註集中

5，迭代直到一定條件退出

6，對多個方法的預測結果進行投票

7，將最後補充後的標註集，訓練RFM特徵視圖下的LR模型，對新增數據進行預測。

拋開算法選擇不提，整個思路對於樣本有限的機器學習來講，無疑非常值得借鑑。正好我們做性別預測的同事也聽了這一場，希望他能有所收穫。

欺詐的潛伏性：用大數據進行反欺詐檢測

這個演講來自於DataVisor中國區的負責人吳博士。DataVisor是今年比較炙手可熱的做防欺詐的公司。整個演講主要是講了常見的欺詐的類型，以及DataVisor發現的一些欺詐的典型的特徵。整個演講的技術和算法的東西不多，不過不同類型的網站、app面對的不同的欺詐的方法還是讓人比較有收穫的。近些年來防欺詐在不同領域都變得越來越重要，相信利用移動設備上的行為數據，我們能夠探索出一些有價值的防欺詐模型，利用這些數據對不同領域的防欺詐提供支持和幫助。

GraphSQL：圖數據和分析平臺

接下來的演講來自於GraphSQL。這是GraphSQL第一次亮相Strata做主題演講。不過GraphSQL和TalkingData算是老朋友了，在他們的產品還不成熟的時候我們就有過接觸。經過兩年的發展，GraphSQL終於比較成熟了。最近幾年無疑是圖算法和圖存儲比較火熱的時期，而GraphSQL就是在這股熱潮中發展起來的。演講嘉賓烏博士一直是從事數據庫的研發工作，在加入GraphSQL之前曾經是微軟、Oracle和Turn的數據庫核心研發成員，也是GraphSQL的前幾號的員工。

這場演講主要講了GraphSQL的一些優勢以及設計理念，並且介紹了GraphSQL如何在移動運營商做實時的防詐騙。在防欺詐這個領域裡邊，圖無疑是具備很大價值的。不過的確目前真正好用的圖數據庫並不多，Neo4j在一定數據規模下還可以，但是大規模的數據情況下，性能則是一個巨大的問題。我們在測試的ArangoDB雖然發展不錯，不過離成熟應該也還有很大的距離。包括與烏博士溝通，真正面臨一個非常大的圖的時候，GraphSQL也要去專門的做些工作在能支撐。

微軟的通用異常檢測平臺

最後的一個演講是來自微軟的Tony Xing，是微軟的通用異常檢測平臺的介紹。異常檢測對於很多場景來說都非常的有價值，比如系統的運營狀況的異常檢測，商品銷售的異常檢測等等。微軟的這個平臺是希望通過一個標準的平臺，實現對輸入的數據進行異常點的檢測。正如演講嘉賓所講，對於這個通用平臺來講，如何解決維度非常多的情況下還能夠高性能的完成異常檢測是個巨大的挑戰。具體到異常檢測算法，實際上本身並沒有太多的可說的。

對於微軟的這個平臺來講，目前對維度很多的情況並不能很好的支持。結合TD自己的業務來講，目前我們的業務運營和技術運營並沒有引入異常檢測能力，監控都是基於規則，這樣對於很多東西我們並不能發現問題。隨著數據的積累，我們也有必要在業務系統和技術運營系統引入異常檢測的能力，從而能夠更早的發現問題。

整個大會期間，遇到了不少熟人和朋友，國內的大數據的技術圈子不大，希望有更多的有質量的類似的會議。在9月中旬，TD將要舉辦智能數據峰會，我們的技術專場將會有不少新興的大數據技術公司來分享，TalkingData的技術團隊也會有幾場乾貨滿滿的分享，歡迎同學們參加。

相關推薦

'科大訊飛成為北京冬奧會語音轉換與翻譯供應商'

"9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京舉行，科大訊飛正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。科大訊飛成立20年來，長期從事語音及語言、自然語言理解、機器學習推理及自主學習等核心技術研究，並保持...

科大訊飛冬季奧林匹克運動會語音合成技術語音識別技術機器學習自然語言處理 2019-09-19

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮向科大訊飛頒發北京2022官方...

科大訊飛冬季奧林匹克運動會技術劉慶峰語音合成喻紅國家電網語音識別技術中國石油化工集團奧林匹克運動會機器學習體育自然語言處理 2019-09-19

'中秋之夜吃喝玩樂消費北京居首位'

"夜間經濟逐漸幫助北京挑起消費大梁。北京市商務局發佈的中秋節消費數據顯示，夜間消費在各個領域表現強勁。其中，夜間餐飲、休閒娛樂等消費總訂單量同比增長26%，居一線城市首位。北京的多個商圈也開展“不打烊”活動，為中秋節的夜空添加了新的亮色。多商圈夜間消費人次過萬夜間消費與一個...

最圓不過中秋月中秋節燒烤快餐大數據糕點西安泡饃歷史中華絨螯蟹關愛吃貨成長協會小吃三里屯火鍋鴨月球文化京東商城馬連良中國銀聯麵包美團網 2019-09-19

'機器速記上馬服務奧運會：訊飛成北京冬奧會自動語音轉換供應商'

"2019年9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧...

冬季奧林匹克運動會奧林匹克運動會科大訊飛技術語音合成機器學習劉慶峰語音識別技術國家電網中國石油化工集團自然語言處理體育喻紅招聘青島中國石油 2019-09-19

'科創板成跨國公司\'落戶\'新引擎！上海發力領跑，北京仍在\'掐尖\'，廣深誰能後來居上？'

"9月14日，上海市商務委員會公佈的統計數據顯示，截至8月底，上海引進跨國公司地區總部達到701家，外資研發中心451家。其中，今年前8個月新增跨國公司地區總部31家，外資研發中心10家。券商中國記者統計發現，雖然國內許多城市的決策者千方百計地想招引跨國公司地區總部入駐當地...

上海經濟廣州深圳投資技術人生第一份工作香港微軟人工智能原汁原味的德系SUV 高通高峰亞洲硬件 2019-09-18

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

科大訊飛冬季奧林匹克運動會技術語音合成奧林匹克運動會劉慶峰語音識別技術中國石油化工集團國家電網體育機器學習喻紅中國石油自然語言處理青島 2019-09-18

'科大訊飛成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

科大訊飛冬季奧林匹克運動會技術劉慶峰語音合成中國石油化工集團喻紅國家電網語音識別技術奧林匹克運動會體育機器學習中國石油自然語言處理青島中國聯通 2019-09-18

'科大訊飛成北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商'

"9月16日，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商發佈會在北京冬奧組委園區舉行。科大訊飛股份有限公司正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。發佈會上，北京冬奧組委專職副主席、祕書長韓子榮向科大訊飛頒發了北京2022年...

科大訊飛冬季奧林匹克運動會技術語音合成語音識別技術國家電網劉慶峰奧林匹克運動會機器學習喻紅青島中國石油化工集團燕京啤酒自然語言處理 2019-09-18

'溝通無障礙訊飛翻譯將為北京2022年冬奧會和冬殘奧會提供技術支持'

"2019年9月16日上午，北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商授牌儀式在北京舉行。科大訊飛正式成為北京2022年冬奧會和冬殘奧會官方自動語音轉換與翻譯獨家供應商。北京冬奧組委專職副主席、祕書長韓子榮，科大訊飛董事長劉慶峰，中國奧委會、中國殘奧委會...

冬季奧林匹克運動會語音識別技術科大訊飛技術語音合成劉慶峰人工智能機器學習自然語言處理 2019-09-18

'機器翻譯上馬服務奧運會：科大訊飛成北京冬奧會翻譯獨家供應商'

科大訊飛冬季奧林匹克運動會奧林匹克運動會技術劉慶峰語音合成機器學習語音識別技術國家電網中國石油化工集團自然語言處理招聘喻紅青島中國石油 2019-09-17

'深圳已經超過北京，失業率最高？看大數據說話！'

"我想所有人都希望得到一份衣食無憂的體面的工作，但是好的崗位就這麼多，不可能滿足每個人的要求。這時候我們不如退而求其次，選擇一個真正適合自己的工作，能最大限度的發揮自己所學也是不錯的選擇。比如導購崗位，門檻低，潛力大，適合初入社會的年輕人。導購行業全國平均薪資為5351元。...

跳槽那些事兒大數據深圳重慶杭州武漢上海成都長沙廣州 2019-09-16

'最受歡迎逛吃城市20強出爐上海北京重慶位列前三'

"日前，經濟觀察報城市與政府事務研究院攜手大眾點評必吃榜考察了42個城市最受歡迎的1200餘家餐館，通過大數據分析，最受大眾歡迎的逛吃城市前十名為：上海、北京、重慶、深圳、西安、廣州、長沙、蘭州、泉州、武漢，最受大眾歡迎的十一至二十名的逛吃城市為：瀋陽、成都、蘇州、杭州、南...

大眾點評網重慶西安瀋陽成都廣州武漢燒烤泉州蘭州長沙上海杭州天津寧波深圳汕頭蘇州南京大數據經濟觀察報大眾汽車昆明貴陽 2019-09-12

'“鳳凰”展翅正“先行”——濟南新舊動能轉換先行區見聞'

"□ 本報記者王琛孫源澤籃球場大小的辦公室裡,整齊地擺放著20排辦公桌,這是政府機關,工作氛圍卻像一個互聯網公司。8月31日上午,記者來到濟南新舊動能轉換先行區管委會,瞬間被這間辦公室吸引。2017年5月,濟南新舊動能轉換先行區管委會開始籌備。兩年來,先行區管委會堅持高...

濟南綠地控股集團經濟鳳凰設計投資徒駭河建築京東商城齊河山東中國重型汽車集團有限公司萬物嚐鮮節東至章丘濰柴動力大數據新能源人生第一份工作 2019-09-12

'承接北京非首都功能山東優勢在哪兒？'

"9月9日上午,青年企業家創新發展國際峰會2019開幕式在山東會堂舉行。共青團省委供圖9日上午,青企峰會2019開幕式會場外設置照片牆,方便企業家、專家與省領導合影後取走照片。齊魯晚報·齊魯壹點記者範佳攝“只要濟南的政策合適,甚至和其他地區比沒有什麼優勢,我也會毫不...

山東濟南張峰創業技術中關村深圳武漢齊魯晚報王建偉人工智能華中科技大學人生第一份工作阿里巴巴集團杭州物聯網大數據軟件 2019-09-12

'最受歡迎逛吃城市20強出爐，上海北京重慶位列前三'

"中國地大物博，人們飲食習慣迥異，經過時間的洗禮，各地餐飲逐漸形成特色，這種特色是城市文化的重要元素，甚至可以被當作一座城市的名片。人們熟知的城市飲食特色多是近代產物。正宗的重慶麻辣火鍋大致誕生於清代道光年間，是長江流域縴夫的“發明”，廣州和上海的“小吃之都”稱號得益於兩地...

上海燒烤成都小吃大眾點評網夜宵關愛吃貨成長協會吃在四海八方重慶大眾汽車西餐海鮮麻辣火鍋美團網韓國大數據羊蠍子武漢壽喜燒社交網絡四川西安涮羊肉經濟觀察報北上廣廣州西安限購升級瀋陽杭州新一線城市置業寶典經濟廣東日本蘭州交通 2019-09-09

'重磅戰略合作！航天基地北京攜手金山雲等5企業構建產城融合示範標杆'

"9月6日，在西安國家民用航天產業基地（以下簡稱“西安航天基地”）系列簽約儀式上，西安航天基地管委會與金山雲、北京科聚思網絡科技有限公司（以下簡稱“科技寺”）、愛賽因斯（北京）科技有限公司（以下簡稱“PMCAFF”）、西安國源科技投資控股有限公司（以下簡稱“國源科控”）、北...

金山雲航天科技金山軟件西安航天技術雲計算技術經濟中國航天科技集團中國航天大數據人工智能航天工程陝西投資物聯網金融 2019-09-08

'商務部發文推動步行街改造提升北京已率先啟動'

"“一條國際化的商業街在商業氛圍以外更有文化、公益屬性。”——王府井建管辦副主任呂繪“建設高品位步行街，可擴大周圍輻射面積成為一片商業區，才能更有意義。”——北京前門大街運營方，北京天街集團有限公司董事長李樺商業步行街發展再迎來政策紅利。9月5日，商務部辦公廳正式印發《推動...

王府井文化體育上海萬物嚐鮮節經濟時尚大數據建築交通故宮博物院藝術信息安全 2019-09-08

'北京農學院@萌新 2019級新生大數據裡，我們發現了這些……'

"北京農學院 2019級萌新們馬上就要步入美麗的北農校園了，今天，就讓我們為大家揭祕2019級本科新生大數據吧！012019新生人數2019年北京農學院共錄取新生1897人，包括2019級普通本科新生1685人，專升本新生157人，預科新生55人。萌新們來自全國25個省市區...

大數據大學中國高等專科學生升本科考試昌平哈薩克族西藏回族密雲縣 2019-09-06

'北京：首批公務電動自行車投用利用5G技術避免亂停放'

"9月1日上午，首批專門針對機關事業單位人員公務出行的電動自行車投用，該批車輛還可利用5G技術避免亂停放。人民日報社西門，整齊排列著一排嶄新的電動自行車，車身紅白相間，統一配備了車牌。這是本市首批公務電動自行車，它們全部符合新國標，併為騎行人購買了保險。短途公務出行一直是交...

我的第一部5G手機技術騎行交通大數據人民日報北斗衛星導航系統 GPS 頭號大贏家| 理財大賽第二季 2019-09-05

'綠色出行公務先行“人民出行——5G智能公務出行”項目在北京啟動'

"中國發展網呂婭丹 9月1日上午，由人民數據管理有限公司主辦的“綠色出行·公務先行”新聞發佈會暨“人民出行”5G智能公務出行項目啟動儀式在人民日報社新媒體大樓舉行。來自國家發改委、公安部、工信部、國管局、國家能源局等10多個部門的有關負責人蔘加了啟動儀式。該儀式的舉行不僅...

我的第一部5G手機交通人民日報大數據技術騎行人民網 GPS 北斗衛星導航系統 2019-09-04

推薦中...