「深度」Hadoop上的中國神獸

Hadoop 中標麒麟雲計算大數據 IT經理世界 2017-03-30

Kyligence公司聯合創始人兼CEO韓卿

當開源技術被廣泛使用的時候，也就成了事實上的標準，從Hadoop已經成為事實上的大數據標準就可見一斑。

韓卿及其團隊在過去幾年為中國開源界在國際舞臺贏得了歷史性突破。2013年，還在eBay工作的他發現，在新興的大數據平臺Hadoop之上，缺乏標準的、快速的數據分析技術。於是，韓卿團隊從無到有打造了超大規模數據分析技術麒麟（Apache Kylin）。它能在Hadoop上提供毫秒級的標準SQL查詢，更具備處理PB級數據的能力。2014年，在eBay應用Kylin的生產系統上線後，這個項目被開源出來，並很快加入了Apache軟件基金會成為其孵化項目之一。

開源是一個態度問題

“我個人認為，特別是在基礎技術領域，開源一定是未來的一種方式和標準。”韓卿說，“一個項目，如果能做成一種使用率很高的開源技術，其實也就成了行業的一個標準。”

開源後，Kylin成為Apache軟件基金會中非常活躍的社群之一，並在2015年成為Apache頂級項目，這是首個來自中國的Apache 頂級項目，與Hadoop、Spark處於一個級別。韓卿也成為首個也是目前唯一的來自中國的Apache軟件基金會副總裁。

百度、美團、京東、今日頭條、國泰君安、中國移動、OPPO等擁有海量數據的企業先後使用了Kylin。以美團為例，它的外賣和其他數據分析基本都跑在Kylin上。

同時，眾多的工程師人也積極參與和貢獻到了Kylin社區，比如美團是最早採用Kylin的公司之一，目前有3名開發者成為麒麟項目的Committer（主要貢獻者），最新的一位Committer通過在美團的實踐，將Kylin一個基礎算法的效率提升了10倍以上，大大彰顯了他們的技術實力。

如今，韓卿已從10多年前那位“想要一個Apache郵箱”的開發者，成為Apache Kylin項目委員會主席。他說，中國開源界已發生鉅變，非常多的中國公司為開源技術Spark、Hadoop和OpenStack等做著貢獻，也湧現出越來越多的中國原生項目和團隊。這些項目都經歷了國外不可能碰到的數據量及環境的挑戰和檢驗，質量和性能都很靠譜。

去年，在華為、阿里等幾個項目進入Apache基金會過程中，韓卿也給予了很多建議和幫助，目前也是阿里兩個Apache孵化項目的導師（Mentor）。關於如何做開源，韓卿提到“其實，開源是一個態度問題，你不是為了一個KPI、一個噱頭或Marketing，你是實實在在把東西貢獻出來，而且你要不斷貢獻和發展它——運營社區，不斷尋找用戶，不斷髮展Committer，不斷與其他開源項目建立交互，讓社區良性發展。這是我們的經驗。”

開源項目背後的創業公司

每個成功的開源項目背後，都有一家好的創業公司，比如Hadoop背後是Cloudera，Spark背後是DataBricks。

在Kylin 走上正軌後，韓卿也在思考這個問題。“中國市場不比美國小，我們又擁有核心技術，為什麼不去試試呢？”基於這樣的想法，韓卿與項目其他核心成員一起，在2016年初創建了Kyligence公司——名字由Kylin（麒麟）和Intelligence（智能）組合而來，寓意是讓這匹數據“神獸”更加智能。

公司創建後，很快推出了Apache Kylin的商業版本KAP（Kyligence Analytics Platform）。商業版本是開源企業採用的最直接和最廣泛的商業模式，美國紅帽公司是這個模式最經典的代表。把開源技術和軟件做成一種更穩定易用、更安全、兼容性更好、功能更豐富的企業級版本，通過付費“訂閱”方式，為用戶提供技術支持和諮詢服務。同時，韓卿團隊也在不斷創新，在企業版中增加了更多的企業級特性。

KAP定位在Hadoop上的數據倉庫和商務智能（BI）。它具備企業級服務軟件的各種特點——穩定、安全、易用等。尤其是Hadoop目前已分化出很多版本，Kyligence與Hadoop各供應商合作，完成了產品認證，具備更廣泛的兼容性，大大降低了用戶採用新技術的門檻。

在推出商業版本後，Kyligence也在探索其他商業模式。熟悉韓卿的人發現，每隔一段時間，他就會對商業模式有一些新的實踐和感悟。最新推出的自動化診斷、優化在線服務KyBot就是一種模式創新：用戶通過Agent等方式自動將Kylin的相關日誌上傳到KyBot服務，而在雲端通過知識庫及數據挖掘等技術為用戶提供快速的、自動化的分析和診斷，指導用戶就行相關係統的優化和性能調優，為用戶提供及時有效的支持。

現在，Kyligence正在邁出更新的一步，在微軟Azure和亞馬遜AWS等公有云上，提供大數據分析服務，去年已經登錄了Azure中國鏡像市場，據悉他們正在和微軟及亞馬遜進行合作，很快就會登陸國際版鏡像市場。

“雖然大部分國內大數據項目都部署在內網中，但從全球來看，越來越多的企業把生產應用系統放在雲上。於是，在雲上提供數據分析能力，便成了他們的直接需求。”韓卿說，“我們就為用戶提供這樣的解決方案。”

這是一類被認為含金量很高的服務，對技術要求及團隊能力等都是非常大的挑戰，但韓卿表示已經在去年做了很好的技術和人才儲備，很快就會提供，並且表示這些服務未來也會在國內的各大公有云上提供。

傳統企業才是金礦

雖然Kylin項目源自eBay這家互聯網公司，目前的應用者以互聯網企業居多，但韓卿說：“公司的商業重點是傳統企業。”實際上，Kyligence目前的收入都來自傳統企業，這些客戶分佈在金融、電信、製造等領域。

韓卿觀察到，傳統企業在近兩年的互聯網化中投資力度巨大，除了搭建非常強的團隊外，積極與外界專業公司合作，來構建這些企業的大數據和雲計算能力。“為什麼會採用這種合作模式呢？因為他們在搶時間。”

例如，國內一家擁有海量用戶的手機企業正基於KAP，為自己的分析人員和前端業務人員，構建數據分析自助服務平臺。這讓過去要等幾個星期的分析結果變成了自助服務，分析時效縮短到了秒級，使得大數據平臺快速響應業務變化成為了可能。而另一家國內Top5的證券企業正使用KAP做日誌分析。從客戶端登陸到中間網絡傳輸到最終的交易系統，系統信息一目瞭然，並且可以快速的查詢相關日誌。證券公司業務人員因而能實時精準定位相關故障從而更好的提供服務，提升了客戶滿意度。

韓卿看到，這些傳統企業客戶都是從Teradata、IBM或SAP的傳統數據倉庫和BI工具轉到KAP上來的。“從性能到成本考慮，他們現在都需要新技術來替換。”

為了平滑過渡，KAP遵從了數據倉庫的方法論，採用了標準SQL接口，用戶可無縫遷移。分析師和管理人員也不用擔心在大數據時代原有的經驗和技術會被淘汰，他們基本不需要重新學習，就能上手使用。標準的技術也降低了人員成本和學習曲線，眾多原來的BI人員、分析師等一下子就掌握了大數據技術，而無需學習Java、MapReduce、Spark等即可完成超大規模數據的分析。

KAP還在自動化和智能化上花費了很多精力。“現在用麒麟實施大數據項目，是不需要寫任何程序的。”國美在線從接觸到生產系統上線僅用了1個月，而他們在選型時曾評估，如果採用其他技術可能需要五六個月。

不為用戶提供定製版

Kyligence目前支持了全球150多家用戶。一家創業企業怎麼去支持數量不斷擴大且是自己員工人數數倍的客戶群？

韓卿說，這完全依靠標準化。“我們沒有為任何一家行業用戶提供定製。這就是通用化產品的威力。”

“做通用化產品、減少定製”一直是供應商的夢想。但在現實中，越是大客戶，往往越會提出定製化需求。Kyligence怎麼說服客戶採用統一的產品？韓卿提醒我，Oracle數據庫也沒為任何人做過定製。“這需要對產品技術發展方向有很強的把控能力。”Kyligence是由Apache頂級開源項目核心團隊組建的創業公司，這是一個重要條件。“只有把握了項目發展方向和底層核心技術，並不斷創新，才能做到產品通用化。”

今年初，Kyligence從千餘家企業中脫穎而出，成功入選微軟加速器·上海首期成員。這令韓卿團隊非常振奮。除了品牌、全球影響力、渠道等給Kyligence帶來的效益外，韓卿最期待的是微軟加速器給創業公司的指導。“這些指導可以給我們以啟迪——如何搭建一支有戰鬥力和高效的團隊，不斷抓住機會，做出改變，避免一些坑，從而成為一家成功的企業。”

作者 | 趙豔秋

微信編輯 |李昊原

「深度」Hadoop上的中國神獸

相關推薦