漫談數據科學工程師

大數據 工程師 數據挖掘 Hadoop 中國軟件評測中心 2017-05-04

專業就是實力!中國軟件評測中心感謝您的關注,我們在這裡與您共同分享基於第三方服務的科技資訊與趣聞,歡迎加入我們。

設定題目的過程中,本想寫大數據,想想算了;想寫數據科學家,想想又算了。最後精準定位到數據科學工程師,再加上銀行的背景,就有了行業和崗位的限定,旨在聊聊銀行信息科技崗位在企業大數據分析挖掘工作實踐的幾個問題,這樣不會出現理解上的偏差。之前斷斷續續的寫了一些,這裡不再特別回顧或關聯,如有重疊,純屬巧合吧。

這次寫字的動機,一方面數據領域的思考與實踐是持續發酵的,另外一方面就是前幾天支持課題評審的過程中有了一些新的收穫和啟發。辛辛苦苦兩天半順利完成支持任務,過程中旁聽了同業在大數據領域的創新和實踐,也默默在大腦中跟專家的點評進行了印證。對了,所謂的收穫不是指創新思路上的啟發,更多還是結合自身工作進行的反思與提煉。

客觀的說,從專業角度看我們在數據科學的探索和實踐上還是有一定優勢的,至少沒在課題評審中聽到和看到什麼新東西;區域性銀行或者特色業務背後的大數據支持還算有意思,但也不是體現在在專業上。過去的幾年中,我們對大數據進行了持續的探索和努力,以至於到現在聽創新課題講解都味如嚼蠟,反而專家點評環節樂趣更多一些。想一下現實的工作場景,其實在很多問題上外部支持的力度和效果越來越弱了,在思路和方法上都要依靠自己的努力;因而想在類似創新評審中聽到新東西是不容易的,另外真正有價值的東西同業也肯定不會拿出來說。迴歸主題,針對數據科學工程師的實戰要求我進行了一些反思,下面逐一細細道來。

關於生態定位

大數據too damn big,大數據生態圈、hadoop生態圈,技術上還會加上業務生態,數據技術、應用旁邊還有數據治理、管理這些軟的,估計有人一聽到生態就頭大了。實際上也想不到有更好的描述,生態這個詞本身說明了系統的複雜性。在生態裡面的玩家很多,形形色色,各講各話。反正建議還是少關心些模式、戰略,多研究些實際問題。

窮理的過程中,大數據領域有一個很容易陷入的誤區就是以偏概全,從一個點出發就對全局下一個判斷,諸如大數據是萬能的,或者大數據是無能的,這樣的結論看的多了自然就會厭倦。火爆的大數據給部分人帶來的是深深的反感,一個很大原因在於其內在偏虛;不能光說價值,總得拿出點看得見摸得著的東西。

關於場景切入

大數據分析挖掘與應用場景密切相關,在規劃切入點的時候應該與業務充溝通。在旁聽的過程中發現部分課題項目在進行對應大數據規劃過程中缺乏業務的支持,因而導致落地的困難,甚至有做了poc卻根本無法立項的情況。解決這個問題很簡單,無論數據治理還是數據分析,都應該定位業務痛點,通過管理和技術手段來解決問題。還有一種情況,就是將新的技術和分析思路補充到傳統方法中,解決傳統方法在新業務背景下解決不了的問題。

總之呢,大數據應該起始於解決實際的問題,和業務人員進行充分溝通交流後確定數據應用的需求。數據分析挖掘人員工作在企業數據領域的前沿陣地,在CIO或CDO的轄下應該要得到數據治理、架構規劃、運維等部門的支持。最後,引用一下專家的觀點,大數據應用最好往前線衝,而不是往後面走做些花裡胡哨的東西。

漫談數據科學工程師

關於創新模式

若前文所述,數據科學案例的重點在於分析業務面臨的難點問題,通過數據科學技術制定解決方案,過程中要做到有的放矢。換句話說,現實中最大的問題不是技術或工具,不是hadoop和spark,而是如果把業務問題轉化為數據問題,轉化為模型問題。大數據不談點hadoop似乎有點落伍,但若講清楚hadoop與傳統edw,與mpp之間的定位關聯也不是易事。

從數據角度,也不是非要從3v、4v的角度去解決問題,公檢法、工商、稅務、水電、電信、互聯網爬蟲,似乎做模型就必須加上這些,尤其是風控模型。其實拿到數據、加到模型裡面很容易,但用好這些數據發揮實際效果其實很難,相當於寫篇論文與實際落地到業務流程中的距離。徵信啊徵信,其實把內部數據盤點用好更切實可行,一切靠量化結果說話嘛。還是那句老話,做模型就拿出對比結果,最好還能拿出實際應用效果。另外,要慎重面對數據分析結果與業務解釋貫通的環節,數據洩露會害死人。

關於複雜的算法

在一個典型的數據挖掘場景下,大量的精力會投入到業務分析和特徵處理上。基於零散雜亂的原始數據確定特徵指標,制定詳實的步驟來進行各種處理,最後一步跑模型往往是一蹴而就的事情。插一個題外話,這其實也是數據挖掘和機器學習相關論文的主要區別,寫paper的時候沒數據,當然就只能在算法上折騰折騰。在企業內做大數據挖掘,有很多的數據可以探索,這時候不應該把重點放在用多麼多麼複雜的算法,而是要考慮為什麼要用這些算法,這些算法能夠解決什麼問題。

把簡單的問題複雜化,這是不對滴。一個合格的數據科學工程師,思維模式應該是把複雜的問題簡單化。進行大數據分析挖掘的時候,堅持目標導向設計解決方案,制定計劃並推動落實。

漫談數據科學工程師

關於數據與美食

經過接近一年的努力,我已經能夠做到打開冰箱,翻翻現成的食材,然後就能做出一道讓家人比較滿意的料理(咳咳,其實煲的湯還可以,做的菜只是在香和味上還算差強人意,色上則遜色的多,不過勉強入口罷了)。過程中要考量食材的搭配,以及烹飪方式和工具的選擇;當然,還有客戶的喜好和習慣。

數據如食材,算法如烹飪技巧。如何做大數據分析挖掘,如何將業務問題轉化為數據問題,如何將數據科學與業務邏輯相結合,您看著辦。

漫談數據科學工程師

關於自身發展

從今天起,做一名務實的數據科學工程師

閱讀、思考、投入實踐

從今天起,推進更有內涵的發展

堅持工匠精神,抵制忽悠,反對文盲

從今天起,和業務人員探討每一個數據產品

告訴他們我們能夠提供的支持

這些產品將轉化為收入和效率上的提升

服務到企業的每一個客戶

漫談數據科學工程師

關於這篇文章的主題思想

不會讀詩的數據科學工程師不是一個好廚子。

注:部分圖片來自互聯網

作者:老田@SmarterBank

瞭解更多請點擊左下方閱讀原文

相關推薦

推薦中...