“我是文科生出身,可以學習數據分析嗎?”
“我沒有編程基礎,可以成為數據分析師嗎?”
“學習數據分析必須學習R和Python嗎?”
… …
其實,數據分析沒有想象中那麼難,入門也沒有那麼多條條框框。
我認識的HR轉數據分析,市場營銷轉數據運營的,大有人在。
數據分析重要的是問題的理解、分析的思路、分析的流程及結果的解讀,工具和編程都是實現這些分析思路的手段之一。
不過優秀的數據分析師也並非幾日能速成,但入門也有入門的捷徑。
盤算了一下數據分析的入門知識,大體分為以下這些,只要拿出你大學時啃高數的狀態,每週夯實一個基礎,基本能學成。
學習大綱:
- 數據分析的思維和方法
- Excel進階
- 數據庫理解和SQL入門
- 數理統計學
- 數據分析軟件應用
- 數據可視化
- 常見的業務分析模型
- Python/R語言掌握
- 業務理解和指標設計
- 增長黑客:數據驅動增長
接下來,我將花一個月的時間在專欄裡詳細講述每一塊教程,學習地址——拉到文章末尾。
第一週:培養數據分析思維
為什麼數據分析思維很重要?
如果我們在分析一個問題前,思維缺失就像下面圖中所表達的一樣,往往不知道問題從哪裡下手,即使拿到數據也是一臉懵逼。
所以我們要通過訓練數據分析思維,幫助在遇到問題時,大家腦中能快速梳理出分析的切入點,甚至是分析的思路,這一點很重要。
常用的一些思維方式:
1、金字塔/結構化思維
把待分析問題按不同方向去分類,然後不斷拆分細化,能全方位的思考問題,一般是先把所有能想到的一些論點先寫出來,然後在進行整理歸納成金字塔模型。主要通過思維導圖來寫我們的分析思維。
2、公式化思維
在結構化的基礎上,這些論點往往會存在一些數量關係,使其能進行+、-、×、÷的計算,將這些論點進行量化分析,從而驗證論點。所謂指標體系,就是這麼梳理得來的。
業務化思維
業務化即是深入瞭解業務情況,結合該項目的具體業務進行分析,並且能讓分析結果進行落地執行。用結構化思考+公式化拆解得出的最終分析論點再很多時候表示的是一種現象,不能體現產生結果的原因。所以需要繼續去用業務思維去思考,站在業務人員或分析對象的角度思考問題,深究出現這種現象的原因或者通過數據推動業務。
增加業務思維方法:貼近業務,換位思考,積累經驗。
同時,這樣的思維模式在一些特定業務場景下,還衍生出一些基礎的分析方法,比如象限法、多維法、假設法、指數法、二八法、對比法、漏斗法,這個對未來構建分析模型都有幫助。
思維模型的好處是他能提供一種視角或思維框架,從而幫助你建立起觀察事物和分析問題的視角。通過對思維模型的學習和訓練,能提高你成功的可能性。
第二週:Excel技能進階
學習Excel是一個循序漸進的過程
基礎的:簡單的表格數據處理、篩選、排序
函數和公式:常用函數、高級數據計算、數組公式、多維引用、function
可視化圖表:圖形圖示展示、高級圖表、圖表插件
數據透視表、VBA程序開發
按照我習慣的方法,先過一遍基礎,知道什麼是什麼,然後找幾個case練習。多逛逛excelhome論壇,平常多思考如何用excel來解決問題,善用插件。
函數和數據透視表是兩個重點,結合業務場景來學習,可參考《誰說菜鳥不會數據分析》。
製作數據模板必須掌握的excel函數
日期函數:day,month,year,date,today,weekday,weeknum。日期函數是做分析模板的必備,可以用日期函數來控制數據的展示,查詢指定時間段的數據。
數學函數:product,rand,randbetween,round,sum,sumif,sumifs,sumproduct
統計函數:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。統計函數在數據分析中具有舉足輕重的作用,求平均值,最大值,中位數,眾位數都用得到。
查找和引用函數:choose,match,index,indirect,column,row,vlookup,hlookup,lookup,offset,getpivotdata。這幾個函數的作用不用多說,特別是vlookup,不會這個函數基本上覆雜一點的報表寸步難行。
文本函數:find,search,text,value,concatenate,left,right,mid,len。這幾個函數多半用在數據整理階段使用。
邏輯函數:and,or,false,true,if,iferror。
數據透視表
數據透視表的作用是把大量數據生成可交互的報表,數據透視表具有這樣一些重要功能:分類彙總、取平均、最大最小值、自動排序、自動篩選、自動分組;可分析佔比、同比、環比、定比、自定義公式。
第三週:學習數據庫原理和SQL
做數據分析,數據從哪裡來?數據庫!怎麼取數據?寫SQL!
做數據分析,取數、清洗數據,基本都要依賴SQL。
初入門階段,對於數據庫不必精通,只需瞭解常用的數據庫類型,能夠在現有的表格裡面查詢出數據,能夠更新數據對數據進行重編碼,知道怎麼增加添加數據,把數據變得規整就行。理解主鍵,索引等含義和用處。導入導出數據可以使用工具,分析數據可以使用ODBC或者其他的接口對數據庫進行連接。取數的排序,做數據的交集並集,數據轉換,數據表合併等這些,最好也能掌握。
這裡我總結了幾個核心技能:
技能一:學會用select語句添加字段和找出需要的數據
直接給一個隨時可以套用的萬金油模板吧:
select cola,colb,colc into newtable from oldtable wherecola='x' and colb is not null;
基本上,學會這個就可以完全的查出大部分的數據了。
select後面是一個個的字段,要哪個選哪個。有into意味著放到一張新表裡面,沒有就是查詢出來。where之後的就是我們的條件,等於某個值,或者是不是空值,是最常用的幾種查詢方式吧。
還有一種select也用的非常多:select cola from oldtable group by cola;
這個語句是看看cola有多少種值的可能性。
select進階學習,可能要講講join,union,以及多個查詢組合成的嵌套查詢,或者是子查詢的模式,以及模糊查詢。這個後面我會再花篇幅寫出來給大家參考。
技能二:學會alter學會增加,減少字段
alter可以做的事情很多,增加字段,減少字段,增加主鍵減少主鍵等等,非常常用。
1. 增加字段:alter table tablename add colname varchar;
這樣就可以增加一個空字段,varchar是一種數據類型。
2. 減少字段:alter table tablename drop column colname;
這樣就去掉了一個原有的字段。
技能三:學會update學會更新數據更新數據
大概常用的有兩種,一種是更新成一個固定值:
update table set col=1;
另一種是從另一張表裡面更新,這種方法,在處理一些小型數據的時候經常會導出,然後導入到數據庫,就可以用:
update table set col=tableb.col from tablebwhere table.id=tableb.id;
裡面table和tableb是兩張表,然後通過兩張表的id關聯起來,學會這個書寫結構就行。
第四周:數理統計學
統計學是數據分析師必備的基礎知識之一,是一組用於彙總數據和量化給定觀測樣本域屬性的工具。
單獨的原始觀察數據只是數據,還不能變為我們想要的信息或知識。有了原始數據,那麼接下來的問題是:
- 什麼是最常見或可預期的觀測?
- 觀測的限制條件是什麼?
- 數據是什麼樣子的?
回答這些問題,我們需要藉助一些統計工具來得出一些結論。藉助統計學,你的分析深度、專業度和科學性都會有很大提升。
所以這一週,我們需要掌握統計學的以下幾大概念:
1.集中趨勢(中數、眾數、平均數)
2.變異(四分位數、四分位距、異常值、方差)
3.歸一化(標準分數)
4.正態分佈
5.抽樣分佈(中心極限、抽樣分佈)
6.估計(置性度、置信區間)
7.假設檢驗
8.T檢驗
推薦書籍:吳喜之-《統計學·從數據到結論》
第五週:數據分析軟件應用
有了數據分析思維基礎,懂一些統計學知識之後,我們就可以著手開始相對專業的分析,用可視化的方法探索數據的規律。
這一週,除了Excel,你需要掌握一個傍身的數據分析工具。
考慮到快速入門,這裡暫時放一放SPSS、R、Python一類工具,先掌握BI工具的運用,幫助快速熟悉起數據分析的流程。知名的BI產品有Tableau,Power BI,還有國內的FineBI,網上都有體驗版和免費版下載。處理好的數據拿來放BI分析,分分鐘就能出很漂亮的可視化,比Excel的圖表高級多了,而且絕大多數人都能輕鬆上手。
BI需要掌握數據的連接,連不上數據怎麼分析。還有儀表盤Dashboard的概念,知道絕大多數圖表適用的場景和怎麼繪製,維度和指標的區分。一些數據的清洗,如果BI掌握得透徹也可以放BI處理,但不熟悉還是用SQL處理吧。
第六週:數據可視化
可視化看似是簡單的步驟,但也是有造詣的。可視化說白了是一種表達,數據分析結果表達的是否到位,領導是否認同,工資漲不漲,全靠這一紙dashboard(當然還有你“講故事”的功力)。
如何選擇最佳的圖表類型?趨勢性、相關性、分佈性、週期性、地理位置分佈性……
顏色和字體等細節樣式方面,如何進行更加美觀的調配。
佈局設計原則,故事性佈置可視化儀表板,報告的標題和結論註釋,以及整體展現的邏輯性。
還有很多可視化的陷阱,都是值得花一週探究的。
第七週:常見的業務分析模型
基於一些數據分析方法,如象限法、多維法、假設法、指數法、二八法、對比法、漏斗法,在特定業務場景下,還衍生了通用的業務分析模型,常用的有購物籃分析模型,RFM模型,漏斗分析模型,客戶生命週期,以及預測、聚類分析等挖掘模型。
這一週我們要掌握常用的分析模型,最好能有深刻的認識,直接套用到實際的業務場景中,活學活用。
第八週:Python/R語言掌握
到這一週,數據分析的入門之路基本上完成一大半。
本著提升自己,以及加大自己求職和麵試的籌碼,掌握Python或R絕對是加分項。
有關數據分析的編程語言有Python和R語言。R語言傾向於統計分析、繪圖等。統計學家或者學統計學的喜歡用R語言,而我更青睞學習Python,因為Python是面向未來的語言,無論從流行度、可用性還是學習難度來講,Python都是最好的入門語言。
當然,如果可以的話,再掌握一下R語言是最好不過的,學習嘛,永無止盡。
Python有很多分支,但我們學習的主題是數據分析,入門推薦《深入淺出Python編程》
從code academy開始學起,完成上面的所有練習。Code academy涵蓋了Python基本概念。當完成了code academy練習之後,看看這個Ipython notebook:
其次,掌握三個庫Numpy、Pandas、Matplotlib
Numpy是利用Python科學計算的基礎包,對Numpy好的掌握將會幫助你有效地使用其他工具例如Pandas。包括N維數組,索引,數組切片,整數索引,數組轉換,通用函數,使用數組處理數據,常用的統計方法等等。
Numpy Basics Tutorial,Index Numpy 遇到Numpy陌生函數,查詢用法,推薦!
Pandas包含了高級的數據結構和操作工具,能使得Python數據分析更加快速和容易。包含series, data frams,從一個axis刪除數據,缺失數據處理等等。
Pandas Basics Tutorial,Index Pandas 遇到陌生函數,查詢用法,推薦!
Matplotlib是一個強大的Python可視化庫。幾行代碼就能繪製出散點圖、折線圖、直方圖、柱狀圖、箱線圖等。
第九周:業務理解和指標設計
到了第九周,大家可以發現,這個學習計劃更多是偏業務的數據分析,可見業務理解的重要性。但業務理解需要多年的積累,沒有掌握的捷徑。剛入門也不會拷問太多業務上的問題,更多時候是考驗你邏輯思維能力和數據分析的方法。所以簡單花一週時間瞭解各行業的業態,各業務的通用指標。
其次,指標體系。幾乎一個數據崗的崗位要求都會涉及這樣一句話:“負責建立和優化部門的數據指標體系”。事實上目前大多的數據崗主要工作都是不斷完善與優化數據指標體系,而對層面的工作是比較少的,即使崗位叫做數據分析師 。一個優秀的數據指標體系,不僅能讓你快速解決數據需求,洞察出可能會被忽略的價值數據,還能反映出你目前最需解決的業務問題。所以,這一週還要掌握梳理業務指標的思路。
第十週:數據驅動&增長黑客
這個話題比較嚴肅,需要把數據分析師這個崗位放到整個公司甚至整個行業來看。任何一個崗位的設定都是要為企業帶來價值或利潤的,數據分析師也是如此。要搞清未來價值所在,升職加薪之路才會明朗。
目前有一個非常火的詞來形容一類數據分析師,叫“增長黑客”,所做的事也很時髦,叫“數據驅動”。字面意思很好理解,就是利用數據分析技術給業務帶來增長,驅動企業轉型。
本週,你要了解業界不管是傳統行業還是互聯網行業數據驅動業務增長的成功案例。
未來成為增長黑客要做好哪些準備?
日常工作中,如何讓自己避免成為“取數機”?
如何推動數據分析工作並得到老闆重視?
工作中有哪些工作細節,去潛移默化的改變身邊人尤其是老闆對數據價值的認知?
-----------------------------------
最後,關於學習計劃
本文系統的梳理了數據分析所要掌握的技能。
近期,我將計劃在專欄寫“數據分析入門系列”,將上述每一章都細細講解(貌似都能出本書了)
專欄每週更新2~3篇乾貨文章,幫助大家一步一步掌握基礎數據分析的技能。
感興趣的戳下“瞭解更多”關注專欄,跟著學習。
-----------
我是“數據分析不是個事兒”。常年分享數據分析乾貨,不定期分享好用的職場技能工具。