'「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系'

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。如何建立數據分析的思維框架,你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

以MySQL為例:

新手首先應該瞭解表的概念,表和Excel中的sheet類似。數據庫指南包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手學習最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。

join對新手是一個很繞的概念,從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

解鎖數據分析的正確姿勢:描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。如何建立數據分析的思維框架,你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

以MySQL為例:

新手首先應該瞭解表的概念,表和Excel中的sheet類似。數據庫指南包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手學習最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。

join對新手是一個很繞的概念,從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

解鎖數據分析的正確姿勢:描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

很多特定的模型都有自有的數據分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。如何建立數據分析的思維框架,你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

以MySQL為例:

新手首先應該瞭解表的概念,表和Excel中的sheet類似。數據庫指南包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手學習最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。

join對新手是一個很繞的概念,從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

解鎖數據分析的正確姿勢:描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

很多特定的模型都有自有的數據分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

直方圖和箱線圖一樣,將會是長久伴隨分析師的利器。

統計學的一大主要分支是概率論,概率是度量一件事發生的可能性,它是介於0到1之間的數值。很多事情,都可以用概率論解釋。

包括貝葉斯公式、二項概率、泊松概率、正態分佈等理論。理論不應用現實,那是無根之木,教程中會以運營活動最常見的抽獎概率為講解,告訴大家怎麼玩。

其實數據分析中,概率應用最廣泛和最全面的知識點,就是假設檢驗,大名鼎鼎的AB測試就是基於它的。俗話說得好,再優秀的產品經理也跑不過一半AB測試。

何為假設檢驗?假設檢驗是對預設條件的估計,通過樣本數據對假設的真偽進行判斷。

產品改版了,用戶究竟喜不喜歡?調研的評分下降了,這是用戶的評價降低了,還是正常的數據波動呢?這些都是可以做假設檢驗的。

假設檢驗並不難,通過Excel的幾個函數就能完成。它的難點在於諸多知識點和業務的結合使用,實際公式不需要掌握的多透徹,瞭解背後的意義更重要。

統計學是一個很廣闊的領域,包括方差分析,時間序列等,都有各自不同的應用。大家若感興趣,可以去閱讀各類教材,沒錯,教材是學習統計學最優的方式。

第六週:業務

對於數據分析師來說,業務的瞭解比數據方法論更重要。舉個例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。這個案例中,我們只知道送貨員的送貨水平距離,根本不知道垂直距離。這是數據的侷限,也是隻會看數據的分析師和接地氣分析師的最大差異。業務形態千千萬萬,數據分析師往往難窺一二。

一篇文章讀懂活躍數據;深入淺出,用戶生命週期的運營;獲取新增用戶,運營都應該知道的事;運營的商業邏輯:CAC和CLV;從零開始,構建數據化運營體系;讀懂用戶運營體系:用戶分層和分群,這些都是互聯網運營相關的內容,或多或少涉及了不少業務方面的概念,數據分析人員可以選擇性的挑選部分內容。瞭解業務的數據分析師在職場發展上會更加順利。

  • 產品運營模型:以移動端APP為主體,圍繞AARRR準則搭建起數據框架。包括Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營收、Refer傳播,以及細分指標。
  • 市場營銷模型:以傳統的市場營銷方法論為基底,圍繞用戶的生命週期建立框架。包括用戶生命週期,生命週期價值、用戶忠誠指數、用戶流失指數、用戶RFM價值等。
  • 流量模型:從早期的網站分析發展而來,以互聯網的流量為核心。包括瀏覽量曝光率、病毒傳播週期、用戶分享率、停留時間、退出率跳出率等。
  • 電商和消費模型:以商品的交易、零售、購買搭建而起。包括GMV、客單價、復購率、回購率、退貨率、購物籃大小、進銷存,也包含SKU、SPU等商品概念。
  • 用戶行為模型:通過用戶在產品功能上的使用,獲得精細的人群維度,以此作為分析模型。包括用戶偏好、用戶興趣、用戶響應率、用戶畫像、用戶分層,還包含點贊評論瀏覽收藏等功能的相關指標。

除了上述的幾個常見模型,數據分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它並不簡單。比如財務分析,商業的各種成本支出也需要專人負責。

在業務知識外,業務層面的溝通也很重要。業務線足夠長的時候,溝通往往成為老大難的問題。

業務學習沒有捷徑,哪怕掌握了諸多模型,不同行業間的業務壁壘會是分析師們的門檻。金融的各類專有領域知識,電子商務不同產品的特性,這些都會影響到分析報告的質量。

在早期,新人最好選擇一到兩個領域深入瞭解其業務,然後以此拓展邊界。

第七週:Python/R

第七週是最後的學習環節。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘、BI、爬蟲、可視化報表都需要用到編程。掌握一門優秀的編程語言,可以讓數據分析師升職加薪,迎娶白富美。數據分析領域最熱門的兩大語言是R和Python。R的優點是統計學家編寫的,缺點也是統計學家編寫。涉及各類統計函數和工具的調用,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。

Python則是萬能的膠水語言,適用性強,可以將分析的過程腳本化。Pandas、Numpy、SKLearn等包也是非常豐富。

Python搭建數據分析環境,Anaconda是功能強大的數據科學工具。Python建議安裝Python3+版本,不要選擇Python2了。

Python的語法相當簡潔,大家print出第一個hello world頂多半小時。就像在Excel上進行運算一樣方便。

Python的三類數據結構,列表list,元組tuple,以及字典dict。萬變不離其宗,掌握這三種數據結構以及相對應的函數,足夠應付80%的分析場景。函數式編程為Python一大特色,Python自身就提供不少豐富的函數。很多都和Excel的函數相通,掌握起來非常迅速。另外還有控制流,for、while、if,通常配合函數組合使用。

自定義函數,豐富的函數雖然能偷懶,但是不少場景下,還是需要自己動手擼一個。

能夠調第三方包解決,就使用第三方的函數。如果是一個頻繁使用的場景,而第三方依靠不了,就自己編一個函數。如果是臨時性的場景,寫得粗糙點也無所謂。畢竟分析師的代碼能力不要求工程師那麼嚴格,所以Python的學習儘量以應用為主,不用像分析師那麼嚴格。

包、模塊和類的概念屬於進階知識,不學也不要緊。

數據分析師賴以生存的兩個包,numpy和pandas,其他Python知識可以不紮實,這兩個最好認真掌握。它是往後很多技能樹的前置要求。

array,series,dataframe是numpy和pandas的三個數據結構,掌握它們,便算是入門了。

以分析師的薪資作為實戰數據。Excel、BI、SQL,一路走來,大家想必對它無比熟悉,這也是最後一次使用它了。通過Pandas的各類功能,繪製出一副詞雲圖。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。如何建立數據分析的思維框架,你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

以MySQL為例:

新手首先應該瞭解表的概念,表和Excel中的sheet類似。數據庫指南包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手學習最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。

join對新手是一個很繞的概念,從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

解鎖數據分析的正確姿勢:描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

很多特定的模型都有自有的數據分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

直方圖和箱線圖一樣,將會是長久伴隨分析師的利器。

統計學的一大主要分支是概率論,概率是度量一件事發生的可能性,它是介於0到1之間的數值。很多事情,都可以用概率論解釋。

包括貝葉斯公式、二項概率、泊松概率、正態分佈等理論。理論不應用現實,那是無根之木,教程中會以運營活動最常見的抽獎概率為講解,告訴大家怎麼玩。

其實數據分析中,概率應用最廣泛和最全面的知識點,就是假設檢驗,大名鼎鼎的AB測試就是基於它的。俗話說得好,再優秀的產品經理也跑不過一半AB測試。

何為假設檢驗?假設檢驗是對預設條件的估計,通過樣本數據對假設的真偽進行判斷。

產品改版了,用戶究竟喜不喜歡?調研的評分下降了,這是用戶的評價降低了,還是正常的數據波動呢?這些都是可以做假設檢驗的。

假設檢驗並不難,通過Excel的幾個函數就能完成。它的難點在於諸多知識點和業務的結合使用,實際公式不需要掌握的多透徹,瞭解背後的意義更重要。

統計學是一個很廣闊的領域,包括方差分析,時間序列等,都有各自不同的應用。大家若感興趣,可以去閱讀各類教材,沒錯,教材是學習統計學最優的方式。

第六週:業務

對於數據分析師來說,業務的瞭解比數據方法論更重要。舉個例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。這個案例中,我們只知道送貨員的送貨水平距離,根本不知道垂直距離。這是數據的侷限,也是隻會看數據的分析師和接地氣分析師的最大差異。業務形態千千萬萬,數據分析師往往難窺一二。

一篇文章讀懂活躍數據;深入淺出,用戶生命週期的運營;獲取新增用戶,運營都應該知道的事;運營的商業邏輯:CAC和CLV;從零開始,構建數據化運營體系;讀懂用戶運營體系:用戶分層和分群,這些都是互聯網運營相關的內容,或多或少涉及了不少業務方面的概念,數據分析人員可以選擇性的挑選部分內容。瞭解業務的數據分析師在職場發展上會更加順利。

  • 產品運營模型:以移動端APP為主體,圍繞AARRR準則搭建起數據框架。包括Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營收、Refer傳播,以及細分指標。
  • 市場營銷模型:以傳統的市場營銷方法論為基底,圍繞用戶的生命週期建立框架。包括用戶生命週期,生命週期價值、用戶忠誠指數、用戶流失指數、用戶RFM價值等。
  • 流量模型:從早期的網站分析發展而來,以互聯網的流量為核心。包括瀏覽量曝光率、病毒傳播週期、用戶分享率、停留時間、退出率跳出率等。
  • 電商和消費模型:以商品的交易、零售、購買搭建而起。包括GMV、客單價、復購率、回購率、退貨率、購物籃大小、進銷存,也包含SKU、SPU等商品概念。
  • 用戶行為模型:通過用戶在產品功能上的使用,獲得精細的人群維度,以此作為分析模型。包括用戶偏好、用戶興趣、用戶響應率、用戶畫像、用戶分層,還包含點贊評論瀏覽收藏等功能的相關指標。

除了上述的幾個常見模型,數據分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它並不簡單。比如財務分析,商業的各種成本支出也需要專人負責。

在業務知識外,業務層面的溝通也很重要。業務線足夠長的時候,溝通往往成為老大難的問題。

業務學習沒有捷徑,哪怕掌握了諸多模型,不同行業間的業務壁壘會是分析師們的門檻。金融的各類專有領域知識,電子商務不同產品的特性,這些都會影響到分析報告的質量。

在早期,新人最好選擇一到兩個領域深入瞭解其業務,然後以此拓展邊界。

第七週:Python/R

第七週是最後的學習環節。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘、BI、爬蟲、可視化報表都需要用到編程。掌握一門優秀的編程語言,可以讓數據分析師升職加薪,迎娶白富美。數據分析領域最熱門的兩大語言是R和Python。R的優點是統計學家編寫的,缺點也是統計學家編寫。涉及各類統計函數和工具的調用,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。

Python則是萬能的膠水語言,適用性強,可以將分析的過程腳本化。Pandas、Numpy、SKLearn等包也是非常豐富。

Python搭建數據分析環境,Anaconda是功能強大的數據科學工具。Python建議安裝Python3+版本,不要選擇Python2了。

Python的語法相當簡潔,大家print出第一個hello world頂多半小時。就像在Excel上進行運算一樣方便。

Python的三類數據結構,列表list,元組tuple,以及字典dict。萬變不離其宗,掌握這三種數據結構以及相對應的函數,足夠應付80%的分析場景。函數式編程為Python一大特色,Python自身就提供不少豐富的函數。很多都和Excel的函數相通,掌握起來非常迅速。另外還有控制流,for、while、if,通常配合函數組合使用。

自定義函數,豐富的函數雖然能偷懶,但是不少場景下,還是需要自己動手擼一個。

能夠調第三方包解決,就使用第三方的函數。如果是一個頻繁使用的場景,而第三方依靠不了,就自己編一個函數。如果是臨時性的場景,寫得粗糙點也無所謂。畢竟分析師的代碼能力不要求工程師那麼嚴格,所以Python的學習儘量以應用為主,不用像分析師那麼嚴格。

包、模塊和類的概念屬於進階知識,不學也不要緊。

數據分析師賴以生存的兩個包,numpy和pandas,其他Python知識可以不紮實,這兩個最好認真掌握。它是往後很多技能樹的前置要求。

array,series,dataframe是numpy和pandas的三個數據結構,掌握它們,便算是入門了。

以分析師的薪資作為實戰數據。Excel、BI、SQL,一路走來,大家想必對它無比熟悉,這也是最後一次使用它了。通過Pandas的各類功能,繪製出一副詞雲圖。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

將結合以往的知識點,包括業務指標,可視化,描述統計學等內容。用Python分析用戶消費行為,完成它,不說登堂入室,但也是一位合格的數據分析師了。

"

這是一份數據分析師的入門指南,一位數據分析師需要掌握的基礎體系,也是一位新人從零邁入數據大門的知識手冊。它包含Excel、數據可視化、數據分析思維、數據庫、統計學、業務、以及Python。

第一週:Excel

每一位數據分析師都脫離不開Excel。

它是日常工作中最常用的工具,如果不考慮性能和數據量,它可以應付絕大部分分析工作。雖然現在機器學習滿地走,Excel依舊是無可爭議的第一工具。

Excel的學習分為兩個部分。

掌握各類功能強大的函數,函數是一種負責輸入和輸出的神祕盒子。把各類數據輸入,經過計算和轉換輸出我們想要的結果。

在SQL,Python以及R中,函數依舊是主角。掌握Excel的函數有助於後續的學習,因為你幾乎在編程中能找到名字一樣或者相近的函數。

常用的Excel函數:

  • 清洗處理類:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text
  • 關聯匹配類:lookup、vlookup、index、match、row、column、offset
  • 邏輯運算類:if、and、or、is系列
  • 計算統計類:sum/sumif/sumifs、sumproduct、count/countif/countifs、max、min、rank、rand/randbetween、averagea、quartile、stdev、substotal、int/round
  • 時間序列類:year、month、weekday、weeknum、day、date、now、today、datedif
  • 搜索能力是掌握Excel的不二竅門,工作中的任何問題都是可以找到答案。

第二部分是Excel中的工具。

Excel最具性價比的幾個技巧。包括數據透視表、格式轉換、數組、條件格式、自定義下拉菜單等。正是這些工具,才讓Excel在分析領域經久不衰。

在大數據量的處理上,微軟提供了Power系列,它和Excel嵌套,能應付百萬級別的數據處理,彌補了Excel的不足。

Excel需要反覆練習,通過網絡上抓取的數據分析師薪資數據作為練習,總結各類函數的使用。

除了上述要點,下面是附加的知識點,鋪平數據分析師以後的道路。

  • 瞭解單元格格式,數據分析師會和各種數據類型打交道,包括各類timestamp,date,string,int,bigint,char,factor,float等。
  • 瞭解數組,以及相關應用(excel的數組挺難用),Python和R也會涉及到 list,是核心概念之一。
  • 瞭解函數,深入理解各種參數的作用。它會在學習Python中幫助到你。
  • 瞭解中文編碼,UTF8、GBK、ASCII,這是數據分析師的坑點之一。

第二週:數據可視化

數據分析界有一句經典名言,字不如表,表不如圖。

數據可視化是分析的常用技巧之一,不少數據分析師的工作就是通過圖表觀察和監控數據。首先了解常用的圖表:

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表可以100%繪製上面的圖形,但這只是基礎。

各類數據分析的經典圖表,除了趨勢圖、直方圖,還包括桑基圖、空間圖、熱力圖等額外的類型。

數據可視化不是圖表的美化,而是呈現數據的邏輯之美,是揭示數據的內在關聯。瞭解圖表的維度和適用場景,比好看更重要。比如桑吉圖就是我一直推崇的圖表,它並不知名,但是它能清晰的揭露數據內在狀態的變化和流向。案例是用戶活躍狀態的趨勢。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel的圖表操作很傻瓜化,其依舊能打造出一份功能強大的可視化報表。

常用的Excel繪圖技巧,包括配色選取,無用元素的剔除、輔助線的設立、複合圖表等方法。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

Excel圖表的創造力是由人決定的,對數據的理解,觀察和認知,以及對可視化的應用,這是一條很長的道路。

圖表是單一的,當面板上繪製了多張圖表,並且互相間有關聯,我們常稱之為Dashboard儀表盤。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

上圖就是用分析師薪資數據為數據源繪製的Dashboard,比單元格直觀不少。我們常常把繪製這類Dashboard的工具叫做BI。

BI(商業智能)主要有兩種用途。一種是利用BI製作自動化報表,數據類工作每天都會接觸大量數據,並且需要整理彙總,這是一塊很大的工作量。這部分工作完全可以交給BI自動化完成,從數據規整、建模到下載。

另外一種是使用其可視化功能進行分析,它提供比Excel更豐富的交互功能,操作簡單,而且美觀,如果大家每天作圖需要兩小時,BI能縮短大半。

上文列舉的分析師案例以微軟的PowerBI舉例,教大家如何讀取數據,規整和清洗數據,繪製圖表以及建立Dashboard。

BI還有幾個核心概念,包括OLAP,數據的聯動,鑽取,切片等,都是多維分析的技巧,也是分析的核心方法之一。

後續的進階可視化,將和編程配合。因為編程能夠提供更高效率和靈活的應用。而BI也是技術方向的工具,瞭解技術知識對應用大有幫助。

第三週:數據分析思維

數據分析能力的高低,不以工具和技巧決定,而以分析思維決定。

在一場戰爭中,士兵裝備再好的武裝,進行再嚴苛的訓練,若是衝鋒的方向錯了,那麼迎接他們的唯有一敗塗地。

分析思維決定一場「數據戰爭」中的衝鋒方向。只有先養成正確的分析思維,才能使用好數據。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

既然是思維,它就傾向於思考的方式,Excel函數學會了就是學會,分析則不同。大多數人的思維方式都依賴於生活和經驗做出直覺性的判斷,以「我覺得我認為」展開,好的數據分析首先要有結構化的思維。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

麥肯錫是其中領域的佼佼者,創建了一系列分析框架和思維工具。最典型地莫過於金字塔思維。

快速掌握麥肯錫的分析思維簡述了該思維的應用,你能學會結構化思考,MECE原則,假設先行,關鍵驅動等方法論

除此以外,還有SMART、5W2H、SWOT、4P4C、六頂思考帽等,這些都是不同領域的框架。框架的經典在於,短時間內指導新人如何去思考,它未必是最好的,但一定是性價比最優的。數據分析思維,是分析思維的引申應用。再優秀的思考方式,都需要佐證和證明,數據就是派這個用處的,「不是我覺得,而是數據證明」。

現代管理學之父彼得·德魯克說過一句很經典的話:如果你不能衡量它,那麼你就不能有效增長它。如果把它應用在數據領域,就是:如果你不能用指標描述業務,那麼你就無法有效增長它。每一位數據分析師都要有指標體系的概念,報表也好,BI也好,即使機器學習,也是圍繞指標體系建立的。

下圖就是一個典型的指標體系,描述了用戶從關注產品、下載、乃至最後離開的整個環節。每一個環節,都有數據及指標以查詢監控。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

不同業務背景需要的指標體系不同,但有幾個建立指標的通用準則。如何建立數據分析的思維框架,你將區分什麼是好指標、什麼是壞指標、比率和比例、指標的結構、指標設立的維度等概念。

數據分析不是一個結果,而是一個過程。幾乎所有的分析,最終目的都是增長業務。所以比分析思維更重要的是驅動思維落地,把它轉化為成果。

數據分析思維是常年累月養成的習慣,一週時間很難訓練出來,但這裡有一個縮短時間的日常習慣。以生活中的問題出發做練習。

這家商場的人流量是多少?怎麼預估?

上海地區的共享單車投放量是多少?怎麼預估?

街邊口的水果店,每天的銷量和利潤是多少?怎麼預估?

這些開放性問題起源於諮詢公司的訓練方法,通過不斷地練習,肯定能有效提高分析思維。另外就是刷各種CaseBook。

優秀的數據分析師會拷問別人的數據,而他本身的分析也經得起拷問。

第四周:數據庫

Excel很容易遇到瓶頸,隨著業務的發展,分析師接觸的數據會越來越多。對大部分人的電腦,超過十萬條數據,已經會影響性能。何況大數據時代就是不缺數據,這時候就需要學習數據庫了。

即使非數據崗位,也有越來越多的產品和運營被要求使用SQL。

很多數據分析師戲稱自己是跑SQL的,這間接說明SQL在數據分析中有多核心。從Excel到SQL絕對是處理效率的一大進步。

以MySQL為例:

新手首先應該瞭解表的概念,表和Excel中的sheet類似。數據庫指南包括表、ID索引、以及數據庫的安裝,數據導入等簡單知識。

SQL的應用場景,均是圍繞select展開。增刪改、約束、索引、數據庫範式均可以跳過。新手學習最常見的幾個語法,select、where、group by、if、count/sum、having、order by、子查詢以及各種常用函數

數據還是分析師薪資數據,它可以和Excel實戰篇結合看,不少原理都是相通的。

想要快速掌握,無非是大量的練習。大家可以在leetcode上做SQL相關的練習題,難度從簡單到困難都有。

join對新手是一個很繞的概念,從一開始的join關聯,到條件關聯、空值匹配關聯、子查詢關聯等。最後完成leetcode中的hard模式。

如果想要更進一步,可以學習row_number,substr,convert,contact等函數。不同數據平臺的函數會有差異,例如Presto和phpMyAdmin。再想提高,就去了解Explain優化,瞭解SQL的工作原理,瞭解數據類型,瞭解IO。知道為什麼union比or的效率快,這已經和不少程序員並駕齊驅。

第五週:統計學

很多數據分析師並不注重統計學基礎。

比如產品的AB測試,如果相關人員不清楚置信度的含義和概念,那麼好的效果能意味著好麼?如果看待顯著性?

比如運營一次活動,若不瞭解描述統計相關的概念,那麼如何判別活動在數據上的效果?可別用平均數。

不瞭解統計學的數據分析師,往往是一個粗糙的分析師。如果你想要往機器學習發展,那麼統計學更是需要掌握的基礎。

統計知識會教大家以另一個角度看待數據。如果大家瞭解過《統計數據會撒謊》,那麼就知道很多數據分析的決策並不牢靠。

解鎖數據分析的正確姿勢:描述統計中的諸多變量,比如平均數、中位數、眾數、分位數、標準差、方差。這些統計標準會讓新手分析師從平均數這個不靠譜的泥潭中出來。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

箱線圖就是描述統計的大成者,好的分析師一定是慣用箱線圖的常客。

很多特定的模型都有自有的數據分佈圖,掌握這些分佈圖對分析的益處不可同日而語。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

直方圖和箱線圖一樣,將會是長久伴隨分析師的利器。

統計學的一大主要分支是概率論,概率是度量一件事發生的可能性,它是介於0到1之間的數值。很多事情,都可以用概率論解釋。

包括貝葉斯公式、二項概率、泊松概率、正態分佈等理論。理論不應用現實,那是無根之木,教程中會以運營活動最常見的抽獎概率為講解,告訴大家怎麼玩。

其實數據分析中,概率應用最廣泛和最全面的知識點,就是假設檢驗,大名鼎鼎的AB測試就是基於它的。俗話說得好,再優秀的產品經理也跑不過一半AB測試。

何為假設檢驗?假設檢驗是對預設條件的估計,通過樣本數據對假設的真偽進行判斷。

產品改版了,用戶究竟喜不喜歡?調研的評分下降了,這是用戶的評價降低了,還是正常的數據波動呢?這些都是可以做假設檢驗的。

假設檢驗並不難,通過Excel的幾個函數就能完成。它的難點在於諸多知識點和業務的結合使用,實際公式不需要掌握的多透徹,瞭解背後的意義更重要。

統計學是一個很廣闊的領域,包括方差分析,時間序列等,都有各自不同的應用。大家若感興趣,可以去閱讀各類教材,沒錯,教材是學習統計學最優的方式。

第六週:業務

對於數據分析師來說,業務的瞭解比數據方法論更重要。舉個例子,一家O2O配送公司發現在重慶地區,外賣員的送貨效率低於其他城市,導致用戶的好評率降低。總部的數據分析師建立了各個指標去分析原因,都沒有找出來問題。後來在訪談中發覺,因為重慶是山城,路面高低落差比較誇張,很多外賣人員的小電瓶上不了坡…所以導致送貨效率慢。這個案例中,我們只知道送貨員的送貨水平距離,根本不知道垂直距離。這是數據的侷限,也是隻會看數據的分析師和接地氣分析師的最大差異。業務形態千千萬萬,數據分析師往往難窺一二。

一篇文章讀懂活躍數據;深入淺出,用戶生命週期的運營;獲取新增用戶,運營都應該知道的事;運營的商業邏輯:CAC和CLV;從零開始,構建數據化運營體系;讀懂用戶運營體系:用戶分層和分群,這些都是互聯網運營相關的內容,或多或少涉及了不少業務方面的概念,數據分析人員可以選擇性的挑選部分內容。瞭解業務的數據分析師在職場發展上會更加順利。

  • 產品運營模型:以移動端APP為主體,圍繞AARRR準則搭建起數據框架。包括Acquisition用戶獲取、Activation用戶活躍、Retention用戶留存、Revenue營收、Refer傳播,以及細分指標。
  • 市場營銷模型:以傳統的市場營銷方法論為基底,圍繞用戶的生命週期建立框架。包括用戶生命週期,生命週期價值、用戶忠誠指數、用戶流失指數、用戶RFM價值等。
  • 流量模型:從早期的網站分析發展而來,以互聯網的流量為核心。包括瀏覽量曝光率、病毒傳播週期、用戶分享率、停留時間、退出率跳出率等。
  • 電商和消費模型:以商品的交易、零售、購買搭建而起。包括GMV、客單價、復購率、回購率、退貨率、購物籃大小、進銷存,也包含SKU、SPU等商品概念。
  • 用戶行為模型:通過用戶在產品功能上的使用,獲得精細的人群維度,以此作為分析模型。包括用戶偏好、用戶興趣、用戶響應率、用戶畫像、用戶分層,還包含點贊評論瀏覽收藏等功能的相關指標。

除了上述的幾個常見模型,數據分析還有其他分支。比如SEO/SEM,雖然可以歸類到流量模型,但它並不簡單。比如財務分析,商業的各種成本支出也需要專人負責。

在業務知識外,業務層面的溝通也很重要。業務線足夠長的時候,溝通往往成為老大難的問題。

業務學習沒有捷徑,哪怕掌握了諸多模型,不同行業間的業務壁壘會是分析師們的門檻。金融的各類專有領域知識,電子商務不同產品的特性,這些都會影響到分析報告的質量。

在早期,新人最好選擇一到兩個領域深入瞭解其業務,然後以此拓展邊界。

第七週:Python/R

第七週是最後的學習環節。

是否具備編程能力,是初級數據分析和高級數據分析的風水嶺。數據挖掘、BI、爬蟲、可視化報表都需要用到編程。掌握一門優秀的編程語言,可以讓數據分析師升職加薪,迎娶白富美。數據分析領域最熱門的兩大語言是R和Python。R的優點是統計學家編寫的,缺點也是統計學家編寫。涉及各類統計函數和工具的調用,R無疑有優勢。但是大數據量的處理力有不逮,學習曲線比較陡峭。

Python則是萬能的膠水語言,適用性強,可以將分析的過程腳本化。Pandas、Numpy、SKLearn等包也是非常豐富。

Python搭建數據分析環境,Anaconda是功能強大的數據科學工具。Python建議安裝Python3+版本,不要選擇Python2了。

Python的語法相當簡潔,大家print出第一個hello world頂多半小時。就像在Excel上進行運算一樣方便。

Python的三類數據結構,列表list,元組tuple,以及字典dict。萬變不離其宗,掌握這三種數據結構以及相對應的函數,足夠應付80%的分析場景。函數式編程為Python一大特色,Python自身就提供不少豐富的函數。很多都和Excel的函數相通,掌握起來非常迅速。另外還有控制流,for、while、if,通常配合函數組合使用。

自定義函數,豐富的函數雖然能偷懶,但是不少場景下,還是需要自己動手擼一個。

能夠調第三方包解決,就使用第三方的函數。如果是一個頻繁使用的場景,而第三方依靠不了,就自己編一個函數。如果是臨時性的場景,寫得粗糙點也無所謂。畢竟分析師的代碼能力不要求工程師那麼嚴格,所以Python的學習儘量以應用為主,不用像分析師那麼嚴格。

包、模塊和類的概念屬於進階知識,不學也不要緊。

數據分析師賴以生存的兩個包,numpy和pandas,其他Python知識可以不紮實,這兩個最好認真掌握。它是往後很多技能樹的前置要求。

array,series,dataframe是numpy和pandas的三個數據結構,掌握它們,便算是入門了。

以分析師的薪資作為實戰數據。Excel、BI、SQL,一路走來,大家想必對它無比熟悉,這也是最後一次使用它了。通過Pandas的各類功能,繪製出一副詞雲圖。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

將結合以往的知識點,包括業務指標,可視化,描述統計學等內容。用Python分析用戶消費行為,完成它,不說登堂入室,但也是一位合格的數據分析師了。

「數據分析」怎麼自學數據分析?數據分析師需要掌握的基礎體系

它使用某網站的用戶消費數據,計算各類常見指標:用戶的客單價、人均購買量、回購率、復購率、留存率、平均生命週期等,真正做到融會貫通。

對於沒有技術基礎的同學,第七週最吃力,但已經完成到這一步,不妨讓自己咬咬牙學習下去。

到這裡,剛剛好是七週。如果還需要第八週+,則是把上面的鞏固和融會貫通。

"

相關推薦

推薦中...