每週一本書之《全棧數據之門》:數據科學的全棧基礎入門寶典

每週一本書之《全棧數據之門》:數據科學的全棧基礎入門寶典

本週小編準備高冷一把,要為大家推薦的是一本純粹的技術性書籍(想看快餐文化的童鞋們抱歉啦)——《全棧數據之門》。本書作者任柳江一直工作在數據處理與數據挖掘的第一線,具有豐富的理論知識和實踐經驗,精通多種數據挖掘與分析的工具的使用,此外,愛好閱讀的他還將技術的境界與佛法道義結合,將一本看似枯燥的技術手冊賦予了文學的美感。

每週一本書之《全棧數據之門》:數據科學的全棧基礎入門寶典

《全棧數據之門》以數據分析領域最熱的Python語言為主要線索,介紹了數據分析庫numpy、Pandas與機器學習庫scikit-learn,使用了可視化環境Orange 3來理解算法的一些細節。對於機器學習,既有常用算法kNN與Kmeans的應用,決策樹與隨機森林的實戰,還涉及常用特徵工程與深度學習中的自動編程器。在大數據Hadoop與Hive環境的基礎之上,使用Spark的ML/MLlib庫集成了前面的各部分內容,讓分佈式機器學習更容易。大量的工具與技能實戰的介紹將各部分融合成一個全棧的數據科學內容。

《全棧數據之門》並不是從入門到精通地介紹某一種技術,其內容定位於數據科學的全棧基礎入門,全部內容來自當前業界最實用的技能,有非常基礎的,也有比較深入的,有些甚至需要深入領悟才能理解。

本書從內容上共分為8個章節,分別是:

第1、2、3 章:內容比較單一,涉及基礎的Linux、Python 與Hadoop 知識。如果對這三章中的某些知識不熟悉,建議先閱讀。

第4章:本章比較特殊,其內容也是數據科學中比較重要的,不僅需要前3章的知識,也需要部分Spark的知識,因為Spark的特殊性,單獨放到機器學習之後了。

第5、6 章:涉及數據科學中最重要的主題:機器學習與算法,介紹了機器學習的常用環境、概念、方法以及幾個典型的算法應用。這兩章是本書的難點,如果不熟悉,必須單獨攻克。

第7章:Spark 本身就是一個全棧框架,無論是在分佈式計算還是在機器學習領域,都大有用處。因此最好有前面章節的基礎知識,方能更好地理解本章的內容,尤其是MLlib/ML 庫,必須有機器學習算法的知識。

最後一章:第8章反而是最簡單的,因為基本不涉及技術細節,但對整個數據科學的理解,以及技術積累都是非常重要的。

適讀人群

本書適用於任何想在數據領域有所作為的人,包括學生、愛好者、在職人員與科研工作者。無論想從事數據分析、數據工程、數據挖掘或者機器學習,或許都能在書中找到一些之前沒有接觸過的內容。

相關推薦

推薦中...