'學習PythonforDataScience:如何科學的使用Python'

"

Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展,對熟練數據科學家的需求急劇增加,Python已經發展成為最受歡迎的編程語言。通過這篇博客,您將學習基礎知識,如何分析數據,然後使用Python創建一些漂亮的可視化。

"

Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展,對熟練數據科學家的需求急劇增加,Python已經發展成為最受歡迎的編程語言。通過這篇博客,您將學習基礎知識,如何分析數據,然後使用Python創建一些漂亮的可視化。

學習PythonforDataScience:如何科學的使用Python

這篇關於“Python for Data Science”的文章包括以下主題:

為什麼要學習Python for Data Science?

Python簡介

用於數據科學的Python的Jupyter安裝

Python基礎知識

用於數據科學的Python庫

演示:實際實施

讓我們開始吧!

為什麼學習Python用於數據科學?

毫無疑問,Python是數據科學家最適合的語言。我列出了幾點可以幫助您理解人們使用Python for Data Science的原因:

Python是一種免費,靈活且功能強大的開源語言。

Python以簡單易讀的語法將開發時間縮短了一半。

使用Python,您可以執行數據操作,分析和可視化。

Python為機器學習應用程序和其他科學計算提供了強大的庫。

你知道最好的部分嗎?Data Scientist是目前收入最高的工作之一,每個Indeed.com每年收入約為130,621美元

Python由Guido Van Rossum於1989年創建。它是一種具有動態語義的解釋語言。它可以在所有平臺上免費訪問和運行。Python是:

面向對象

高級語言

簡單易學

面向過程

使用數據科學進行Python的Jupyter安裝

讓我指導您完成在系統上安裝Jupyter的過程。只需按照以下步驟操作:

第1步:轉到鏈接:https://jupyter.org/

第2步:您可以點擊“在瀏覽器中試試”或“安裝筆記本”。

我建議你使用Anaconda發行版安裝Python和Jupyter。安裝Jupyter後,可以在命令提示符下鍵入“Jupyter Notebook”,在默認瀏覽器中打開它。現在讓我們在Jupyter上執行一個基本程序。

name = input(“輸入你的姓名:”)

print(“你好”,姓名)

現在,要運行此功能,請按“Shift + Enter”並查看輸出。請參閱以下屏幕截圖:

Python數據科學基礎知識

現在是你在編程中弄髒的時候了。但為此,您應該對以下主題有基本的瞭解:

變量:術語“變量”是指用於存儲值的保留存儲器位置。在Python中,您不需要在使用變量之前聲明變量,甚至不需要聲明它們的類型。

數據類型:Python支持多種數據類型,它們定義了變量和存儲方法的可能操作。數據類型列表包括 - 數字,列表,字符串,元組,集和字典。

運算符:運算符有助於操縱操作數的值。Python中的運算符列表包括:算術,比較,賦值,邏輯,按位,成員身份和身份。

條件語句:條件語句有助於根據條件執行一組語句。有即三個條件語句-如果,艾麗芙,和否則。

循環:循環用於迭代小塊代碼。有三種類型的循環,即while,for和嵌套循環。

函數:函數用於將代碼劃分為有用的塊,允許您對代碼進行排序,使其更具可讀性,重用代碼並節省一些時間。

用於數據科學的Python庫

這是Python與數據科學的實際力量進入畫面的部分。Python附帶了許多用於科學計算,分析,可視化等的庫。其中一些列表如下:

NumPy- NumPy是Python for Data Science的核心庫,代表'Numerical Python'。它用於科學計算,它包含一個強大的n維數組對象,並提供集成C,C ++等的工具。它還可以用作通用數據的多維容器,您可以在其中執行各種NumPy操作和特殊操作功能。

Matplotlib- Matplotlib是一個功能強大的Python可視化庫。它可以在Python腳本,shell,Web應用程序服務器和其他GUI工具包中使用。您可以使用不同類型的圖表,並查看使用Matplotlib的多個圖表的工作方式。

Scikit-learn- Scikit-learn是主要的吸引力之一,您可以使用Python實現機器學習。它是一個免費的庫,包含簡單有效的數據分析和挖掘工具。您可以使用scikit-learn實現各種算法,例如邏輯迴歸。

Seaborn- Seaborn是Python中的統計繪圖庫。因此,無論何時使用Python進行數據科學,您都將使用matplotlib(用於2D可視化)和Seaborn,它具有漂亮的默認樣式和用於繪製統計圖形的高級界面。

Pandas- Pandas是Python數據科學的重要庫。它用於數據處理和分析。它非常適用於不同的數據,如表格,有序和無序時間序列,矩陣數據等。本教程視頻介紹了Pandas和數據分析,然後再繼續。

演示:實際實施

問題陳述:您將獲得一個數據集,其中包含有關監獄機構的分佈和性質,監獄過度擁擠,監獄囚犯類型等各方面的綜合統計數據。您必須使用此數據集執行描述性統計並獲得有用的數據洞察數據。以下是一些任務:

數據加載:使用Pandas加載數據集“prisoners.csv”,並顯示數據集中的第一行和最後五行。然後使用describePandas中的方法找出列數。

數據處理:創建一個新列 - “總收益” - 這是所有模式中受益的囚犯的總和。

數據可視化:創建一個條形圖,其中x軸上的每個州名稱和他們的總受益囚犯作為他們的酒吧高度。

對於數據加載,請編寫以下代碼:

將pandas 導入為pd

導入matplotlib。作為情節的pyplot

%matplotlib 內聯

file_name = “prisoners.csv”

囚犯 = pd。read_csv(file_name)

犯人

現在要describe在Pandas中使用該方法,只需輸入以下語句:

囚犯。describe()

接下來,讓我們執行數據操作。

囚犯 [ “total_benefited” ] = 囚犯。總和(軸 = 1)

囚犯。頭()

最後,讓我們在Python中執行一些可視化。請參考以下代碼:

導入numpy 為np

xlabels = 囚犯 [ 'STATE / UT' ]。值

情節。圖(figsize =(20,3))

情節。xticks(NP。人氣指數(xlabels。塑造 [ 0 ]),xlabels,旋轉 = '垂直',字體大小 = 18)

情節。xticks

情節。杆(NP。人氣指數(犯人。值。塑造 [ 0 ]),囚犯 [ 'total_benefited' ],對準 = '邊緣')

要了解更多python學習資料的,可以關注“武漢千鋒”微信公眾號!

"

相關推薦

推薦中...