'學習PythonforDataScience:如何科學的使用Python'

Python 可視化技術機器學習腳本語言瀏覽器算術 Guido 算法筆記本電腦小丸子是程序猿 2019-09-14

Python for Data Science是數據分析領域專業人士必須學習的東西。隨著IT行業的發展，對熟練數據科學家的需求急劇增加，Python已經發展成為最受歡迎的編程語言。通過這篇博客，您將學習基礎知識，如何分析數據，然後使用Python創建一些漂亮的可視化。

這篇關於“Python for Data Science”的文章包括以下主題：

為什麼要學習Python for Data Science？

Python簡介

用於數據科學的Python的Jupyter安裝

Python基礎知識

用於數據科學的Python庫

演示：實際實施

讓我們開始吧！

為什麼學習Python用於數據科學？

毫無疑問，Python是數據科學家最適合的語言。我列出了幾點可以幫助您理解人們使用Python for Data Science的原因：

Python是一種免費，靈活且功能強大的開源語言。

Python以簡單易讀的語法將開發時間縮短了一半。

使用Python，您可以執行數據操作，分析和可視化。

Python為機器學習應用程序和其他科學計算提供了強大的庫。

你知道最好的部分嗎？Data Scientist是目前收入最高的工作之一，每個Indeed.com每年收入約為130,621美元。

Python由Guido Van Rossum於1989年創建。它是一種具有動態語義的解釋語言。它可以在所有平臺上免費訪問和運行。Python是：

面向對象

高級語言

簡單易學

面向過程

使用數據科學進行Python的Jupyter安裝

讓我指導您完成在系統上安裝Jupyter的過程。只需按照以下步驟操作：

第1步：轉到鏈接：https：//jupyter.org/

第2步：您可以點擊“在瀏覽器中試試”或“安裝筆記本”。

我建議你使用Anaconda發行版安裝Python和Jupyter。安裝Jupyter後，可以在命令提示符下鍵入“Jupyter Notebook”，在默認瀏覽器中打開它。現在讓我們在Jupyter上執行一個基本程序。

name = input（“輸入你的姓名：”）

print（“你好”，姓名）

現在，要運行此功能，請按“Shift + Enter”並查看輸出。請參閱以下屏幕截圖：

Python數據科學基礎知識

現在是你在編程中弄髒的時候了。但為此，您應該對以下主題有基本的瞭解：

變量：術語“變量”是指用於存儲值的保留存儲器位置。在Python中，您不需要在使用變量之前聲明變量，甚至不需要聲明它們的類型。

數據類型：Python支持多種數據類型，它們定義了變量和存儲方法的可能操作。數據類型列表包括 - 數字，列表，字符串，元組，集和字典。

運算符：運算符有助於操縱操作數的值。Python中的運算符列表包括：算術，比較，賦值，邏輯，按位，成員身份和身份。

條件語句：條件語句有助於根據條件執行一組語句。有即三個條件語句-如果，艾麗芙，和否則。

循環：循環用於迭代小塊代碼。有三種類型的循環，即while，for和嵌套循環。

函數：函數用於將代碼劃分為有用的塊，允許您對代碼進行排序，使其更具可讀性，重用代碼並節省一些時間。

用於數據科學的Python庫

這是Python與數據科學的實際力量進入畫面的部分。Python附帶了許多用於科學計算，分析，可視化等的庫。其中一些列表如下：

NumPy- NumPy是Python for Data Science的核心庫，代表'Numerical Python'。它用於科學計算，它包含一個強大的n維數組對象，並提供集成C，C ++等的工具。它還可以用作通用數據的多維容器，您可以在其中執行各種NumPy操作和特殊操作功能。

Matplotlib- Matplotlib是一個功能強大的Python可視化庫。它可以在Python腳本，shell，Web應用程序服務器和其他GUI工具包中使用。您可以使用不同類型的圖表，並查看使用Matplotlib的多個圖表的工作方式。

Scikit-learn- Scikit-learn是主要的吸引力之一，您可以使用Python實現機器學習。它是一個免費的庫，包含簡單有效的數據分析和挖掘工具。您可以使用scikit-learn實現各種算法，例如邏輯迴歸。

Seaborn- Seaborn是Python中的統計繪圖庫。因此，無論何時使用Python進行數據科學，您都將使用matplotlib（用於2D可視化）和Seaborn，它具有漂亮的默認樣式和用於繪製統計圖形的高級界面。

Pandas- Pandas是Python數據科學的重要庫。它用於數據處理和分析。它非常適用於不同的數據，如表格，有序和無序時間序列，矩陣數據等。本教程視頻介紹了Pandas和數據分析，然後再繼續。

演示：實際實施

問題陳述：您將獲得一個數據集，其中包含有關監獄機構的分佈和性質，監獄過度擁擠，監獄囚犯類型等各方面的綜合統計數據。您必須使用此數據集執行描述性統計並獲得有用的數據洞察數據。以下是一些任務：

數據加載：使用Pandas加載數據集“prisoners.csv”，並顯示數據集中的第一行和最後五行。然後使用describePandas中的方法找出列數。

數據處理：創建一個新列 - “總收益” - 這是所有模式中受益的囚犯的總和。

數據可視化：創建一個條形圖，其中x軸上的每個州名稱和他們的總受益囚犯作為他們的酒吧高度。

對於數據加載，請編寫以下代碼：

將pandas 導入為pd

導入matplotlib。作為情節的pyplot

％matplotlib 內聯

file_name = “prisoners.csv”

囚犯 = pd。read_csv（file_name）

犯人

現在要describe在Pandas中使用該方法，只需輸入以下語句：

囚犯。describe（）

接下來，讓我們執行數據操作。

囚犯 [ “total_benefited” ] = 囚犯。總和（軸 = 1）

囚犯。頭（）

最後，讓我們在Python中執行一些可視化。請參考以下代碼：

導入numpy 為np

xlabels = 囚犯 [ 'STATE / UT' ]。值

情節。圖（figsize =（20，3））

情節。xticks（NP。人氣指數（xlabels。塑造 [ 0 ]），xlabels，旋轉 = '垂直'，字體大小 = 18）

情節。xticks

情節。杆（NP。人氣指數（犯人。值。塑造 [ 0 ]），囚犯 [ 'total_benefited' ]，對準 = '邊緣'）

要了解更多python學習資料的，可以關注“武漢千鋒”微信公眾號！

'學習PythonforDataScience:如何科學的使用Python'

相關推薦