Python數據分析（七）：利用數組進行高效的數據處理

編程語言 Python 技術直男進步大本營 2017-04-05

NumPy數組可以將許多數據處理任務表述為簡潔的數組表達式，否則需要編寫循環。用數組表達式代替循環的做法，通常被稱為矢量化。通常矢量化數組運算要比等價的純Python方式快上一兩個數量級，尤其是各種數值計算。

假設我們想要在一組值（網格型）上計算函數sqrt(x^2 + y^2)。np.meshgrid()函數接受兩個一維數組，併產生兩個二維矩陣，對應於兩個數組中所有的(x, y)對。

將條件邏輯表述為數組運算

np.where()函數是三元表達式 x if condition else y的矢量化版本。假設我們有一個布爾數組和兩個值數組：
這有一些問題。第一，它對大數組的處理速度不是很快；第二，無法用於多維數組。若使用np.where()，則可以將該功能寫得非常簡潔。

Python數據分析（七）：利用數組進行高效的數據處理

np.where()的第二個和第三個參數不必是數組，也可以是標量值。where()通常用於根據另一個數組產生一個新的數組。

np.where()可以表述更加複雜的邏輯。

Python數據分析（七）：利用數組進行高效的數據處理

數學和統計方法

sum()	對數組中全部或某軸向的元素求和。零長度的數組的sum為0。
mean()	算術平均數。零長度的數組的mean為NaN。
std()/var()	分別為標準差和方差，自由度可調（默認為n）。
min()/max()	最大值和最小值。
argmin()/argmax()	分別為最大和最小元素的索引。
cumsum()	所有元素的累計和。
cumprod()	所有元素的累計積。

用於布爾型數組的方法

在使用基本統計方法時，布爾值會被強制轉換為1和0，因此sum經常被用來對布爾型數據中的True值計數。
另外還有兩個方法any()和all()，它們對布爾型數組非常有用。any()用於測試數組中是否存在一個或多個True，而all()則檢查數組中所有制是否都是True，兩個方法均返回布爾值結果。這兩個方法也可用於非布爾型數組，所有非0元素均會被當作True。

排序

與Python內置的列表類型一樣，NumPy數組也可以通過sort方法就地排序（會對原數組進行操作）。
多維數組可以在任何一個軸向上進行排序，只需將軸編號傳給sort即可。

Python數據分析（七）：利用數組進行高效的數據處理

請點擊此處輸入圖片描

Python數據分析（七）：利用數組進行高效的數據處理

頂級方法np.sort()返回的是數組的已排序副本，而就地排序則會修改數組本身。計算數組分位數最簡單的方法是對其進行排序，然後取特定位置的值：

唯一化以及其他的集合邏輯。

NumPy提供了一些針對一維ndarray()的基本集合運算，最常用的可能要數np.unique()了，它用於找出數組中的唯一值並返回已排序的結果。
拿跟np.unique()等價的純Python代碼對比一下：

Python數據分析（七）：利用數組進行高效的數據處理

另一個函數np.in1d()用於測試一個數組中的值在另一個數組中的成員資格，返回一個布爾型數組：

unique(x)	計算x中的唯一元素，並返回有序結果
intersect1d(x, y)	計算x和y的交集，並返回有序結果
union1d(x, y)	計算x和y的並集，並返回有序結果
in1d(x, y)	得到一個表示“x的元素是否包含於y”的布爾型數組
setdiff1d(x, y)	集合的差，即元素在x中且不在y中
setxor1d(x, y)	集合的對稱差，即存在於一個數組中但不同時存在於兩個數組中的元素。

相關推薦

'如何用Python進行大數據挖掘和分析？快速入門路徑圖'

"大數據無處不在。在時下這個年代，不管你喜歡與否，在運營一個成功的商業的過程中都有可能會遇到它。什麼是大數據？大數據就像它看起來那樣——有大量的數據。單獨而言，你能從單一的數據獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級數據，卻能創造出人類無法制...

Python 大數據數據庫數據挖掘網絡爬蟲 SQL 算法可視化技術 Scrapy Google Excel 音樂 YouTube 租房隨機森林 2019-09-14

'使用Python代替Excel做數據分析已成，抓緊學，趕上第一波熱潮'

"我是個只會用Excel的數據分析工作者。有一天，我和朋友約好晚上一起吃飯，離下班還有5分鐘，老闆突然Q我：老闆：你今天加個班我：好呀好呀老闆：我有幾個Excel,需要你把它們合成一張表我：好呀好呀老闆：給！你自己看著辦吧！我懷著忐忑的心情打開了一個神祕的壓縮包：912個C...

Python Excel 數據庫機器學習跳槽那些事兒軟件可視化技術工程師電腦鼠標人生第一份工作 2019-09-13

'圖解Numpy精翻版，一文帶你入門Python數據處理'

"本文精心翻譯自Jay Alammar的博客：https://jalammar.github.io/visual-numpy/，其用圖解的方式詳細介紹了 NumPy的功能和使用示例。NumPy 是 Python 生態中數據分析、機器學習和科學計算的基礎。它極大地簡化了向量和...

Python 機器學習算術數據結構廣播 2019-09-13

'Python說：常見的數據分析庫有哪些'

"又是老生常談的話題了，前面出過有不知道有好多篇講數據分析庫的文章，但是今天還是得拿出來再聊聊，有免得有些新夥伴再去找了！常見的Python數據分析庫PandasPandas是一個開放源碼的Python庫，它使用強大的數據結構提供高性能的數據操作和分析工具。它的名字：Pan...

Python 數據結構機器學習數學腳本語言 Fortran BSD 金融筆記本電腦 2019-09-12

'懂Excel就能輕鬆入門Python數據分析包pandas(十二)：多列堆疊'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害，結果學了很長時間，連數據處理都麻煩得要死。後來才發現，原來不是 Python 數據處理厲害，而是他有數據分析神器—— pandas前言E...

Python Excel 文章 2019-09-09

'懂Excel就能輕鬆入門Python數據分析包pandas(十一)：分段匹配'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害，結果學了很長時間，連數據處理都麻煩得要死。後來才發現，原來不是 Python 數據處理厲害，而是他有數據分析神器—— pandas前言本...

Python Excel 數據庫設計文章人生第一份工作 2019-09-09

'如何將一個 Python 函數進行模塊化封裝'

"使用 Python 函數來最大程度地減少重複任務編碼工作量。-- Seth Kenlon（作者）你是否對函數、類、方法、庫和模塊等花哨的編程術語感到困惑？你是否在與變量作用域鬥爭？無論你是自學成才的還是經過正式培訓的程序員，代碼的模塊化都會令人困惑。但是類和庫鼓勵模塊化代...

Python 腳本語言 Bash 程序員 2019-09-05

'Python數據分析！NBA的球星們喜歡在哪個位置出手'

"前言1. 這篇數據分析案例，我做了個視頻版本，對代碼做了解讀，講了運行的注意事項和一些有的沒的，供需。對於視頻製作還不是很有經驗，多包涵。（視頻裡有彩蛋） NBA球星出手點分佈 https://www.zhihu.com/video/11294016825803489...

Python 越投入越精彩 JSON 虎撲詹姆斯·哈登科比·布萊恩特林書豪斯蒂芬·庫裡 2019-09-05

'python數據分析(1):字典'

"字典的概念字典（dict）是擁有鍵值對的集合，更為常用的名字是哈希表或者是關聯數組。字典的創建1.用大括號{}創建，用逗號將鍵值對分隔empty_dict = {}d1 = {'a':'some value','b':[1,2,3]}print(d1['b'])輸出：[1...

Python 2019-09-05

'Excel的分列功能很強大？Python數據處理分析，pandas有更牛逼的'

"轉發本文並私信我"python"，即可獲得Python資料以及更多系列文章(持續更新的)經常聽別人說 Python 在數據領域有多厲害，結果學了很長時間，連數據處理都麻煩得要死。後來才發現，原來不是 Python 數據處理厲害，而是他有數據分析神器—— pandas系列相...

Python Excel 文章 Sed 2019-09-04

'Python中循環操作和Numpy數組運算性能優化——Numba使用介紹'

"直到遇到Numba，才知道“一行代碼讓Python的運行速度提高100倍” 的論調，並不是譁眾取寵。Numba Numba最初是由Continuum Analytics內部開發，此公司也開發了著名的Anaconda，但現在它是開源的。Numba是Python的即時編譯器...

Python Linux GitHub Fortran Continuum GPU 中央處理器 ARM 數值算法 Windows 編譯器超微半導體 LLVM 2019-09-03

'比Excel的查找替換功能強大得多，Python數據處理神器，pandas'

Excel Python 2019-09-03

'懂Excel就能輕鬆入門Python數據分析包pandas(十)：查找替換'

Excel Python 文章 2019-09-03

'使用Python進行機器學習的假設檢驗（附鏈接&代碼）'

"作者：Jose Garcia翻譯：張睿毅校對：張一豪本文約3800字，建議閱讀10分鐘。作者給出了假設檢驗的解讀與Python實現的詳細的假設檢驗中的主要操作。也許所有機器學習的初學者，或者中級水平的學生，或者統計專業的學生，都聽說過這個術語，假設檢驗。我將簡要介紹一下這...

Python 機器學習讀書大學 2019-09-03

'Python必備庫-從數據處理到人工智能'

"一、概述1.1 從數據處理到人工智能數據表示->數據清洗->數據統計->數據可視化->數據挖掘->人工智能數據表示：採用合適方式用程序表達數據數據清理：數據歸一化、數據轉換、異常值處理數據統計：數據的概要理解，數量、分佈、中位數等數據可視化：...

Python 人工智能 NLTK 數據挖掘數據結構 Excel 可視化技術 Pages C語言 SQL JSON MATLAB 數學約瑟夫·傅里葉 2019-09-01

'還在用最笨的辦法用 Python 進行機器學習？看來你需要這篇文章'

"有很多想要學習Python卻找不到途徑的朋友，我這裡整理了一些關於Python的學習資料，從基礎到入門到實戰都要。有需要的朋友可以關注並私信“01”免費獲取...機器學習是人工智能領域的一個重要研究課題，近年來一直倍受關注。這一領域可能會提供有吸引力的機會，而且在這一領域...

Python 人工智能數學電腦文章可汗學院算法麻省理工學院編程語言讀書 R語言跳槽那些事兒程序員 2019-08-31

'使用Python加速數據分析的10個小技巧'

"本文列舉了一些使用Python和Jupyter Notebook的技巧，討論瞭如何輕鬆分析數據以及如何進行格式化編碼、輸出和調試等操作。作者：讀芯術在編程領域，有時一個小技巧就能節省大量時間，甚至能起到救命的效果。這些“必殺技”往往能在未來的數據分析中發揮重大作用。1. ...

Python LaTeX GitHub 腳本語言筆記本電腦 HTML 可視化技術大熊貓 2019-08-29

'大數據Python工作必備高效數據分析的43種Excel函數'

"純純的乾貨，對大家有幫助，收藏後記得轉發一下，幫助更多愁掉頭髮的朋友！！！文末是關鍵！！1、VLOOKUP功能：用於查找首列滿足條件的元素。2、HLOOKUP功能：搜索表的頂行或值的數組中的值，並在表格或數組中指定的行的同一列中返回一個值。3、INDEX功能：返回表格或區...

Python Excel 大數據編程語言 Java 網絡爬蟲技術 2019-08-28

'數據處理，Excel的排序功能，使用pandas在Python中輕鬆完成'

"轉發本文並私信我"python"，即可獲得Python資料以及各種心得(持續更新的)經常聽別人說 Python 在數據領域有多厲害，結果學了很長時間，連數據處理都麻煩得要死。後來才發現，原來不是 Python 數據處理厲害，而是他有數據分析神器—— pandas前言排序是...

Excel Python 2019-08-22

'使用Python進行機器學習，為人工智能時代做準備'

"IT行業飛速發展，除了水漲船高的薪資水平，還有不斷推陳出新的編程技術。不同的技術，應用在不同的領域。但對於小白來說，想要投身這個行業，我該從何學起？那些應用領域是未來的大趨勢？而我未來的學習方向又有哪些呢？PythonPython的確挺神的~但不是生來就那麼神。Pytho...

Python 人工智能算法電腦技術腳本語言集成開發環境程序員鳶尾 2019-08-20

推薦中...