斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

編程語言 Python 機器學習 C語言 斯坦福大學 Python編程之家 2018-12-04
斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

寫在前面

文章內容有點長建議收藏後在看哦!在這裡呢小編還準備了一份Python入門的學習資料,讓你們更好的學習Python,關注,轉發,私信小編“01”即可獲取!

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

5.1 Python簡介

本章將介紹Python的最基本語法,以及一些和深度學習還有計算機視覺最相關的基本使用。

5.1.1 Python簡史

Python是一門解釋型的高級編程語言,特點是簡單明確。Python作者是荷蘭人Guido van Rossum,1982年他獲得數學和計算機碩士學位後,在荷蘭數學與計算科學研究所(Centrum Wiskunde & Informatica, CWI)謀了份差事。在CWI期間,Guido參與到了一門叫做ABC的語言開發工作中。ABC是一門教學語言,所以擁有簡單,可讀性好,語法更接近自然語言等特點。在那個C語言一統天下的年代,ABC就是一股簡單的清流,畢竟是門教學語言,最後沒有流行起來,不過這段經歷影響了Guido。1989年的聖誕假期,閒得蛋疼的Guido決定設計一門簡單易用的新語言,要介於C和Shell之間,同時吸取ABC語法中的優點。Guido用自己喜歡的一部喜劇電視劇來命名這門語言:《Monty Python‘s Flying Circus》。

1991年,第一版基於C實現的Python編譯器誕生,因為簡單,拓展性好,Python很快就在Guido的同事中大受歡迎,不久Python的核心開發人員就從Guido一人變成了一個小團隊。後來隨著互聯網時代的到來,開源及社區合作的方式蓬勃發展,Python也藉此上了發展的快車道。因為Python非常容易拓展,在不同領域的開發者貢獻下,許多受歡迎的功能和特徵被開發出來,漸漸形成了各種各樣的庫,其中一部分被加入到Python的標準庫中,這讓本來就不需要過多思考底層細節的Python變得更加強大好用。在不過多考慮執行效率的前提下,使用Python進行開發的週期相比傳統的C/C++甚至Java等語言都大大縮短,代碼量也大幅降低,所以出bug的可能性也小了很多。因此有了語言專家Bruce Eckel的那句名言:Life is short, you need Python. 後來這句話的中文版“人生苦短,我用Python”被Guido印在了T恤上。發展至今,Python漸漸成了最流行的語言之一,在編程語言排行榜TOBIE中常年佔據前5的位置。另外隨著Python的用戶群越來越壯大,慢慢在本身特點上發展出了自己的哲學,叫做Python的禪(The Zen of Python)。遵循Python哲學的做法叫做很Python(Pythonic),具體參見:

PEP 20 — The Zen of Python

或者在Python中執行:

>> import this

Python擁有很好的擴充性,可以非常輕鬆地用其他語言編寫模塊供調用,用Python編寫的模塊也可以通過各種方式輕鬆被其他語言調用。所以一種常見的Python使用方式是,底層複雜且對效率要求高的模塊用C/C++等語言實現,頂層調用的API用Python封裝,這樣可以通過簡單的語法實現頂層邏輯,故而Python又被稱為“膠水語言”。這種特性的好處是,無需花費很多時間在編程實現上,更多的時間可以專注于思考問題的邏輯。尤其是對做算法和深度學習的從業人員,這種方式是非常理想的,所以如今的深度學習框架中,除了MATLAB,或是Deeplearning4j這種擺明了給Java用的,其他框架基本上要麼官方接口就是Python,要麼支持Python接口。

5.1.2 安裝和使用Python

Python有兩個大版本,考慮到用戶群數量和庫的各種框架的兼容性,本文以Python2(2.7)為準,語法儘量考慮和Python3的兼容。

Unix/Linux下的Python基本都是系統自帶的,一般默認為Python2,使用時在終端直接鍵入python就能進入Python解釋器界面:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

在解釋器下就已經可以進行最基本的編程了,比如:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

寫程序的話還是需要保存成文件再執行,比如我們寫下面語句,並且保存為helloworld.py:

print(“Hello world!”)

然後在終端裡執行:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

安裝更多的python庫一般有兩種方法,第一是用系統的軟件包管理,以Ubuntu 16.04 LTS為例,比如想要安裝numpy庫(後面會介紹這個庫),軟件包的名字就是python-numpy,所以在終端中輸入:

>> sudo apt install python-numpy

Python自己也帶了包管理器,叫做pip,使用如下:

>> pip install numpy

安裝和深度學習相關的框架時,一般來說推薦使用系統自帶的包管理,出現版本錯誤的可能性低一些。另外也可以使用一些提前配置好很多第三方庫的Python包,這些包通常已經包含了深度學習框架中絕大多數的依賴庫,比如最常用的是Anaconda:

Download Anaconda Now!

Windows下的Python安裝簡單一些,從官方網站下載相應的安裝程序就可以了,當然也有更方便的已經包含了很全的第三方庫的選擇,WinPython:

WinPython

並且是綠色的,直接執行就可以用了。

5.2 Python基本語法

There should be one– and preferably only one –obvious way to do it.

對於一個特定的問題,應該只用最好的一種方法來解決。

— Tim Peters

5.2.1 基本數據類型和運算

基本數據類型

Python中最基本的數據類型包括整型,浮點數,布爾值和字符串。類型是不需要聲明的,比如:

a = 1 # 整數
b = 1.2 # 浮點數
c = True # 布爾類型
d = "False" # 字符串
e = None # NoneType

其中#是行內註釋的意思。最後一個None是NoneType,注意不是0,在Python中利用type函數可以查看一個變量的類型:

type(a) # <type 'int'>
type(b) # <type 'float'>
type(c) # <type 'bool'>
type(d) # <type 'str'>
type(e) # <type 'NoneType'>

註釋中是執行type()函數後的輸出結果,可以看到None是單獨的一種類型NoneType。在很多API中,如果執行失敗就會返回None。

變量和引用

Python中基本變量的賦值一般建立的是個引用,比如下面的語句:

a = 1
b = a
c = 1

a賦值為1後,b=a執行時並不會將a的值複製一遍,然後賦給b,而是簡單地為a所指的值,也就是1建立了一個引用,相當於a和b都是指向包含1這個值的這塊內存的指針。所以c=1執行的也是個引用建立,這三個變量其實是三個引用,指向同一個值。這個邏輯雖然簡單,不過也還是常常容易弄混,這沒關係,Python內置了id函數,可以返回一個對象的地址,用id函數可以讓我們知道每個變量指向的是不是同一個值:

id(a) # 35556792L
id(b) # 35556792L
id(c) # 35556792L

註釋中表示的仍是執行後的結果。如果這時候我們接下面兩個語句:

b = 2 # b的引用到新的一個變量上
id(b) # 35556768L

可以看到b引用到了另一個變量上。

運算符

Python中的數值的基本運算和C差不多,字符串的運算更方便,下面是常見的例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

需要提一下的幾點:1)字符串用雙引號和單引號都可以,區別主要是單引號字符串中如果出現單引號字符則需要用轉義符,雙引號也是一樣,所以在單引號字符串中使用雙引號,或者雙引號字符串中使用單引號就會比較方便。另外三個雙引號或者三個單引號圍起來的也是字符串,因為換行方便,更多用於文檔。2)Python2中兩個數值相除會根據數值類型判斷是否整數除法,Python3種則都按照浮點數。想要在Python2種也執行Python3中的除法只要執行下面語句:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

3)字符串前加r表示字符串內容嚴格按照輸入的樣子,好處是不用轉義符了,非常方便。

Python中的布爾值和邏輯的運算非常直接,下面是例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

基本上就是英語,操作符優先級之類的和其他語言類似。Python中也有位操作:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

==, !=和is

判斷是否相等或者不等的語法和C也一樣,另外在Python中也常常見到is操作符,這兩者的區別在於==和!=比較引用指向的內存中的內容,而is判斷兩個變量是否指向一個地址,看下面的代碼例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

所以一定要分清要比較的對象應該用那種方式,對於一些特殊的情況,比如None,本著Pythonic的原則,最好用is None。

注意關鍵字

Python中,萬物皆對象。不過這並不是這裡要探討的話題,想說的是一定要注意關鍵字,因為所有東西都是對象,所以一個簡簡單單的賦值操作就可以把系統內置的函數給變成一個普通變量,來看下邊例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

注意print是個很特殊的存在,在Python3中是按照函數用,在Python2中卻是個命令式的語句,最早print的用法其實是下邊這樣:

print "Hello world!"

這麼用主要是受到ABC語法的影響,但這個用法並不Pythonic,後來加入了print函數,為了兼容允許兩種用法並存。所以單純給print賦值是不靈的,在Python2中使用Python3中的一些特性都是用from __future__ import來實現。

模塊導入

因為提到了對象名覆蓋和import,所以簡單講一下。import是利用Python中各種強大庫的基礎,比如要計算cos(π)的值,可以有下面4種方式:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

一般來說最後一種方式不是很推薦,因為不知道import導入的名字裡是否和現有對象名已經有衝突,很可能會不知不覺覆蓋了現有的對象。

5.2.2 容器

列表

Python中的容器是異常好用且異常有用的結構。這節主要介紹列表(list),元組(tuple),字典(dict)和集合(set)。這些結構和其他語言中的類似結構並無本質不同,來看例子瞭解下使用:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

因為變量其實是個引用,所以對列表而言也沒什麼不同,所以列表對類型沒什麼限制。也正因為如此,和變量不同的是,即使用相同的語句賦值,列表的地址也是不同的,在這個例子中體現在id(b)和id(c)不相等,而內容相等。列表也可以用list()初始化,輸入參數需要是一個可以遍歷的結構,其中每一個元素會作為列表的一項。“*”操作符對於列表而言是複製,最後一個語句用這種辦法生成了分段的列表。

列表的基本操作有訪問,增加,刪除,和拼接:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

因為列表是有順序的,所以和順序相關的操作是列表中最常見的,首先我們來打亂一個列表的順序,然後再對這個列表排序:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

元組

元組和列表有很多相似的地方,最大的區別在於不可變,還有如果初始化只包含一個元素的tuple和列表不一樣,因為語法必須明確,所以必須在元素後加上逗號。另外直接用逗號分隔多個元素賦值默認是個tuple,這在函數多返回值的時候很好用:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

集合

集合是一種很有用的數學操作,比如列表去重,或是理清兩組數據之間的關係,集合的操作符和位操作符有交集,注意不要弄混:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

字典

字典是一種非常常見的“鍵-值”(key-value)映射結構,鍵無重複,一個鍵不能對應多個值,不過多個鍵可以指向一個值。還是通過例子來了解,構建一個名字->年齡的字典,並執行一些常見操作:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

注意到初始化字典和集合很像,的確如此,集合就像是沒有值只有鍵的字典。既然有了人名到年齡的映射,也許你立馬想到是否可以給字典排序?在Python3.6之前,這個問題是錯誤的,字典是一種映射關係,沒有順序。當然了,如果要把(鍵, 值)的這種對進行排序,是沒有問題的,前提是先把字典轉化成可排序的結構,items()或者iteritems()可以做到這件事,接上段代碼繼續:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

items()可以把字典中的鍵值對轉化成一個列表,其中每個元素是一個tuple,tuple的第一個元素是鍵,第二個元素是值。變量c是按照值排序,所以需要一個操作符itemgetter,去位置為1的元素作為排序參考,如果直接對字典排序,則其實相當於只是對鍵排序。字典被當作一個普通的可遍歷結構使用時,都相當於遍歷字典的鍵。如果覺得字典沒有順序不方便,可以考慮使用OrderedDict,使用方式如下:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

這樣初始化時的順序就保留了,除了有序的特性以外,用法上和字典沒有區別。2016年9月,Guido宣佈在Python3.6中,字典將默認有序,這樣就不用糾結了。另外需要注意的一點是字典是通過哈希表實現的,所以鍵必須是可哈希的, list不能被哈希,所以也不能作為字典的鍵,而tuple就可以。

因為上上段代碼中用到了iteritems(),所以這裡順帶提一下迭代器(iterator),迭代器相當於一個函數,每次調用都返回下一個元素,從遍歷的角度來看就和列表沒有區別了。iteritems()就是一個迭代器,所以效果一樣,區別是迭代器佔用更少內存,因為不需要一上來就生成整個列表。一般來說,如果只需要遍歷一次,用迭代器是更好的選擇,若是要多次頻繁從一個可遍歷結構中取值,且內存夠,則直接生成整個列表會更好。當然,用迭代器生成一個完整列表並不麻煩,所以有個趨勢是把迭代器作為默認的可遍歷方式,比如前面我們使用過用來生成等差數列列表的range(),在Python2中對應的迭代器形式是xrange()。在Python3中,range()就不再產生一個列表了,而是作為迭代器,xrange()直接沒了。

5.2.3 分支和循環

從這節開始,代碼就未必適合在Python終端中輸入了,選個順手的編輯器或者IDE。作者良心推薦PyCharm,雖然慢,但好用,社區版免費:

PyCharm

for循環

上面提到的4種容器類型都是可遍歷的,所以該講講用來遍歷的for循環了。for循環的語法也是簡單的英語:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

注意到每個for循環中,print都有縮進,這是Python中一個讓人愛恨交織的特點:強行縮進來表明成塊的代碼。這樣做的好處是代碼十分清晰工整,還有助於防止寫出過長的函數或者過深的嵌套,壞處是有時候不知為什麼tab和空格就一起出現了,又或是多重if-else不知怎得就沒對齊,還是挺麻煩的。

回到for循環上,這種把每個元素拿出來的遍歷方式叫做for_each風格,熟悉Java的話就不會陌生,C++11中也開始支持這種for循環方式。不過如果還是需要下標呢?比如遍歷一個list的時候,希望把對應下標也打印出來,這時可以用enumerate:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

需要注意的是,通過取下標遍歷當然是可行的,比如用len()函數獲得列表長度,然後用range()/xrange()函數獲得下標,但是並不推薦這樣做:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

在使用for循環時,有時會遇到這樣一種場景:我們需要對遍歷的每個元素進行某種判斷,如果符合這種判斷的情況沒有發生,則執行一個操作。舉個例子某神祕部門要審核一個字符串列表,如果沒有發現不和諧的字眼,則將內容放心通過,一種解決辦法是下面這樣:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

這樣需要設置一個標記是否發現不和諧因素的狀態變量hexie,循環結束後再根據這個變量判斷內容是否可以放心通過。一種更簡潔不過有些小眾的做法是直接和else一起,如果for循環中的if塊內的語句沒有被觸發,則通過else執行指定操作:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

這樣不需要一個標記是否和諧的狀態變量,語句簡潔了很多。

if和分支結構

上一個例子中已經出現if語句了,所以這部分講講if。Python的條件控制主要是三個關鍵字:if-elif-else,其中elif就是else if的意思。還是看例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

需要提一下的是pass,這就是個空語句,什麼也不做,佔位用。Python並沒有switch-case的語法,等效的用法要麼是像上面一樣用if-elif-else的組合,要麼可以考慮字典:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

這裡還用到了一個if-else常見的行內應用,就是代替三元操作符,如果鍵在字典中,則food取字典的對應值,否則為None。

if表達式中的小技巧

通過鏈式比較讓語句簡潔:

if -1 < x < 1: # 相較於 if x > -1 and x < 1:
print('The absolute value of x is < 1')

判斷一個值是不是等於多個可能性中的一個:

if x in ['piano', 'violin', 'drum']: # 相較於 if x == 'piano' or x == 'violin' or x =='drum':
print("It's an instrument!")

Python中的對象都會關聯一個真值,所以在if表達式中判斷是否為False或者是否為空的時候,是無需寫出明確的表達式的:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

隱式表達式為False的是如下狀況:

– None

– False

– 數值0

– 空的容器或序列(字符串也是一種序列)

– 用戶自定義類中,如果定義了__len__()或者__nonzero__(),並且被調用後返回0或者False

while循環

while的就是循環和if的綜合體,是一種單純的基於條件的循環,本身沒有遍歷的意思,這是和for_each的本質差別,這種區別比起C/C++中要明確得多,用法如下:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

5.2.4 函數、生成器和類

還是從幾個例子看起:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

其實和很多語言差不多,括號裡面定義參數,參數可以有默認值,且默認值不能在無默認值參數之前。Python中的返回值用return定義,如果沒有定義返回值,默認返回值是None。參數的定義可以非常靈活,可以有定義好的固定參數,也可以有可變長的參數(args: arguments)和關鍵字參數(kargs: keyword arguments)。如果要把這些參數都混用,則固定參數在最前,關鍵字參數在最後。

Python中萬物皆對象,所以一些情況下函數也可以當成一個變量似的使用。比如前面小節中提到的用字典代替switch-case的用法,有的時候我們要執行的不是通過條件判斷得到對應的變量,而是執行某個動作,比如有個小機器人在座標(0, 0)處,我們用不同的動作控制小機器人移動:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

不同條件下對應的是對座標這個列表中的值的操作,單純的從字典取值就辦不到了,所以就把函數作為字典的值,然後用這個得到的值執行相應動作:

.

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

把函數作為值取到後,直接加一括號就能使了,這樣做之後起碼在循環部分看上去很簡潔。有點C裡邊函數指針的意思,只不過更簡單。其實這種用法在之前講排序的時候我們已經見過了,就是operator中的itemgetter。itemgetter(1)得到的是一個可調用對象(callable object),和返回下標為1的元素的函數用起來是一樣的:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

在這個例子中我們用到了一種特殊的函數:lambda表達式。Lambda表達式在Python中是一種匿名函數,lambda關鍵字後面跟輸入參數,然後冒號後面是返回值(的表達式),比如上邊例子中就是一個取下標1元素的函數。當然,還是那句話,萬物皆對象,給lambda表達式取名字也是一點問題沒有的:

some_ops = lambda x, y: x + y + x*y + x**y
some_ops(2, 3) # 2 + 3 + 2*3 + 2^3 = 19

生成器(Generator)

生成器是迭代器的一種,形式上看和函數很像,只是把return換成了yield,在每次調用的時候,都會執行到yield並返回值,同時將當前狀態保存,等待下次執行到yield再繼續:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

生成器和所有可迭代結構一樣,可以通過next()函數返回下一個值,如果迭代結束了則拋出StopIteration異常:

a = fibonacci(3)
print(next(a)) # 1
print(next(a)) # 1
print(next(a)) # 2
print(next(a)) # 拋出StopIteration異常

Python3.3以上可以允許yield和return同時使用,return的是異常的說明信息:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

類(Class)

Python中的類的概念和其他語言相比沒什麼不同,比較特殊的是protected和private在Python中是沒有明確限制的,一個慣例是用單下劃線開頭的表示protected,用雙下劃線開頭的表示private:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

類的初始化使用的是__init__(self,),所有成員變量都是self的,所以以self.開頭。可以看到,單下劃線開頭的變量是可以直接訪問的,而雙下劃線開頭的變量則觸發了Python中一種叫做name mangling的機制,其實就是名字變了下,仍然可以通過前邊加上“_類名”的方式訪問。也就是說Python中變量的訪問權限都是靠自覺的。類定義中緊跟著類名字下一行的字符串叫做docstring,可以寫一些用於描述類的介紹,如果有定義則通過“類名.__doc__”訪問。這種前後都加雙下劃線訪問的是特殊的變量/方法,除了__doc__和__init__還有很多,這裡就不展開講了。

Python中的繼承也非常簡單,最基本的繼承方式就是定義類的時候把父類往括號裡一放就行了:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

5.2.5 map, reduce和filter

map可以用於對可遍歷結構的每個元素執行同樣的操作,批量操作:

map(lambda x: x**2, [1, 2, 3, 4]) # [1, 4, 9, 16]

map(lambda x, y: x + y, [1, 2, 3], [5, 6, 7]) # [6, 8, 10]

reduce則是對可遍歷結構的元素按順序進行兩個輸入參數的操作,並且每次的結果保存作為下次操作的第一個輸入參數,還沒有遍歷的元素作為第二個輸入參數。這樣的結果就是把一串可遍歷的值,減少(reduce)成一個對象:

reduce(lambda x, y: x + y, [1, 2, 3, 4]) # ((1+2)+3)+4=10

filter顧名思義,根據條件對可遍歷結構進行篩選:

filter(lambda x: x % 2, [1, 2, 3, 4, 5]) # 篩選奇數,[1, 3, 5]

需要注意的是,對於filter和map,在Python2中返回結果是列表,Python3中是生成器。

5.2.6 列表生成(list comprehension)

列表生成是Python2.0中加入的一種語法,可以非常方便地用來生成列表和迭代器,比如上節中map的兩個例子和filter的一個例子可以用列表生成重寫為:

[x**2 for x in [1, 2, 3, 4]] # [1, 4, 9 16]

[sum(x) for x in zip([1, 2, 3], [5, 6, 7])] # [6, 8, 10]

[x for x in [1, 2, 3, 4, 5] if x % 2] # [1, 3, 5]

zip()函數可以把多個列表關聯起來,這個例子中,通過zip()可以按順序同時輸出兩個列表對應位置的元素對。有一點需要注意的是,zip()不會自動幫助判斷兩個列表是否長度一樣,所以最終的結果會以短的列表為準,想要以長的列表為準的話可以考慮itertools模塊中的izip_longest()。如果要生成迭代器只需要把方括號換成括號,生成字典也非常容易:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

至於列表生成和map/filter應該優先用哪種,這個問題很難回答,不過Python創始人Guido似乎不喜歡map/filter/reduce,他曾在表示過一些從函數式編程裡拿來的特性是個錯誤。

5.2.7 字符串

Python中字符串相關的處理都非常方便,來看例子:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

Python2.6中引入了format進行字符串格式化,相比在字符串中用%的類似C的方式,更加強大方便:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

ormat在生成字符串和文檔的時候非常有用,更多更詳細的用法可以參考Python官網:

7.1. string – Common string operations – Python 2.7.13 documentation

5.2.8 文件操作和pickle

在Python中,推薦用上下文管理器(with-as)來打開文件,IO資源的管理更加安全,而且不用老惦記著給文件執行close()函數。還是舉例子來說明,考慮有個文件name_age.txt,裡面存儲著名字和年齡的關係,格式如下:

Tom,8
Jerry,7
Tyke,3
...

讀取文件內容並全部顯示:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

open()的第一個參數是文件名,第二個參數是模式。文件的模式一般有四種,讀取(r),寫入(w),追加(a)和讀寫(r+)。如果希望按照二進制數據讀取,則將文件模式和b一起使用(wb, r+b…)。

再考慮一個場景,要讀取文件內容,並把年齡和名字的順序交換存成新文件age_name.txt,這時可以同時打開兩個文件:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

有的時候我們進行文件操作是希望把對象進行序列化,那麼可以考慮用pickle模塊:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

注意到,序列化的時候就得使用b模式了。Python2中有個效率更高的pickle叫cPickle,用法和pickle一樣,在Python3中就只有一個pickle。

5.2.9 異常

相比起其他一些語言,在Python中我們可以更大膽地使用異常,因為異常在Python中是非常常見的存在,比如下面這種簡單的遍歷:

a = ['Why', 'so', 'serious', '?']
for x in a:
print(x)

當用for進行遍歷時,會對要遍歷的對象調用iter()。這需要給對象創建一個迭代器用來依次返回對象中的內容。為了能成功調用iter(),該對象要麼得支持迭代協議(定義__iter__()),要麼得支持序列協議(定義__getitem__())。當遍歷結束時,__iter__()或者__getitem__()都需要拋出一個異常。__iter__()會拋出StopIteration,而__getitem__()會拋出IndexError,於是遍歷就會停止。

在深度學習中,尤其是數據準備階段,常常遇到IO操作。這時候遇到異常的可能性很高,採用異常處理可以保證數據處理的過程不被中斷,並對有異常的情況進行記錄或其他動作:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

5.2.10 多進程(multiprocessing)

深度學習中對數據高效處理常常會需要並行,這時多進程就派上了用場。考慮這樣一個場景,在數據準備階段,有很多文件需要運行一定的預處理,正好有臺多核服務器,我們希望把這些文件分成32份,並行處理:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

其中if __name__ == ‘__main__’用來標明在import時不包含,但是作為文件執行時運行的語句塊。為什麼不用多線程呢?簡單說就是Python中線程的併發無法有效利用多核,如果有興趣的讀者可以從下面這個鏈接看起:

GlobalInterpreterLock – Python Wiki

5.2.11 os模塊

深度學習中的數據多是文件,所以數據處理階段和文件相關的操作就非常重要。除了文件IO,Python中一些操作系統的相關功能也能夠非常方便地幫助數據處理。想象一下我們有一個文件夾叫做data,下邊有3個子文件夾叫做cat,dog和bat,裡面分別是貓,狗和蝙蝠的照片。為了訓練一個三分類模型,我們先要生成一個文件,裡面每一行是文件的路徑和對應的標籤。定義cat是0,dog是1,bat是2,則可以通過如下腳本:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

其中,os.sep是當前操作系統的路徑分隔符,在Unix/Linux中是’/’,Windows中是’\\’。有的時候我們已經有了所有的文件在一個文件夾data下,希望獲取所有文件的名稱,則可以用os.listdir():

filenames = os.listdir('data')

os也提供了諸如拷貝,移動和修改文件名等操作。同時因為大部分深度學習框架最常見的都是在Unix/Linux下使用,並且Unix/Linux的shell已經非常強大(比Windows好用太多),所以只需要用字符串格式化等方式生成shell命令的字符串,然後通過os.system()就能方便實現很多功能,有時比os,還有Python中另一個操作系統相關模塊shutil還要方便:

斯坦福大學教授總結的Python基礎,零基礎到項目實戰只需一月!

相關推薦

推薦中...