使用谷歌BigQuery更好地瞭解Python的生態系統

編程語言 Python Google GitHub Python部落 2017-04-07

Python部落(python.freelycode.com)組織翻譯，禁止轉載，歡迎轉發。

談及編程，瞭解同行們正在使用的工具很重要。這不僅有助於瞭解行業發展趨勢，同時也能拓寬和其他程序員的共同語言。

由於我個人最近正在更多地用Python進行數據分析，這讓我也很好奇其他數據科學家最常用的包有哪些。當然，我可以用谷歌搜索“數據科學最好的Python軟件包”，但本著統計精神，我想通過數據而不是臆測來進行決斷。此外，我也發現谷歌的一個工具——BigQuery十分好用。

如果你想在大數據的海洋中暢遊，體驗谷歌的龐大資源，或只是練習SQL技巧，那麼BigQuery值得你一試。BigQuery公開的現有數據集含括了自2009年起紐約每輛出租車的行程，2008年起舊金山每通311報警電話，以及2016賽季美國職棒大聯盟每一場球賽。

而我經常從GitHub獲取相關公開數據集（其中包括超過1.45億次的提交以及1.6億個文件）。通過查詢這個數據集可以找到目前流行的擴展、通用文件以及常用包，也不需要單獨打開代碼就能領略編程之美。（谷歌的Felipe Hoffa，負責該數據集的推廣，並通過社區進行持續的分析記錄。）

我覺得應更加深入地瞭解這些Python文件而不僅僅只是檢驗。雖然數據科學越來越流行，但它依然只是當今最流行和多功能的語言之一的Python廣泛應用中的一隅。任何侷限於數據科學的認知都會被更通用的Python運用所取代。我其實更想搜索ipynb文件而不是.py文件，因為前者可用於Jupyter(原名IPython) notebook。

使用notebooks較之命令行運行Python腳本的主要優點是無需運行整個文件而可分塊執行代碼，同時還能內嵌顯示圖像。這種靈活性使得notebook能夠讓數據科學家進行即時可視化或大數據集操作，因此我想這些會體現在流行的ipynb包中。鑑於此，我在GitHub數據集上著手比較py文件和ipynb文件。

BigQuery可以用多種語言通過命令行或客戶端接入，但我偏向於Web UI界面（部分原因源於我用同一瀏覽器中搜索SQL和正則表達式語法…）。登入谷歌帳戶後，點擊GitHub數據集，便可查詢表“file”：

事實上，需要用到兩個表來完成查詢：選擇表contents並通過id和路徑名帶有.py後綴的表files子集鏈接：

要注意的是如果你使用谷歌的表做類似大數據量的查詢，根據規定，需要創建一個谷歌雲平臺帳戶，並綁定信用卡。處理前1TB的數據是免費的，但因為一些錯誤和無效查詢我還多花費了10美元。

查詢結果存入個人表格後，我也相應查詢了Jupyter notebooks(WHERE RIGHT(path, 6) = ".ipynb")，最後分別得到.py和.ipynb文件內容。

確定.py文件中十個最流行的包並不費力，尤其是參考了Google"s Francesc Campoy的指南後。通過SELECT SPLIT(content, " ") as line可以獲得以“import”或“from”開頭的文本行（兩個加載Python包的方法），再使用正則表達式就能抓取這兩個詞後的包名：

之後我得到了以下結果：

package	n
1	os	1048981
2	sys	829156
3	__future__	691222
4	time	424434
5	logging	404678
6	re	403193
7	numpy	394069
8	datetime	373272
9	json	282672
10	unittest	278512

沒什麼特別驚訝的。大多數包都是Python的標準庫，如os、sys和re，分別用於操作系統交互，系統變量訪問，正則表達式應用。這些非常“通用”的包的確非常流行，從而掩蓋了更具專業性的結果，如數據科學類的包。

處理Jupyter notebook的表則稍微複雜些。由於其支持多種cell形式（如代碼、註釋、markdown），每個文本內容的格式實際為JSON，因此需要一個比長字符串型更復雜的數據格式。

可能還有更加優雅的方法處理複雜的嵌套層，在這裡我通過JSON文本中的“ ”成功獲得了代碼的文本行。針對包標籤意外攜帶其他字符的情況，我也採取了特殊處理WHEN package LIKE "%\n","，最終結果是乾淨的：

結果如下：

package	n
1	numpy	9344
2	matplotlib.pyplot	5715
3	pandas	4469
4	os	1940
5	matplotlib	1714
6	IPython.display	1627
7	sys	1577
8	__future__	1244
9	sklearn	1162
10	time	1006

整體結果顯示Jupyter排名的量級小於第一張表，因為Notebook的應用相對並不普遍。不過流行包的順序卻頗有意味。numpy躍居第一，而數據分析工具pandas，可視化工具matplotlib以及機器學習庫sklearn緊隨其後，超過標準庫os。這些都是去掉與數據科學不相關的python代碼後排名靠前的流行庫。

我的直覺得到了很好的驗證，Jupyter notebook主要用於統計分析。但這個項目更有趣的地方則是運用BigQuery感受在僅僅幾秒內從海量的數據中篩選出結果的神奇。我鼓勵讀者朋友們自己通過GitHub數據集藉助BigQuery嘗試其他分析。在這3TB的數據中依然有很多值得探索...

英文原文：https://dev.to/walker/using-googles-bigquery-to-better-understand-the-python-ecosystem
譯者：luoshao23

相關推薦

'谷歌系無人車仿真器公司，剛又融資4000萬美元，面臨開源競爭'

"雷剛發自凹非寺量子位報道 | 公眾號 QbitAI無人車公司哪家強？衡量的要素有很多。但眾所公認的是，能力強大的無人車公司，肯定也是仿真技術做得出色的公司。而且作為無人駕駛研發中舉足輕重的一環，仿真也越來越多受到資本市場追逐。這不，硅谷仿真模擬創業公司Applie...

無人駕駛 Google 投資創業騰訊硅谷人生第一份工作 Y Combinator 機器人 Google地圖工程師雷剛 2019-09-19

'餘承東：若GSM不能用，華為P40或將使用鴻蒙系統'

"9月8日消息 B站UP主鵬鵬君駕到放出了自己翻譯的華為餘承東在IFA記者見面會的採訪。採訪中，當被問及華為是否考慮將麒麟芯片出售的時候，餘承東表示，其實有很多人在問這個問題，實話說，我們很猶豫，目前我們只生產給自己使用，但是我們也在考慮銷售芯片給其他產業，像IoT領域等...

餘承東華為手機華為公司 Google IFA 2019-09-18

'谷歌Pixel 4系列曝光雙攝加驍龍855Plus沒有5G沒有劉海'

"今年的手機市場可謂是驚喜不斷，各家的旗艦機都有了更新的外觀設計，而作為安卓父親的谷歌似乎也在準備新機。此前谷歌的新機一直以極致的優化聞名，而今年的谷歌似乎會有更大的動作，那就是首次搭載後置雙攝組合，要知道谷歌的單攝就已經十分無敵了，這一次上了雙攝之後似乎更是值得期待。據悉...

Google 我的第一部5G手機設計 Android 攝影 2019-09-14

'越南人每天使用4小時智能手機除臉書、谷歌系這些應用也比較火'

"一份調查發現，越南人平均每天在智能手機上消耗四個小時，其中 65% 的時間都貢獻給了移動應用。近期，一份胡志明市場調研公司 Q&Me 的調查顯示，超過 80% 的用戶每天在應用程序花費的時間大於兩小時，最受歡迎的應用分別為 Facebook、YouTube、Mes...

Facebook Google 越南智能手機 YouTube 萬物嚐鮮節軟件河內市胡志明市胡志明 iOS 2019-09-12

'「鈦晨報」小米5G手機今日上市；餘承東：若谷歌服務不能用，華為P40或將首發鴻蒙系統'

"【鈦媒體綜合】9月9日消息，小米5G手機即將於今日上市，型號名稱為MI 9S，即小米9S。今年年初，小米展示了一款名為Mi Mix 3 5G的5G手機，這是小米首款5G智能概念手機，但還未能走向市場。據運營商財經網瞭解，小米9S採用的是高通驍龍855+高通X50基帶，高通...

我的第一部5G手機華為Mate 餘承東華為公司小米手機華為手機智能手機高通攜程旅行網華為榮耀 Google 高能小子終極裝備運營商技術樂視網摩洛哥 iQOO618強悍單品推薦鈦媒體三星集團通信設計非洲金融中央處理器日本汽車市場營銷 IFA 任正非工業設計日本創業樑建章 2019-09-12

'餘承東：考慮對外出售麒麟芯片，華為P40或將使用鴻蒙系統'

"近日開幕的全球電子消費類展會IFA 2019上，華為發佈了新一代的麒麟990系列處理器。隨後，華為消費者業務CEO餘承東在採訪被問及華為是否考慮將麒麟芯片出售，對此，餘承東表示，目前華為只生產給自己使用，但也在考慮銷售芯片給其他產業，像IoT領域等。目前還在猶豫，還在討論...

餘承東華為公司華為手機 Google 2019-09-12

'「鈦晨報」小米5G手機今日上市；餘承東：若谷歌服務不能用，華為P40或將首發鴻蒙系統'

我的第一部5G手機華為Mate 餘承東華為公司小米手機華為手機智能手機高通攜程旅行網華為榮耀 Google 高能小子終極裝備運營商技術樂視網摩洛哥 iQOO618強悍單品推薦鈦媒體三星集團通信設計非洲金融中央處理器日本汽車市場營銷 IFA 任正非工業設計日本創業樑建章 2019-09-11

'餘承東：若谷歌服務不能用華為P40或將首發鴻蒙系統'

餘承東華為手機華為公司 ARM Google 中央處理器 Android 人生第一份工作 2019-09-11

'鴻蒙系統生態很難做起來？誰說的，國內一眾大佬們已經幫忙解決了'

"鴻蒙系統生態很難做起來？誰說的，國內一眾大佬們已經幫忙解決了相信關注華為的朋友們都知道華為在前段時間推出了一款鴻蒙系統，這款鴻蒙系統，可以說是為我國在智能系統這一方面的做出了巨大的貢獻，雖然現在鴻蒙系統並沒有普及，只用作商用，不過相信在不久的將來，鴻蒙系統經過不斷的完善與...

操作系統華為公司軟件 iOS 微軟 Google Android 阿里巴巴集團編譯器三星集團 Chrome 蘋果公司 Windows 瀏覽器阿里雲計算人生第一份工作 2019-09-10

'谷歌廣告推出季節性廣告調整功能，現可用於搜索廣告、展示廣告系列'

"在促銷期間，谷歌的出價算法可以讓你更好地瞭解短期廣告轉換率變化。今年5月谷歌在Google Marketing Live上演示的季節性調整功能，現在可用於搜索和展示廣告系列。為什麼要用谷歌廣告季節性調整功能？谷歌的tCPA和tROAS智能競標策略考慮到了大規模的季節性變化...

Google 算法機器學習高峰 2019-09-08

'通用汽車將與谷歌合作，使汽車信息娛樂系統像手機一樣操作'

"通用汽車將與谷歌合作，使汽車信息娛樂系統更像手機通用汽車（general motors）正聘請谷歌（google）設計其儀表盤信息娛樂系統的關鍵部分，並承認谷歌公司可以把這項任務做得更好。通用汽車表示：研究顯示，客戶希望在汽車中嵌入高科技，並希望其與智能手機的操作方式相匹...

Google 通用汽車公司智能手機 Android 人生第一份工作蘋果公司設計 2019-09-08

'如果全球42%的手機，都使用鴻蒙系統，那會怎麼樣？'

"不管鴻蒙系統是好是壞，不管你是用什麼樣的心態去看待鴻蒙系統，這個系統畢竟出來了，而鴻蒙的最大短板，很多人也知道，那就是缺乏相應的應用生態。試想如果國內的手機無法使用百度地圖，無法使用愛奇藝等流媒體軟件，無法使用微信，那用戶一定會“炸”。同樣，如果海外的智能手機用戶，無法使...

智能手機操作系統華為Mate OPPO 華為公司軟件蘋果公司逆襲故事步步高vivo 小米科技 Google 百度地圖 YouTube Facebook 愛奇藝 2019-09-07

'谷歌終於放下心了，華為：今年不會有鴻蒙系統的手機開售'

"華為發佈鴻蒙系統後，時至今日的流量熱度依舊很高，很多人都在疑問這款國產手機操作系統，華為什麼時候會用在手機上，什麼時候會發布這樣的手機。其實不論是鴻蒙系統發佈之前還是發佈之後，餘承東已經明確告訴用戶，鴻蒙系統是開源的，現有安卓手機可以使用，如果安卓系統不能使用，鴻蒙系統...

Google 華為公司操作系統智能手機 Android iOS 軟件三星集團英特爾微軟物聯網餘承東 2019-09-06

'開學福利！知名高校給學生準備的最新系統的python視頻教程，限免'

"導讀：又是新的一年開學季！隨著互聯網的迅猛發展，許多高校也開了很多課程，最為焦點的則是當前最熱門的編程語言python了，那讓咱們來看看，這些高校給學生們準備的python開發編程資料，適不適合當前的你呢？？希望小夥伴們可以對照著小編文中提到的知識點一步步學習，最終可以找...

Python 開學季網絡爬蟲 jQuery Linux Git 設計模式數據庫編程語言坦克大戰 Scrapy 人生第一份工作 2019-09-05

'Python大牛歷時半年整理總結的Python系統學習路線圖，超詳細'

"對於剛開始接觸Python的小夥伴來說，沒有思路方法，不知道從何開始學習，把軟件環境安裝好後就不知所措了！接下來我給大家分享下多位大牛傾力打造的python系統學習流程，一個月才設計完的！（文末附免費的大牛整套python學習教程）Python礎部分：老話說的好，“萬丈高...

Python MySQL 操作系統 Redis 數據庫 Linux 設計軟件 Mac電腦 2019-09-05

'“大消息”公佈，沒有谷歌服務也不怕，MATE 30系列不會延期'

"前天晚些時候，華為的海外官推表示將在9月1號宣佈一個大事情，讓大家猜猜是什麼。關於網友的猜測非常多，包括新處理器，鴻蒙手機，以及MATE 30系列等。就在昨天下午，華為官方終於宣佈了這個消息，MATE 30系列將在9月19號慕尼黑髮布，這也證實了此前的傳聞是正確的。除了宣...

華為Mate Google 華為公司三星集團 iPhone 設計 2019-09-05

'開始反擊谷歌！華為平板電腦採用全新Aurora操作系統：怎麼看？'

"近日，關於華為年度旗艦新品—Mate 30系列新品，一直都遭遇到了媒體的頻頻曝光，其中更是有媒體直接爆料，根據接近Google人士透露，華為即將發佈的華為Mate 30系列新品將會被禁止安裝Google Play應用以及服務，這意味著華為Mate 30系列新品將會面臨大麻...

華為Mate 華為公司 Google 操作系統華為手機 Aurora 平板電腦電腦俄羅斯歐洲 Android Google Play 諾基亞印度人生第一份工作 2019-09-04

'華為手機迎來海外挑戰谷歌“全家桶”應用在Mate 30上無法使用'

"DoNews 8月30日消息（記者趙晉傑）即將在9月中旬發佈的年度新旗艦手機華為Mate 30系列，將成為美國禁令下首批無法搭載谷歌官方應用的機型。據路透社報道，美國商務部北京時間8月19日發佈的再次延期90天的臨時許可，並不適用於谷歌及其相關服務。儘管美國商務部7月份...

華為Mate 華為公司 Google 華為手機智能手機 Gmail 操作系統 Android 任正非 Google地圖 iOS 路透社歐洲 Linux 餘承東英國 2019-09-03

'三千年前的古文字被AI破譯，MIT和谷歌開發失傳語言的機器系統'

"大數據文摘出品編譯：劉俊寰1886年，英國考古學家亞瑟·伊萬斯偶然間發現了一塊刻印著未知語言的石頭。得知這塊石頭來源於地中海的克里特島後，伊萬斯立馬動身前往此處以搜尋更多證據。在那裡，他馬上就發現了許多筆跡相似的石碑，這些石碑能追溯到公元前1400年左右，這些刻字也就成為...

人工智能 Google 克里特島麻省理工學院數據庫技術語言英國大數據藝術人生第一份工作德國希臘數學 2019-09-02

'關於華為：Mate30系列曝光、谷歌：Mate30無法搭載谷歌應用及服務'

"華為將於9月18日於慕尼黑首發Mate30系列，這代表著華為下一代的手機終端技術，目前離發佈時間只有近20天，在此給大家帶來了頗為詳細的Mate30系列參數信息，另外有消息證實，谷歌公司不允許華為旗下Mate 30、30Pro搭載谷歌下的應用程序，其精彩內容，都在下方。距...

華為Mate Google 華為公司設計 Android 技術照相機 2019-09-01

推薦中...