將基因組數據分類並寫出文件，python，awk，R data.table速度PK

編程語言 AWK Python 腳本語言科技優家 2017-04-02

由於基因組數據過大，想進一步用R語言處理擔心繫統內存不夠，因此想著將文件按染色體拆分，發現python，awk，R 語言都能夠非常簡單快捷的實現，那麼速度是否有差距呢，因此在跑幾個50G的大文件之前，先用了244MB的數據對各個腳本進行測試，並且將其速度進行對比。

首先是awk處理，awk進行的是逐行處理，具有自己的語法，具有很大的靈活性，一行代碼解決，用時24S，

 1 #!/usr/bin/sh
 2 function main
 3 {
 4 start_tm=date
 5 start_h=`$start_tm +%H`
 6 start_m=`$start_tm +%M`
 7 start_s=`$start_tm +%S`
 8 awk -F $sep '{print $1","$2","$3 >> "'"$inputfile"'""_"$1}' $inputfile
 9 end_tm=date
10 end_h=`$end_tm +%H`
11 end_m=`$end_tm +%M`
12 end_s=`$end_tm +%S`
13 use_tm=`echo $end_h $start_h $end_m $start_m $end_s $start_s | awk '{ print ($1 - $2),"h",($3-$4),"m",($5-$6),"s"}'`
14 echo "Finished in "$use_tm
15 }
16 
17 
18 if [ $# == 2 ]; then
19 sep=$1
20 inputfile=$2
21 main
22 else
23 echo "usage: SplitChr.sh sep inputfile"
24 echo "eg: SplitChr.sh , test.csv"
25 fi

接下來是用python,python語言簡單，書寫方便。因此很快就實現了程序，同樣逐行處理，比awk添加了一點細節，只挑出需要的染色體。用時19.9秒。

 1 #!/usr/bin/python
 2 import sys
 3 import time
 4 def main:
 5     if len(sys.argv)!=3:
 6         print "usage : SplitChr sep inputfile eg: SplitChr ',' test.txt"
 7         exit
 8     sep=sys.argv[1]
 9     filename=sys.argv[2]
10     f=open(filename,'r')
11     header=f.readline
12     if len(header.split(sep))<2:
13         print "The sep can't be recongnized !"
14         exit
15     chrLst=range(1,23)
16     chrLst.extend(["X","Y"])
17     chrLst=["chr"+str(i) for i in chrLst]
18     outputdic={}
19     for chrI in chrLst:
20         output=filename+"_"+chrI
21         outputdic[chrI]=open(output,'w')
22         outputdic[chrI].write(header)
23     for eachline in f:
24         tmpLst=eachline.strip.split(sep)
25         tmpChr=tmpLst[0]
26         if tmpChr in chrLst:
27  outputdic[tmpChr].write(eachline)
28     end=time.clock
29     print "read: %f s" % (end - start)
30 
31 
32 
33 if __name__=='__main__':
34     start=time.clock
35     main

最後用R語言data.table包進行處理，data.table是data.frame的高級版，在速度上作了很大的改進，但是和awk和python相比，具有優勢嗎?

 1 #!/usr/bin/Rscript
 2 library(data.table)
 3 main <- function(filename,sep){
 4 started.at <- proc.time
 5 arg <- commandArgs(T)
 6 sep <- arg[1]
 7 inputfile <- arg[2]
 8 dt <- fread(filename,sep=sep,header=T)
 9 chrLst <- lapply(c(1:22,"X","Y"),function(x)paste("chr",x,sep=""))
10 for (chrI in chrLst){
11     outputfile <- paste(filename,"_",chrI,sep="")
12     fwrite(dt[.(chrI),,on=.(chr)],file=outputfile,sep=sep)
13 }
14 cat ("Finished in",timetaken(started.at),"\n")
15 }
16 
17 arg <- commandArgs(T)
18 if (length(arg)==2){
19 sep <- arg[1]
20 filename <- arg[2]
21 main(filename,sep)
22 }else{
23 cat("usage: SplitChr.R sep inputfile eg: SplitChr.R '\\t' test.csv","\n")
24 }

用時10.6秒，發現剛剛讀完數據，立刻就處理和寫出完畢，處理和寫出時間非常短，因此總體用時較短。

總結

雖然都是逐行處理，但由上述結果猜測awk內部運行並沒有python快，但awk書寫一行代碼搞定，書寫速度快，至於python比data.table慢，猜測原因是R data.table用C語言寫，並且運用多線程寫出，hash讀取，傳地址各種方式優化速度的結果。當然，上述結果僅供參考。

相關推薦

'美眾議院將繼續審查Libra；多家交易所出現數據異常情況'

"天眼精選 Inner Eye政策央行或將發放與央行數字貨幣相關的牌照據陀螺財經今日報道，知情人士透露，央行可能會發放與央行數字貨幣（CBDC）相關的牌照。據此前消息，央行2019年下半年工作電視會議中指出，要加快推進我國法定數字貨幣（DC/EP）研發步伐；8月10日，中國...

數字貨幣比特幣技術區塊鏈中國人民銀行 Facebook 軟件金融銀行腳本語言亞馬遜公司電腦洛杉磯 GitHub 分析師編程語言通貨膨脹 2019-08-28

'學透這13個Python爬蟲，這天下將沒有你爬不到的數據'

"Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年過節各大親友群、紅包群搶紅包還用Python？（PS: 有正在學習或者想要學習的寶寶、私信小編“學習”即可免費領取學習...

Python 網絡爬蟲程序員 Scrapy 人工智能編程語言技術大數據英語讀書 Redis 2019-08-23

'如果這篇文章都不能夠帶你Python學習入門，我將永遠退出編程界'

"本文將分為三大部分為讀者詳解Python如何學習入門，請大家認真看完一、Python學習大方向學Python這條路怎麼走？這是很多初學者都會問的一個問題，這個時候要問下自己，學Python想幹嘛？為了興趣？還是為了找份工作？亦或是其他目的。Python的應用領域非常廣泛，...

Python C語言網絡爬蟲 Word EditPlus Windows 文本編輯器人工智能文章編程語言數學 UNIX 操作系統集成開發環境 2019-08-12

'如果這篇文章都不能夠帶你Python學習入門，我將永遠退出編程界'

Python C語言網絡爬蟲 Word EditPlus Windows 文本編輯器人工智能文章編程語言數學 UNIX 操作系統集成開發環境 2019-08-03

'Python騷操作，提取pdf文件中的表格數據'

"在實際研究中，我們經常需要獲取大量數據，而這些數據很大一部分以pdf表格的形式呈現，如公司年報、發行上市公告等。面對如此多的數據表格，採用手工複製黏貼的方式顯然並不可取。那麼如何才能高效提取出pdf文件中的表格數據呢？Python提供了許多可用於pdf表格識別的庫，如ca...

Python Excel 數據結構 2019-07-20

'Python奇淫技巧之一：提取pdf文件中的表格數據'

Python Excel 數據結構 2019-07-17

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，附送教程

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲 Scrapy 人工智能程序員編程語言技術大數據英語 2019-07-13

學透這13個Python爬蟲，這天下將沒有你爬不到的數據，就是這麼牛

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員 Scrapy 編程語言人工智能技術大數據設計英語人生第一份工作跳槽那些事兒 Redis 2019-07-13

Python! 學透這13個爬蟲，這天下將沒有你爬不到的數據

Python簡直就是萬能的，你用Python都做過哪些事？用網頁看各大網站的VIP視頻，用python下載？用Python玩跳一跳，跳到50000分？過年...

Python 網絡爬蟲程序員編程語言人工智能 Scrapy 技術大數據英語 Redis 2019-07-13

Python實操：手把手教你用Matplotlib把數據畫出來

導讀：獲取數據之後，而不知道如何查看數據，用途還是有限的。幸好，我們有Matplotlib！Matplotlib 是基於 NumPy 數組構建的多平臺數據...

Python 腳本語言可視化技術 R語言設計瀏覽器 MATLAB 2019-07-08

三週寫出高性能的Python代碼，這些小技巧你值得一試

一個不上進的 Python 使用者我是一個有 C 語言背景的開發者。最近轉做了 Python，平時用 Python 還算 6，這周在給新員工分享工作之後，...

Python C語言跳槽那些事兒編程語言 2019-07-05

厲害了爬蟲Python批量導入Excel文件中不重複數據到SQLite數據庫

Python批量導入Excel文件中的不重複數據到SQLite數據庫這個軟件資料il也是《Python可以這樣學》最後一章的完整案例，涉及tkinter、...

Excel Python 數據庫網絡爬蟲軟件 Word 2019-06-21

手把手教你給Python程序寫圖形界面，並且打包成exe文件

環境配置官網下載Python3，LZ的配置環境是Python3.6，PyCharm 2017.2.1pip3 install PyQt5#下載PyQt5p...

Python PyCharm 2019-06-16

100行代碼寫出益智遊戲，原來Python可以這麼強大

freegames是Apache2許可的免費Python遊戲集合，旨在用於教育和娛樂。遊戲是用簡單的Python代碼編寫的，專為實驗和更改而設計。包括幾個...

Python 益智遊戲設計街機遊戲技術腳本語言數據挖掘 Django 工程師網絡爬蟲 2019-06-11

Python入門5：文件數據讀取

文本文件可存儲的數據量多得難以置信，沒有錯這裡說的文本文件就是txt類型文件就是那種用筆記本創建的文件類型，雖然很low但是這是我們使用 Python 讀...

Python 筆記本電腦 2019-05-29

Python將文字轉成語音並讀出來

前言本篇文章主要介紹，如何利用Python來實現將文字轉成語音。將文字轉成語音主要有兩種不同的實現方法：一種是先將文字轉成語音，然後再通過讀取語音實現發音...

Python 語音合成 Windows 操作系統 MP3 Google FFmpeg 百度 Windows 10 軟件微軟 2019-04-12

面向數據科學和AI的開發庫推薦：Python、R各7個

AI 科技評論按：本文作者 Favio Vázquez 是一位數據科學家、物理學家和計算機工程師，他從 2018 年初開始寫作併發布《數據科學和人工智能每...

Python 人工智能 R語言算法程序員設計文章 2018頭條記憶工程師遺傳讀書電腦 2019-04-05

如何將 Python 程序打包成 .exe 文件？

當我給他們一個 Python 程序時，他們是完全不知道該怎麼運行的。於是我想是不是可以將我的程序打包成可執行文件，直接運行？就像這樣：有需要Python...

編程語言 Python 腳本語言 Windows 8 OS X 2018-12-06

手把手教你如何用Python從PDF文件中導出數據（附鏈接）

作者：Mike Driscoll 翻譯：季洋校對：丁楠雅本文約4000字，建議閱讀10分鐘。本文介紹了在提取出想要的數據之後，如何將數據導出成其他格式的方...

編程語言 Python GitHub HTML XML 2018-12-05

大數據面試題（涉及Python、R、MySQL），速度收藏！

數據科學世界在2015年經歷了翻天覆地的變化。數據科學家開始威脅到CIO作為公司最重要的技術影響者的角色。數據質量直接影響到未來，數據科學家受到追捧。加上...

Python SQL MySQL 編程語言 ITStar 2017-09-27

推薦中...