金鑫:基因應用現狀解析及華大基因的數據平臺架構

大數據 華大基因 金鑫 雲計算 雲棲社區 2017-04-02

更多深度文章,請關注雲計算頻道:https://yq.aliyun.com/cloud

前不久《金剛狼3:殊死一戰》上映,在狼叔休·傑克曼的光環下,僅兩週時間,全球票房已高達4.38億美元,其中精彩的動作戲與狼叔的謝幕無疑是觀眾追求的熱點。然而不管是《金剛狼》抑或是《X戰警》,基因突變帶來的超能力都是貫穿整個故事的基本元素。

基因科技是什麼?時至今日相信大家都已經有了一定的瞭解,就比如孕媽媽熟知的無創基因檢測,又比如說大量場景中用到的DNA親權鑑定。然而,在這之外,日常生活中基因應用還有哪些方面?是否如電影《生化危機》、《我是傳奇》那樣遙遠又恐懼?借用時下熱門的雲計算、大數據等技術基因研究這種全人類事業又會產生什麼樣的助力?近日,雲棲社區採訪了深圳華大基因股份有限公司研發中心副總監金鑫,就上述幾個問題進行了討論。

科研、醫學、人人,基因的研究、應用與探索

10年後的今天,每個新生兒出生後記錄的可能不僅是身高體重,還包括了他的基因數據——金鑫。

覺得不太可能?在驚訝的目光中,金鑫表示:回到10年前,2007年這個世界有基因數據的人不超過10個,那個時候讀取一個基因數據需要上億美金;10年後的今天,成本被降到了1千美金之內,同時基於人們對更高健康水平的需求,統計已按百萬計。而著眼當下,基因研究主要可分為以下3個維度:

1. 科研的服務。類似大多新技術,基因研究最初也是在科學研究的基礎上發展起來,比如尋找一些疾病的致病基因,又比如熊貓為什麼不吃肉,通過研究熊貓的基因組會發現,其基因組例感受肉鮮味的基因“壞”掉了。

2. 醫學的服務。在之前,醫學實踐之所以比較少用,原因在於技術上沒有突破,同時缺少人類基因組參考序列。時下對於基因的研究已經有了更好的基礎,同時成本也飛速下降,所以有了臨床應用的可能,就比如生育健康、腫瘤相關、病源感染相關方面,也就是生死染:

  • 生,即生育健康,主要防控出生缺陷遺傳病,例如唐氏綜合徵,發病率大約是800分之一,傳統篩查會出現較高的假陽性,提示高風險,從而需要做侵入性檢查,帶來感染和流產的風險。然而通過基因檢測技術,母體抽血就可以避免這種情況,從而對原本檢查技術提供了很好的補充。

  • 死,即腫瘤,其最主要就是靶向藥物的選擇,因為時下治療方案一般就是手術、化療放療及靶向藥物,而靶向藥的靶點一般都是基因的標記。因此在治療方案之前,先就腫瘤組織進行檢測,知道靶點後確定明確的治療方案。當然,限於時下的醫學水平,治癒還有很大挑戰,但是卻可以在控制上更推進一步,提高患者生存率或生存時間。

  • 染,即感染,病原微生物,就比如SARS,剛發生時無法得知前因後果,比如究竟是病毒、細菌還是其他,從而造成一定程度的恐慌。直到基因數據被讀取,才清楚其病原體。

3.人人服務。在醫學服務中的生育健康其實關乎到整個人口質量、社會負擔及家庭負擔。時下整個出生缺陷的發病率在5.6%,而華大基因的目標是使用基因技術,使出生缺陷發生率在此基礎上降低50%以上。

在基因研究方面,華大基因、Intel、阿里雲共同發起了一個2020計劃,希望在2020年實現1個人的基因樣本採集、處理、測序及初步分析在一天內完成。而在這中間,雲一方面提供了海量的資源,加速計算和解讀的過程,另一方面,讓很多人可以同時對多個數據進行比較,從而更精準地解讀。

海量數據、異地,基因研究與應用挑戰

2016年3月10日之前,7年華大基因完成了100萬例孕婦產檢,然而在2016年底已超過170萬,同時隨著成本降低、人們思想進步、基因技術突破及二胎等政策推出,相信這個數據體量會愈來越大——金鑫。

一個人的基因組數據大約在3個G,為了得到精準的基因數據,通常需要進行幾十上百不等次的冗餘測訊,而做腫瘤基因檢需要進行上萬次。因此,聯繫具體業務,其存在的主要挑戰有:

  • 海量數據。一直以來華大基因都在不斷地擴展自己的計算集群,也有多個區域的生產中心,比如武漢,天津,也包括面向海外的香港,總部深圳也有自己的測序中心和對應的數據中心。以前,測序中心選址往往決定了數據中心方位,然而隨著業務的飛速增長,硬件規模增長已無法匹配數據規模的增長,出現了很嚴重的任務積壓。

  • 異地模式。基因研究更應該是一個多人、多基因序列的對比,然而基因數據本身體量比較大,限於現在的網絡環境很難實現這一點。其次,如上所述,雖然有著多地多機房,但是隨著任務量劇增,如果將數據在多機房來回切換顯然也無法滿足時效性。

基於上述挑戰,華大基因通過阿里云為BGI Online(安全、⾼效、易⽤的⽣物信息服務雲平臺,為⽣物信息領域的各類科研工作者和工具開發者提供便利)注入彈性,同時也釋放了每個數據中心部署耗費的大量人力、財力和物力,其總體架構如下:

金鑫:基因應用現狀解析及華大基因的數據平臺架構

  • 前端通過WEB服務呈現系統業務和提供用戶操作,WEB請求通過SLB做負載均衡,並在阿里雲提供的VPC和雲盾的防護下提供高可用的服務。

  • 後端管理系統的業務數據和處理業務邏輯,後端服務部署在多臺ECS上,並採用RDS服務存儲業務數據。

  • 任務管理引擎接受前端請求,管理計算資源實現生物信息數據的分析,阿里雲提供了海量的ECS節點,並對每個ECS節點提供了完整、詳細的API文檔,通過對接ECS節點實現了計算資源的彈性伸縮和強大的分佈式計算能力。

  • 存儲管理負責基因數據的存儲和管理,運用OSS和OAS實現了基因數據的冷熱存儲,除了OSS和OAS本身提供的加密存儲外,還對接OSS服務實現數據的去身份化,提高了平臺的安全性。

  • 文件傳輸通過部署在ECS上的服務提供,龐大的基因數據上雲是數據流的起始端和瓶頸,阿里雲通過鋪設阿里機房到華大集群的專線,提升了數據傳輸的速度。

而就在去年,基於華大基因開發的新一代基因雲計算平臺BGI Online,華大基因、阿里雲和安徽醫科大學三方共同協作在21小時47分12秒內完成了1000例人類全外顯子組數據的分析,創造了基因數據分析的“深圳速度”。

人人服務,基因研究未來的發展

基因行業還在非常早期,現在看到的就是一些非常確定的應用,和非常確定的結果——金鑫。

如果只有一份基因數據,能解釋的事情非常少,同時在人的基因之外,動植物、甚至是微生物這些組成人類生活環境的因素同樣需要分析。因此,去年建立了我國第一個也是唯一一個國家基因庫(由華大基因承接和運營)。而在這之外,華大基因更與多家國際組織達成合作,比如IRDiRC國際罕見病研究聯盟,也比如與費城兒童醫院在兒童腦癌上的研究。

同時金鑫還表示,時下雲計算、大數據、人工智能等技術同樣會給基因研究帶來很大的助力,比如在計算、存儲之外,華大基因已與阿里雲展開了大量機器學習相關方面的合作,比如說預測小米性狀,通過小米的基因數據,種植環境來預判小米的產量、特性等。同時也正在與阿里雲合作,通過更好的算法去預測腫瘤的驅動基因。

在最後,金鑫再次強調了基因研究上“我為人人”這個概念,他表示,就如BGI Online生物信息數據雲平臺,基於雲基礎設施能夠搭建不同的基因數據分析場景,不同的人可以在上面搭建自己的分析流程,為⽣物信息領域的各類科研工作者和工具開發者提供便利。

相關推薦

推薦中...