機器學習的黃金年代,早期癌症治癒率或達98%

癌症 腫瘤 黃金年代 機器學習 億歐網 2017-06-09
機器學習的黃金年代,早期癌症治癒率或達98%

圖片來自“視覺中國”

2016年,全球新發癌症數量超過1400萬人,並導致了900萬人的死亡。癌症在發達國家中已成為主要死亡原因之一,美國每年逝世的5個人當中有一人是因癌症致死。根據美國抗癌協會和國際癌症協會數據,所有的癌症都是越早治療、治療效果越好。癌症的早期發現,可以為病理診斷和治療贏取更多的時間,能極大提高治癒率與患者生存週期及質量。癌症的早期篩查是個萬億級別的市場。

資本市場的火爆,得益於近十餘年基因測序技術的迅猛發展,特別是在腫瘤領域的廣泛應用。另一方面,機器學習技術在基因大數據處理上的大量應用,積累了前所未有的知識。這些全新的知識及組合為醫療界打開了一扇新世界的大門,使得醫學工作者對許多疾病的認識、篩查和治療都有了新的渠道和信息。

基因測序技術的進步使得基因分析更加的高效快捷

人可以被看作一臺極其精密的儀器,人的一生,萬億計的細胞在體內不斷複製更新,每代複製嚴格相同,但存在極其微小的錯誤率,造成所謂的基因突變。絕大多數突變無關緊要,少量突變造成抑制生長的基因的功能失常,或者激活生長基因,變成癌細胞。而癌細胞一旦逃避了免疫系統的監控,就造成生長失控變成癌組織。

一條人的基因組序列共有30億位,按正常排版打印在A4紙上,大概有華盛頓紀念碑那麼高。人與人之間會有小於千分之一的差異,癌細胞與自身的正常細胞基因組序列也會有細微的差別。基因測序的進步,讓鑑別這些差別成為一件快速、高效、低成本的事。

計算機運算速度和能力的發展,進一步推動了基因分析的進步

由於人類基因組的複雜性,測序數據量非常龐大,一個人的全基因組測序數據可以達到上百G。普通的計算機技術和統計學方法無法在短時間內很好地處理這些信息,而機器學習的發展以及GPU運算的進步逐漸為科研工作者解決了這一難題。現在只需要將基因測序的數據輸入經過機器學習反覆訓練的模型中,計算機就可以很快的分析出目標區域是否存在變異,進而找到可能變異的基因點位為醫生提供更多的可用於診斷及治療的信息。正是因為機器學習和基因測序技術的日漸成熟,以癌症篩查和診斷為首的各類疾病早篩項目漸漸成為科研及創投的熱點。

機器學習是近年來非常火熱的技術方向。

簡單來說,機器學習就是為計算機提供大量的數據,而這些數據都有他們各自對應的標籤,例如我們想教會計算機識別圖片中的動物,我們則要提供各種各樣的動物圖片,並且每一張圖片都帶有對應的標籤,這個是貓,這個是狗等等。機器在分析大量的數據之後會在圖片之中找到規律,例如貓在圖片中大多是獨來獨往,而許多有狗的圖片中還有別的動物或人類。通過這些信息,計算機不斷地調整,更新它的數學模型。

當有新的圖片到來時,計算機就可以根據建立好的模型來判斷哪個是貓,哪個是狗。當然,這只是一個非常簡單的機器學習的例子,現在的機器學習已經被廣泛應用於自動駕駛,數據分析,信息挖掘,治療診斷等等許多在過去只有人類能夠勝任的工作。成百上千的學習模型被開發出來,甚至有許多不需要大量數據,或者不需要帶標籤的數據就能學習的模型。正如70-80年代計算機開始爆發一般,這確實是一個機器學習的黃金年代。

今天就為大家詳細的闡述一下機器學習是怎樣與基因測序緊密合作完成癌症早篩的。

ctDNA是什麼

想理解基於基因測序的癌症早篩首先需要理解什麼是ctDNA。ctDNA是circulating tumor DNA的縮寫,也稱為循環腫瘤DNA。是一種存在於血液、尿液、腦脊液等體液中的細胞外的基因片段,主要來自於壞死或凋亡的腫瘤細胞。ctDNA是癌症的特定標記物,如果能在血液中檢測出ctDNA通常就意味著體內有癌症正在發生,這也是癌症早篩的基本原理。

然而,因為ctDNA和由正常細胞產生的遊離DNA碎片是混合在一起的,只佔所有遊離DNA(cell-free DNA,cfDNA)含量的0.1%-1%之間,因此準確檢測出ctDNA的難度相當的大。其中所涉及到的信號降噪,降低假陽性、假陰性的發生率等都是難度相當高的科研課題。

即使在體液中發現了ctDNA,由於血液循環,ctDNA可能來源於身體的任意一處,確定腫瘤在體內的生長位置也是另一件高難度的事情。得益於近些年腫瘤基因組測序結果的大量積累,科學家們發現了多種具有組織特異性的蹤跡。通過機器學習的途徑,結合這些蹤跡信息,科學家們就能通過ctDNA來大致判斷組織來源。

當然,人工智能的發展並不代表我們可以輕鬆地解決問題。儘管在現如今,機器學習,乃至深度學習已經擁有了許多開源的算法,哪怕只是一個普通人也可以在一定程度的學習後,運用現有的接口去開發一些簡單的模型。但是也正是因為如此,不同層次的算法人才所做出的產品質量和效果也截然不同。正如汽車製造的普及使得人人都可以擁有自己的汽車,但是普通人與賽車手之間車技的差距卻仍然非常明顯。

同樣,也因為這是個高度跨學科、知識密集型的領域,腫瘤早篩的創業團隊在機器學習方面的專精程度和對腫瘤病理學的理解導致了產品質量和效果的巨大差距。譬如,由於人類基因組的高度複雜,和當前二代測序技術依然存在一定的錯誤,使得數據分析成為極為關鍵的一環。團隊需要對測序數據的非常熟悉,精通數據挖掘的應用,以及對腫瘤臨床知識有精準的理解。

重磅福利!【2017中國互聯網+新商業峰會】,6月15-16日兩天3000人次,攜程創始人樑建章,嘉御基金創始人、前阿里巴巴CEO衛哲,分眾傳媒創始人江南春等嘉賓已確認出席,期待你的參與,限量鉅惠票等你拿!

42

66

相關推薦

推薦中...