""1千克DNA存儲全世界

DNA的雙螺旋結構使其成為一種理想的存儲介質,但它還不能取代傳統的硬盤驅動器。 (資料圖/圖)

(本文首發於2019年7月4日《南方週末》)

DNA具有許多合適的特性,使其成為存儲海量信息的理想選擇。隨著測序技術的進步,研究人員開始使用 DNA作為分子記錄儀,來“讀”和“寫”信息。這一進展可能對加速藥物開發和治療疾病意義重大。

在人類發明硬盤的數十億年前,進化選擇了DNA來存儲最寶貴的信息——遺傳密碼。隨著時間推移,DNA變得非常擅長這項工作,成為了地球絕大多數生命的首選工具。最近的一些技術突破讓我們可以輕鬆“讀”、“寫”DNA,於是科學家正在重新利用這種古老的分子存儲新類型的信息——在大數據時代,人類以指數級速度生成的數據信息。

利用DNA來存儲遺傳密碼之外的信息,這一設想已經得到了廣泛的討論。畢竟,以1和0記錄計算機代碼的方式正在接近物理極限。要安全存儲我們生成的所有數據,需要克服許多難題。近日,其中一個問題重新映入人們的視野,曾經風行一時的社交媒體網站Myspace宣佈,他們在服務器遷移過程中無可挽回地丟失了大約1年的數據。長期保存數據,例如一個休眠一段時間後重新啟動的網站中的數據,暴露了現有技術的脆弱和笨拙。而且這不僅僅是一個空間問題:維持數據存儲需要消耗大量的能量。

DNA的特性有望解決這些問題。一方面,DNA的雙螺旋結構非常適合數據存儲,因為知道一條單鏈的序列就會自動知道另一條單鏈的序列。另外,DNA也能長時間維持穩定,這意味著信息的完整性和準確性都可以得到保證。例如,2017年,科學家分析了從8100年前的人類遺骸內分離出來的DNA。而這些遺骸的保存環境甚至算不上理想,如果是乾燥涼爽的環境,DNA可以保存數萬年之久。

不過,DNA雙螺旋最有吸引力的地方大概是它可以摺疊成一個非常緊密的結構。每個人類細胞都包含一個直徑約0.00001米的細胞核,但如果把細胞核內的DNA伸展拉直,它將長達兩米。換句話說,如果將一個人的全部DNA串在一起,它將延伸至100萬億米。在2014年,科學家計算出1克DNA理論上可以存儲455EB(1018字節)的數據。這樣的信息存儲密度大約比硬盤中的物理存儲密度高出100萬倍。

雖然DNA通常被認為是一種存儲介質,但在取代傳統硬盤驅動器之前,它仍然有許多科學、經濟和倫理上的障礙需要克服。與此同時,DNA作為一種適用範圍更廣的信息技術已經得到了越來越多的應用。例如,一些經典的好萊塢電影已經從脆弱的膠片轉移到了遺傳密碼中。最近,DNA工具已被用來設計更安全的基因療法,加速抗癌藥物研發,甚至第一次“直播”活體生物內的遺傳活動。在這個不斷髮展的領域的前沿,DNA不僅被用於長期存儲數據,還在以前所未有的速度促進數據生成。這是因為DNA在兩個方向上都要比其他分子更具可擴展性:它一方面能大幅增加我們獲得的數據量,另一方面又能縮減存儲數據所需的資源。

加速新藥物開發

近年來,科學家越來越多地用DNA作為分子記錄器,來理解和跟蹤他們的實驗結果。在多數情況下,這個過程都用到了DNA條形碼編碼:為了標記和跟蹤單個實驗的結果,科學家使用已知的DNA序列作為分子標籤。例如,一個實驗結果可以用DNA序列ACTATC標記,而另一個結果可以用TCTGAT標記。

DNA條形碼技術發源於20世紀90年代初,當時斯克裡普斯研究所的理查德·勒納(Richard Lerner)和已故的悉尼·布倫納(Sydney Brenner)提出,DNA可充當一種追蹤化學反應的新工具。他們的設想極具創新性,但也過於超前了:當時還沒有廉價的DNA讀取技術。因此,直到眾多科學家在核苷酸化學、微流控技術等領域做出貢獻,促成新一代測序技術出現,DNA條形碼技術的潛力才得以兌現。在2005年,測序技術迎來了一個重大突破,研究者稱,他們可在4小時的實驗中分析2500萬個DNA鹼基。

新一代測序技術發展迅速,現在我們可以很容易地同時讀取數百萬個DNA序列,這意味著可以同時運行和分析數千個實驗。用新一代測序技術分析DNA條形碼有著獨特的數據管理模式:科學家不再一次測試一個想法,而是做出20000個預測並同時進行測試,尋找正確的結果。

生物學家是第一批廣泛使用DNA條形碼技術的人。隨著這種技術越來越普及,包括化學工程和材料科學在內,許多不同領域的研究人員都開始使用該技術,以全新的規模進行實驗。例如,在我設於佐治亞理工學院的實驗室中,工程師正在使用DNA條形碼來改良納米顆粒的設計和功能,以便讓它們安全地將藥物遞送到患病細胞。納米技術主要依賴物理和化學工程,似乎與DNA完全無關。但是,當你將DNA視為跟蹤和存儲數據的一種方式時,它作為一種組織工具的效用就變得顯而易見了。

納米技術專家面臨的一個基本問題是,在尋找有效的療法時,設計實驗遠比執行實驗和分析結果容易得多。這是因為納米顆粒的形狀、大小、電荷、化學成分和許多其他變量都可以改變它們將基因藥物遞送到患病細胞的能力。此外,這些因素之間還會相互影響,使研究人員難以預測哪種納米顆粒能以最有針對性的方式給藥。一個直截了當的方法是逐個評估每個納米顆粒。但是,曾開發過RNA藥物納米顆粒的製藥公司的數據表明,這種類型的測試通常需要數億美元才能完成。

這就是DNA的存儲能力可以大展拳腳的地方。為了增加我們能夠測試的納米顆粒的數量,我們可以設計數千種具有不同化學結構的納米顆粒——例如大的、帶正電的球體或電中性的小三角形,併為每種納米顆粒分配一個DNA條形碼。

納米顆粒1號,具有1號化學結構,攜帶1號DNA條形碼。納米顆粒2號,具有2號化學結構,攜帶2號DNA條形碼。我們多次重複這個標記過程,從而產生許多不同的納米顆粒,每個都有自己獨特的DNA標籤。之後,我們可以給患病細胞使用數百種納米顆粒。為了鑑定給藥效果最好的納米顆粒,我們使用DNA測序來讀取細胞內的條形碼。

這樣的實驗規模在納米醫學領域是前所未有的。在我的研究領域內,“傳統方法”一般只能產生1~5個數據點。到2019年年底,我的實驗室希望量化500種不同的納米顆粒將基因治療藥物遞送給40種不同類型細胞的效果。這意味著我們要同時運行20000個實驗。

因此,我們還需要創建一個能夠監控數據質量的數據分析管道,並幫助我們對結果進行統計測試。首先我們會檢驗某個實驗多次重複的結果是否能預測其他實驗中的遞送效果。一旦我們確認這個大數據集是可靠的,我們就會使用統計方法來分析納米顆粒的特徵——例如它們尺寸的大小——是否對藥物遞送的效果有影響。我們發現,決定給藥效果的是納米顆粒的化學性質,而不是尺寸大小。通過DNA條形碼標記,我們希望使用更少的資源,更快地發現安全的基因療法。我們的目標之一是找到一種納米顆粒,它能針對特定細胞遞送基因治療藥物,幫助殺死腫瘤,從而減少現有治療方法所帶來的副作用,如噁心和脫髮。

我們已經取得了一些成果。在2018年,通過使用DNA條形碼技術獲得大數據集,我們迅速找到了一種新型的納米顆粒,它能夠高效地把基因治療藥物遞送給血管內皮細胞以及幾種幫助身體抵禦疾病的免疫細胞。過去,免疫細胞中蛋白質的活性是“沒辦法用藥物改變的”,也就是說,這些蛋白質很難作為化學小分子或抗體的靶標,而如今新型納米顆粒的發現意味著我們可以攻克這一難關,開發出新的治療方法。在2018年和2019年,我們在《美國科學院院刊》(Proceedings of the National Academy of Sciences)、《先進材料》(Advanced Materials)和《美國化學會雜誌》(Journal of the American Chemical Society)等期刊上發表了研究數據,從而得到了眾多其他基因療法研究者的關注。我們還組建了一家新公司GuideRx,致力於高效率地開發安全的基因療法。

DNA條形碼技術已經遍地開花,甚至在單個研究領域內衍生出了不同的應用方式。一個例子就是癌症生物學,這個領域研究基因突變如何導致癌症,以及新藥如何治療癌症。癌細胞的耐藥性是該領域中的一個重大難題:通常某種藥物最初對患者有效,但隨著藥物逐漸失去殺死腫瘤細胞的能力,癌症就會復發。

哈佛大學託德·戈盧布(Todd Golub)實驗室的科學家使用DNA條形碼技術來研究這種耐藥性。在2016年發表的研究中,他們利用病毒永久地將DNA條碼插入到癌細胞基因組中。癌細胞A型接受條形碼序列A;癌細胞B型收到條形碼B,以此類推。科學家將不同的細胞混合在一起,放在培養皿中培養,並用抗癌藥物進行治療測試。

如果藥物殺死了癌細胞或減緩了其生長,那麼細胞就不會分裂。但如果癌細胞對藥物產生耐藥性,那麼它會迅速分裂。因此,隨著時間的推移,如果癌細胞A對藥物產生了耐藥性,DNA條形碼序列A的相對量就會增加。反過來,如果癌細胞A被藥物抑制或殺死,則條形碼序列A相對量減少。通過測序分析存活細胞所含條形碼隨時間的變化,研究人員可以同時量化所有類型的癌細胞對藥物的反應。

2016年晚些時候,斯坦福大學的蒙特·溫斯洛(Monte Winslow)實驗室使用DNA條碼標記的胰腺細胞系來鑑定阻止癌症擴散或轉移的藥物。該實驗室使用病毒為每個細胞系打上條碼,然後將這些細胞系鋪在各自的培養孔中。之後,研究者用不同的抗癌藥物處理每個孔。通過這種方式,每一種藥物都與一個DNA條形碼對應起來。緊接著,研究人員將細胞注入血液中,之後測量哪些細胞轉移到了肺部。通過識別出現或消失的DNA條形碼,研究人員可以確定哪些藥物促進了轉移,哪些藥物可以阻止轉移。

在第三個例子中,麻省理工學院和哈佛大學博德研究所的科學家使用DNA條形碼來研究基因組中的每一個基因對一種癌症的影響。研究人員首先培養了大量癌細胞,並將它們一起放在一個大培養皿中。之後,他們使用基因編輯系統讓基因組中的所有基因逐一失活(或者激活)。被調節了表達量的基因序列起到了條形碼的作用。用抗癌藥物處理細胞,並隨著時間推移對DNA進行測序,科學家就可以瞭解基因組中的每一個基因是怎樣影響細胞耐藥性的。

在以上這些例子中,DNA是生成數據的分子,因為同時進行的大量實驗需要DNA的支持,DNA同樣也是存儲數據的分子,因為新一代測序技術是用來分析DNA條形碼的。這些研究的意義極為重大,相同的技術可以用來研究自身免疫疾病、神經疾病和心血管功能障礙的治療方法。想要簡單理解DNA條碼的巨大威力,只需要把前文提到的“癌症”用其他疾病替換,“耐藥性”用其他藥物反應替換即可。通過這種方式,DNA條形碼可以從根本上簡化早期藥物的開發,從而加速了有效療法的研究進程。

把信息寫入DNA

DNA條形碼技術依賴於“讀”已知的DNA序列,而直到最近,“寫”DNA還是不切實際的。總的來說,我認為寫DNA是將其他形式的信息,如圖片、電影或生物狀態,轉換成可以存儲和讀取的DNA序列。許多新的書寫技術是由基於“規律成簇的間隔短迴文重複”(CRISPR)的基因編輯系統驅動的。通過合理設計CRISPR系統,科學家可以編寫DNA序列。

最近的一些進展利用的是CRISPR系統自然進化而來,幫助細菌抵禦病毒攻擊的辦法。具體來講,病毒通過結合到細菌表面,然後插入它們的DNA或RNA來攻擊細菌。為了“記住”病毒,為未來遇襲做準備,細菌進化出了識別病毒DNA或RNA的CRISPR系統,可以將病毒DNA的小片段插入到自己的基因組中。也就是說,細菌可以“寫下”,或者說“記錄”之前攻擊過自己的病毒的信息,在未來遇襲之時保護自己。

現就職於加利福尼亞大學舊金山分校的塞思·希普曼(Seth Shipman)曾在哈佛大學遺傳學家喬治·丘奇(George Church)的研究團隊工作,他利用了CRISPR系統,將一張人手的圖像記錄到了大腸桿菌的基因組中。為了完成這一目標,希普曼和同事首先表達了兩種蛋白質:Cas1和Cas2。這些蛋白質在一起可以捕獲DNA的核苷酸並將它們插入基因組中。之後,研究人員將DNA序列“喂”給大腸桿菌,這些序列編碼了圖像的像素——當所有DNA放在一起測序時,這些像素共同組成一幅完整的人手圖像。科學家需要把不同的信息分配給DNA。例如,A、C、G和T各自代表不同的像素顏色,而關聯的DNA條形碼序列則編碼了像素在整個圖像中的空間位置。

通過對大腸桿菌的DNA進行測序,研究者以90%以上的準確度復原了原始圖像。接下來,他們重複了這個實驗,但加入了一個重要的變化:他們分不同批次將信息寫入DNA,還開發了一種方法來分析記錄了信息的DNA序列相對於彼此的位置。通過測量序列添加到大腸桿菌基因組中的次序,他們能夠將一系列圖像寫入基因組中,從而編碼一部電影。研究人員把取自人類的第一部電影的GIF動圖錄入了基因組。這個電影是埃德沃德·邁布里奇(Eadweard Muybridge)於1878年創作的,展現的是奔跑中的馬。在2017年發表的論文中,研究人員證明,他們通過對細菌基因組進行測序,成功還原出了這部邁布里奇的著名電影。

通用的DNA存儲技術

隨著研究者在越來越多的領域中用DNA生成、跟蹤和存儲信息,一個問題浮上水面:DNA最終是否能與傳統的電子存儲設備競爭,來記錄人類生成的所有數字數據?現在的答案是否定的——在保存信息方面,硬盤和閃存設備要遠遠優於最先進的DNA系統。

但是像所有的技術一樣,傳統的電子設備也有侷限性。它們佔用物理空間,需要特定的環境條件;即使是最耐用的電子設備也不太可能存活超過幾十年。考慮到這些問題,要保存我們今天所生成的所有數據可能很快就會變得困難起來。

相比之下,如果保存在涼爽乾燥的環境中,DNA幾乎肯定可以維持幾萬年不變。它可以在-20℃甚至-80℃的低溫實驗室條件下保存,也可以存儲在一般電子產品無法承受的極端炎熱的環境中。2015年,蘇黎世聯邦理工學院的羅伯特·格拉斯(Robert Grass)和文德林·斯塔克(Wendelin Stark)證明,存儲在二氧化硅中的DNA能夠在70℃下保存一週而不會產生任何差錯。儘管硬盤每平方英寸可以容納1TB的數據,但最近的估算表明,全世界產生的所有信息都可以保存在不到1千克的DNA中。

要使DNA儲存技術得到普及,還有許多重大的技術難關需要克服。主要的限制是存儲信息方式與提取信息的方式完全不同。此外,從硬盤中獲取數據幾乎是即時的,而從DNA中提取數據需要測序,目前需要幾分鐘到一天才能完成。儘管在過去的幾年裡DNA測序儀有了巨大的飛躍,但與硬盤相比,它們仍然體積龐大,價格昂貴。

在DNA存儲能夠充分發揮其潛力之前,我們必須考慮的不僅僅是這些技術障礙。作為一個社會,我們需要認識到,DNA測序的無處不在也意味著追蹤一個人將變得更加容易,同時數據安全也將出現新的漏洞。在美國和全球範圍內,隱私問題的例子比比皆是。

美國各地的警察部門已經在使用DNA測序,但很少受到監督。通過要求所有被捕人員——哪怕是最輕微的犯罪——提供DNA樣本,警方正在建立基因信息的大型數據庫。有些人認為這是21世紀的“指紋”識別技術。但兩者有一個關鍵的區別。指紋只能識別一個人,但如果你的一個親戚提供了他或她的DNA,那麼這位親戚暴露的信息就可被用來識別你或你家庭中的任何其他成員。

目前,關於DNA存儲的這些擔憂涉及的都是一個人的遺傳密碼本身——相關討論也一直是圍繞著身份保護展開的。但是在將來,如果其他類別的信息,如醫療數據、法律契約和個人數字歷史都存儲在DNA中,DNA存儲在物理安全和網絡安全等方面的更多問題就會暴露出來。既然如此多的信息可以保存在這麼小的空間裡,那麼該如何分配數據以避免在一個地方過於集中呢?即便信息提取過程能得到簡化,又該怎樣在避免惡意攻擊或意外損失的前提下,對數據進行常規存取呢?

考慮到科學和倫理兩方面需要完成的艱鉅工作,DNA存儲實用化的難度似乎令人望而生畏。這會讓我想起萊特兄弟,因為我的故鄉,俄亥俄州的一個小鎮,也是他們出生成長的地方。他們的第一次飛行持續了12秒,只前進了37米。而60年後,在沒有現代計算機幫助的情況下,人類登上了月球。這些壯舉使我相信,我們可以在未來幾十年駕馭DNA的天然力量,並主動地認識它的破壞力,確保這項技術為人類造福。

(Scientific American中文版《環球科學》授權南方週末發表,張益豪翻譯。本文有刪節。)

詹姆斯·達爾曼 (James E. Dahlman)

"

相關推薦

推薦中...