《保护我们的数字遗产:DNA数据存储》白皮书发布
編者按:
? ? ? ?2020年10月,Twist Bioscience、Illumina、Western Digital(西部數據)、微軟研究院等公司和機構聯合成立DNA數據存儲聯盟(DNA data storage Alliance)。聯盟的目標是創建可互操作的存儲生態系統,并利用人造DNA作為數據存儲介質。目前,該聯盟成員已經超過25家機構。2021年6月,聯盟發布首份白皮書《保存我們的數字遺產:DNA數據存儲》(Preserving Our Digital Legacy: An Introductionto DNA Data Storage)。白皮書介紹了DNA存儲的基本原理、技術概述、潛在的新存儲介質的成本,討論了使用DNA存儲的必要性,以及其在解決數字數據指數增長方面的前景。
?
?
1??數字數據增長勢態:海量數據
? ? ? ?以數據的創造、購買、銷售和積累為特征的全球信息時代正在考驗著我們分析、存儲、處理和保護這些珍貴數據的能力。根據國際數據公司(IDC)DataSpher全球預測報告顯示,2020-2025年間,全球生成的數據(包括新生成和復制副本)預計將以23%的復合年增長率(CAGR)增長,到2025年達到180 ZB。短短三年時間,新創建的數據就從2017年的3ZB增加到2020年的64 ZB。IDC還指出,除了新數據的數量外,復制數據與最初捕獲數據的比例也在增加。
? ? ? ?數據保存和數據挖掘推動“海量數據”的產生。機器人、智能城市、自動駕駛汽車、醫療保健、天文學、氣候科學等不同領域的用戶都在尋求容量更大的數據集,以便未來進行數據挖掘,保持競爭力和/或推動科學發現。如果能夠以更低的總成本存儲更多數據,在權衡保存或丟棄數據之間的利弊時,就可以保存更多原始數據以供未來進行數據挖掘時使用。
? ? ? ? 此外,相關政府也在制定數據存儲相關的法案,例如,美國針對所有上市公司和一些私營公司制定了《健康保險攜帶和責任法案》(HIPAA)以及《Sarbanes-Oxley法案》(SOX)。因此,數據增長率、數據挖掘的商業/科學潛力,以及監管要求都在推動更長時間內儲存更多數據的需求。
? ? ? ? 盡管上述因素推動了前所未有的存儲需求的增長,但存儲供應并沒有跟上快速增長的需求。據IDC StorageSphere報告估計,存儲設備總安裝基數預計將以19%的CAGR(2020-2025年)增長。另一方面,Gartner咨詢公司指出,目前存在潛在的不足區(圖1),并估計超大規模供應商存儲需求已經超過目前的增長速度:2013-2019年,以近35%的CAGR增長,2020-2030年有可能飆升至50%。
2? 數字存儲的發展動態
? ? ? ?存儲行業的創新實現了密度、尺寸和總容量方面的驚人進步。歷史上首個硬盤驅動器(HDD)于1956年推出,尺寸相當于一臺冰箱大小,容量為5MB,價格為1萬美元/MB。隨著磁記錄技術的逐步改進,人們已經在3.5英寸的外形尺寸中實現18-20TB的規模。2019年,近線硬盤的平均售價約為20美元/TB,比1956年的硬盤售價低了9個數量級。
2.1??存儲技術面臨的挑戰
? ? ? 盡管技術不斷改進,考慮到ZB規模和長存儲時間的需求,當前的存儲技術仍然面臨關鍵挑戰。
2.2.1? 存儲維護和更換成本
? ? ? ?今天的存儲介質(磁性、半導體等)在保管妥當的情況下可以保存數據幾十年,但就像任何有形資產一樣,它們會隨時間的推移而磨損和退化。因此,必須定期檢查以確保數據的完整性。
? ? ? ? 此外,介質的固有格式與讀寫技術緊密結合。由于技術或商業原因,某些存儲設備的閱讀器或物理介質格式已經過時,使得這些存儲設備的數據無法再讀取。因此,存儲在當前任何存儲設備上的數據都需要定期被重寫到新一代設備上,以確保能繼續訪問。
2.2.2? 密度限制
? ? ? ?1975年,Gordon Moore闡明了摩爾定律——可封裝在集成電路中的晶體管數量每兩年就會翻一番。該預測自發表以來一直保持不變,CAGR約為40%。對于存儲,介質密度的增長率各不相同。例如,HDD驅動器1998-2002年的面密度CAGR為108%,2003-2009年為39%、2009-2018年為7.9%。盡管諸如能量輔助記錄等技術的進步正在推動HDD面密度發展,但磁介質面密度的總體趨勢正在放緩。NAND閃存已達到周期性擴展限制;2D NAND存儲單元尺寸在平面(x-y)維度上減小, 2012年左右達到縮放限制;使用3D NAND(在z維度上構建單元)可以恢復增長,但最終也會達到極限。
? ? ? ?這些趨勢對當今ZB級的數據存儲提出了資本支出和運營成本等方面的挑戰,但并不意味著當前的存儲解決方案會過時。相反,它表明需要在存儲結構中增加新級別,以經濟高效的擴展方式,滿足不斷發展的存儲生態系統中數據的爆炸性增長。
2.2.3? 能源和可持續性問題
? ? ? ?據估計,2018年,數據中心消耗了全球總電力的約1%;未來10年內可能會增加3倍或4倍。如果不持續提高能效,到2030年,數據中心的用電量可能會增長到全球總用電量的3%-13%。此外,傳統存儲設備的材料,尤其是HDD和磁帶依賴具有復雜供應鏈的稀土金屬制成,給可持續發展帶來挑戰。
2.2? 存儲介質的總擁有成本
? ? ? ?根據總擁有成本(TCO)查看存儲層次結構非常重要。存儲可以根據數據訪問的頻率進行分層(圖2)。頻繁訪問的數據(“熱數據”)通常存儲在高性能設備(例如SSD)上。訪問頻率較高的數據(“暖數據”)通常存儲在HDD上。不經常訪問的數據(“冷數據”)通常存儲在磁帶上。
? ? ? ?隨著金字塔向上移動,存儲介質獲取和更換成本會推高TCO。此外,金字塔中較高層的存儲設備與較低層的設備會消耗更多電力,進而推高TCO。每個存儲層中的總位數與該層的基礎成本成反比。在數據中心,SSD和HDD的頻繁也增加了維護成本,增加了TCO。
? ? ? ?推高TCO的另一個因素是冷數據量的增長速度快于其他層次的數據,也就是說,需要長期存儲的數據越來越多。圖3顯示了數據的訪問頻率(紅綠線)、商業價值(藍線)和數量(黑線)隨時間的變化趨勢。
? ? ? ?因此,數據存儲的總擁有成本(TCO)包括以下幾大因素:硬件和介質的購置成本、數據存儲的時間范圍、數據寫入的成本、存儲數據的年增長率、檢索數據的數量和頻率、存儲的副本量、年遷移量、電力設施的成本、遷移的成本,員工成本等。
3??DNA作為存儲介質
? ? ? ?基于DNA的數據存儲是既能減少傳統存儲的物理和碳足跡,同時又可以顯著降低歸檔層TCO的解決方案。如果存儲得當,DNA數據可以穩定保存數千年,甚至沒有損耗且極少需要維護或更新。基于DNA的數據存儲的存儲密度、耐久性和低功耗從根本上降低了TCO,使其成為長期存檔數據存儲的有力競爭者。
3.1? 生物與合成(人造)DNA
? ? ? ?DNA是自然界可靠、長期存儲遺傳信息的系統。自然界中,DNA通常以雙鏈螺旋(dsDNA)形式存在,但某些生物中以單鏈聚合物鏈(ssDNA)形式存在。dsDNA或ssDNA均可用于DNA數據存儲。然而,在數字數據存儲的環境中,DNA是人造的:DNA數據存儲介質的創建不需要任何細胞、生物體或生命的創建或修改,同樣,生成的存儲數據也不會導致任何細胞、生物體或生命的創建或修改。
3.2? DNA存檔的特性
? ? ? ?DNA的獨特特性使其成為存儲檔案數據數十年、數百年甚至數千年的理想介質。
介質耐久性:DNA是生物系統中信息存儲的首選分子。在干燥的室溫環境下,它可以完好無損地保存數千年。斯德哥爾摩古遺傳學中心領導的國際團隊發現并成功測序了120萬年前的哥倫比亞猛犸象遺骸的DNA。這種化學穩定性確保DNA編碼的數據可以穩定地保存很長時間。
維護簡單性:如今的存儲介質必須定期進行固定檢查,以確保數據的可讀性。由于DNA的持久性和其他特性,預計其靜態維護將比傳統存儲解決方案簡單,也會顯著降低數據保存成本。
格式不變性:區分DNA作為存儲介質的一個基本因素是其分子結構。如今保存在DNA中的數字數據將在數千年后以化學方式讀取。與傳統存儲相比,此特性為基于DNA的存儲提供了顯著優勢。DNA的不可變格式確保了存儲數字數據的DNA始終能夠被讀取,并且只要編寫數據的編碼(邏輯結構與物理設備)可用就可以解碼。
密度:DNA介質使多種形式的儲存成為可能,包括三維存儲。DNA堿基的大小約為數十個原子,體積約為1立方納米。因此,即使考慮到大量實際開銷,1mm3卷積中可存儲的DNA位數估計為9 TB,大約是18TB LTO-9磁帶(大約23.5萬mm3)容量的一半。如果LTO磁帶內的空間填滿DNA二進制位,磁帶將容納約200萬TB的數據,約為LTO-9磁帶容量的11.5萬倍。
能源效率和可持續性:與當前的數據中心和存儲技術相比,存儲在DNA中的數據在靜止狀態下消耗最少。雖然目前的數據中心使用了大量的電力和土地,但在DNA數據存儲下這些需求或將忽略不計。由于DNA的耐用性和密度,其對環境的影響比廢棄的磁帶驅動器或HDD要小得多。
成本:在處理需要持續數十年或更長時間的歸檔數據時,這種不會隨時間產生額外成本的存儲介質非常具有吸引力。
4? 將數字數據導入DNA
? ? ? ?為了在DNA中存儲數據,原始數字數據被編碼(從1和0映射到DNA堿基序列),然后合成(寫入)并存儲。當需要存儲的數據時,對DNA分子進行測序(讀取)和解碼(從DNA堿基重新映射回1和0)。
編碼(將二進制位轉換為堿基):DNA數據存儲編碼的基本概念是將原始數字數據的1和0轉換為組成DNA的堿基(ACGT)。編碼方法與所使用的合成和測序方法緊密結合,實現可接受的二進制位密度,補償錯誤率,能夠將原始二進制數據分割成DNA鏈,也能將DNA鏈重新組裝回二進制數據。
合成(寫入):合成是制造DNA的階段。基于一系列化學步驟,由編碼步驟確定的DNA分子以反映“位對堿基”或其他編碼方法的各種不同方式組裝。
DNA的物理存儲:DNA合成后,被封裝以長期保存并放在DNA存儲庫中。封裝有多種類型,包括用惰性氣體將DNA密封在膠囊中,或將其與有助于保存DNA的化學物質混合。
檢索(從文庫中檢索):存儲后,一旦需要數據,就可以從文庫中檢索編碼的DNA并為測序作準備。通常還包括為測序方法制作的分子副本,這是分子密集型的,適用于更多副本服務分發或進一步存儲需求的情況。
測序(讀取):測序是確定DNA片段中DNA堿基(ACGT)的身份和順序的過程。目前使用的測序方法多種多樣,例如合成測序(SBS)、納米孔測序等。
解碼(將堿基轉換回二進制位):解碼涉及到將DNA測序中的堿基映射回數字數據。重要的是,它涉及從合成、保存到測序期間的糾錯。解碼完成后,數據將以數字形式重新組合并返回給用戶。
5? DNA數據存儲的經濟性
? ? ? ?當前,用于數據存儲的DNA寫入(合成)和讀取(測序)其實并沒有實現大規模應用。然而,這些應用是有發展前景的。合成成本是所有應用案例的基礎,而測序成本對需要頻繁讀取的數據的歸檔尤為重要。
5.1? 合 成
? ? ? ?DNA數據存儲的合成成本取決于位如何編碼到DNA堿基中,以及合成DNA的具體方法。由于當今商業應用不包括DNA數據存儲,因此難以對與DNA數據存儲直接相關的合成進行定價估算。美國情報高級計劃研究局(IARPA)正在通過分子信息存儲項目(MIST)資助該領域的工作,并且已經制定了目標路線圖——到2024年合成成本為1美元/GB,到2030年為1美元/TB。
? ? ? ?除了成本趨勢,用于數據存儲的DNA合成還有一個與遺留存儲相關的特性。對于遺留存儲,數據集的第一個或任何后續副本的成本與寫入原始副本的成本相同,即每種情況下的介質容量成本。相比之下,對于DNA數據存儲,創建數據集的第一個副本有與合成相關的成本,但由于PCR等工具的特性,創建后續副本的成本基本上為零,在這些工具中,副本是該過程的自然產物。基于DNA存儲的這種“免費副本”屬性與當今大規模存儲系統的趨勢非常吻合。
5.2??測 序
? ? ? ?討論DNA測序過程可以讀取多少數據到底意味著什么?以人類基因組測序為例,美國國家人類基因組研究所(NHGRI)估計,人類基因組測序成本從2001年的1億美元下降到2020年的1000美元。整個人類基因組包含約60億個DNA堿基,如果將每DNA編碼一個二進制位,一個人類基因組可以編碼約0.75 GB數據,相當于在1000美元/人類基因組的情況下,數據成本價約為1300美元/GB。這個成本與當今高端商業DNA測序平臺的通量一致,當轉換為數字承載能力時,假設每個DNA堿基為1個二進制位,其成本為800-1500美元/GB。
? ? ? ?此外,Illumina和其他公司預計,未來幾年內,可能僅需100美元就可在最高通量測序平臺進行人類基因組測序。這意味著成本又減少了10倍,約為130美元/GB。鑒于IARPA的目標是到2030年達到1美元/TB,以及當今主流存儲技術在讀寫成本沒有太大差異的情況下,預計DNA數據存儲生態系統的成本或將接近測序成本。
5.3??存儲和維護
在審查歸檔存儲成本時,不僅要考慮讀寫成本,還要考慮隨時間推移的總成本。圖4總結了寫入和存儲數據的成本,其中比較了云存儲、磁帶存儲和DNA數據隨時間推移的預計成本。該分析假設DNA沒有定期的數據遷移,只有固定檢查和存儲所需的能量消耗。可以看到,隨時間推移,DNA編寫成本逐漸下降,存儲和維護成本逐漸增加。
-
使用Fujifilm TCO計算器計算的磁帶價格
-
價格取自Amazon AWS公開定價(2021.2.1)
-
DNA存儲價格基于選定的成本方案,僅供比較
6??DNA編碼的發展現狀
? ? ? ?用于存儲數據的DNA編碼是將原始數字1和0轉換為DNA分子的堿基序列(ACGT)的過程。特定的編碼算法在技術上與合成和測序方法的基礎化學過程交織在一起,因此編碼方法會受到DNA數據存儲系統整個流程的復雜性、可擴展性、數據密度、數據可靠性以及成本的影響。
? ? ? ?在DNA上進行編碼傳輸時,1和0在合成前映射到DNA堿基的方式,以及DNA堿基在測序過程中映射回1和0的方式,大致類似在電氣傳輸過程中的數字到模擬到數字的轉換。ECC位和加擾模式在合成前添加到數據流中并在測序時(接收器)刪除,以檢測/糾正錯誤。
? ? ? ?用于DNA數據存儲的DNA編碼另一個重要方面是分段(segmentation)和尋址(addressing)。由于合成DNA鏈的長度存在實際限制,因此目前所有的編碼方案都是編碼地址信息,以便將長數字位流分割成DNA子片段,隨后在測序和解碼過程中重新組裝。可以使用多種尋址方案來實現分段,例如使用字段(fields)、隱式映射(implicit mapping)或外部標簽。
7??DNA合成的發展現狀
? ? ? ?大多數生物研究和生物工程都涉及合成DNA。考慮到數據存儲時,所有DNA合成方法的總通量?比任何現有存儲技術都慢幾個數量級。未來需要大規模并行化,以使DNA數據存儲比傳統數據存儲技術更具成本競爭力。
7.1? 堿基合成(化學和酶)
? ? ? ?目前,所有商業合成DNA都是使用磷酰胺合成方法。自20世紀80年代末以來,這一過程已實現自動化,是目前構建合成DNA最可靠、測試效果最好、質量最高的方法。價格較高是該方法的主要限制之一,另一個限制是用這種方法寫入DNA的速度。如今,科研人員已經在測試新方法和技術,希望通過并行方法提高速度并且降低成本。
? ? ? ?2010年開始,一些研究人員開始探索化學合成的替代方法。酶合成技術只使用含水試劑,產生的廢物副產品較少,有助于實現可持續發展;此外,該技術可以加速合成,實現更高的通量、增加聚合物長度和數據密度,以降低存儲成本。盡管酶合成技術尚未進入商業市場,但正在快速發展:2018年已經實現了酶法合成150堿基長度的寡核苷酸的概念驗證,且錯誤率低,首批產品計劃在2021年底完成。
7.2? 合成的連接技術
? ? ? ?連接技術主要用于合成DNA長鏈,基本概念是使用合成技術創建一個預定義的寡核苷酸庫,然后將這些短寡核苷酸連接起來,以可接受的錯誤率產生長鏈的核苷酸。根據編碼方法的不同,較長的核苷酸構建意味著可以在較大的有效負載上進行糾錯、片段重組,且成本更低。
8? 保存用于數據存儲的DNA
? ? ? ?一旦DNA被合成并被數字數據編碼,介質的保存涉及幾個因素。在DNA數據存儲應用的整個環境中,必須考慮實際方面,例如容器成本、每個容器的數據量、時間、打包/解包成本。同樣,物理存儲和檢索的自動化也非常重要,包括收集合成輸出、準備物理存儲的DNA、恢復材料以服務讀取請求,以及為讀取過程做準備。
8.1? DNA衰變機制
? ? ? ?DNA與一些小的有機分子、紫外線照射、水、酶、微生物、氧氣、臭氧和其他大氣污染物的相互作用會出現降解。由于水對氧化劑或酶的重要作用,水是DNA最主要的降解因素。據估計,在25℃條件下,埋藏在古代骨骼化石中的DNA半衰期為512年,最佳保護條件下可長達10萬年以上,但暴露在潮濕環境下的DNA半衰期顯著降低。因此,DNA的存儲策略必須解決與濕度相關的問題。
8.2? DNA介質保護技術
? ? ? ?目前一般有兩類保護策略:分子級保護和宏觀保護。DNA數據存儲系統可以將兩者結合。分子方法,即單個DNA分子被嵌入一種基質材料中,以防止水和氧氣擴散到單個DNA分子(又稱化學封裝)。由于水在聚合物、有機分子和水溶性鹽中的相對高的擴散速率,最合適的基質是玻璃等無機材料。宏觀方法,即干燥的DNA樣本在惰性氣體條件下存儲在密封容器中,例如金屬膠囊(又稱物理封裝)。只要確保容器的完整性,控制氧氣和水的擴散,就可以避免攜帶DNA分子的數據發生相互作用。
9? DNA測序的發展現狀
? ? ? ?20世紀90年代中期開始,“二代測序”的快速發展,拓寬了DNA測序的應用范圍。二代測序通過大量并行實現通量、可伸縮性和速度方面的突破。目前商業上使用的二代測序包括兩大類:合成測序和納米孔測序。
9.1? 合成測序
? ? ? ?合成測序是指邊合成邊測序(Sequencing-by-synthesis,SBS)。Illumina公司(當時的Solexa)在2006年開創了SBS,目前主要的方法包括:
-
Illumina SBS是基于熒光標記核苷酸的成像。主要方法是將DNA庫添加到流式細胞中,然后放大成簇,之后開始合成步驟;通過加入4種熒光標記的可逆終止堿基,洗去非合并核苷酸;攝像機拍攝熒光標記的核苷酸圖像;最后,從DNA中去除染料和3'端阻斷劑,開啟下個周期。
-
Pacific Biosciences公司的SMRT技術(Pacific Biosciences Single Molecule Realtime Sequencing Technology)是一種利用聚合酶,通過ssDNA模板分子合成熒光標記的堿基,并進行實時成像。該技術可以產生長時間的連續讀取,單分子分辨率下的平均長度為15kb(千堿基)。
-
Thermo Fisher Scientific公司的Ion Torrent半導體測序技術是將DNA堿基編碼的信息直接轉換為半導體芯片上的數字信息(0和1),而不需要使用任何修飾過的核苷酸或光學元件。
9.2? 納米孔測序
? ? ? ?納米孔測序不同于SBS的底層機制。在納米孔測序中,一條DNA鏈可以通過電解質膜上的孔,DNA鏈穿過孔便可進行記錄,檢測出原始DNA鏈中的堿基。納米孔DNA測序可以實時進行,因此可立即獲得結果。目前應用最廣泛的納米孔DNA測序解決方案來自Oxford Nanopore Technology公司,他們利用嵌入在脂膜中的生物孔使得傳感更加精確。
10? 總 結
? ? ? ?今天,我們正處在一個數據存儲變革的風口浪尖。通過數據中心的服務器、移動設備和傳感器網絡,大規模的信息數字化正在進行中。人工智能技術和數據處理能力使挖掘海量數據成為可能,然而將這些數據轉化為知識加以利用的關鍵是保證數據的長期存儲。
? ? ? ?傳統存儲解決方案在過去幾年里已經得到廣泛擴展,但是磁性介質(HDD和磁帶)面積密度的增長正在放緩,數據增長速度超過了目前已有的存儲解決方案,需要一種更密集、更持久、更可持續、更經濟的新型存儲介質,以應對存檔數據未來的需求。
? ? ? ?據估計,到2030年,DNA合成成本可能達到1美元/TB,DNA測序的成本也可能達到相近水平。DNA數據存儲規模是前所未有的:同樣的LTO盒式磁帶空間,DNA位的數量是LTO-9磁帶的10萬倍。DNA的持久性和分子結構的一致性非常適合長期檔案存儲。此外,DNA在電力、空間和可持續性方面也是一種對環境友好的介質,這將大大降低生態系統的負擔。
? ? ? ?海量數據與合成DNA的結合,提供了一種新的存儲方式,它能從根本上改變存儲的規模和時間,保存我們的數字遺產,也為提取、甚至創造或發現新知識提供了更多可能性。
原文公眾號:上海市生物工程學會
總結
以上是生活随笔為你收集整理的《保护我们的数字遗产:DNA数据存储》白皮书发布的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2019第七周作业
- 下一篇: 让PV10000+的秘诀