發(fā)布時間: 2016年06月13日
對于生物和物理學界的研究人員來說,“圖像過?!钡奶魬?zhàn)正日益成為一大負擔。
隨著果蠅幼蟲在視頻中向前蠕動,呈裂紋狀的神經(jīng)活動快速傳導至其半毫米長的身體。當它向后蠕動時,“波浪”朝另一個方向起伏。這段在YouTube上被觀看了10萬多次的11秒長視頻剪輯,以幾乎單個神經(jīng)元的分辨率展現(xiàn)了該幼蟲的中樞神經(jīng)系統(tǒng)。創(chuàng)建這段視頻的試驗則產(chǎn)生了幾百萬張圖像和幾萬億字節(jié)的數(shù)據(jù)。
美國霍華德·休斯醫(yī)學研究所珍利亞農(nóng)場研究園區(qū)發(fā)育生物學家Philipp Keller領導的團隊制作了該視頻。對于Keller來說,這類產(chǎn)生大量圖像的試驗帶來了巨大挑戰(zhàn)?!斑^去5年里,我們光在用于數(shù)據(jù)處理的計算方法上便花費了約40%的時間?!眴栴}并不在于儲存圖像——數(shù)據(jù)存儲的花費并不高,而在于組織和處理圖像,以便其他科學家能理解它們并且獲得想要的東西。
對于生物和物理學界的研究人員來說,“圖像過剩”的挑戰(zhàn)正日益成為一大負擔。Keller和兩個其他領域——天文學和結(jié)構(gòu)生物學——的科學家向《自然》雜志解釋了他們正如何解決這個問題。
為太陽成像
在新墨西哥州拉斯克魯塞斯市上空地球同步軌道的某個地方,太陽動力學天文臺(SDO)追蹤著天空中的一個八字結(jié)。該衛(wèi)星對太陽進行著持續(xù)觀察,并利用3臺儀器記錄它的每一次“打嗝”。這些儀器通過10個濾鏡對太陽進行成像,記錄其紫外線輸出量并追蹤它的地震活動。隨后,這些數(shù)據(jù)被傳送到下方的地面衛(wèi)星接收站。美國宇航局(NASA)的承包商——ADNET系統(tǒng)的太陽科學家Jack Ireland介紹說,SDO每天產(chǎn)生“約1.5萬億字節(jié)的圖像數(shù)據(jù)”。根據(jù)NASA的說法,這一數(shù)據(jù)量相當于音樂軟件iTunes上約50萬首歌曲。
Ireland表示,為幫助研究人員駕馭這些圖像,ADNET團隊和歐空局一起開發(fā)了用于瀏覽SDO圖像的網(wǎng)站Helioviewer以及可下載的應用程序。利用這些工具的研究人員和天文學愛好者看到的并非初始數(shù)據(jù),而是其較低分辨率的圖像。
每張原始SDO科學圖像是4096像素×4096像素的正方形,大小約有12兆。它們每隔12秒被拍攝下來,迄今已收集了數(shù)千萬幅圖像。
用戶可跳轉(zhuǎn)到自SDO于2010年啟動以來的任何特定時間,選擇濾色鏡并獲取到數(shù)據(jù)。隨后,他們可放大圖像,瀏覽、裁切,并將其串在一起形成影片,從而使太陽動力學可視化。Ireland介紹說,用戶每天平均創(chuàng)建約1000個影片,而且自2011年起,至少有7萬個影片被上傳到Y(jié)ouTube。
一旦他們選擇了某張圖像或某個被裁剪的區(qū)域,比如圍繞特定太陽耀斑的區(qū)域,用戶仍能下載初始的高分辨率圖像。如果需要,他們還能下載較小的1兆圖像的完整檔案。
更快速的文件格式
對于Keller在珍利亞農(nóng)場研究園區(qū)的發(fā)育生物學團隊來說,將他們的數(shù)據(jù)發(fā)布到網(wǎng)上供外部人員獲取并不存在此類問題。如果其他人想要數(shù)據(jù),該團隊可利用專門的文件傳輸工具,或者簡單地通過運送硬盤,實現(xiàn)圖像共享。不過,該團隊首先必須管理并分類以每秒10億字節(jié)從實驗室顯微鏡下流出的圖像?!斑@是一項巨大的挑戰(zhàn)?!盞eller說。
Keller實驗室利用顯微鏡向諸如果蠅、斑馬魚、小鼠等小型生物體的大腦和胚胎內(nèi)發(fā)射光。這些生物體經(jīng)過了基因改造,因此它們的細胞能發(fā)出熒光作為回應,從而使該團隊得以數(shù)小時對3D下的每個細胞進行成像和追蹤。為儲存這些數(shù)據(jù),實驗室在可提供約1拍字節(jié)存儲量的文件服務器上花費了約14萬美元。
這些服務器上數(shù)百萬張圖像的高度結(jié)構(gòu)化組織,讓團隊成員保持著理智。每臺顯微鏡都在自己的目錄內(nèi)儲存著相應的數(shù)據(jù);文件按照樹狀結(jié)構(gòu)排列,而該結(jié)構(gòu)描述著一項既定試驗完成的數(shù)據(jù)、哪種模式生物被利用及其發(fā)育階段、用于可視化細胞的熒光標記蛋白等信息。Keller介紹說,實驗室構(gòu)建的數(shù)據(jù)處理管道便按照上述結(jié)構(gòu)行事。
然而,目錄并未包括大多數(shù)顯微鏡學家所熟悉的JPEG圖像文件。JPEG格式會壓縮圖像文件的大小,使其更容易處理和傳送,但在讀取并將這些數(shù)據(jù)寫入磁盤方面要相對緩慢,并且對3D數(shù)據(jù)來說效率太低。Keller的顯微鏡在收集圖像方面是如此的迅速,以至于他需要一種能像JPEG那樣進行高效壓縮但被讀寫時要快很多的文件格式。由于該實驗室通常研究的是單獨的數(shù)據(jù)子集,因此Keller需要一種簡單的方法提取特定空間位置或時間點。
Keller及其團隊開發(fā)了凱勒實驗室數(shù)據(jù)塊(KLB)文件格式。它將圖像數(shù)據(jù)切割成可被多個計算機處理器同時壓縮的組塊。這使文件讀取速度快了3倍,因此KLB在壓縮文件大小方面表現(xiàn)得和JPEG格式一樣好。
共享原始數(shù)據(jù)
拍攝照片以判定分子結(jié)構(gòu)的生物學家還產(chǎn)生了海量的圖像數(shù)據(jù)。一項日趨流行因此也產(chǎn)生了更多數(shù)據(jù)的技術是冷凍電鏡技術(cryoEM)。
CryoEM用戶向快速凍結(jié)的蛋白質(zhì)溶液發(fā)射電子束,收集上千幅圖像,并將它們結(jié)合起來以接近原子水平的分辨率重建蛋白的3D模型。大多數(shù)這樣的重建小于10千兆字節(jié),而研究人員可將它們存放在電子顯微鏡數(shù)據(jù)銀行(EMDB)中。不過,如此存放用于創(chuàng)建它們的原始數(shù)據(jù)卻行不通,因為后者比得到的模型要大兩個數(shù)量級左右。在英國劍橋附近的歐洲生物信息研究所(EBI)領導EMDB歐洲蛋白質(zhì)數(shù)據(jù)庫(PDBe)項目的Ardan Patwardhan表示,成立EMDB并不是為了處理這些數(shù)據(jù)。再現(xiàn)性因此遭殃:在無法獲取到原始數(shù)據(jù)的情況下,研究人員既不能驗證其他試驗的有效性,也無法開發(fā)新的分析工具。
2014年10月,PDBe啟動一項試點方案:同樣由Patwardhan主導、被稱為冷凍電鏡試驗性圖像檔案(EMPIAR)的原始cryoEM數(shù)據(jù)資料庫。目前,EMPIAR包括49個條目,其中每個條目的大小平均有700千兆字節(jié),最大的超過12太字節(jié),同時整個系列約有34太字節(jié)??傮w上,用戶每個月下載約15太字節(jié)。
下載如此大量的數(shù)據(jù)帶來了自身的問題:用于在電腦間傳輸文件的標準協(xié)議FTP不得不應對大規(guī)模數(shù)據(jù)集;連接損耗變得很常見,而下載速度會在長距離內(nèi)大幅放慢。EBI為EMPIAR用戶支付了獲取兩項高速文件傳輸服務——Aspera和Globus在線的費用。Patwardhan介紹說,兩項服務均以“每24小時若干兆兆字節(jié)”的速度傳輸數(shù)據(jù)。同樣利用這些服務傳輸大規(guī)?;蚪M學數(shù)據(jù)集的EBI為這項業(yè)務的另一面付出了代價。EBI提供Aspera服務的開支每年高達好幾萬美元。
不過,EMPIAR原始數(shù)據(jù)已證實了它的價值。弗吉尼亞大學結(jié)構(gòu)生物學家Edward Egelman與別人合作發(fā)表了一種被稱為MAVS的蛋白結(jié)構(gòu)。MAVS是一種聚合性的絲狀結(jié)構(gòu)蛋白,而最新發(fā)表的成果與此前的另一種模型存在分歧。Egelman通過下載并且重新處理原始數(shù)據(jù)集,證實此前的結(jié)構(gòu)是錯誤的。EMPIAR的資助將在2017年用完,但Patwardhan表示,cryoEM研究人員告訴他,他們已將EMPIAR視為一種必需,并且想把“試驗性”字眼從檔案的名字中去掉?!八麄冇X得,這應當被視為生物學界的一份重要檔案。聽上去還不錯。”Patwardhan說。(宗華)