發(fā)布時(shí)間: 2016年06月13日
當(dāng)美國加州斯坦福大學(xué)檔案管理員收到已故古生物學(xué)家Stephen Jay Gould的論文集時(shí),他們立刻發(fā)現(xiàn)了一個(gè)問題。許多論文實(shí)際上被保存在各類計(jì)算機(jī)磁盤上,而后者均是早已淘汰的形式。
“這是一個(gè)你能想象的龐大集合,他在寫作時(shí)使用了許多早期的文字處理技術(shù),很多磁盤的格式并不相同。”斯坦福大學(xué)圖書館博恩數(shù)字/取證實(shí)驗(yàn)室服務(wù)經(jīng)理Michael Olson說。
該校檔案管理員付出了巨大的勞動(dòng)量才將Gould的論文整理妥當(dāng):首先尋找能讀取這些老舊磁盤的設(shè)備,破譯讀取的內(nèi)容。“例如,找出他使用了哪種文字處理軟件十分困難?!監(jiān)lson說。
實(shí)際上,Gould的論文折射了這樣一個(gè)迫在眉睫的問題:個(gè)人計(jì)算機(jī)革命發(fā)生40年后,第一代電腦使用者都已退休或去世。檔案管理員如何恢復(fù)和保存他們遺留下的資料?
“全世界的人都曾將信息保存在磁盤中,而這些介質(zhì)正隨著技術(shù)更迭越來越難讀取。”北卡羅來納大學(xué)信息和圖書館學(xué)院研究員Christopher Lee說。“這包括磁盤、壓縮盤、CD、DVD、硬盤驅(qū)動(dòng)器等各種媒介。”很多文檔僅被保存在早已淘汰的計(jì)算機(jī)硬件中,并且所有這些都在經(jīng)歷物理性退化,最終無法被讀取。
現(xiàn)在,很多圖書館、檔案館和博物館的倉庫里保存在大量的此類材料,它們希望一旦有需要,有人將能找到讀取方法。越來越多的檔案管理員正從數(shù)字取證領(lǐng)域?qū)ふ异`感:從電腦驅(qū)動(dòng)器、智能手機(jī)、筆記本電腦甚至全球定位系統(tǒng)設(shè)備中提取不法行為證據(jù)的技術(shù)?!笆聦?shí)證明,執(zhí)法和計(jì)算機(jī)安全人員能處理數(shù)字媒體數(shù)據(jù)穩(wěn)定和恢復(fù)的問題?!瘪R里蘭大學(xué)Matthew Kirschenbaum說。而且,他們的許多解決方案能被檔案管理員直接使用。
例如,在執(zhí)行過程中,最重要的事情之一就是以原始形式保存材料。這非常困難:幾乎所有在電腦上做的事都會(huì)留下模糊的數(shù)字痕跡。因此,數(shù)字取證專家開發(fā)出“磁盤印象”技術(shù),能從未使用和隱藏的磁盤空間中復(fù)制所有信息。然后,他們能保存下完整的原始證據(jù),同時(shí)還能在更好的備份上進(jìn)行取證分析。
而那些破譯收藏文本的機(jī)構(gòu)也有同樣需要,盡管它們的目的是為未來研究人員保留資料的原始版本。Lee 表示,8到10年前,為司法審判制作數(shù)據(jù)的副本是個(gè)相對邊緣的理念?!澳壳?,這在圖書館和檔案機(jī)構(gòu)已經(jīng)十分普遍?!?/span>
但對于檔案管理員而言,磁盤映像通常是由商業(yè)軟件包生成的,例如司法工具包和EnCase。由于這些軟件包是為刑事偵查員設(shè)計(jì)的,因此它們包含檔案雕刻、密碼破譯、訪問加密文件、高級(jí)搜索和生成用于法院審判的報(bào)告等,而這些對于檔案管理過程而言并不重要。另外,這些軟件費(fèi)用不低,使得檔案管理等機(jī)構(gòu)本就拮據(jù)的經(jīng)費(fèi)更捉襟見肘。
因此,2011年,Lee和同事啟動(dòng)了BitCurator。該平臺(tái)專為檔案領(lǐng)域設(shè)計(jì),并且是個(gè)開放資源,能免費(fèi)下載?!八堑谌介_源工具和我們自己工作的結(jié)合?!眳⑴c該項(xiàng)目的北卡羅來納大學(xué)信息和圖書館學(xué)院研究科學(xué)家Kam Woods說。Lee預(yù)計(jì)目前有數(shù)十個(gè)機(jī)構(gòu)經(jīng)常使用該工具包數(shù)百個(gè)機(jī)構(gòu)偶爾會(huì)使用。
BitCurator不僅具有磁盤映像功能,還有大量刑偵人員不需要的其他功能。例如編輯功能:在出版之前刪除機(jī)密材料?!皩τ跈n案或圖書館人員而言,你將不希望某人的健康檔案被公布?!監(jiān)lson說。因此,BitCurator具備若干訪問控制方法,而刑偵領(lǐng)域并不需要。
BitCurator的另一個(gè)特點(diǎn)是能讀取早已過時(shí)的磁盤。對于深陷舊磁盤甚至磁帶“海洋”的檔案管理員而言,這必不可少。Lee表示,盡管數(shù)字取證人員通常設(shè)計(jì)更新的生成系統(tǒng),但他們的技術(shù)對于數(shù)據(jù)恢復(fù)非常有用。“即便不知道文檔系統(tǒng)或無法讀取它,你也能采用取證技術(shù)制成一個(gè)安全的數(shù)據(jù)副本?!彼f。
此外,Olson指出,這個(gè)基于取證技術(shù)的方法還有一些超出技術(shù)考量的優(yōu)點(diǎn)。例如,對于Gould的檔案,“你能從不同的文本信息處理系統(tǒng)中獲得時(shí)間標(biāo)記,以找出他在某些時(shí)間實(shí)際寫了什么、寫作順序和編輯方法等?!痹摷夹g(shù)也用于檔案以外的領(lǐng)域。Olson實(shí)驗(yàn)室正幫助越來越多的大學(xué)教員和學(xué)生閱讀已經(jīng)淘汰的計(jì)算機(jī)系統(tǒng)保存的資料。
目前,科學(xué)數(shù)據(jù)正在以飛快的速度喪失,有研究顯示,上世紀(jì)90年代初出版的生態(tài)學(xué)論文,僅有20%的數(shù)據(jù)仍可用。該研究合作者Tim Vines表示,對于科學(xué)家而言,保存數(shù)據(jù)的最好方式是將它們上傳到圖書館檔案庫或在線開放資料庫。
“放在專門保存數(shù)據(jù)的機(jī)構(gòu)的手中比擱在書架上更好?!彼f。