智能硬件讓磁盤起死回生:獲取舊數(shù)據(jù)
將文件轉移到現(xiàn)代媒介上只是第一步。接下來要搞清楚其中的內(nèi)容,而這需要另一套工具。
2012年,William Parker和同事試圖尋找一個追蹤5萬余棵精心栽培的白云杉在10年間和1500公里范圍內(nèi)生長情況的數(shù)據(jù)集。他們發(fā)現(xiàn)了一盒計算機磁帶—— 一個相對現(xiàn)代的3.5英寸磁盤和一箱子較老的5.25英寸磁盤。這些磁盤包含了來自上世紀70年代田間試驗、被用于提高商用木材產(chǎn)量的數(shù)據(jù)。在加拿大安大略森林研究所任職的Parker需要一些方法,以評估諸如“協(xié)助遷移”等策略可能如何在這個日益變暖的星球上保護森林。而這種長期的系統(tǒng)研究正是他要找的東西。“當我們發(fā)現(xiàn)它時,那種感覺就像‘上帝呀!我們終于找到它啦!’”
不過,事情并沒有發(fā)展得那么快。Parker啟動一臺舊電腦,但它無法讀取最新的磁盤。同時,也沒有人擁有嘗試讀取其他磁盤的設備。
Parker的IT服務商將其介紹給一家數(shù)據(jù)恢復公司。事實證明,較老的磁盤是一種小型軟盤,即以極少數(shù)驅動器能讀取的格式寫入的雙面磁盤。專家們利用一個打孔機(有點類似于數(shù)字取證)以及一些將過時的軟件轉化成現(xiàn)代電子表格的程序,最終讀取了這些磁盤。
Parker的經(jīng)歷是很多研究人員所遇到的問題的縮影。位于美國威斯康辛州麥迪遜市的AVPreserve公司檔案保管員Bertram Lyons表示,從過時的數(shù)據(jù)存儲媒介中獲取信息就像解鎖一系列籠子。“科學家擁有很多困在舊格式中的信息。有些是硬件障礙,有些是編碼結構的問題。”
希望從過時的媒介中獲取數(shù)據(jù)的科學家首先需要找到能讀取它的設備,并將其連接到一臺現(xiàn)代電腦上。不過,將文件轉移到現(xiàn)代媒介上只是第一步。接下來要搞清楚其中的內(nèi)容,而這需要另一套工具。
去當?shù)貓D書館尋求幫助
當提到舊硬件時,一個不錯的開始方式是去當?shù)貓D書館。位于美國華盛頓特區(qū)的公共圖書館記憶實驗室提供了一個自己動手(DIY)的工作站,比如人們可將3.5英寸磁盤轉移成現(xiàn)代格式。斯坦福大學圖書館則為5.25英寸磁盤提供類似資源。澳大利亞墨爾本大學電子學術研究中心主任Gavan McCarthy擁有一個能處理很多格式的“冗余技術圖書館”。“如果你有磁帶、磁盤以及它能放進去的任何東西,我們就有對應的轉換插頭。”McCarthy表示。
只需要為每張磁盤支付幾美元,諸如位于加州的軟盤公司等轉換服務企業(yè)便能提供幫助。專門處理受損媒介的數(shù)據(jù)恢復服務也是這種情況??偛课挥诩又葜Z瓦托市的數(shù)據(jù)恢復公司DriveSavers擁有約2萬個存儲設備,其中最老的一個是1980年舒加特聯(lián)合公司的ST-506硬盤驅動器。Parker利用位于多倫多且同穆勒媒介服務公司簽訂了分包合同的CBL數(shù)據(jù)恢復公司恢復他的數(shù)據(jù),并為此支付了約3000美元。
成功取決于媒介的脆弱性及其被儲存的方式。5.25英寸磁盤很容易遭到油和壓力的破壞,艾美加公司的壓縮盤則很不穩(wěn)定。不過,McCarthy介紹說,這不僅僅是“電子信息的衰減”問題,或者說對媒介本身造成的破壞,從而使舊的媒介無法被讀取。“機器和零部件的數(shù)量也在以令人難以置信的速度不斷減少。”具有諷刺意味的是,紙張反而更加穩(wěn)定。
與時俱進
擁有舊驅動器和電源線的人們或許會受誘惑建立自己的DIY工作站,但最終發(fā)現(xiàn),新的電腦不再含有將其同驅動器連接起來的插件板和接口。比如,一些舊的壓縮盤要插進并行端口—— 一個如今幾乎已經(jīng)消失的接口。不過,現(xiàn)在有很多可以幫上忙的適配器。它們主要被檔案保管員和視頻游戲的狂熱愛好者使用,其中最尖端的是由軟件保護協(xié)會開發(fā)的KryoFlux設備。它能通過USB接口轉移軟盤數(shù)據(jù)。位于英國梅德斯通的KryoFlux保護技術集團就該設備向私人用戶收取約100美元的費用。
與此同時,現(xiàn)代電腦上的操作系統(tǒng)可能無法讀取舊格式的文件??屏_拉多大學媒介考古學實驗室主任Lori Emerson表示,他們曾幫助當?shù)匾患铱茖W博物館恢復壓縮盤上的秘密文件,而這取決于找到了合適的電腦(來自1994年的運行OS 7系統(tǒng)的威力麥金塔8100計算機)讀取這份文件。最終證明,這是一個來自舊版本的引文管理軟件EndNote的程序庫。
伊利諾依大學藥物化學研究員Guido Pauli建議,對付數(shù)據(jù)衰減的最好方法是與時俱進。Pauli維護著讓研究人員尋找天然產(chǎn)物(比如植物提取物)以及報道過的生物活性的NAPRALERT數(shù)據(jù)庫。它起始于由Pauli博士生導師組織起來的索引卡,并且自此以后經(jīng)歷了磁帶和各種磁盤格式,如今則以云存儲和硬盤驅動器的形式分布在兩個大洲。“我確實有一些舊的媒介,但不會因為無法讀取它們而影響工作。”Pauli表示。
理解和評估數(shù)據(jù)文件
恢復舊數(shù)據(jù)的下一個挑戰(zhàn)是搞清楚數(shù)據(jù)文件本身。對于數(shù)字檔案保管員來說,維護數(shù)據(jù)的第一步是獲取磁盤鏡像,即將所有電子數(shù)據(jù)逐位對應地拷貝到一個設備上,包括覆蓋的和隱藏的文件。雖然這是數(shù)字取證技術的范圍,但針對此類工具的商業(yè)許可會花費上千美元。此外,由于它們關注的是法律應用,因此忽略了一些對檔案保管員來說非常重要的特定功能,比如編寫敏感信息。
這促使檔案保管人員創(chuàng)建了開源“虛擬機器”——BitCurator。它對磁盤進行鏡像,并且指導人們自行操作內(nèi)容解讀的最初幾步,比如檢測比特和字節(jié)如何被格式化成供諸如Windows NT操作系統(tǒng)、Linux或者DOS等讀取的文件。格式越模糊,解讀起來便會越困難。
創(chuàng)建穆勒媒介服務公司的Chris Muller編寫了軟件來解鎖舊文件。不過,在他看來,人類線索有時會更有價值。在一個潛在項目的初期,Muller會讓客戶把初始媒介的照片用電子郵件發(fā)送給他。有時,對客戶毫無意義的某個專家的信手涂鴉正是讓Muller推導出備份數(shù)據(jù)時可能利用了哪種格式和軟件的字母或數(shù)字。
BitCurator的主要推動者之一、來自北卡羅萊納大學教堂山分校信息和圖書館科學學院的Christopher Lee解釋說,下一步是評估文件。文件可能以無法識別的形式存在,因此很難知道哪種程序可以打開它。“軟件經(jīng)常會成為障礙。”Lee表示。研究人員可以利用名為“文書編輯”的計算機程序,顯示此類文件初始的二進制內(nèi)容。運氣好的話,這或許能揭示某個文件是用什么軟件生成的,或者使可用數(shù)據(jù)被直接提取出來。BitCurator還同美國國家標準與技術研究所軟件參考圖書館建立互動,以試圖將文件同創(chuàng)建它們的軟件匹配起來。
不過,在數(shù)字檔案保管員看來,有時最大的障礙不是技術上的而是人。將文件提取出來然后僅知道它有6列和10萬行是不夠的。研究人員需要知道這些數(shù)字意味著什么。例如,由來自密歇根州高校校際政治與社會研究聯(lián)盟的Amy Pienta領導的檔案保管員購買了翻新的穿孔卡片讀出器,以便從上世紀50年代一項關于退休的大規(guī)模隊列研究中獲取數(shù)據(jù)。不過,在這些卡片被轉換成數(shù)字代碼后,他們需要密碼本以便知道這些數(shù)字指的是什么——代碼“1”意味著“是”還是“否”?
Parker的故事則有了一個有趣的結尾:電子數(shù)據(jù)僅包含了每組樹木的平均值,但一個幸運的電話表明,關于每棵樹測量數(shù)據(jù)的紙質(zhì)記錄被保存下來。為此,他驅車好幾個小時,去會見創(chuàng)造這些原始數(shù)據(jù)的科學家并且收集了數(shù)據(jù)表。
評論