如何在七千萬件檔案中查找出一個特定的電子文件?
想象一下你要如何在40TB,大概七千萬件檔案中查找出一個特定地理位置相關的電子文件?現在你只需要一個平板電腦,點擊地圖上你感興趣的地點,就會在旁邊出現一張相關檔案文件的列表,當你點進列表中,甚至能看到每一條文件的元數據......
美國國家檔案館和文檔管理署(The National Archives and Records Administration,以下簡稱NARA)既是接收、記錄美國聯邦政府重要文件的官方機構,也負責保管大量的國家歷史檔案資源。
NARA有數量巨大、檢索功能齊全的數據庫資源,通過美國國家檔案館網站可以充分利用美國國家檔案館館藏超過5000萬份的歷史資料,為了方便用戶利用,網站開發了一系列的網絡數據庫,如檢索非電子文件的檔案研究目錄系統(Archives Research Catalog,ARC)、檢索電子文件的檔案數據庫檢索系統(Access to Archives Database,AAD)、國家檔案館圖書館目錄(NARA Library Catalog)、檢索縮微資料的縮微出版物檢索系統(Microfilm Publications Search)以及肯尼迪總統暗殺記錄收藏參考系統(Thepresident JohnF.Kennedy Assassination Records Collection Reference System),豐富的數據庫資源極大的方便了用戶的檢索和利用。
為響應奧巴馬政府的“大數據的研究和發展計劃”國家戰略,NARA與美國國家科學基金會NSF(National Science Foundation)、北卡羅萊納大學教堂山分校聯合啟動了“十億電子文件信息架構”項目(Cyberlnfrastructure of Billions of Electronic Records,CI-BER),為數十億聯邦政府電子文件建立母版,并實現不同方式的可視化呈現等,后來又加入了杜克大學、阿什維爾大學、阿什維爾市等新的合作伙伴,形成了一個分別代表計算機科學、政治學、人文科學、工程學、信息和圖書館學等領域的合作團隊。
“想象一下你要如何在40TB,大概七千萬件檔案中查找出一個特定地理位置相關的電子文件?現在你只需要一個平板電腦,點擊地圖上你感興趣的地點,就會在旁邊出現一張相關檔案文件的列表,當你點進列表中,甚至能看到每一條文件的元數據”,這是CI-BER項目組在2011年大數據分析與可視化專題討論會上演示的階段性成果,目前已實現的工具集包括:
大數據集的檢索 在大量記錄中識別出包含特定地理位置信息的文件 定位能夠打開這些文件的,應用軟件打開文件 從文件中抽取元數據 確定文件有關的地理范圍 為索引附加文件元數據和所涉及地理位置的經緯度信息
這些工具都是針對NARA館藏的聯邦政府電子文件量身定做的,隨著研究的不斷深入,其功能將愈加完善。
在利用大數據分析技術深入挖掘信息資源的同時,NARA對信息的宣傳與傳播也非常重視,不遺余力的擴大檔案資源的影響力。NARA在很早之前就開始了對“新媒體與檔案管理”這一課題的研究。
他們將“新媒體”定義為:以web2.0和社交媒體等網絡新技術為支撐的信息交流平臺,其中牽涉到社會參與和內容共享等一系列活動,政府機構和組織能夠通過這一平臺與廣大民眾緊密聯系在一起。
在通常情況下,這一新技術平臺由非政府的第三方組織(網絡服務公司)運作,以其異常高效靈活的特點,日漸融入到人們的日常生活。檔案管理機關如要跟上時代前進的腳步,對“新媒體平臺”的利用將非常重要。
新媒體以溝通互動為基礎,也常被稱為社交媒體。Nara將其進一步細分為三類:一是如微博、博客、維基網站那樣鼓勵創作并發布原創內容的網絡空問;一是社交網絡工具,如Facebook、LinkedIn等;還有一種是網上文件存儲與共享空問,如Flickr、Picasa等。
NARA于2010年12月制足了一份詳盡的社交媒體戰略規劃書,這一戰略有六大核心理念:合作、領導、發起、多元、聚合、開放。并進一步細分出三大目標服務群體:內部員工、政府部門及社會公眾。
關于內部員工,NARA相信新媒體技術可以幫助雇員們更有效率和活力地完成工作,網上信息共享與協作可以激發個人潛力,為解決問題提供幫助;對于政府部門,NARA希望通過新媒體,將不同政府部門的檔案管理者、從業者們聯合起來,提高政府檔案管理的效率,并為新媒體平臺上所產生的大量數字信息的記錄保存尋找更優解決方案;而服務社會公眾則是新媒體平臺最重要也最根本的目標,同時也是呼吁公眾為檔案歷史挖掘、檔案文化傳播貢獻更多力量。