解讀丨歸檔文件整理規則,電子文件的格式轉換
以下內容來源 李明華主編《歸檔文件整理規則解讀》,僅供參考。
格式轉換
電子文件格式是指電子文件在計算機等電子設備中組織和存儲的編碼方式。電子文件的呈現與閱讀,需要依靠與其文件格式相對應的閱讀軟件才能實現,因而文件格式的有效性、可用性通常與操作系統、應用軟件甚至是硬件等密切關聯。隨著技術的發展,一些格式會逐漸被淘汰,因此,適時進行格式轉換、歸檔符合格式要求的電子文件,對于保證電子文件的長期可讀、可解析、可理解具有重要意義。
一、常用電子文件格式
現階段常用的電子文件格式有以下幾種:
1.WPS文件
WPS文件是金山軟件公司辦公套件WPS Office中文字處理軟件的標準文檔格式。WPS文件具有國家自主知識產權,基于XML標準,文件安全性較高,其中文排版技術卓越于微軟公司Office辦公套件。而且,WPS文件具有優異的跨平臺性能,可以兼容Windows、Linux和安卓等操作系統平臺。
2.DOC(X)文件
DOC文件是微軟公司Office辦公套件文字處理軟件Word的專有默認文件格式,是現階段較為流行的文件格式。與RTF、HTML等文件格式相比,DOC文件可容納更多文字格式、腳本語言等信息,但由于DOC文件屬于封閉格式,因而其兼容性也較低。DOCX是Microsoft Office2007之后版本使用的文件格式。該格式用新的基于XML的壓縮文件格式取代了其目前專有的默認文件格式,文件名擴展名也在傳統文件名擴展名DOC基礎上添加了字母X。
3.RTF文件
RTF(Rich Text Format,多文本格式文件,也稱富文本格式)是由微軟公司開發的跨平臺文檔格式。RTF格式較為通用,有很好的兼容性,大多數的文字處理軟件都能讀取和保存RTF文檔。RTF文件通用兼容性應該是RTF的最大優點,但也因此帶來一些問題,比如文件一般相對較大、WORD等應用軟件特有的格式可能無法正常保存等。
4.OFD文件
OFD(Open Fixed一layout Document,開放版式文件)是按照我國工業和信息化部組織成立的電子文件存儲和交換格式工作組版式文檔編寫組制訂的版式文檔標準,形成的版式文件格式。OFD文件具有國家自主知識產權,基于XML標準,易于理解和擴展;支持標準的XML簽名標準,支持版式技術的基本集,體系簡單,易于實現;支持與流式兼容的底紋模型;標注采用非接觸式,容易提取和訪問等優點。OFD文件也存在應用描述較少、有待擴充和推廣等缺點。
5.PDF文件
PDF(Portable Document Format,便攜式文檔格式)是一種以二進制方式儲存的格式,是美國Adobe公司于1993年開發的一種電子文件格式。PDF格式不依賴計算機的硬件配置、操作系統和創建文件時的應用程序,能忠實地再現原文,還具有文字檢索和文件審閱等功能,所以在國際上被迅速推廣應用。PDF格式已于2005年被國際標準化組織審核通過成為國際標準格式,標準號為ISO 19005一1:2005。
6.PDF/A文件
PDF/A(PDF/Archive)格式是PDF格式的子集。PDF/A標準是美國印刷、出版及紙品加工設備器材供應商協會(NPES)和美國國際圖像信息管理協會(AllM)共同發起的,主要是為了滿足兩方面的需要:
一是為電子歸檔工作尋找一個能夠長期、安全保存文件內容的方式;
二是在將來檢索時,能夠保證文件擁有始終如一的顯示效果。
作為電子檔案保存的更優解決方案,PDF/A標準在成為業界事實標準后,于2005年5月,又獲國際標準化組織ISO批準,成為一項國際標準。中國作為ISO組織的成員國,也在此過程中對PDF/A標準進行了詳細的評估和審閱,并給出了積極的評價。
7.TIFF文件
TIFF(Tagged Image File Format,標記圖像文件格式)是由Aldus公司與微軟公司一起為PostScript打印開發的一種位圖圖像格式。TIFF支持多種編碼方法,其中包括RGB無壓縮、RLE壓縮、LZW壓縮、ZIP壓縮、CCITT壓縮、JPEG壓縮等。TIFF格式存儲圖像質量高,十分有利于文檔原稿的復制,另外所有繪畫、圖像編輯和頁面排版應用程序以及大多數掃描儀對TIFF格式都提供良好的支持,這使得TIFF格式成為數字圖像處理的最好選擇。
二、電子文件的歸檔格式要求
在電子文件整理工作中,每一件電子文件均可能涉及多種類型的文件格式。如電子公文的正文以版式文檔生成,文件格式可能是PDF;附件、定稿可能以流式文檔生成,使用DOC、XLS等文件格式,文件處理單則可能以HTML或TIFF文件格式生成。因此,各單位電子文件收集歸檔時,應結合數字檔案資源長期保存需求和信息化建設規律,按照格式選擇標準確定電子文件的文件格式。
在格式選擇上,一般要求以通用格式形成、收集并歸檔電子文件,或在歸檔前將電子文件轉換為通用格式;電子文件歸檔格式應具備格式開放、不綁定軟硬件、顯示一致性、可轉換、易于利用等性能,能夠支持同級國家檔案館向長期保存格式轉換。
可以看出,對于電子文件歸檔格式,最關鍵的就是“通用”和“開放”。
“通用”是指電子文件歸檔格式要能夠在絕大多數計算機上正常的顯示和瀏覽,要做到這一點,電子文件格式要符合行業標準或者國際通用標準。
“開放”是指電子文件采取公開的格式標準,任何人都可以按照公開的文件標準對電子文件進行正常的解析和瀏覽。如果能做到這一點,不管計算機軟硬件水平如何發展,電子文件都可以自由的進行轉換和遷移,只有這樣,才能真正實現電子文件長期保存的目標。
2014年,國家檔案局印發《數字檔案室建設指南》,對文書類電子文件的歸檔格式做出規定:
●電子公文的正本、定稿、公文處理單應以OFD、PDF、PDF/A等版式文檔格式歸檔保存,版式文檔格式應符合《版式電子文件長期保存格式需求》(DA/T47一2009),并支持向同級國家綜合檔案館采用的長期保存格式轉換。
●集中記錄修改過程的彩色留痕稿以及確有必要保存的重要修改稿可以WPS、RTF、DOC等同級國家綜合檔案館認可的格式歸檔保存。
需要指出的是,紙質歸檔文件的數字化副本也可以使用TIFF、JPEG等文件格式進行歸檔。
三、電子文件格式轉換
電子文件格式轉換就是指將不符合歸檔要求的電子文件格式轉換為符合《數字檔案室建設指南》要求的歸檔文件格式。
1.電子文件格式轉換的主要目的是為了長期保存和長久可用。在實踐中,電子文件格式轉換一般選擇在電子文件歸檔時進行。
實行文檔一體化的單位,可以在辦公自動化系統與檔案系統的歸檔接口中集成文件格式轉換服務,對不符合歸檔格式要求的歸檔電子文件自動進行格式轉換。未實行文檔一體化的單位,可在電子文件整理歸檔時,由有關檔案整理人員手工完成不符合歸檔格式要求電子文件的格式轉換工作。
無論自動格式轉換還是手工格式轉換,電子文件格式轉換完成后,應以計算機自動檢查與人工抽查相結合的手段,開展文件格式轉換質量檢查,確保電子文件格式轉換后的文檔內容和表現形式與轉換前保持一致。
2.電子文件格式轉換時,應符合下列要求:
(1)歸檔時,不符合歸檔文件格式要求的電子文件原則上都應進行格式轉換;
(2)轉換后文檔內容和表現形式與轉換前沒有明顯區別;
(3)在條件允許的情況下,格式轉換前后的電子文件均應歸檔;
(4)電子文件格式轉換時,應同時去除源文件中的全部加密措施;
(5)有條件的單位,可以采取雙層PDF等技術,使轉換后的電子文件同時具備全文檢索能力。