檔案標準解讀 | 從紙質(zhì)檔案數(shù)字化到OCR

在為大家解讀《紙質(zhì)檔案數(shù)字化規(guī)范》和《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》之前,請先了解以下信息:
00.檔案標準、規(guī)范信息速報(2020)

3月23日,財政部和國家檔案局印發(fā)《關(guān)于規(guī)范電子會計憑證報銷入賬歸檔的通知》。
4月27日,國家檔案局會同交通運輸部、財政部、國家稅務(wù)總局發(fā)布《關(guān)于收費公路通行費電子票據(jù)開具匯總等有關(guān)事項的公告》,標志著電子會計憑證無紙化歸檔再次擴圍。
5月1日,國家檔案局公布實施《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》等9項檔案行業(yè)標準。
5月7日,國家檔案局辦公室印發(fā)《關(guān)于征求<公務(wù)電子郵件歸檔管理規(guī)則>等檔案行業(yè)標準項目意見的通知》。
6月1日,國家檔案局公布實施《檔案服務(wù)外包工作規(guī)范》等3項檔案行業(yè)標準。
看到上面的信息,你是不是會覺得國家檔案局今年“放大招”的頻率有點高?其實不僅國家檔案局,兩會代表委員也沒閑著,在剛剛結(jié)束的全國兩會上,代表委員們涉及檔案工作的建議就多達13項。
今年檔案工作關(guān)注度的猛增,一方面是受新冠疫情影響,健康碼的推出,使公眾對個人健康檔案、信用檔案等涉及實際生活類電子檔案重要性有了更為深刻的認識,另一方面,這也是在國家大力推進經(jīng)濟數(shù)字化轉(zhuǎn)型的政策背景下,國家、機構(gòu)和個人對于加快推進文檔數(shù)字化轉(zhuǎn)型,建立和完善以電子文件管理為核心的檔案信息化網(wǎng)絡(luò)體系的現(xiàn)實需要。
01. 紙質(zhì)檔案數(shù)字化
定義
簡單來理解,紙質(zhì)檔案數(shù)字化就是將紙質(zhì)檔案掃描并存儲為成體系的電子文件庫。
《紙質(zhì)檔案數(shù)字化規(guī)范》(DA/T 31-2017)對“紙質(zhì)檔案數(shù)字化”的定義是:
采用掃描儀等設(shè)備對紙質(zhì)檔案進行數(shù)字化加工,使其轉(zhuǎn)化為存儲在磁帶、磁盤、光盤等載體上的數(shù)字圖像,并按照紙質(zhì)檔案的內(nèi)在聯(lián)系,建立起目錄數(shù)據(jù)與數(shù)字圖像關(guān)聯(lián)關(guān)系的處理過程。
該規(guī)范對于紙質(zhì)檔案數(shù)字化處理流程介紹的比較詳細,對實際操作有很強的指導(dǎo)性。其具體流程如下圖:

意義
將紙質(zhì)檔案進行數(shù)字化處理,是為了實現(xiàn)紙質(zhì)檔案內(nèi)容保護性遷移、檔案信息全文檢索和網(wǎng)絡(luò)共享的目標,進而為數(shù)字檔案館/室建設(shè)奠定基礎(chǔ)。
02.OCR(光學(xué)字符識別)
OCR (Optical Character Recognition)即光學(xué)字符識別。簡單來說就是:對掃描紙質(zhì)檔案形成的圖像進行內(nèi)容識別,然后保存為可復(fù)制、可檢索的文件,以滿足全文檢索和網(wǎng)絡(luò)共享的需要。
《紙質(zhì)檔案數(shù)字復(fù)制件光學(xué)字符識別(OCR)工作規(guī)范》(DA/T 77-2019)對其定義為:
通過信息技術(shù)對圖像文件中的字符形狀進行識別、文字轉(zhuǎn)換和文本輸出、呈現(xiàn)的過程。
OCR技術(shù)目前已經(jīng)比較成熟,應(yīng)用廣泛。掃描儀設(shè)備自帶的掃描軟件,以及安裝在電腦、手機、平板電腦上的掃描軟件(如“掃描全能王”)和PDF軟件(如Adobe、福昕、萬興等)都支持采用OCR技術(shù)進行電子文件內(nèi)容識別。
意義
OCR識別是在紙質(zhì)檔案數(shù)字化基礎(chǔ)上,將數(shù)字圖像上的檔案信息進行識別和提取,以提高檔案信息檢索的檢索效率(提高查全率、查準率、檢索速度等),并借助全文檢索技術(shù)和數(shù)據(jù)庫、網(wǎng)絡(luò)搜索引擎等工具,對檔案信息資源進行深入開發(fā),達到檔案信息資源利用價值最大化的目標。
檔案是滿足組織及個人信息需要的產(chǎn)物,檔案價值要通過附著在不同載體上的檔案信息來體現(xiàn)。做好檔案工作的目的和動力就是充分發(fā)揮檔案信息的價值。從檔案信息資源開發(fā)利用的角度來看,《OCR工作規(guī)范》的實施意義重大。
03.紙質(zhì)檔案數(shù)字化、OCR與文檔數(shù)字化轉(zhuǎn)型的關(guān)系解析
“數(shù)字化轉(zhuǎn)型” 作為2020年新生熱詞之一,多次出現(xiàn)在政策倡導(dǎo)、企業(yè)戰(zhàn)略相關(guān)文件和新聞報道中,其網(wǎng)絡(luò)檢索總量也逐漸趕超“信息化”。
我們用數(shù)字化轉(zhuǎn)型階段圖來簡述這一概念:

(網(wǎng)絡(luò)圖片:數(shù)字化轉(zhuǎn)型階段圖)
如上圖所示,實現(xiàn)“數(shù)字化轉(zhuǎn)型”需要包括 “轉(zhuǎn)換-升級-轉(zhuǎn)型” 三個階段。從內(nèi)涵上說,數(shù)字化轉(zhuǎn)型是要實現(xiàn)從信息到流程再到業(yè)務(wù)的逐步數(shù)字化。
最近十年,在檔案學(xué)研究中普遍提及 “存量數(shù)字化,增量電子化”。“存量數(shù)字化”就是對以紙張為主體的傳統(tǒng)館/室藏檔案載體上的內(nèi)容進行信號轉(zhuǎn)換,實現(xiàn)計算機讀取和處理。“增量電子化”則強調(diào)要將電子文件單套歸檔和管理的單軌制取代紙質(zhì)、電子檔案雙套歸檔和管理的雙軌制。
紙質(zhì)檔案數(shù)字化和數(shù)字復(fù)印件光學(xué)字符識別(OCR)是實現(xiàn)信息數(shù)字化的主要手段,是文檔數(shù)字化轉(zhuǎn)型過程中基礎(chǔ)里的基礎(chǔ)。
04. 公益項目檔案數(shù)字化工作經(jīng)驗分享
公益項目檔案數(shù)字化工作作為老?;饡畔⒒w建設(shè)的一部分,目標是利用相關(guān)信息技術(shù),充分挖掘公益項目檔案信息資源價值,將檔案信息服務(wù)與基金會項目管理進行深度融合,從而助力公益項目管理專業(yè)化提升。
自2017年新的檔案庫房、設(shè)備投入使用開始,老牛基金會就開始進行紙質(zhì)項目檔案數(shù)字化和全文檢索數(shù)據(jù)庫建設(shè)工作。
截止今年6月1日,老牛基金會室藏6540件紙質(zhì)項目檔案數(shù)字化進度達到100%,數(shù)字化副本存儲容量為51.86GB。其中,4831件數(shù)字化副本已完成了OCR識別,室藏項目檔案全文檢索數(shù)據(jù)庫建設(shè)完成73.87%,并已掛接到基金會信息化平臺提供全文檢索服務(wù)。
要做好公益項目檔案數(shù)字化工作,關(guān)鍵是要將此項工作視為一個公益項目,以開展公益項目的思路,用檔案管理的方法和要求加以實施。
01 前期調(diào)研
進行前期調(diào)研,通過室藏檔案統(tǒng)計表預(yù)估數(shù)字化工作量,搜集和對比相關(guān)軟硬件設(shè)備型號、性能、價格等信息,擬制資金預(yù)算報告,如果計劃采用檔案服務(wù)外包形式,則要將這些費用預(yù)算也納入資金預(yù)算報告。
此外,有關(guān)檔案數(shù)字化工作標準、實際操作的文件、書刊也應(yīng)在此階段盡可能全面搜集,以便做到心中有數(shù)。
02 制定方案
明確工作目標,制定實施方案。要在明確檔案存儲格式、利用方式后,通過預(yù)估工作量來確定工作總工時,參照相關(guān)檔案標準來明確數(shù)字化質(zhì)量要求,將工作中可能出現(xiàn)的問題盡可能考慮周全。
03 職責(zé)分工
組建檔案數(shù)字化工作組,明確職責(zé)分工,同時應(yīng)成立數(shù)字化工作監(jiān)督領(lǐng)導(dǎo)小組,負責(zé)工作實施過程中的監(jiān)督檢查和成果評估工作。
04 數(shù)字化加工和OCR識別
紙質(zhì)檔案的數(shù)字化加工和OCR識別工作盡可能同時進行,實施“齊步走”戰(zhàn)略,這樣既可以提高工作效率,同時也可以進行相互監(jiān)督。
05 保管保密
檔案數(shù)字化工作中要注重紙質(zhì)檔案原件的保管和保密問題,防止檔案丟失或泄密。
06 容災(zāi)備份
建立容災(zāi)備份機制,保障數(shù)字化成果的安全存儲和利用。
07 評估驗收
數(shù)字化工作完成后,要根據(jù)相關(guān)檔案標準的要求,對數(shù)字化成果進行檢測,完成評估和驗收工作。
以上這些檔案標準解讀和檔案數(shù)字化工作建議是老?;饡n案數(shù)字化工作的粗略總結(jié),希望可以為公益伙伴提供參考。

| 版權(quán)聲明: 1.依據(jù)《服務(wù)條款》,本網(wǎng)頁發(fā)布的原創(chuàng)作品,版權(quán)歸發(fā)布者(即注冊用戶)所有;本網(wǎng)頁發(fā)布的轉(zhuǎn)載作品,由發(fā)布者按照互聯(lián)網(wǎng)精神進行分享,遵守相關(guān)法律法規(guī),無商業(yè)獲利行為,無版權(quán)糾紛。 2.本網(wǎng)頁是第三方信息存儲空間,阿酷公司是網(wǎng)絡(luò)服務(wù)提供者,服務(wù)對象為注冊用戶。該項服務(wù)免費,阿酷公司不向注冊用戶收取任何費用。 名稱:阿酷(北京)科技發(fā)展有限公司 聯(lián)系人:李女士,QQ468780427 網(wǎng)絡(luò)地址:www.arkoo.com 3.本網(wǎng)頁參與各方的所有行為,完全遵守《信息網(wǎng)絡(luò)傳播權(quán)保護條例》。如有侵權(quán)行為,請權(quán)利人通知阿酷公司,阿酷公司將根據(jù)本條例第二十二條規(guī)定刪除侵權(quán)作品。 |
m.quanpro.cn