- 相關(guān)推薦
館藏文獻(xiàn)優(yōu)先數(shù)字化的策略思考
【內(nèi)容提要】本文討論了我國(guó)館藏文獻(xiàn)優(yōu)先數(shù)字化的原則與宜于優(yōu)先數(shù)字化的文獻(xiàn)類型。作者認(rèn)為館藏文獻(xiàn)優(yōu)先數(shù)字化的原則是:具有較高價(jià)值的本國(guó)文獻(xiàn),不受版權(quán)約束的文獻(xiàn),以及館藏文獻(xiàn)的縮微膠片拷貝?紤]到用戶需求,技術(shù)支持以及經(jīng)濟(jì)成本,作者提出了優(yōu)先數(shù)字化的文獻(xiàn)類型:非文字類型的文獻(xiàn),OCR識(shí)別率高的文字文獻(xiàn)。【摘 要 題】信息資源建設(shè)
【關(guān) 鍵 詞】館藏……
隨著信息手段革命與信息內(nèi)容革命兩次巨大的跳躍性發(fā)展,全球掀起了數(shù)字圖書館建設(shè)的浪潮。數(shù)字圖書館的出現(xiàn),引發(fā)了一場(chǎng)全球范圍內(nèi)的文化媒介遷移運(yùn)動(dòng),促使許多國(guó)家把本國(guó)的文化遺產(chǎn)大規(guī)模轉(zhuǎn)換成數(shù)字形態(tài),以擴(kuò)充數(shù)字圖書館的“內(nèi)容”資源,以便為未來(lái)的“內(nèi)容市場(chǎng)”競(jìng)爭(zhēng)奠定基礎(chǔ)。數(shù)字圖書館的“內(nèi)容”資源是刺激與滿足人們對(duì)文化內(nèi)容需求的關(guān)鍵,人們對(duì)內(nèi)容需求的革命性增長(zhǎng)將推動(dòng)技術(shù)革命的進(jìn)一步發(fā)展,從而有力地促進(jìn)國(guó)家信息化進(jìn)程。
由上可見(jiàn),數(shù)字圖書館建設(shè)使我們的信息產(chǎn)業(yè)發(fā)展戰(zhàn)略更加明確:以內(nèi)容的創(chuàng)造來(lái)帶動(dòng)技術(shù)的發(fā)展,以民族文化產(chǎn)業(yè)的發(fā)展來(lái)拉動(dòng)信息產(chǎn)業(yè)的躍升,從而有力地推動(dòng)國(guó)家信息化進(jìn)程,在整個(gè)戰(zhàn)略中,文化資源的數(shù)字化成為了核心行動(dòng)。
圖書館歷來(lái)承擔(dān)著保存和傳播人類文化遺產(chǎn)與知識(shí)的關(guān)鍵職能,它豐厚的館藏閃爍著中華民族悠久歷史與燦爛文化的光輝,是世界各國(guó)久久仰慕的。將圖書館館藏文獻(xiàn)數(shù)字化,通過(guò)英特網(wǎng)讓世界共享,不僅為中華文化在數(shù)字形態(tài)下再現(xiàn)輝煌提供了一次歷史機(jī)遇,而且這筆巨大資源本身對(duì)國(guó)際市場(chǎng)就具有無(wú)比的吸引力。然而,受財(cái)力、物力以及當(dāng)前技術(shù)能力的限制,我們暫不可能將這大量的文化瑰寶全部數(shù)字化,只能分期分批、有步驟有選擇地進(jìn)行數(shù)字化工作,逐步將中華民族文化推向世界文化市場(chǎng)。優(yōu)先數(shù)字化哪類館藏文獻(xiàn)才有可能在全球用戶市場(chǎng)上具有競(jìng)爭(zhēng)力?在當(dāng)前技術(shù)環(huán)境與資源配置情況下,制定什么樣的數(shù)字化策略才最經(jīng)濟(jì)與可行?這兩個(gè)問(wèn)題是所有從事館藏文獻(xiàn)數(shù)字化的同行所共同關(guān)注的,也是本文的研究主題。
1 館藏文獻(xiàn)優(yōu)先數(shù)字化的原則
數(shù)字化活動(dòng)的主要目的是提高對(duì)圖書館館藏的獲取,或通過(guò)提供數(shù)字化拷貝,保護(hù)珍貴或易損的館藏文獻(xiàn)。鑒于此,筆者認(rèn)為以下各類文獻(xiàn)應(yīng)當(dāng)優(yōu)先考慮數(shù)字化。
1.1 優(yōu)先數(shù)字化有利于國(guó)家和民族的知識(shí)積累、傳播與創(chuàng)新
這一優(yōu)先數(shù)字化原則是以符合本國(guó)利益、傳播本國(guó)文化為目的的。考察許多國(guó)家數(shù)字圖書館的網(wǎng)頁(yè),都可以明顯地感覺(jué)到這一點(diǎn)。例如,美國(guó)國(guó)會(huì)圖書館就是優(yōu)先將美國(guó)1774年至1955年間各類歷史、文化、史料性文獻(xiàn)數(shù)字化,并通過(guò)因特網(wǎng)向全世界講述美國(guó)的歷史、戰(zhàn)爭(zhēng)與文化發(fā)展(注:許綏文.漫筆之三:館藏資源的數(shù)字化.北京圖書館館刊,1998(2))。日本也是優(yōu)先將本國(guó)主要的學(xué)術(shù)刊物(含人文科學(xué)、自然科學(xué)、工程科學(xué)等)優(yōu)先數(shù)字化,并通過(guò)因特網(wǎng)向全世界展現(xiàn)自己的文化、科學(xué)與技術(shù)水平。
因而,我國(guó)應(yīng)當(dāng)優(yōu)先數(shù)字化本國(guó)的文化遺產(chǎn),將被各類圖書館收藏的,由我國(guó)作者撰寫的,其著作的有價(jià)值部分,與我國(guó)社會(huì)、政治、文化、科學(xué)及經(jīng)濟(jì)有關(guān)的內(nèi)容優(yōu)先數(shù)字化;本國(guó)的文化和科學(xué)領(lǐng)域具有代表性的出版物可考慮優(yōu)先數(shù)字化。這些由本國(guó)人產(chǎn)生的,反映本國(guó)各方面活動(dòng)的文獻(xiàn)數(shù)字化后,通過(guò)因特網(wǎng)可在全世界傳播中華民族文化與展現(xiàn)本國(guó)的科學(xué)技術(shù)水平。
1.2 優(yōu)先數(shù)字化具有較高價(jià)值的本國(guó)文獻(xiàn)
只有將具有較高價(jià)值的本國(guó)文獻(xiàn)數(shù)字化,才有可能吸引國(guó)內(nèi)與國(guó)外用戶,只有這類資源才有可能在國(guó)際市場(chǎng)上具有競(jìng)爭(zhēng)力;只有將具有較高價(jià)值的文獻(xiàn)數(shù)字化,這類文獻(xiàn)才可能為用戶長(zhǎng)期存取。具有長(zhǎng)期利用價(jià)值的數(shù)字文獻(xiàn),才有可能使數(shù)字化初投資與其產(chǎn)生的效益相符。因而,我們必須將具有較高的文化價(jià)值、藝術(shù)價(jià)值、史料價(jià)值與研究?jī)r(jià)值的文獻(xiàn)資源優(yōu)先數(shù)字化,必須將本國(guó)的文化和科學(xué)領(lǐng)域具有代表性的出版物優(yōu)先數(shù)字化。
1.3 優(yōu)先數(shù)字化使用頻率中、高的館藏文獻(xiàn)
數(shù)字圖書館發(fā)揮的社會(huì)效益與經(jīng)濟(jì)效益的大小,可以通過(guò)被訪問(wèn)的次數(shù)多少來(lái)衡量。只有將用戶需求大的文獻(xiàn)優(yōu)先數(shù)字化,才可能提高數(shù)字圖書館被訪問(wèn)的頻率。使用頻率中高的館藏,一般損壞風(fēng)險(xiǎn)也大。將這類文獻(xiàn)優(yōu)先數(shù)字化,可直接降低由于多次使用而給這類文獻(xiàn)帶來(lái)的損壞或丟失的風(fēng)險(xiǎn),也促成了對(duì)這類文獻(xiàn)的保護(hù)。
1.4 優(yōu)先數(shù)字化進(jìn)入公有領(lǐng)域的文獻(xiàn)或不受版權(quán)法保護(hù)的文獻(xiàn)
圖書館數(shù)字化活動(dòng)應(yīng)遵守知識(shí)產(chǎn)權(quán)法。對(duì)大多數(shù)圖書館而言,版權(quán)所有資料占館藏的主要部分。數(shù)字化受知識(shí)產(chǎn)權(quán)保護(hù)的文獻(xiàn),需要與產(chǎn)權(quán)所有人協(xié)商。大多數(shù)情況下,協(xié)商版權(quán)許可是要付出高額費(fèi)用的。例如,IBM在準(zhǔn)備制作有關(guān)“哥倫布”的光盤時(shí),僅為得到版權(quán)擁有者的同意,就花掉了100萬(wàn)(注:Michael Lesk.Going Digital.Scientifi American,Mar.1997)。
目前,在我國(guó)大多數(shù)數(shù)字資料上網(wǎng)不收費(fèi)或收費(fèi)低微的情況下,如果將大量受版權(quán)保護(hù)的資料數(shù)字化,圖書館是承擔(dān)不起支付著作權(quán)人的費(fèi)用的。因而,我國(guó)館藏文獻(xiàn)數(shù)字化初期的活動(dòng),應(yīng)主要集中在版權(quán)期滿或不受版權(quán)制約的文獻(xiàn)上。
世界各國(guó)對(duì)作者版權(quán)的保護(hù)期是有限制的,我國(guó)著作權(quán)法第21條規(guī)定,公民的作品,其發(fā)表權(quán)和著作財(cái)產(chǎn)權(quán)的保護(hù)期為作者終身及去世后50年,截止于作者去世后第50年的12月31日;如果是合作作品,截止于最后去世的作者去世后的第50年的12月31日。電影、電視、錄像和投影作品的發(fā)表權(quán)、著作財(cái)產(chǎn)權(quán)的保護(hù)期為50年,截止于作品首次發(fā)表第50年的12月31日。照此,170年前發(fā)表的論著(即1832年以前的論著)或50年以前公開(kāi)發(fā)表的音像制品,是可以考慮優(yōu)先數(shù)字化,而不涉及版權(quán)問(wèn)題。在此時(shí)期之后出版的文獻(xiàn),均應(yīng)仔細(xì)地檢查、核實(shí)其是否仍受知識(shí)產(chǎn)權(quán)約束。
我國(guó)知識(shí)產(chǎn)權(quán)法規(guī)定,不受著作權(quán)保護(hù)的對(duì)象有:法律、法規(guī),國(guó)家機(jī)關(guān)的決議、決定、命令和其他具有立法、行政、司法性質(zhì)的文件,及其官方正式譯文;時(shí)事新聞;歷法、數(shù)表、通用表格和公式等不受版權(quán)法保護(hù)。對(duì)于這類不受版權(quán)法保護(hù),具有長(zhǎng)期使用價(jià)值的文獻(xiàn),可以考慮優(yōu)先數(shù)字化,例如國(guó)家制定的有關(guān)法律、法規(guī)等。
1.5 可考慮優(yōu)先數(shù)字化縮微膠片文獻(xiàn),以充分利用已有的成果
由于多方面原因,縮微膠片文獻(xiàn)應(yīng)當(dāng)優(yōu)先數(shù)字化。
1.5.1 縮微膠片文獻(xiàn)內(nèi)容具有較高的研究?jī)r(jià)值。我國(guó)縮微膠片文獻(xiàn),大多是80年代初,在文化部主持開(kāi)展的“搶救祖國(guó)文化遺產(chǎn)”的工程中形成的。為了有組織、有計(jì)劃地將我國(guó)瀕臨損毀的、有長(zhǎng)期保存價(jià)值的文獻(xiàn)縮攝為膠片拷貝,近40個(gè)公共圖書館與文獻(xiàn)收藏單位對(duì)本館本地區(qū)的歷史文獻(xiàn)進(jìn)行了全面調(diào)研。將具有長(zhǎng)期保存價(jià)值的重要文獻(xiàn),分期分批地制作成縮微拷貝,F(xiàn)今,有重要史料價(jià)值的建國(guó)前的舊報(bào)紙、舊期刊以及古籍善本已經(jīng)制作成縮微拷貝。目前,有重要價(jià)值的普通古籍、革命文獻(xiàn)以及建國(guó)以
前出版的平裝書、建國(guó)初期的報(bào)紙、期刊等仍在縮攝中,這些重要文獻(xiàn)預(yù)期在2010年前縮攝完畢。
由此可見(jiàn),館藏文獻(xiàn)的縮攝拷貝凝聚了我國(guó)重要文獻(xiàn)的內(nèi)容。
1.5.2 數(shù)字化縮微膠片有利于克服閱讀障礙,便于用戶存取。以縮微膠片為載體的文獻(xiàn),利用起來(lái)十分不方便。例如,在提供利用前,需要查出所需文獻(xiàn)的縮微膠卷盒號(hào),而從這一卷含有成百上千頁(yè)的文獻(xiàn)中,用閱讀器逐頁(yè)查出所需文獻(xiàn),操作環(huán)節(jié)多,周期長(zhǎng),利用起來(lái)極不方便。所以盡管縮微膠片文獻(xiàn)上藏珍聚寶,利用者卻寥寥無(wú)幾。將縮微膠片的模擬影像轉(zhuǎn)換為以數(shù)字信息(數(shù)字圖像或數(shù)字文本)后,可以用多種途徑為用戶提供服務(wù),實(shí)現(xiàn)快速方便地檢索與查閱,為世界共享中華文化提供了工具。
1.5.3 縮微膠片文獻(xiàn)轉(zhuǎn)換為數(shù)字信息,也減少了縮微膠片文獻(xiàn)因復(fù)制和利用帶來(lái)的損壞,實(shí)際上是對(duì)縮微膠片文獻(xiàn)的保護(hù)。
1.5.4 縮微膠片的原件不宜再作數(shù)字化處理,制作縮微拷貝的大多數(shù)文獻(xiàn),由于年代久遠(yuǎn),絕大多數(shù)處于急待搶救狀況。即使保存狀況較好的文獻(xiàn),其紙張也存在不同程度的劣化。近代出版物,如舊報(bào)紙、舊期刊中許多因紙張嚴(yán)重變質(zhì)已無(wú)法繼續(xù)流通,如果再對(duì)這些文獻(xiàn)直接進(jìn)行數(shù)字化處理,許多脆化的文獻(xiàn)就會(huì)由此而損毀。
實(shí)驗(yàn)表明,用縮攝影像數(shù)字系統(tǒng)將縮微影像轉(zhuǎn)換為數(shù)字影像,要比其紙質(zhì)原件經(jīng)平板掃描儀掃描后轉(zhuǎn)換為數(shù)字信息快6倍(注:邵杰.“縮微膠片影像數(shù)字化轉(zhuǎn)換及應(yīng)用”在京通過(guò)鑒定.中國(guó)檔案,2000(8))?梢(jiàn),將縮微膠片文獻(xiàn)數(shù)字化不僅避免了對(duì)原件的損壞,還節(jié)省了數(shù)字化的人力與時(shí)間。
將縮微膠片轉(zhuǎn)換為數(shù)字圖像文獻(xiàn)的技術(shù)早已成熟,自1991年以來(lái),OCLC的保存資源公司就已經(jīng)掃描了多種格式的縮微膠片。實(shí)踐證明,今天的技術(shù)已經(jīng)可將所有標(biāo)準(zhǔn)膠片上的模擬信息轉(zhuǎn)換為高質(zhì)量的雙色或灰色的數(shù)字影像(注:劉鐵莊.美國(guó)圖書館資料從縮微膠片到數(shù)字化存取的轉(zhuǎn)變.國(guó)家圖書館館刊,2002(1))。
1.5.5 掃描縮微膠片要比直接數(shù)字化其原件,獲取的信息更完整。按照縮攝中心的要求,文獻(xiàn)縮攝前必須進(jìn)行一系列的補(bǔ)配、加工與整理工作。例如,建國(guó)前的舊報(bào)紙,保存至今絕大部分已殘缺不全,許多善本也破損嚴(yán)重。縮攝前,許多圖書館到全國(guó)各地圖書館或其他文獻(xiàn)收藏單位對(duì)這類文獻(xiàn)已經(jīng)進(jìn)行過(guò)補(bǔ)缺與修補(bǔ),以及逐頁(yè)檢查、整理、修補(bǔ)和著錄等一系列前期工作。盡管許多報(bào)刊能補(bǔ)齊的是極少數(shù),但絕大多數(shù)文獻(xiàn)經(jīng)過(guò)補(bǔ)缺后,明顯地提高了自身史料價(jià)值。有些重要報(bào)紙,長(zhǎng)期破壞嚴(yán)重,經(jīng)過(guò)大規(guī)模補(bǔ)缺,大多充實(shí)了內(nèi)容。又如,對(duì)于古籍善本,在縮攝前還請(qǐng)了研究古籍的行家負(fù)責(zé)古籍善本著錄標(biāo)板的校編等。因而,直接對(duì)縮攝膠片進(jìn)行數(shù)字化要比對(duì)其原件數(shù)字化,所獲取的信息更完整、更充實(shí)。
由上可見(jiàn),優(yōu)先將縮微膠片文獻(xiàn)轉(zhuǎn)換為數(shù)字文獻(xiàn),無(wú)論從哪個(gè)角度分析都是十分有必要的。
2 宜于優(yōu)先數(shù)字化的文獻(xiàn)類型
館藏文獻(xiàn)的數(shù)字化除需要大量的人力、物力與財(cái)力外,還需要成熟的技術(shù)支持。盡管在館藏文獻(xiàn)數(shù)字化方面,我們已經(jīng)取得不少成果,但許多問(wèn)題仍在探索之中。我們優(yōu)先數(shù)字化的對(duì)象應(yīng)是具有成熟的技術(shù)支持、具有成功的經(jīng)驗(yàn)可以借鑒,并且其轉(zhuǎn)換經(jīng)費(fèi)還得合理。對(duì)于一些文獻(xiàn)對(duì)象數(shù)字化后,其存取格式不為用戶所認(rèn)同,或在當(dāng)前技術(shù)條件下進(jìn)行數(shù)字化可能投資過(guò)大的,都應(yīng)暫緩數(shù)字化。
當(dāng)前,模擬轉(zhuǎn)換后的文獻(xiàn)大多可用兩類格式進(jìn)行存取,一類是圖像格式,另一類是文本格式。這兩類格式各有弊利,并各適于不同類型的文獻(xiàn)。在制定優(yōu)先數(shù)字化策略時(shí),我們必須對(duì)這些問(wèn)題進(jìn)行認(rèn)真分析。
2.1 存取格式與實(shí)現(xiàn)方式分析
通過(guò)對(duì)傳統(tǒng)文獻(xiàn)進(jìn)行掃描或數(shù)碼相機(jī)拍攝就可以得到傳統(tǒng)文件的數(shù)字圖像拷貝。數(shù)字圖像文獻(xiàn)的最大優(yōu)點(diǎn)是可以保存文獻(xiàn)原貌;制作技術(shù)相對(duì)簡(jiǎn)單、制作成本相對(duì)低。其最大的缺點(diǎn)是占用存貯空間較大,影響傳遞速度,但通過(guò)壓縮技術(shù)的不斷提高,這個(gè)問(wèn)題不會(huì)是影響數(shù)字圖像利用的主要問(wèn)題。其關(guān)鍵的問(wèn)題是,盡管可以制作一些檢索工具提高對(duì)數(shù)字圖像文獻(xiàn)的檢索速度,但目前的技術(shù)只能檢索到檢索詞所在的頁(yè)面,不能像文本文件那樣可以逐詞、逐字檢索到該字、詞所在的句、段。這種存取格式最適于傳統(tǒng)圖片、圖形文獻(xiàn),以及其他必須保存文獻(xiàn)原貌的文獻(xiàn)。
以文本方式存儲(chǔ)文獻(xiàn)信息的最大優(yōu)勢(shì)是可以通過(guò)檢索系統(tǒng)實(shí)現(xiàn)模糊檢索和邏輯檢索,其檢索深度直到所需查詢的檢索詞所在的字句,查全率、查準(zhǔn)率高,且檢索速度快。其最大的缺點(diǎn)是不能保留文獻(xiàn)的原貌以及原文獻(xiàn)的字體,轉(zhuǎn)換成本高,轉(zhuǎn)換速度慢。對(duì)于以文本格式轉(zhuǎn)換館藏文獻(xiàn)的不足,我們是可以回避的。例如,對(duì)一些不需要必須保留文獻(xiàn)原貌的,只需要保留內(nèi)容信息的文獻(xiàn)可選取這種方式轉(zhuǎn)換,但是該轉(zhuǎn)換成本與轉(zhuǎn)換速度是我們目前無(wú)法克服的。
目前將傳統(tǒng)文獻(xiàn)轉(zhuǎn)換為文本格式文獻(xiàn)主要有兩種方式,一是鍵盤輸入。用鍵盤錄入文獻(xiàn)內(nèi)容不僅轉(zhuǎn)換速度慢,錄入過(guò)程中還會(huì)出現(xiàn)較多的文字錯(cuò)誤,需要較大的校對(duì)工作量,無(wú)法實(shí)現(xiàn)工業(yè)化的資源生產(chǎn)。因而鍵盤錄入方式對(duì)于大量傳統(tǒng)文獻(xiàn)的數(shù)字化轉(zhuǎn)換工作,是沒(méi)有經(jīng)濟(jì)可行性的。二是先轉(zhuǎn)換成圖像文件后再通過(guò)OCR軟件將其變?yōu)槲谋靖袷健K抢脪呙鑳x和OCR軟件(OCR:光學(xué)字符識(shí)別)。擬轉(zhuǎn)換的文獻(xiàn)先用掃描儀掃描,再用OCR軟件識(shí)別,便可以將傳統(tǒng)文獻(xiàn)轉(zhuǎn)換為可編輯加工的文本文件了。
中文OCR光學(xué)字符識(shí)別是一種文字文稿的自動(dòng)輸入方式,將一份文獻(xiàn)的數(shù)字圖像輸入計(jì)算機(jī),計(jì)算機(jī)取出每個(gè)文字和圖像,并將其轉(zhuǎn)換為漢字的編碼。它不再需要敲擊鍵盤,就可以將傳統(tǒng)文獻(xiàn)轉(zhuǎn)換為數(shù)字文本文件。
我國(guó)從70年代末就開(kāi)始研究OCR技術(shù),到80年代中期,中文OCR已可識(shí)別上萬(wàn)個(gè)漢字,識(shí)別率在90%左右的軟件已相當(dāng)多,可以說(shuō)中文OCR軟件在模數(shù)轉(zhuǎn)換中已經(jīng)走向了實(shí)用。例如,“漢王OCR錄入系統(tǒng)”可實(shí)現(xiàn)對(duì)各種現(xiàn)代書籍、簡(jiǎn)繁體書籍、報(bào)刊雜志、公文檔案的錄入識(shí)別,且識(shí)別率較高,速度快、還能實(shí)現(xiàn)橫校、縱校與對(duì)比校等。
然而,對(duì)于館藏文獻(xiàn)的數(shù)字化而言,由于漢字的復(fù)雜性,OCR對(duì)各類中文文獻(xiàn)的識(shí)別遠(yuǎn)難于英文與數(shù)字的識(shí)別,如果識(shí)別率低于90%,OCR在館藏文獻(xiàn)數(shù)字化的實(shí)踐中就會(huì)失去意義。因?yàn)檫^(guò)多的錯(cuò)誤會(huì)花費(fèi)大量精力和時(shí)間去校對(duì),這會(huì)抵消OCR技術(shù)帶來(lái)的效率,特別對(duì)于以下幾類文獻(xiàn),OCR技術(shù)目前尚不能成功地解決問(wèn)題:
2.1.1 含有繁體手寫漢字的古籍文獻(xiàn)
由于當(dāng)前OCR還不能識(shí)別大字符集的繁體手寫漢字,因而這類古籍文獻(xiàn)如果想要數(shù)字化為文本格式,最大困難在于OCR識(shí)別后的校對(duì)工作。由于古籍還需要很多研究古籍的專家來(lái)對(duì)文本進(jìn)行核對(duì),因而失去了使用OCR的積極意義。
2.1.2 簡(jiǎn)繁混排的中文文獻(xiàn)
這類文獻(xiàn)識(shí)別率低,目前所有中文OCR都將識(shí)別字典分為簡(jiǎn)體字集和繁體字集來(lái)提供給用戶,而對(duì)20世紀(jì)30年代至70年代的大量簡(jiǎn)繁漢字混合使用的印刷品,無(wú)論用戶選擇簡(jiǎn)體還是繁體,其識(shí)別率都極低。
2.1.3 專業(yè)性強(qiáng)的中文文獻(xiàn)
這類文獻(xiàn)誤識(shí)率高,現(xiàn)有中文OCR基本上以GB2312-80的一級(jí)漢字作為基本字符集,對(duì)專業(yè)性較強(qiáng)的印刷品識(shí)別率不高。
2.1.4 難于機(jī)檢的漢字文獻(xiàn)
即使?jié)h字庫(kù)的容量非常之
大,在具體工作中,仍然有一些文字無(wú)法用字庫(kù)中的漢字檢索,如古代鐘鼎文、甲骨文、篆字或其他圖形漢字等。這些還有待于技術(shù)的進(jìn)一步的開(kāi)發(fā),例如,近幾年來(lái),華東師大中國(guó)文字研究與應(yīng)用中心正在大力開(kāi)展古文字信息化處理研究,現(xiàn)已突破了計(jì)算機(jī)處理古文字的一系列難題。不久前開(kāi)發(fā)出了“金文資料庫(kù)”和“金文字庫(kù)”,實(shí)現(xiàn)了嚴(yán)格意義上的金文的計(jì)算機(jī)文字處理等,使之既能最大限度地反映古文字原貌,又能快速地深入到句、段進(jìn)行檢索(注:文其.古文字信息化處理的可喜進(jìn)展.光明日?qǐng)?bào),2002-05-22)。
綜上所述,考慮到圖書館文獻(xiàn)的多樣性,以及用戶對(duì)不同類型文獻(xiàn)不同檢索要求以及當(dāng)前技術(shù)的可行性,必須提出優(yōu)先數(shù)字化的文獻(xiàn)類型的選擇問(wèn)題。將一些由于技術(shù)問(wèn)題暫不能達(dá)到滿意的檢索效果,或利用當(dāng)前技術(shù)將其轉(zhuǎn)換為用戶歡迎的格式可能費(fèi)用過(guò)高的文獻(xiàn)對(duì)象,暫緩考慮數(shù)字化。等待技術(shù)的發(fā)展或經(jīng)驗(yàn)的累積再進(jìn)行這類文獻(xiàn)的轉(zhuǎn)換工作,可能會(huì)更恰當(dāng)、更現(xiàn)實(shí)。為此,筆者提出了優(yōu)先數(shù)字化的文獻(xiàn)類型設(shè)想。
2.2 優(yōu)先數(shù)字化的文獻(xiàn)類型
鑒于以上分析,筆者建議以下類型文獻(xiàn)可以優(yōu)先考慮數(shù)字化:
2.2.1 直接轉(zhuǎn)換為圖像文獻(xiàn)就可以滿足用戶存取需求的對(duì)象,可優(yōu)先數(shù)字化。
傳統(tǒng)文獻(xiàn)可以以多種方式轉(zhuǎn)換為數(shù)字圖像文獻(xiàn),例如,直接掃描、拍攝文獻(xiàn)原件,或掃描其縮微拷貝等。其轉(zhuǎn)換技術(shù)簡(jiǎn)單,轉(zhuǎn)換成本相對(duì)較低,因而國(guó)際上目前的數(shù)字資源中,圖像數(shù)據(jù)庫(kù)與全文數(shù)據(jù)庫(kù)的比例大約是9∶1(注:許綏文.漫筆之三:館藏資源的數(shù)字化.北京圖書館館刊,1998(2))。只要給每一圖像文件賦一個(gè)文件名,并與對(duì)應(yīng)的索引工具相鏈接,通過(guò)查找索引條目就可以直接得到該圖像文件。因而,凡不必制作文本文件就可以滿足用戶需求的文獻(xiàn)對(duì)象,均可以考慮優(yōu)先數(shù)字化。這種類型文獻(xiàn)主要有:圖形或圖像文獻(xiàn),書法篆刻,版畫,名人手跡,印章,簡(jiǎn)、帛、金石銘文,拓片,甲骨文等。
(1)圖形圖像文獻(xiàn)
圖形圖像文件是基本不以或完全不以文字記錄信息,而是以圖像或圖形等形象化語(yǔ)言揭示人、物與事等的非文字文獻(xiàn)。比起文字文獻(xiàn)來(lái),圖形圖像更鮮明、更直觀、更生動(dòng)。這類文獻(xiàn)對(duì)象如圖錄、圖片與版畫等。
圖錄主要是用圖形、圖像或附以簡(jiǎn)要文字,反映各種事物、文物、人物、藝術(shù)、自然博物及科技工藝等形象的文獻(xiàn)。圖錄包括地圖和歷史圖譜、文物圖錄、人物圖錄、藝術(shù)圖錄、科技圖譜等。圖錄有的編集各種歷史圖片資料,匯編各種繪圖資料,或是摹繪、攝制和編集各種文物、人物、自然博物及科技工藝資料等,對(duì)于歷史研究、文藝工作、工藝制作及科學(xué)技術(shù)研究都有重要的參考價(jià)值。
與圖錄文獻(xiàn)不同,圖片文獻(xiàn)(包括照片與插圖等),它們大多并未匯編為一集,而分散在不同文獻(xiàn)之中。特別是照片,隨保存時(shí)間延長(zhǎng),畫面逐漸發(fā)黃,顏色消退,質(zhì)地變脆;許多圖片文獻(xiàn)由于年代久遠(yuǎn)、存放分散而鮮為人知,使許多有史料價(jià)值的圖片,湮沒(méi)在浩瀚書海中。因而,無(wú)論從保存、利用還是管理的角度考慮,這類文獻(xiàn)都需要優(yōu)先數(shù)字化。
法國(guó)十分重視圖形圖像文獻(xiàn)的數(shù)字化工作,早在上個(gè)世紀(jì)末,法國(guó)圖書館與各城市精品藏書館合作,將原本分散于法國(guó)各地的古書的藝術(shù)插頁(yè)用彩色高分辨率掃描入CD-R光盤中,送至國(guó)家圖書館新館匯集后上網(wǎng),讓全世界與法國(guó)共享法國(guó)文化藝術(shù)精品,博得很高聲譽(yù)(注:許綏文.漫筆之三:館藏資源的數(shù)字化.北京圖書館館刊,1998(2))。
。2)文字形體具有特殊價(jià)值的文字文獻(xiàn)
有些文字文獻(xiàn),除文字表述的內(nèi)容有價(jià)值外,其文字形體特征也具有重要的研究?jī)r(jià)值或欣賞價(jià)值,如果將其以全文本形式數(shù)字化,不僅費(fèi)用太高而且將丟失字型本身所含有的重要價(jià)值。這類文獻(xiàn)更宜于數(shù)字化為數(shù)字圖像。因而,這類文獻(xiàn)宜于優(yōu)先數(shù)字化,例如金文、甲骨文或其他圖形文字,簡(jiǎn)、帛、金石銘文,拓片,書法篆刻,名人手跡,印譜等。
2.2.2 OCR識(shí)別率高的文字文獻(xiàn)
只要調(diào)制好掃描輸入的技術(shù)指標(biāo),OCR的識(shí)別率可達(dá)90%以上的文字文獻(xiàn)可考慮優(yōu)先數(shù)字化為全文本文獻(xiàn),利用檢索系統(tǒng)提供多途徑檢索。這一選擇原則主要是基于數(shù)字化的成本與技術(shù)的可行性考慮的。一般說(shuō)來(lái),學(xué)術(shù)期刊、報(bào)紙文獻(xiàn)以及現(xiàn)代書刊比較其他古籍文獻(xiàn)來(lái)講,OCR識(shí)別率較高。
【參考文獻(xiàn)】
1 陳天倫.縮微工作十年.圖書館研究與工作,1997(1)
2 李健.我國(guó)圖書館的縮微工作.中國(guó)圖書館學(xué)報(bào),1997(3)
3 任永芳.中文OCR與圖書資料的再制作.江蘇圖書館學(xué)報(bào),2001(3)
4 凌山.OCR漢字識(shí)別技術(shù).工程設(shè)計(jì)、CAD與智能建筑,1999(6)
5 National Library of Australia Digitization Policy.2000~2004,http:www.nla.zov.ou/plicv.html(訪問(wèn)時(shí)間2002/6/6)
6 張偉云.大陸縮微技術(shù)應(yīng)用與研究現(xiàn)狀概述.中國(guó)圖書館學(xué)報(bào),1997(2)
【館藏文獻(xiàn)優(yōu)先數(shù)字化的策略思考】相關(guān)文章:
積極開(kāi)發(fā)館藏地方文獻(xiàn)08-09
關(guān)于建立三峽庫(kù)區(qū)特色文獻(xiàn)資源館藏的思考08-09
數(shù)字化館藏資源的多層次揭示08-05
文獻(xiàn)資源數(shù)字化與數(shù)字化資源開(kāi)發(fā)08-09
館藏民族圖書二次文獻(xiàn)的編制08-09