- 相關(guān)推薦
地方研究文獻數(shù)據(jù)庫主題檢索初探
一、地方研究文獻數(shù)據(jù)庫的數(shù)據(jù)源
地方研究文獻數(shù)據(jù)庫是中文文獻信息資源數(shù)字化的重要組成部分。地方研究文獻是指本地與外地出版的某一地域或區(qū)域的內(nèi)容的文獻,建立地方研究文獻數(shù)據(jù)庫是為了使用戶全面了解某一地域或區(qū)域的社會生活、經(jīng)濟、文化等信息,便于用戶進行地方研究。
地方研究文獻數(shù)據(jù)庫的數(shù)據(jù)源主要是:
1.資料性文獻。例如地方志、文史資料等,史料、年鑒、統(tǒng)計資料、政府出版物(白皮書、藍皮書等)。在我國,歷代纂修的各地區(qū)資料性文獻很豐富,廣西省1988年出版的《廣西方志提要》,收錄1950年以前出版志250種。廣東省1950年以前歷代編修的地方志達800多種, 80年代以來新修省、市、縣地方志已出版1000多種,規(guī)劃出版專業(yè)性地方志5000多種。
2.論文、論著包括地方研究叢書、叢編、報刊上發(fā)表的論文和會議論文、調(diào)研報告、論文集等。例如有關(guān)南海及南海諸島的《南海海區(qū)綜合調(diào)查研究報告》、《南海海洋生物研究論文集》,據(jù)不完全統(tǒng)計, 1993-1994年南海海洋科學方面的70多篇論文,發(fā)表在20多種期刊上。此類文獻很多是全國或省市社會科學研究項目的科研成果,為領(lǐng)導決策提供理論依據(jù),為社會主義建設(shè)服務(wù)。例如,《廣西社會經(jīng)濟情勢考察研究報告集》一書是國務(wù)院下達的《西南地區(qū)國土資源綜合考察和發(fā)展研究》項目中的廣西部分研究成果。廣西壯族自治區(qū)制訂廣西十年規(guī)劃和“八五”計劃時,采納了《廣西對東南亞開放戰(zhàn)略研究》報告中提出的一些對策和建議。
3.政策性文獻和法令法規(guī)例如,地方性黨政會議及文件,領(lǐng)導人講話、文章等,地方法令法規(guī)也可在此范疇內(nèi)。這是發(fā)展地方經(jīng)濟的重要政策法令依據(jù),是重要文獻類型,一般全文收入。
4.新聞媒介的消息報導隨著地方報刊的種數(shù)與版面激增,中央和地方新聞媒介大量報導各地的各類消息,例如《廣州日報》設(shè)立珠江三角洲的專版,《南方日報》設(shè)立廣州的專版。此類信息內(nèi)容廣泛,時間性強,及時報導要聞以及地方不同階段的熱門話題。
二、地方研究文獻的主題
地方研究文獻的主題與文獻的類型、文獻的內(nèi)容、數(shù)據(jù)庫收錄范圍及庫容量等均有密切關(guān)系。
地方研究文獻的類型多樣,信息量大,文獻的主題包含歷代社會的內(nèi)容,更多的是反映當代社會生活的各方面,與學科(或?qū)I(yè)性)文獻以及新聞信息相比較,其主題范圍更廣泛,而且年代更久遠。另一特點,不同地區(qū)不同時期社會生活中的熱點有異,文獻內(nèi)容即論述、報導的問題有較強時效性,有的信息的生命力也有時間限制。例如,香港新機場建設(shè)和運營之初,引起社會極大關(guān)注,一個月內(nèi)香港出版的報章雜志報導有關(guān)新機場的消息與評論數(shù)百條,現(xiàn)在這方面的報導就很少。
地方研究文獻數(shù)據(jù)庫既有書目數(shù)據(jù)庫(數(shù)據(jù)形式為書目、索引、文摘),也有全文數(shù)據(jù)庫,而且全文數(shù)據(jù)庫和多媒體技術(shù)發(fā)展很快,文獻信息資源數(shù)字化技術(shù)的發(fā)展,使數(shù)據(jù)庫建庫方式,同一數(shù)據(jù)庫中數(shù)據(jù)的形式等均發(fā)生變化。地方研究文獻數(shù)據(jù)庫應(yīng)比較全面地反映該地區(qū)社會的發(fā)展,包括歷代政治、經(jīng)濟、文化教育、科學技術(shù),自然現(xiàn)象、歷史事件、地理及名勝古跡、風土人情以及機構(gòu)、人物等。數(shù)據(jù)形式包括二次文獻、全文以及圖像(包括地圖等)、音像。用戶可按需要查閱、下載或打印數(shù)據(jù)庫中某一主題的全部文獻。建庫方式的變化,既可從某一文獻部門自建庫,也可聯(lián)合建庫,甚至跨地區(qū)、跨國合作建庫。
文獻資源數(shù)字化建設(shè),文獻數(shù)據(jù)庫建庫技術(shù)的發(fā)展,以及用戶文獻檢索的需求的變化,對檢索語言、文獻主題的處理技術(shù)以及MARC格式等提出了更高的要求。海量文獻、建庫速度與質(zhì)量的提高,要求錄入和主題處理技術(shù)有較大的突破。目前漢字錄入和掃描技術(shù)的進步,錄入速度大大加快。但主題標引已成為建庫的“瓶頸”,加上主題表編制與管理技術(shù)的滯后,直接影響建庫的速度和質(zhì)量,難于滿足文獻檢索的需要。為此,張琪玉、侯漢清、張涵等國內(nèi)著名專家和同行都在探討解決的辦法,提出了一系列建議,例如大量編制自然語言詞表;設(shè)計分類表——敘詞表轉(zhuǎn)換系統(tǒng),實現(xiàn)網(wǎng)絡(luò)環(huán)境下情報檢索語言兼容互換;利用主題表開發(fā)研制自動標引檢索系統(tǒng),實現(xiàn)自動標引等。這些建議都是有益的探索,對于地方研究文獻數(shù)據(jù)庫的建庫技術(shù)的改進和提高有重要參考價值。
筆者從事地方研究文獻數(shù)據(jù)庫建庫工作多年,結(jié)合建庫實踐提出一點不成熟的看法。
三、地方研究文獻主題處理技術(shù)的改進措施
文獻主題的處理技術(shù)可分為兩部分:一是主題標引工作;二是詞表的編制與管理。
1.主題標引工作
目前的文獻主題標引工作人為因素太多。首先是標引規(guī)則的限制,幾乎每個文獻數(shù)據(jù)庫都制訂主題標引規(guī)則,內(nèi)容包括:選用的信息和標引的內(nèi)容范圍;標引深度(標引多少主題詞,主題詞的漢字數(shù)目限制等);標引詞的選擇,主題標引方式(自由標引還是選用主題表);對文獻主題采用整體標引或分析標引;標引詞的著錄方式;不同類型或題材、體裁文獻的標引規(guī)則;人名、地名、時間因素等有關(guān)規(guī)定……為了保證同一主題標引一致性,規(guī)則的制訂盡量詳細具體。這樣一來,標引人員工作時受到很大制約,需熟記標引規(guī)則并按此處理文獻主題。標引是為了檢索,然而如果表達文獻內(nèi)容遠遠超過標引規(guī)則的規(guī)定(例如規(guī)定15個主題詞),不但造成標引的困難,而且主題或標引詞選取不當將影響文獻的檢索利用。
其次是標引人員對文獻內(nèi)容理解及主題分析等方面的限制,標引規(guī)則要求標引人員主題分析和給標引詞等均應(yīng)考慮用戶的檢索需要和檢索習慣。事實上沒有一個標引人員能夠全面了解用戶的檢索興趣和要求,更無法預計將來用戶的檢索興趣和要求。例如文獻中標引人員可能認為某一內(nèi)容不是中心內(nèi)容,論述或研究的主要問題不進行標引,可是這部分內(nèi)容對于某些用戶卻十分重要,在歷史研究或歷史人物研究等方面,往往根據(jù)文獻中的不顯眼的線索(幾句話或一張照片)溯根尋源,得出意想不到的收獲。
第三是主題的描述,由于主題表的使用和標引規(guī)則(特別是組配規(guī)則等)的制訂,描述主題的詞語與文獻使用的語言、檢索者使用的詞語往往不一致,在同義詞和復合概念的表達方面尤為突出。當前文獻量激增,文獻主題及用詞變化較大,增加了標引工作的難度,影響主題標引的速度和準確程度。
因此,主題標引工作的改進勢在必行。對于地方研究文獻數(shù)據(jù)庫來源,全文檢索本身可自動抽詞,二次文獻庫也可采用自動(或半自動)抽詞與詞表調(diào)控相結(jié)合的方式,標引時不硬性規(guī)定主題或主題詞數(shù)量,而是視文獻中具有檢索意義的內(nèi)容。所謂詞表調(diào)控,主要是語義控制和分詞的人工干預。
2.詞表的編制與管理
檢索詞和標引詞的一致,同義詞的規(guī)范,以及主題的擴檢功能是文獻數(shù)據(jù)庫檢索效率的重要保證。從這個角度考慮,詞表對于地方研究文獻數(shù)據(jù)庫仍是十分重要的。然而目前詞表的編制和管理技術(shù)已遠遠滿足不了建庫的要求,必須進行改進。
①改變詞表內(nèi)容滯后于文獻主題發(fā)展的狀況
詞表的編制到出版使用需要一段時間,在我國詞表的修訂起碼經(jīng)過三五年時間,而文獻內(nèi)容隨著社會發(fā)展,學術(shù)研究的進步變化很大。筆者1992年赴香港進行文獻研究及編制港澳研究主題表達四個月,利用80年代至1992年香港報紙雜志收入主題詞3000多個,以及數(shù)以千計的人名、地名等專有名詞。經(jīng)過檢驗(詞頻統(tǒng)計),該表基本能滿足港澳研究文獻主題標引的需要。然而在建港澳研究數(shù)據(jù)庫過程中,經(jīng)過三年左右,新增主題詞達2000個,表中部分主題詞則甚少使用,說明香港、澳門社會發(fā)展對文獻主題的影響。因此需及時對主題詞表進行調(diào)整,提高詞表的即時性。
主題詞的增刪調(diào)整可應(yīng)用統(tǒng)計方法加上人工干預。首先應(yīng)統(tǒng)計主題詞的使用頻率,同時考慮時間因素,因為每一地區(qū)都有時效性很強的社會現(xiàn)象或信息,有的信息生命力很弱,主題標引用詞的時效性也相應(yīng)很低。
②詞表管理技術(shù)主要是語義控制,例如全稱與簡稱、外來語與中譯名、標點符號的使用、同義詞和上下位概念的處理等。詞表管理應(yīng)有專人負責。筆者對港澳研究主題詞表的編制過程中,特別對同義詞和英漢對照的處理進行大量工作,由于港澳方言特殊化,語詞規(guī)范顯得特別重要。
③詞表結(jié)構(gòu)的改進,詞表中相當部分的主題詞比較穩(wěn)定,這部分詞應(yīng)作為第一層次(第一級)的詞,不需經(jīng)常調(diào)整,對于有一定規(guī)模的數(shù)據(jù)庫,第一層次的詞比較容易確定,應(yīng)作為規(guī)范化詞語,第二層次(第二級)的詞是有可能調(diào)整的詞,詞表管理人員應(yīng)及時對這一層次的詞進行技術(shù)處理,例如與第一層次的詞作同義詞對應(yīng),或上下位屬的顯示等。
地方研究文獻數(shù)據(jù)庫的建設(shè),詞表(包括標引技術(shù))、檢索軟件和索引是三個重要因素,其中文獻主題的處理技術(shù)對文獻檢索影響尤為突出。許多技術(shù)問題尚待改進。
〔出處〕 一代宗師——紀念劉國鈞先生百年誕辰學術(shù)論文集
【地方研究文獻數(shù)據(jù)庫主題檢索初探】相關(guān)文章:
文獻檢索課學習心得04-20
文獻信息檢索心得體會03-21
文獻檢索課學習心得05-25
文獻檢索心得體會12-06
文獻信息檢索心得體會8篇03-23
文獻檢索心得體會8篇04-01
文獻檢索課學習心得體會08-22
文獻檢索心得體會(共15篇)08-10
文獻檢索心得體會錦集(6篇)09-30
語文研究性學習初探08-17