- 相關(guān)推薦
數(shù)據(jù) 信息與知識(shí)
張奠成(合肥工業(yè)大學(xué))
關(guān)鍵詞:數(shù)據(jù)發(fā)掘, 知識(shí)發(fā)現(xiàn), 信息發(fā)掘, 事務(wù)智能
一 數(shù)據(jù)過(guò)剩與知識(shí)貧乏
計(jì)算機(jī)與信息技術(shù)經(jīng)歷了半個(gè)世紀(jì)的發(fā)展,給人類社會(huì)帶來(lái)了巨大的變化與影響。支配 人類社會(huì)三大要素(能源 材料和信息)中,信息愈來(lái)愈顯示出其重要性和支配力,它將人類社會(huì)由工業(yè)化時(shí)代推向信息化時(shí)代,使現(xiàn)代社會(huì)所有大的機(jī)構(gòu)都卷入到以數(shù)據(jù)及其處理(數(shù)據(jù)搜集 存儲(chǔ) 檢索 傳送 分析和表示)的浪潮中。而隨著人類活動(dòng)范圍擴(kuò)展,節(jié)奏加快,以及技術(shù)的進(jìn)步,人們能以更快速較易而廉價(jià)的方式獲取和存儲(chǔ)數(shù)據(jù),這就使得數(shù)據(jù)和信息量以指數(shù)形式向上增長(zhǎng)。早在八十年代,人們粗略地估算到全球信息量,每隔20個(gè)月就增加班一倍。進(jìn)入九十年代,各類機(jī)構(gòu)所有數(shù)據(jù)庫(kù)數(shù)據(jù)量增長(zhǎng)更快。一個(gè)不大的企業(yè)每天要產(chǎn)生100MB以上來(lái)自各方面的營(yíng)業(yè)數(shù)據(jù)。美國(guó)政府部門(mén)的一個(gè)典型的大數(shù)據(jù)庫(kù)每天要接收約5TP數(shù)據(jù)量,在15秒到1分鐘時(shí)間里,要維持的數(shù)據(jù)量達(dá)到300TB,存檔數(shù)據(jù)達(dá)15-100PB。在科研方面,以美國(guó)宇航局的數(shù)據(jù)庫(kù)為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3-4TB之多,而為了研究的需要,這些數(shù)據(jù)要保存七年之久。九十年代因特網(wǎng)(Internet)的出現(xiàn)和發(fā)展,以及隨之而來(lái)的企業(yè)內(nèi)部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(VPN--Virtual Private network)的產(chǎn)生和應(yīng)用,將整個(gè)世界聯(lián)成一個(gè)小小的地球村,人們可以跨越時(shí)空地在網(wǎng)上交換信息和協(xié)同工作。這樣,展現(xiàn)在人們面前的已不是局限于本部門(mén),本單位和本行業(yè)的龐大數(shù)據(jù)庫(kù),而是浩瀚無(wú)垠的信息海洋。據(jù)估計(jì),1993年面全球數(shù)據(jù)存貯容量約為二千TP,到達(dá)2000年會(huì)增加到三百萬(wàn)TB,對(duì)這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”“混沌信息空間”(Information Chaotic Spact)和“數(shù)據(jù)過(guò)!保―ata glut)的巨大壓力。 然而,人類的各項(xiàng)活動(dòng)基于人類的智慧和知識(shí),即對(duì)外部世界的觀察和了解,正確的判斷和決策以及采取正確的行動(dòng),而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒(méi)有任何意義。從數(shù)據(jù)到智慧,要經(jīng)過(guò)分析加工處理精煉的過(guò)程。如圖1所示:數(shù)據(jù)是原材料,它只是描述發(fā)生了什么事情,它不提供判斷或解釋,和行動(dòng)的可靠基礎(chǔ)。人們對(duì)數(shù)據(jù)進(jìn)行分析找出其中關(guān)系,賦予數(shù)據(jù)以某種意義和關(guān)聯(lián),這就形成所謂信息。信息雖給出了數(shù)據(jù)中一些有一定意義的東西,但它往往和人們手上的任務(wù)沒(méi)有什么關(guān)聯(lián),還不能做為判斷 決策和行動(dòng)的依據(jù)。對(duì)信息進(jìn)行再加工,進(jìn)行深入洞察,才能獲得更有用可資利用的信息,即知識(shí).所謂知識(shí),可以定義為“信息塊中的一組邏輯聯(lián)系,其關(guān)系是通過(guò)上下文或過(guò)程的貼近度發(fā)現(xiàn)的!睆男畔⒅欣斫馄淠J剑葱纬芍R(shí)。在大量知識(shí)積累基礎(chǔ)上,總結(jié)成原理和法則,就形成所謂智慧(Wisdom).其實(shí),一部分人類文明發(fā)展史,就是在各種活動(dòng)中 知識(shí)的創(chuàng)造 交流 再創(chuàng)造不斷積累的螺旋式上升的歷史。另一方面,計(jì)算機(jī)與信息技術(shù)的發(fā)展,加速了這種過(guò)程,據(jù)德國(guó)世界報(bào)的資料分析,如果說(shuō)19世紀(jì)時(shí)科學(xué)定律(包括新的化學(xué)分子式,新的物理關(guān)系和新的醫(yī)學(xué)認(rèn)識(shí))的認(rèn)識(shí)數(shù)量一百年增長(zhǎng)一倍,到本世紀(jì)60年代中期以后,每五年就增加一倍。這其中知識(shí)起著關(guān)鍵的作用。當(dāng)數(shù)據(jù)量極度增長(zhǎng)時(shí),如果沒(méi)有有效的方法,由計(jì)算機(jī)及信息技術(shù)來(lái)提取有用信息和知識(shí),也感到像大海撈針一樣束手無(wú)策。據(jù)估計(jì),一個(gè)大型企業(yè)數(shù)據(jù)庫(kù)中數(shù)據(jù),只有百分之七得到很好應(yīng)用.這樣,相對(duì)于“數(shù)據(jù)過(guò)! 和“信息爆炸”,人們又感到“信息貧乏”(Information poor)"數(shù)據(jù)關(guān)在牢籠中”(data in jail).
二 從數(shù)據(jù)到知識(shí)
早在八十年代,人們從“物競(jìng)天擇 適者生存”的大原則下,認(rèn)識(shí)到“誰(shuí)最先從外部世界獲得有用信息并加以利用誰(shuí)就是優(yōu)勝者”。現(xiàn)時(shí)當(dāng)市場(chǎng)經(jīng)濟(jì)面向全球性劇烈競(jìng)爭(zhēng)的環(huán)境下,一家廠商的優(yōu)勢(shì)不在于像產(chǎn)品 服務(wù) 地區(qū)等方面因素,而在于創(chuàng)新。用知識(shí)來(lái)作為創(chuàng)新的原動(dòng)力,就能使公司長(zhǎng)期持續(xù)保持競(jìng)爭(zhēng)優(yōu)勢(shì)。因此要能及時(shí)迅速?gòu)娜辗e月累的龐大的數(shù)據(jù)庫(kù)及網(wǎng)絡(luò)上獲取有關(guān)經(jīng)營(yíng)決策有關(guān)知識(shí),這是應(yīng)付客戶需求易變性及市場(chǎng)快速變化引起競(jìng)爭(zhēng)激烈局面的唯一武器。
針對(duì)上述情況,如何對(duì)數(shù)據(jù)與信息快速有效地進(jìn)行分析加工提煉以獲取所需知識(shí)并發(fā)揮其作用,向計(jì)算機(jī)和信息技術(shù)領(lǐng)域提出了新的挑戰(zhàn)。其實(shí)計(jì)算機(jī)和信息技術(shù)發(fā)展的過(guò)程,也是數(shù)據(jù)和信息加工手段不斷更新和改善的過(guò)程。早年受技術(shù)條件限制,一般用人工方法進(jìn)行統(tǒng)計(jì)分析,和用批處理程序進(jìn)行匯總和提出報(bào)告.在當(dāng)時(shí)市場(chǎng)情況下,月度和季度報(bào)告已能滿足決策所需信息要求。隨著數(shù)據(jù)量的增長(zhǎng),多渠道數(shù)據(jù)源帶來(lái)各種數(shù)據(jù)格式的不相容性,為了便于獲得決策所需信息,就有必要將整個(gè)機(jī)構(gòu)內(nèi)的數(shù)據(jù)以統(tǒng)一形式集成存儲(chǔ)在一起,這就是所謂數(shù)據(jù)倉(cāng)庫(kù)(data Warehousing).它不同于只適用于日常工作的數(shù)據(jù)庫(kù).它是為了便于分析針對(duì)一定主題(Subject-oriented)的集成化的 時(shí)變的(time-Variant即提供存貯5-10或更老的數(shù)據(jù),這些數(shù)據(jù)不再更新,供比較以求出趨向及預(yù)測(cè)用)非破壞性(即只容易輸入和訪問(wèn)不容許更新和改變)的數(shù)據(jù)集中場(chǎng)所。數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),為更深入對(duì)數(shù)據(jù)進(jìn)行分析提供了條件,針對(duì)市場(chǎng)變化的加速人們提出了能實(shí)時(shí)分析和報(bào)表的在線分析手段OLAP(On Line Analytical Processing),它是一種友好而靈活的工具,它能允許用戶以交互方式瀏覽數(shù)據(jù)倉(cāng)庫(kù)對(duì)其中數(shù)據(jù)進(jìn)行多維分析,能及時(shí)地從變化和不太完整的數(shù)據(jù)中提出與企業(yè)經(jīng)營(yíng)動(dòng)作有關(guān)的信息。例如能對(duì)數(shù)據(jù)中的異常和變化行為進(jìn)行了解,OLAP是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析工具所得到的報(bào)告結(jié)果能回答“什么”(What),而OLAP的分析結(jié)果能回答“為什么”(Why)。但上述分析手段是建立在用戶對(duì)深藏在數(shù)據(jù)中的某種知識(shí)有預(yù)感和假設(shè)的前提下。而由于數(shù)據(jù)倉(cāng)庫(kù)(通常數(shù)據(jù)貯藏量以TB計(jì))及聯(lián)網(wǎng)界面上的數(shù)據(jù)來(lái)源于多種信息源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識(shí),而要使企業(yè)能及時(shí)迅速準(zhǔn)確地作出經(jīng)營(yíng)動(dòng)作的決策,以適應(yīng)變化迅速的市場(chǎng)環(huán)境,就需要有一種基于計(jì)算機(jī)與信息技術(shù)的智能化自動(dòng)工具,來(lái)發(fā)掘埋藏在數(shù)據(jù)中的各類知識(shí)。這種手段不應(yīng)再基于用戶假設(shè),而應(yīng)能自身生成多種多種假設(shè),再用數(shù)據(jù)倉(cāng)庫(kù)或聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行檢驗(yàn)和驗(yàn)證,然后返回對(duì)用戶 最有用的結(jié)果。同時(shí)這種工具還應(yīng)能適應(yīng)現(xiàn)實(shí)世界中數(shù)據(jù)的多種特性(即量大 含噪聲 不完整 動(dòng)態(tài) 稀疏性 異質(zhì) 非線性等)。要達(dá)到上述要求,只借助于一般數(shù)學(xué)分析和算法是無(wú)能為力的。多年來(lái),數(shù)理統(tǒng)計(jì)技術(shù)以及人工智能和知識(shí)工程等領(lǐng)域的研究成果,諸如推理 歸納學(xué)習(xí) 機(jī)器學(xué)習(xí) 知識(shí)獲取 模糊理論 神經(jīng)元網(wǎng)絡(luò) 進(jìn)化算法 模式識(shí)別 粗糙集理論等等分支給開(kāi)發(fā)上述工具提供了堅(jiān)實(shí)而豐富的理論和技術(shù)基礎(chǔ)。九十年代中期以來(lái),許多軟件開(kāi)發(fā)商,基于上述技術(shù)和市場(chǎng)需求,開(kāi)發(fā)了名目繁多的數(shù)據(jù)發(fā)掘(DM--Data Mining)和知識(shí)發(fā)現(xiàn)(KDD--Discovery from Data)工具和軟件,DM和KDD形成了近年來(lái)軟件開(kāi)發(fā)市場(chǎng)的熱點(diǎn),并且已不斷出現(xiàn)成套軟件和系統(tǒng),并開(kāi)始朝智能化整體解決方案發(fā)展,這是從數(shù)據(jù)到知識(shí)前進(jìn)過(guò)程中又一個(gè)里程碑(見(jiàn)圖2)
圖3 數(shù)據(jù)發(fā)掘過(guò)程
從數(shù)據(jù)中獲取有用信息或知識(shí),是一個(gè)完整的對(duì)數(shù)據(jù)進(jìn)行加工 處理的過(guò)程。如圖3所示,其中DM是關(guān)鍵的一步。[1]挑選:按一定的標(biāo)準(zhǔn)從數(shù)據(jù)源中挑選或切取一組數(shù)據(jù),形成目標(biāo)數(shù)據(jù)。[2]凈化和預(yù)處理:將不必要或影響分析進(jìn)程的部分?jǐn)?shù)據(jù)刪去。[3]轉(zhuǎn)換:將預(yù)處理后的數(shù)據(jù)進(jìn)行某些轉(zhuǎn)換使之成為可用和可導(dǎo)引的數(shù)據(jù)。[4]數(shù)據(jù)發(fā)掘:這是關(guān)鍵的階段,從數(shù)據(jù)中抽取出信息的模式。所謂模式,可以作如下定義:給定一組事實(shí)(數(shù)據(jù))F,一種語(yǔ)言L,和某種可信度測(cè)量C,模式就是一種用L的描述方式S,它以可信度C對(duì)F的一個(gè)子集Fs各事實(shí)間的關(guān)系進(jìn)行描述,這種描述在某種意義上比枚舉Fs中所有事實(shí)上要簡(jiǎn)單得多。[5]解釋賦義或可視化:將模式解釋為可以支持決策的知識(shí),例如預(yù)測(cè) 分類 匯總數(shù)據(jù)內(nèi)容和解釋所觀察到的現(xiàn)象等。上述階段之間也許還需要某種迭代分析.(見(jiàn)圖3)從上述過(guò)程可以看出,從數(shù)據(jù)中獲取知識(shí)是涉及多個(gè)領(lǐng)域內(nèi)技術(shù)融合的綜合應(yīng)用(見(jiàn)圖4)
數(shù)據(jù)庫(kù) 模式識(shí)別
技術(shù)
機(jī)器學(xué) 可視化
習(xí)技術(shù) 技術(shù)
AI技術(shù) 統(tǒng)計(jì)學(xué)
圖4 DM(KDD)與相關(guān)技術(shù)
三 KDD(DM)的任務(wù) 技術(shù)和應(yīng)用
利用DM(KDD)技術(shù)可以完成多項(xiàng)決策所需任務(wù),但大致可分為下述幾方面:[1]預(yù)測(cè):從事例中求得模式,構(gòu)造模型以預(yù)測(cè)目標(biāo)度量。[2]分類:找出一函數(shù)能使每事例映射到某種離散類別之一。[3]查出關(guān)系:搜索到對(duì)某選定目標(biāo)變量最有影響的其它獨(dú)立變量。[4]顯式模型:找出描述不同變量間依賴關(guān)系的顯式公式。[5]聚類:認(rèn)定出描述數(shù)據(jù)的類別的有限分組。[6]偏離檢測(cè):從數(shù)據(jù)已有或期望值中找出某些關(guān)鍵測(cè)度顯著的變化。
由于上述任務(wù)的不同,就需要采用不同的技術(shù)方法和手段,因而在市面也出現(xiàn)種類繁多的商品工具和軟件。大致可以歸納為下列主要類型:
[1]傳統(tǒng)主觀導(dǎo)向系統(tǒng):這是針對(duì)專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對(duì)金融市場(chǎng)進(jìn)行分析。采用的方法從簡(jiǎn)單的走向分析直到基于高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗(yàn)?zāi)P蜑榍疤?屬于這類商品有美國(guó)的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等
[2]傳統(tǒng)統(tǒng)計(jì)分析:這類技術(shù)包括相關(guān)分析 回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進(jìn)行驗(yàn)證。缺點(diǎn)是需經(jīng)培訓(xùn)后才能使用,同時(shí)在數(shù)據(jù)探索過(guò)程中,用戶需要重復(fù)進(jìn)行一系列操作。屬于這類商品有美國(guó)的SAS,SPSS和Stargraphis等。由于近年來(lái)更先進(jìn)的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。
以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計(jì)等數(shù)學(xué)的基礎(chǔ)上,一般早已開(kāi)始用于數(shù)據(jù)分析方面。
[3]神經(jīng)元網(wǎng)絡(luò)(NN)技術(shù):神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計(jì)算(Soft Computing)領(lǐng)域內(nèi)一種重要方法,它是多年來(lái)科研人員進(jìn)行人腦神經(jīng)學(xué)習(xí)機(jī)能模擬的成果,已成功地應(yīng)用于各工業(yè)部門(mén)。在DM(KDD)的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中導(dǎo)出概念和確定走向比較困難時(shí),利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過(guò)訓(xùn)練后的NN可以想像具有某種專門(mén)知識(shí)的“專家”,因此可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。NN有多種結(jié)構(gòu),但最常用的是多層BP(back propagation)模型。它已廣泛地應(yīng)用于各種DM(KDD)工具和軟件中。有些是以NN為主導(dǎo)技術(shù),例如俄羅斯的PolyAnalyst,美國(guó)的BrainMaker,Neurosell和OWL等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點(diǎn)是用它來(lái)分析復(fù)雜的系統(tǒng)諸如金融市場(chǎng),NN就需要復(fù)雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀(jì)錄數(shù))無(wú)法滿足訓(xùn)練的需要。另外由受訓(xùn)后的NN所代表的預(yù)測(cè)模型的非透明性也是其缺點(diǎn),盡管如此,它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。
[4]決策樹(shù):在知識(shí)工程領(lǐng)域,決策樹(shù)是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,雖然在機(jī)器獲取領(lǐng)域內(nèi),多年來(lái)已研制出不少實(shí)施決策樹(shù)的有效算法(如ID3及其改進(jìn)算法等)。但這種方法限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國(guó)的IDIS,法國(guó)的SIPINA。英國(guó)的Clementinc和澳大利亞的C5.0。
[5]進(jìn)化式程序設(shè)計(jì)(Evolutionary programming):這種方法的獨(dú)特思路是:系統(tǒng)自動(dòng)生成有關(guān)目標(biāo)變量對(duì)其他多種變量依賴關(guān)系的務(wù)種假設(shè),并形成以內(nèi)部編程語(yǔ)言表示的程序。內(nèi)部程序(假設(shè))的產(chǎn)生過(guò)程是進(jìn)化式的,類似于遺傳算法過(guò)程。當(dāng)系統(tǒng)找到較好地描述依賴關(guān)系的一個(gè)假設(shè)時(shí),就對(duì)這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預(yù)測(cè)精度的子程序,如此依次進(jìn)行,最后獲得達(dá)到所需精度的最好程序時(shí),由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語(yǔ)言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學(xué)公式,預(yù)測(cè)表等。由于采用通用編程語(yǔ)言,這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語(yǔ)言來(lái)描述。這種方法也許是目前最年青的和
最有前途的DN方法之一。這種是方法的商用產(chǎn)品還只見(jiàn)諸俄羅斯的Poly Analyst,據(jù)報(bào)導(dǎo),它用于金融到醫(yī)療方面軍的各種應(yīng)用于,能獲得者很好的結(jié)果。
[6]基于事例的推理方法(CBR棗Case based reasoning)這種方法的思路非常簡(jiǎn)單,當(dāng)預(yù)測(cè)未來(lái)情況或進(jìn)行正確決策時(shí),系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問(wèn)題求解,并獲得好的結(jié)果,其缺點(diǎn)是系統(tǒng)不能生成匯總過(guò)去經(jīng)驗(yàn)的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國(guó)的Pattern Recognition Workbench和法國(guó)的KATE tools.
[7]遺傳算法(GA棗Genetic Algorithms):嚴(yán)格說(shuō)來(lái),DA不是GA應(yīng)用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問(wèn)題的強(qiáng)有力的手段,但它在現(xiàn)代標(biāo)準(zhǔn)儀器表中也用來(lái)完成DA任務(wù)。這種方法的不足之處是:這種問(wèn)題的生成方式使估計(jì)所得解答的統(tǒng)計(jì)意義的任何一種機(jī)會(huì)不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準(zhǔn)則和有效地進(jìn)行問(wèn)題描述與生成。在系統(tǒng)中包含遺傳算法的有美國(guó)的GeneHunter.
[8]非線性回歸方法:這種方法的基礎(chǔ)是,在預(yù)定的函數(shù)的基礎(chǔ)上,尋找目標(biāo)度量對(duì)其它多種變量的依賴關(guān)系。這種方法在金融市場(chǎng)或醫(yī)療診斷的應(yīng)用場(chǎng)合,比較好的提供可信賴的結(jié)果。在俄羅斯的Paly Analyst以及美國(guó)的Neuroshell系統(tǒng)中包括了這種技術(shù)。
上面所列DM技術(shù)不可能是詳盡的囊括,因?yàn)槎嗄陙?lái)數(shù)理統(tǒng)計(jì)分析以及AI與KE的研究提供了種類繁多特點(diǎn)各異的手段,DM開(kāi)發(fā)人員完全可以根據(jù)不同任務(wù)加以選擇使用,另外近年來(lái)在軟計(jì)算(Soft Comp-uting)和不確定信息處理(dealing with Uncertainty of information)方法的研究,促使DM(KDD)技術(shù)向更深層次發(fā)展。
另外需要說(shuō)明的,上面所說(shuō)的DM中的數(shù)據(jù)是指數(shù)據(jù)庫(kù)中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構(gòu)型數(shù)據(jù)(Structured data)。在一個(gè)企業(yè)中,還有一類像文本和網(wǎng)頁(yè)形式的數(shù)據(jù),稱作非結(jié)構(gòu)型數(shù)據(jù)(unstructured data)。它來(lái)自不同的信息源,如文本 圖像 影視和音響等,當(dāng)然文本是最主要的一種非結(jié)構(gòu)數(shù)據(jù).對(duì)一個(gè)企事業(yè)單位來(lái)說(shuō),非結(jié)構(gòu)型數(shù)據(jù)往往占數(shù)據(jù)總量的80%,而結(jié)構(gòu)型數(shù)據(jù)只占20%。1995年分析家已預(yù)言,像文本這樣非結(jié)構(gòu)型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在Internet上的信息網(wǎng)頁(yè)數(shù),已超過(guò)5億,到2000年,預(yù)計(jì)網(wǎng)頁(yè)數(shù)將達(dá)到15億。隨著Internet的擴(kuò)展和大量在線文本的出現(xiàn),將標(biāo)志這巨大的非結(jié)構(gòu)型數(shù)據(jù)海洋中,蘊(yùn)藏著極其豐富的有用信息即知識(shí)。人們從書(shū)本中獲取知識(shí)方法是閱讀和理解。開(kāi)發(fā)一種工具能不需要閱讀而能協(xié)助用戶從非結(jié)構(gòu)數(shù)據(jù)中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息,這將是一個(gè)非常引人入勝的研究領(lǐng)域。目前,基于圖書(shū) 索引 檢索以及超文本技術(shù)的各類搜索引擎,能協(xié)助用戶尋找所需信息,但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息,尚需要更高層次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識(shí)表示及獲取的方法(如語(yǔ)義網(wǎng)絡(luò) 概念映射等),和自然語(yǔ)言理解的研究成果,可望被采用。還可能要涉及到語(yǔ)言學(xué) 心理學(xué)等領(lǐng)域。最近已出現(xiàn)針對(duì)文本的DM工具的報(bào)導(dǎo)。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。
DM(KDD)工具和軟件已在各個(gè)部門(mén)得到很好的應(yīng)用,并收到明顯的效益。[1]在對(duì)客戶進(jìn)行分析方面:銀行信用卡和保險(xiǎn)行業(yè),用DM將市場(chǎng)分成有意義的群組和部門(mén),從而協(xié)助市場(chǎng)經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進(jìn)作用的活動(dòng)和設(shè)計(jì)新的市場(chǎng)運(yùn)動(dòng)。[2]在客戶關(guān)系管理方面:DM能找出產(chǎn)
品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。又如正確時(shí)間銷(xiāo)
售(Right Time MarKeting)就是基于顧客生活周期模型來(lái)實(shí)施的。[3]在零售業(yè)方面:DM用于顧客購(gòu)貨籃的分析可以協(xié)助貨架布置,促銷(xiāo)活動(dòng)時(shí)間,促銷(xiāo)商品組合以及了解滯銷(xiāo)和暢銷(xiāo)商品狀況等商業(yè)活動(dòng)。[4]通過(guò)對(duì)一種廠家商品在各連鎖店的市場(chǎng)共享分析,客戶統(tǒng)計(jì)以及歷史狀況的分析,可以確定銷(xiāo)售和廣告業(yè)務(wù)的有效性。[5]在產(chǎn)品質(zhì)量保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動(dòng)發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過(guò)程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問(wèn)題發(fā)生范圍和采取改正措施。[6]在遠(yuǎn)程通訊部門(mén):基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,確定市場(chǎng)變化模式以指導(dǎo)銷(xiāo)售計(jì)劃.在網(wǎng)絡(luò)容量利用方面,DM能提供對(duì)客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計(jì)劃人員對(duì)網(wǎng)絡(luò)設(shè)施作出最佳投資決策。[7]在各個(gè)企事業(yè)部門(mén),DM在假偽檢測(cè) 及險(xiǎn)評(píng)估 失誤回避 資源分配 市場(chǎng)銷(xiāo)售預(yù)測(cè)廣告投資等很多方面,起著很重要作用。例如在化學(xué)及制藥行業(yè),將DM用于巨量生物信息可以發(fā)現(xiàn)新的有用化學(xué)成分.在遙感領(lǐng)域針對(duì)每天從衛(wèi)星上及其它方面來(lái)的巨額數(shù)據(jù),對(duì)氣象預(yù)報(bào),臭氧層監(jiān)測(cè)等能起很大作用?傊趪(guó)外,DM已廣泛應(yīng)用于銀行金融,零售與批發(fā) 制造 保險(xiǎn) 公共設(shè)施 政府 教育 遠(yuǎn)程通訊 軟件開(kāi)發(fā) 運(yùn)輸?shù)雀鱾(gè)企事業(yè)單位。據(jù)報(bào)導(dǎo),DM的投資回報(bào)率有達(dá)400%甚至10倍的事例。
四 DM(KDD)產(chǎn)品狀況
九十年代開(kāi)始出現(xiàn)DM商用產(chǎn)品以來(lái),據(jù)不完全統(tǒng)計(jì),到1998年底1999年初,已達(dá)50多個(gè)廠商從事DM的開(kāi)發(fā)工作,在美國(guó)DM產(chǎn)品市場(chǎng)在1994年約為5千萬(wàn)美元,1997年達(dá)到3億美元。預(yù)計(jì)2000年將達(dá)到8億美元。從產(chǎn)品的類型來(lái)分有下列產(chǎn)品:[1]提供廣泛的DM能力,典型產(chǎn)品有IBM的Intelligent Miner,SAS的Enterprise Miner.[2]為某個(gè)部門(mén)旨在求解問(wèn)題,典型的有Unica公司的Response Modeler Segnentor,IBM公司的Busiess Application等。[3]與提供服務(wù)一起,典型的有NeoVista,Hyperparallel,HNC Marksman.[4]黑匣工具,典型的有GroupModell,ModelMax,NewralWare的Predict.[5]解決客戶問(wèn)題有Marketier Paregram,Exchemge Application等。
據(jù)不完全統(tǒng)計(jì),目前出現(xiàn)的DM工具和軟件,可以按采用技術(shù)分類如下表:
采用技術(shù) 分 類 成 套 聚 類 統(tǒng)計(jì)與回 歸 連接與相 關(guān) 序列模式 可視化 文筆與網(wǎng)絡(luò)DM 報(bào)告與匯總 偏差虛假檢測(cè) 商品數(shù) 7 30 7 11 5 7 14 11 3 2 發(fā)表數(shù) 4 6 5 7 2 1 7 4 1 3
DM商品軟件一般包含多種技術(shù)方法,以適應(yīng)不同要求。經(jīng)常將成套工具按不同方式分成模塊,例如Spss的DM套件由下列按功能的模塊組成:[1]基于規(guī)則的影響發(fā)現(xiàn)模塊。[2]多維共性發(fā)現(xiàn)模塊。[3]OLAP發(fā)現(xiàn)模塊。[4]增量發(fā)現(xiàn)模塊。[5]趨向發(fā)現(xiàn)模塊。[6]比較發(fā)現(xiàn)模塊。[7]預(yù)測(cè)發(fā)現(xiàn)模塊。而Neovista的DM套件卻按所采用的技術(shù)分組,基于GA的DecisionGA和基于規(guī)則相關(guān)的DecisionAR.
由于DM不能只看作一個(gè)獨(dú)立的操作,它是與前后操作聯(lián)系起來(lái),形成數(shù)據(jù)到知識(shí)的整體過(guò)程。有各種不同的組合方式,最自然的方式是將DM系統(tǒng)與數(shù)據(jù)倉(cāng)庫(kù)和常規(guī)的SQL用戶界面和可視化工具聯(lián)系在一起。如圖5所示是NeoVista公司所提出的集成系統(tǒng)的示意簡(jiǎn)圖。它是將集成化知識(shí)發(fā)現(xiàn)環(huán)境和開(kāi)放式數(shù)據(jù)倉(cāng)庫(kù)組成一個(gè)DM的集成環(huán)境。為了使DM所得到的結(jié)果更廣泛直接地為用戶所用,人們提出了模式庫(kù)(Patterm Base)模式倉(cāng)庫(kù)(Patterm Warehouse)加上聯(lián)網(wǎng)模塊的方案,如圖6所示,這個(gè)稱作DMsuite的結(jié)構(gòu)直接工作在大型多表格的SQL數(shù)據(jù)庫(kù)基礎(chǔ)上,同時(shí)90%的DM工作在服務(wù)器上完成,這樣就使DM工作不受客戶機(jī)容量限制。
圖6 DM Suite 結(jié)構(gòu)圖
DM(KDD)的目的原本是為企事業(yè)單位提供決策的正確依據(jù),從分析數(shù)據(jù)發(fā)現(xiàn)問(wèn)題作出決策采取行動(dòng)這一系列操作是一個(gè)單位的動(dòng)作行為,利用計(jì)算機(jī)及信息技術(shù)完成這整體行動(dòng),是發(fā)揮機(jī)構(gòu)活力和贏得競(jìng)爭(zhēng)優(yōu)勢(shì)的唯一手段。所以前幾年一位分析學(xué)家將這種機(jī)構(gòu)行為和手段稱這為“事務(wù)智能”(BI棗Business Intelligent).他認(rèn)為BI能極大地改進(jìn)決策的質(zhì)量和及時(shí)性,從而改進(jìn)機(jī)構(gòu)的生產(chǎn)率或發(fā)揮競(jìng)爭(zhēng)優(yōu)勢(shì)。所以近年來(lái),一些大公司將數(shù)據(jù)分析和DM(KDD)工具和有關(guān)技術(shù)組合起來(lái)形成所謂BIS(Business Intelligent Softwave)。其中SAS公司的作法是將數(shù)據(jù)源 ,數(shù)據(jù)預(yù)處理 ,數(shù)據(jù)存貯 ,數(shù)據(jù)分析與發(fā)掘 ,信息表示與應(yīng)用等方面技術(shù)有機(jī)地綜合成一體,如圖 7所示
IBM公司更全面地考慮BI系統(tǒng)的結(jié)構(gòu)和功能,與其它公司共同合作來(lái)開(kāi)發(fā)BI各類軟件和工具。并從多方面來(lái)加以考慮:首先必須有一良好的數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù),并能使企業(yè)過(guò)渡到下一個(gè)世紀(jì),所以提出了一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)系統(tǒng)DB2和一個(gè)可視化數(shù)據(jù)倉(cāng)庫(kù)VDW(Visual Data Warehouse),可以將各種應(yīng)用和各部門(mén)的信息融為一體,加上Visual Warehouse OLAP工具可以生成實(shí)時(shí)報(bào)告。在信息發(fā)現(xiàn)和數(shù)據(jù)發(fā)掘工具方面,提出能對(duì)結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù)進(jìn)行發(fā)掘的一整套智能工具(Intelligent Miner Family)。BI手段只有在好的數(shù)據(jù)基礎(chǔ)才能見(jiàn)效,因此提出數(shù)據(jù)重組工具。向用戶提供聯(lián)合統(tǒng)一觀點(diǎn)的企業(yè)數(shù)據(jù)是作出聰明決策的前提,提出能支持異形數(shù)據(jù)庫(kù)的DataJointer(數(shù)據(jù)接合)
工具,具有簡(jiǎn)單而強(qiáng)有力的數(shù)據(jù)查詢和優(yōu)化的數(shù)據(jù)訪問(wèn)功能,并能對(duì)異形數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行復(fù)制,以便不斷更新數(shù)據(jù)倉(cāng)庫(kù)內(nèi)容。所有工具不僅易于使用外,并能與數(shù)據(jù)倉(cāng)庫(kù)無(wú)縫地集成在一起。圖 8是IBM BI系統(tǒng)的結(jié)構(gòu)圖。BI系統(tǒng)標(biāo)志著從數(shù)據(jù)到知識(shí)到?jīng)Q策的進(jìn)程中的更深入的一步,展示著真正的實(shí)用的智能信息系統(tǒng)的雛形。有人將電子商務(wù)和BI看成90年代以來(lái)推動(dòng)企業(yè)創(chuàng)新的兩大重要技術(shù),二者的結(jié)合可以提供指數(shù)增長(zhǎng)的機(jī)遇。電子商務(wù)通過(guò)網(wǎng)絡(luò)加速核心事務(wù)處理過(guò)程,改善對(duì)客戶的服務(wù),減少周期時(shí)間,從而從有限的資源中獲得多的回報(bào)。而B(niǎo)I能利用豐富的數(shù)據(jù)資產(chǎn)做出最佳決策,以獲取競(jìng)爭(zhēng)優(yōu)勢(shì)。有人將兩者的結(jié)合比做光速的飛行器加上精密的制導(dǎo)系統(tǒng),能迅速而準(zhǔn)確地命中目標(biāo)
五 結(jié)束語(yǔ)
本文從一個(gè)方面討論從數(shù)據(jù)到知識(shí)的過(guò)程,以及計(jì)算機(jī)及信息技術(shù)在過(guò)程中的發(fā)展。新的世紀(jì)將是一個(gè)高度化信息化的時(shí)代,也就是知識(shí)時(shí)代,以知識(shí)為題的許多問(wèn)題,諸如知識(shí)經(jīng)濟(jì) 知識(shí)產(chǎn)業(yè) 知識(shí)工人 知識(shí)管理 知識(shí)工程 知識(shí)網(wǎng)絡(luò)等,將成為研究的對(duì)象。也勢(shì)必推動(dòng)以網(wǎng)絡(luò)為環(huán)境的計(jì)算機(jī)與信息技術(shù)向更高層次發(fā)展。
【數(shù)據(jù) 信息與知識(shí)】相關(guān)文章:
數(shù)據(jù)挖掘技術(shù)與用戶知識(shí)獲取08-05
信息整流與知識(shí)增值服務(wù)08-05
數(shù)據(jù)結(jié)構(gòu)課程難點(diǎn)講授方法與必備知識(shí)08-05
小學(xué)信息技術(shù)教案設(shè)計(jì):數(shù)據(jù)收集02-18
數(shù)據(jù)信息安全管理自查報(bào)告范文11-27
FSK信息解碼的電話網(wǎng)數(shù)據(jù)通信08-06
談信息經(jīng)濟(jì)與知識(shí)經(jīng)濟(jì)08-06
教育信息化,亟需知識(shí)管理08-17