欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法與流程

文檔序號:11918779閱讀:309來源:國知局

本發(fā)明涉及信息管理領(lǐng)域,特別是涉及一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法。



背景技術(shù):

數(shù)字檔案館,作為傳統(tǒng)實體檔案館在信息時代的新型組織形式,是實體檔案館在信息時代不斷創(chuàng)新和發(fā)展的必然,是迎接知識經(jīng)濟時代挑戰(zhàn),拓展傳統(tǒng)實體檔案館功能,滿足用戶需求,提供個性化、多樣化服務(wù)的關(guān)鍵,也是提高社會檔案意識的新契機。那么,如何從數(shù)字檔案館浩如煙海的大量數(shù)字化資源中提煉、挖掘出有價值的,對數(shù)字檔案館進行知識積累、知識創(chuàng)新有著數(shù)據(jù)支撐作用的有效信息,這是未來數(shù)字檔案館建設(shè)所面臨的重要課題。數(shù)據(jù)挖掘技術(shù)正是解決這一難題的有效途徑,數(shù)據(jù)挖掘是當(dāng)今計算機領(lǐng)域的熱點,其成果也廣泛應(yīng)用于圖書情報領(lǐng)域。

數(shù)據(jù)挖掘是一門很廣義的交叉學(xué)科,脫胎于計算機,雖然已應(yīng)用到諸多領(lǐng)域,圖書、情報界的實踐也已經(jīng)充分驗證其價值,但在檔案界,數(shù)據(jù)挖掘仍然被當(dāng)成深奧的技術(shù)和理論,很多檔案工作者對這個概念還是云霧迷蒙,比較模糊。那么什么是數(shù)據(jù)挖掘呢?數(shù)據(jù)挖掘(Data Ming),就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的有用信息和知識的過程。這個過程的目的是為了發(fā)現(xiàn)隱藏在大量數(shù)據(jù)泥沙中的“知識金礦”,因此,將數(shù)據(jù)挖掘定義為“數(shù)據(jù)中的知識挖掘”更為恰當(dāng)。所以,數(shù)據(jù)挖掘也被人稱為知識挖掘、知識抽取等。

數(shù)據(jù)挖掘可以根據(jù)挖掘任務(wù)的不同,把數(shù)據(jù)挖掘方法分為概念描述、關(guān)聯(lián)分析、分類分析、聚類分析、偏差檢測等多種類型,具體如下:

概念描述就是通過分析和比較,將某類相互關(guān)聯(lián)的數(shù)據(jù)進行匯總,歸納出此類對象的相關(guān)特征,對關(guān)于此類的大量信息進行描述,這些描述是抽象的,有意義的。它的類型有兩種:特征性描述和區(qū)別性描述。

1)特征性描述適用于描述某類對象的共同之處,例如,某檔案館的檔案數(shù)據(jù)庫中存在大量的用戶基本信息,其中涉及:姓名、年齡、工作、利用喜好等信息,如果對歷史研究者進行描述,很有可能得出以下結(jié)果:以高校教師、學(xué)生為主,以編修各種志書、撰寫史學(xué)研究文章為目的。

2)區(qū)別性描述,用于描述兩個或多個類對象之間的差異,例如,對企業(yè)用戶和歷史研究者特征進行比較,也許能得出以下規(guī)則:主要利用生產(chǎn)管理和科研管理方面的檔案信息,以取得一定經(jīng)濟效益和社會效益為目的。

關(guān)聯(lián)分析就是描述數(shù)據(jù)庫中數(shù)據(jù)項之間存在的相關(guān)特性,即挖掘出隱藏在數(shù)據(jù)項之間的相互關(guān)系,具體來說,若其中兩項數(shù)據(jù)或多項數(shù)據(jù)存在著某種關(guān)聯(lián),其中一項數(shù)據(jù)就能依據(jù)其它數(shù)據(jù)進行預(yù)測。關(guān)聯(lián)分析能發(fā)現(xiàn)用戶利用不同檔案信息之間的關(guān)聯(lián),分析預(yù)測用戶利用模式。

分類分析就是將數(shù)據(jù)庫中的數(shù)據(jù)有序的聚合在一起,有助于人們對事物的全面把握。分類分析可分為結(jié)構(gòu)化數(shù)據(jù)分類分析,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),和非結(jié)構(gòu)化數(shù)據(jù)分類分析,如文本數(shù)據(jù)。分類分析的具體過程為:用一組特征不同的類別為一個數(shù)據(jù)集合中的數(shù)據(jù)進行分類,然后找出描述這些數(shù)據(jù)的模型,并根據(jù)這個模型將數(shù)據(jù)劃分到不同的類別中,利用這個模型可以預(yù)測未知的數(shù)據(jù)。分類分析可以通過已有用戶檔案數(shù)據(jù)庫中的數(shù)據(jù),揭示用戶特征和用戶利用行為之間的關(guān)系,并按照影響用戶行為的程度對這些數(shù)據(jù)進行分類,用來預(yù)測未來的用戶行為。

聚類分析就是將數(shù)據(jù)庫中的數(shù)據(jù)劃分為不同數(shù)據(jù)類的過程,它與分類分析不同,前者是在預(yù)先不考慮已知分類模型的情況下,把數(shù)據(jù)放入不同的分類中,聚類的目的是根據(jù)最大化類內(nèi)的相似性,最小化類間的相似性這一原則合理的劃分?jǐn)?shù)據(jù)集合,簡單來說就是使類內(nèi)的差別最小化,類間的差別最大化,這樣就可以把類似的數(shù)據(jù)組織在一起并導(dǎo)出某種規(guī)則。

偏差檢測就是通過發(fā)現(xiàn)數(shù)據(jù)庫中的異常情況對偏差的數(shù)據(jù)進行分析的過程,重點是發(fā)現(xiàn)數(shù)據(jù)中的異常變化,數(shù)據(jù)庫中的數(shù)據(jù)變異可能是人為錯誤引起的,更有可能是數(shù)據(jù)更新等自然變化的結(jié)果。偏差檢測的意義在于可以有效排除大量不相關(guān)的數(shù)據(jù)。例如,某檔案館在形成某種編研成果之前,先在用戶信息數(shù)據(jù)庫中進行檢索,并與檔案館數(shù)據(jù)庫中的已有資源結(jié)合,再用數(shù)據(jù)挖掘技術(shù)將不相關(guān)的用戶利用模型排除,把剩下的作為重點,制定有針對性的編研策略。

基于知識管理的數(shù)字檔案館的數(shù)據(jù)挖掘首先應(yīng)對數(shù)字檔案館資源、知識管理和數(shù)據(jù)挖掘的關(guān)系定位。數(shù)字檔案館的知識資源要被組織和發(fā)現(xiàn),這是數(shù)字檔案館實現(xiàn)現(xiàn)代化科學(xué)管理,提供快捷、優(yōu)質(zhì)服務(wù)的基礎(chǔ)。對數(shù)字檔案館實施知識管理是應(yīng)對知識經(jīng)濟時代挑戰(zhàn),最大化數(shù)字檔案館知識資源潛力,最終實現(xiàn)數(shù)字檔案館知識創(chuàng)新的必然要求。沒有實施知識管理的數(shù)字檔案館無法滿足未來發(fā)展的需要,缺乏管理對象的知識也成了無源之水。數(shù)據(jù)挖掘是組織和發(fā)現(xiàn)數(shù)字檔案館中知識資源的有效途徑,為數(shù)字檔案館實施知識管理創(chuàng)造了條件,是兩者得以無縫鏈接的承上啟下階段。這里的數(shù)據(jù)挖掘不能看成是純粹的信息處理技術(shù),它是對信息處理技術(shù)集群進行協(xié)調(diào)和管理的方法和策略。基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡(luò)和數(shù)字化資源為基礎(chǔ),立足于多種信息技術(shù)的協(xié)調(diào)和配合,以實施挖掘算法和挖掘模型為手段,以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識資源,為實施知識管理提供管理對象為目的,讓數(shù)字檔案館有效利用知識,實現(xiàn)知識創(chuàng)新的過程。

基于知識管理的數(shù)字檔案館中的主要挖掘?qū)ο笾饕ǎ?/p>

1)數(shù)字檔案館中的固化資源,這是存在于數(shù)字檔案館中的顯性知識,即記錄于一定物質(zhì)載體上的知識,包括:已數(shù)字化的館藏資源、現(xiàn)行電子文件、檢索工具、編研成果,與數(shù)字檔案館工作相關(guān)的各種法律法規(guī)、規(guī)章制度、行業(yè)標(biāo)準(zhǔn)等,圍繞數(shù)字檔案館建設(shè)所產(chǎn)生的研究成果、技術(shù)資料及有助于數(shù)字檔案館發(fā)展的其它相關(guān)知識。

2)數(shù)字檔案館中的智力資源,這是存在于數(shù)字檔案館中的隱性知識,是存在于檔案館行政管理人員、政策法規(guī)研究人員、信息技術(shù)人員、對外協(xié)調(diào)人員等頭腦中所儲備的大量非編碼智力資源,包括:各種管理方法、計算機處理技術(shù)、處理問題的能力等。由于人是知識管理的核心,是知識管理中最活躍的最主動的因素,所以對這部分知識的挖掘也是數(shù)字檔案館知識挖掘的重點。

3)用戶利用行為信息,用戶的利用行為信息包括兩方面,利用信息和反饋信息。利用信息是用戶為了解決現(xiàn)實問題,滿足學(xué)術(shù)、科研、生產(chǎn)等需求,在實施具體利用行為時所產(chǎn)生的信息,包括:訪問內(nèi)容、訪問頻率、訪問時間等,它們反映出用戶對數(shù)字化資源的個性化、多樣化需求及利用規(guī)律。反饋信息是在檔案利用這一連續(xù)活動中,檔案利用者發(fā)現(xiàn)的問題和情況、提出的要求、意見、評價和效益等。對這些數(shù)據(jù)的挖掘,可用于對用戶未來利用趨勢的分析預(yù)測,以及提出在此基礎(chǔ)上的管理決策,為提高數(shù)字檔案館的服務(wù)水平提供依據(jù)。



技術(shù)實現(xiàn)要素:

本發(fā)明的目的是提供一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法。

本發(fā)明的目的可以通過以下技術(shù)方案實現(xiàn):

一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法,包括以下步驟:

步驟一、確定主題:確定需要挖掘的數(shù)據(jù)目標(biāo);

步驟二、需求定義:根據(jù)步驟一確定的主題,對主題進行定義,明確數(shù)據(jù)挖掘的要求和目的;

步驟三、數(shù)據(jù)收集:在對主題進行定義的同時,對檔案數(shù)據(jù)庫中的顯性知識和隱性知識進行收集提取,并對其進行概念描述歸納出需求的相關(guān)特征;

步驟四、分析并形成結(jié)果:通過聚類分析,按照相似性和差異性形成不同的需求分類模型,并把數(shù)據(jù)放入不同的分類中,通過需求分類模型與用戶利用信息的結(jié)合,進行差異分析和偏差檢測,排除大量不相關(guān)的數(shù)據(jù),形成挖掘結(jié)果;

步驟五、對挖掘結(jié)果進行評價:形成的挖掘結(jié)果有可能存在無關(guān)的數(shù)據(jù),也有可能不滿足需求,如果不符合挖掘要求和目的,轉(zhuǎn)到步驟三,并重復(fù)挖掘過程;否則,轉(zhuǎn)到步驟六;

步驟六、經(jīng)過評價,挖掘結(jié)果達到數(shù)據(jù)挖掘要求,能為數(shù)字檔案館知識管理所用,則充實到原有數(shù)據(jù)庫中,實現(xiàn)檔案館的知識創(chuàng)新。

本發(fā)明的有益效果:

本發(fā)明所提供的一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法,為數(shù)字檔案館實施知識管理創(chuàng)造了條件,本發(fā)明是對信息處理技術(shù)集群進行協(xié)調(diào)和管理的方法和策略,本發(fā)明基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡(luò)和數(shù)字化資源為基礎(chǔ),立足于多種信息技術(shù)的協(xié)調(diào)和配合,以實施挖掘算法和挖掘模型為手段,以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識資源,為實施知識管理提供管理對象為目的,讓數(shù)字檔案館有效利用了知識,實現(xiàn)了知識創(chuàng)新。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1是本發(fā)明的示意圖。

具體實施方式

本發(fā)明的核心是提供一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法。

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

如圖1所示,本發(fā)明提供了一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法,該方法包括如下步驟:

步驟一、確定主題,確定需要挖掘的數(shù)據(jù)目標(biāo)。

步驟二、需求定義:根據(jù)步驟一確定的主題,對主題進行定義,明確數(shù)據(jù)挖掘的要求和目的。

步驟三、數(shù)據(jù)收集:在對問題進行定義的同時,對檔案數(shù)據(jù)庫中的顯性知識和隱性知識進行收集提取,并對其進行概念描述歸納出需求的相關(guān)特征。

步驟四、分析并形成結(jié)果:通過聚類分析,按照相似性和差異性形成不同的需求分類模型,并把數(shù)據(jù)放入不同的分類中,通過需求分類模型與用戶利用信息的結(jié)合,進行差異分析和偏差檢測,排除大量不相關(guān)的數(shù)據(jù),形成挖掘結(jié)果。

步驟五、對挖掘結(jié)果進行評價:形成的挖掘結(jié)果有可能存在無關(guān)的數(shù)據(jù),也有可能不滿足需求,如果不符合挖掘要求和目的,轉(zhuǎn)到步驟三,并重復(fù)挖掘過程;否則,轉(zhuǎn)到步驟六。

步驟六、經(jīng)過評價,挖掘結(jié)果達到數(shù)據(jù)挖掘要求,能為數(shù)字檔案館知識管理所用,則充實到原有數(shù)據(jù)庫中,實現(xiàn)檔案館的知識創(chuàng)新。

本發(fā)明所提供的一種基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘方法,為數(shù)字檔案館實施知識管理創(chuàng)造了條件,本發(fā)明是對信息處理技術(shù)集群進行協(xié)調(diào)和管理的方法和策略,本發(fā)明基于知識管理的數(shù)字檔案館中的數(shù)據(jù)挖掘是以網(wǎng)絡(luò)和數(shù)字化資源為基礎(chǔ),立足于多種信息技術(shù)的協(xié)調(diào)和配合,以實施挖掘算法和挖掘模型為手段,以組織和發(fā)現(xiàn)數(shù)字檔案館中已存在的知識資源,為實施知識管理提供管理對象為目的,讓數(shù)字檔案館有效利用了知識,實現(xiàn)了知識創(chuàng)新。

以上內(nèi)容僅僅是對本發(fā)明結(jié)構(gòu)所作的舉例和說明,所屬本技術(shù)領(lǐng)域的技術(shù)人員對所描述的具體實施例做各種各樣的修改或補充或采用類似的方式替代,只要不偏離發(fā)明的結(jié)構(gòu)或者超越本權(quán)利要求書所定義的范圍,均應(yīng)屬于本發(fā)明的保護范圍。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
敦化市| 化州市| 阿合奇县| 视频| 会泽县| 南丰县| 寿光市| 湟中县| 山西省| 水富县| 雅安市| 延吉市| 龙胜| 隆子县| 虹口区| 合山市| 青龙| 乌海市| 敦化市| 舒城县| 栖霞市| 梁山县| 宁蒗| 鹰潭市| 临猗县| 佛坪县| 昌宁县| 理塘县| 远安县| 河南省| 丹棱县| 灵寿县| 惠水县| 旬阳县| 延长县| 阳西县| 静乐县| 凤山县| 临澧县| 饶河县| 丰顺县|