專利名稱::數(shù)據(jù)檢索的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及信息采集和處理領(lǐng)域,尤其涉及數(shù)據(jù)檢索的方法和系統(tǒng)。
背景技術(shù):
:在現(xiàn)有的語義Web、問答系統(tǒng)、特定領(lǐng)域的垂直搜索、信息抽取、圖書館管理和信息檢索等領(lǐng)域,經(jīng)常需要將一些被認(rèn)為有用的數(shù)據(jù)或詞語從數(shù)據(jù)庫中提取出來,并根據(jù)這些數(shù)據(jù)或詞語之間的關(guān)系建立相應(yīng)的樹形列表索引,以便于用戶對相關(guān)信息的查找。本體,是感興趣領(lǐng)域的共享的概念化的顯式規(guī)約。通俗地講,本體是用來描述某個領(lǐng)域甚至更廣范圍內(nèi)的概念以及概念之間的關(guān)系,使得這些概念和關(guān)系在共享的范圍內(nèi)具有大家共同認(rèn)可的、明確的、唯一的定義。自動或半自動構(gòu)建本體的方法稱為本體學(xué)習(xí)?,F(xiàn)有本體學(xué)習(xí)方法主要有5大類,包括基于模式、基于關(guān)聯(lián)規(guī)則、基于概念聚類、基于本體演化和混合策略。其中,基于概念聚類的本體學(xué)習(xí)方法,是利用概念之間的語義距離,對概念進(jìn)行聚類。這樣,同一類簇中的概念具有語義近似的關(guān)系。目前最常見的聚類算法為層次聚類,聚類的結(jié)果就是概念間的上下位關(guān)系。層次聚類算法按照方向可以分成兩種一種是自底向上的合并聚類,初始時將每個元素作為一類,每一步將最相似的兩個集合合并,直至最終合并成一個集合;一種是自頂向下的分解聚類,初始時把全部的元素作為一個集合,然后每一步將最不相似的兩個集合分開。在實(shí)現(xiàn)上述基于概念聚類的本體學(xué)習(xí)方法的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題基于概念聚類的本體學(xué)習(xí)方法中,樹形結(jié)構(gòu)的同級節(jié)點(diǎn)按照一定順序進(jìn)行本體學(xué)習(xí),先學(xué)習(xí)的同級節(jié)點(diǎn)會將與自身相似度高的概念全12部作為本節(jié)點(diǎn)的子節(jié)點(diǎn)。這樣,后學(xué)習(xí)的同級節(jié)點(diǎn)盡管與一些先學(xué)習(xí)的同級節(jié)點(diǎn)的子節(jié)點(diǎn)的相似度高,卻無法將其作為自身的子節(jié)點(diǎn)(同級節(jié)點(diǎn)的子節(jié)點(diǎn)不可交叉)。這會導(dǎo)致學(xué)到的本體樹形結(jié)構(gòu)不合理節(jié)點(diǎn)分布極不平均,每個節(jié)點(diǎn)的子節(jié)點(diǎn)個數(shù)不可控。這種樹形結(jié)構(gòu)的偏斜將會隨著層級的增多而不斷加大,級數(shù)越多,偏斜情況越嚴(yán)重,基于這一結(jié)構(gòu)的數(shù)據(jù)檢索的準(zhǔn)確性和完整性低。
發(fā)明內(nèi)容本發(fā)明的實(shí)施例提供一種數(shù)據(jù)檢索的方法和系統(tǒng),能夠提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下4支術(shù)方案一種數(shù)據(jù)檢索的方法,包括以下步驟通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;計(jì)算提取的領(lǐng)域術(shù)語之間的相似度;將相似的領(lǐng)域術(shù)語以限定分支的方式逐層聚類,建立索引列表;存儲所述索引列表;信息檢索模塊利用索引列表進(jìn)行信息檢索。一種數(shù)據(jù)檢索的系統(tǒng),包括術(shù)語獲取模塊用于通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;相似度計(jì)算模塊用于計(jì)算所述術(shù)語獲取模塊提取的領(lǐng)域術(shù)語之間的相似度;聚類模塊用于將所述相似度計(jì)算模塊判定的相似的領(lǐng)域術(shù)語,以限定分支的方式逐層聚類,建立索引列表;存儲模塊用于存儲所述索引列表;信息檢索模塊用于利用索引列表進(jìn)行信息檢索。一種數(shù)據(jù);險(xiǎn)索的方法,包括以下步驟通過逐層聚類的方式,建立索引列表;存儲所述索引列表;信息檢索模塊利用索引列表進(jìn)行信息檢索。一種數(shù)據(jù)檢索的系統(tǒng),包括聚類建立索引列表模塊用于通過逐層聚類的方式,建立索引列表;存儲模塊用于存儲所述索引列表;信息檢索模塊用于利用索引列表進(jìn)行信息檢索。本發(fā)明實(shí)施例提供的數(shù)據(jù)檢索的方法、系統(tǒng),在逐層聚類時,通過限定分支的形式,限定了每個節(jié)點(diǎn)的子(父)節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子(父)節(jié)點(diǎn)的問題,可以生成準(zhǔn)確性和完整性較高的,可以作為列表索引的樹形結(jié)構(gòu),進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。圖1為本發(fā)明方法實(shí)施例一的流程圖2為本發(fā)明方法實(shí)施例二從電子文檔中提取領(lǐng)域術(shù)語的步驟流程圖;圖3為本發(fā)明方法實(shí)施例二計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)系的步驟流程圖;圖4為本發(fā)明方法實(shí)施例二將有關(guān)系的領(lǐng)域術(shù)語以限定分支的方式逐層聚類的步驟流程圖;圖5為本發(fā)明方法實(shí)施例二信息檢索模塊利用索引列表進(jìn)行信息檢索的步驟流程圖6為用先驗(yàn)方法評價(jià)本發(fā)明的結(jié)果;圖7為用后驗(yàn)方法評價(jià)本發(fā)明的結(jié)果;圖8為本發(fā)明系統(tǒng)實(shí)施例一的結(jié)構(gòu)圖9為本發(fā)明系統(tǒng)實(shí)施例二的結(jié)構(gòu)圖IO為本發(fā)明另一種方法的實(shí)施例的流程圖11為本發(fā)明另一種方法的實(shí)施例中,步驟S903的流程圖12為本發(fā)明另一種系統(tǒng)的實(shí)施例的結(jié)構(gòu)圖。具體實(shí)施例方式本發(fā)明實(shí)施例主要用于從海量的專業(yè)電子文檔中查找出有用的關(guān)^t詞語,并將這些關(guān)鍵詞語進(jìn)行甄別和分類,建立起一套對專業(yè)電子文檔進(jìn)行檢索的索引列表,進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。下面結(jié)合附圖對本發(fā)明實(shí)施例數(shù)據(jù)4企索的方法和系統(tǒng)進(jìn)行詳細(xì)描述。一方面,本發(fā)明方法的第一個實(shí)施例,如圖1所示,包括以下步驟5101、通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中^是取領(lǐng)域術(shù)語。這里所說的電子文檔主要是指專業(yè)論文。根據(jù)以往的經(jīng)-瞼,發(fā)明人發(fā)現(xiàn),在專業(yè)論文中檢索領(lǐng)域術(shù)語,其領(lǐng)域術(shù)語與專業(yè)論文的相關(guān)性一般很強(qiáng),這樣有利于提高查準(zhǔn)率(查準(zhǔn)率公式p=^,其中,A代表查到的領(lǐng)域術(shù)語;B代爿表所有相關(guān)的領(lǐng)域術(shù)語)和查全率(查全率公式r=1^,其中,A代表查到召的領(lǐng)域術(shù)語;B代表所有相關(guān)的領(lǐng)域術(shù)語)。5102、計(jì)算提取的領(lǐng)域術(shù)語之間的相似度。在領(lǐng)域術(shù)語提取完畢之后,需要計(jì)算提取的領(lǐng)域術(shù)語之間的相似度,這是為了將語義相關(guān)或領(lǐng)域相近的領(lǐng)域術(shù)語歸類,方便下面的操作。S103、將意義相同的領(lǐng)域術(shù)語合并。本步驟主要是為了使得到的領(lǐng)域術(shù)語更加精煉,去掉同義詞,尤其是那些放在括號中的解釋性詞語。這樣有利于提高步驟S104構(gòu)建樹形結(jié)構(gòu)的效率。列表。此步驟是本實(shí)施例與現(xiàn)有基于概念聚類的本體學(xué)習(xí)方法的主要區(qū)別,在自頂向下(從根節(jié)點(diǎn)到末端節(jié)點(diǎn)的方向)建立樹形結(jié)構(gòu)時,每個節(jié)點(diǎn)不是將所有與自身相似度高的領(lǐng)域術(shù)語都選為自身的子節(jié)點(diǎn),而是事先確定了每個節(jié)點(diǎn)可以選定的子節(jié)點(diǎn)數(shù)量。在本實(shí)施例中具體采用每個節(jié)點(diǎn)定額配置子節(jié)點(diǎn)數(shù)量的方法。這樣可以保證建立的樹形結(jié)構(gòu)更為均衡。步驟S103和S104沒有必然的先后順序。由于現(xiàn)有基于概念聚類的本體學(xué)習(xí)方法在逐層聚類時,無論是自頂向下還是自底向上的方式,在每一層的同級節(jié)點(diǎn)之間都是按照一定順序分先后一個一個選取自身的子(父)節(jié)點(diǎn)的,但在選取子(父)節(jié)點(diǎn)時,其限制條件只有一個,就是選做子(父)節(jié)點(diǎn)的領(lǐng)域術(shù)語與該同級節(jié)點(diǎn)之間的相似度必須滿足一定條件(比如相似度值超過設(shè)定的某種閾值),這樣帶來的結(jié)果就是只要滿足相似度的條件,該同級節(jié)點(diǎn)就可將這樣的領(lǐng)域術(shù)語作為自身的子(父)節(jié)點(diǎn)。但是,同級節(jié)點(diǎn)之間,尤其是同一個父節(jié)點(diǎn)下的同級節(jié)點(diǎn)之間往往也具有一定的相關(guān)性,它們在選取子(父)節(jié)點(diǎn)時,不可避免的在選取范圍上會存在一定的交叉,但是,按照順序先選取子(父)節(jié)點(diǎn)的同級節(jié)點(diǎn)會將同時與本級中多個節(jié)點(diǎn)都相似的領(lǐng)域術(shù)語選定,使后選取子(父)節(jié)點(diǎn)的同級節(jié)點(diǎn)失去選取機(jī)會,這就會造成同級節(jié)點(diǎn)之間子(父)節(jié)點(diǎn)數(shù)目的不均衡,前面的子(父)節(jié)點(diǎn)數(shù)16目多,后面的子(父)節(jié)點(diǎn)數(shù)目少,這樣直接的后果就是本體學(xué)習(xí)的樹形結(jié)構(gòu)傾斜,而統(tǒng)計(jì)結(jié)果是查準(zhǔn)率不高。5105、存儲所述索引列表。索引列表以owl語言描述的形式保存到磁盤。其中概念用owl:Class描述,上下^f立關(guān)系用〈rdfs:subClassOf〉描述,同義關(guān)系用〈owl:equivalentClass〉描述。例如,多入多出和MIMO是同義關(guān)系,無線通信和多入多出是上下位關(guān)系,用owl語言描述如下<owl:Classrdf:about二"http:〃xuhui/弁多入多出"><rdfs:subClassO&〈owl:Classrdf:about一'http:〃xuhui/弁無纟戔通信7></rdfs:subClassOf><owl:equivalentClass><owl:Classrdf:about="http:〃xuhui/麵MO7>用owl語言描述的本體可以直接通過常見的本體編輯工具如Prot6g6等進(jìn)行編輯,便于領(lǐng)域?qū)<疫M(jìn)行二次加工和增刪改等4喿作,而且可以很方便地添加到基于本體的應(yīng)用軟件中,增強(qiáng)了本發(fā)明的可用性和可擴(kuò)展性。5106、信息檢索模塊利用索引列表進(jìn)行信息檢索,進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性?,F(xiàn)有信息檢索方法,需要在每一層聚類時都選取一個上位詞,計(jì)算量較大。本實(shí)施例采用自頂向下逐層聚類的方式,只在初始時選:EF又一個根節(jié)點(diǎn)作為初始父節(jié)點(diǎn),之后自動將每個子節(jié)點(diǎn)作為新的父節(jié)點(diǎn)進(jìn)行操作,相對于現(xiàn)有的層次聚類的方式,每層聚類完成之后,不需要再選取上位詞,節(jié)省了工作量;在自頂向下逐層聚類時,通過限定分支的形式,限定了每個節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子節(jié)點(diǎn)的問題,生成一個優(yōu)化了的樹形結(jié)構(gòu),分類結(jié)果合理,提高了該樹形結(jié)構(gòu)作為列17表索引查找的準(zhǔn)確性和完整性,進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。圖2、3、4、5所示,為本發(fā)明方法的第二個實(shí)施例。其中,圖2所示為該實(shí)施例從電子文檔中提取領(lǐng)域術(shù)語的過程,包括以下步驟5201、從數(shù)字化圖書館的電子文檔中提取學(xué)術(shù)論文的標(biāo)題、摘要和關(guān)鍵詞。通過現(xiàn)有頁面包裝器功能模塊根據(jù)html標(biāo)簽來抽取數(shù)字化圖書館的學(xué)術(shù)論文頁面中的標(biāo)題、摘要和關(guān)鍵詞信息?,F(xiàn)有本體學(xué)習(xí)方法一般從通用電子文檔中提取領(lǐng)域術(shù)語,領(lǐng)域術(shù)語與其所在的電子文檔的關(guān)聯(lián)性往往不是很大,在完成本體學(xué)習(xí),構(gòu)成樹形結(jié)構(gòu)后,建立的列表索引查全率和查準(zhǔn)率會受到影響。本實(shí)施例從專業(yè)的數(shù)字化圖書館的電子文檔中選取領(lǐng)域術(shù)語,由于數(shù)字化圖書館本身收錄的文檔內(nèi)容較為嚴(yán)謹(jǐn),對特定領(lǐng)域的指示性更強(qiáng),獲取精度高,可以減少歧義和語法的變化,具有更好的實(shí)用性。將數(shù)字化圖書館作為語料庫,構(gòu)建語料庫相對簡單,降低了建庫成本。5202、對所述提取的標(biāo)題、摘要和關(guān)鍵詞進(jìn)行解析,得到名詞短語。解析可以通過現(xiàn)有的詞性標(biāo)注和淺層句法解析的方式實(shí)現(xiàn)。由于數(shù)字化圖書館中的論文形式較為固定,通過統(tǒng)計(jì)可以得出在整篇論文中,標(biāo)題、摘要和關(guān)鍵字中的詞語是實(shí)用價(jià)值最高的,所以只針對標(biāo)題、摘要和關(guān)鍵詞進(jìn)行解析,可以以最小的工作量獲得最高的收益。5203、事先設(shè)定停用詞表,將所述得到的名詞短語中屬于停用詞表的名詞短i吾濾除。首先利用劃分詞組的操作去掉解析得到的名詞短語中的標(biāo)點(diǎn)符號及介詞,得到一個詞組列表;然后利用已有的領(lǐng)域本體(如WordNet)或分類體系(如杜威十進(jìn)制分類法,中國圖書分類法等),添加上層術(shù)語;最后利用事先設(shè)定的停用詞表,將所述得到的名詞短語中屬于停用詞表的名詞短語濾除。因?yàn)橛行┟~短語是使用者不關(guān)心的,所以我們事先設(shè)定一個停用詞表,將歸納的一些可能出現(xiàn)的無用的詞列在其中,一旦提取出這樣的詞直接刪除,這樣可以減少后續(xù)處理的任務(wù)量。5204、將濾除后剩下的名詞短語歸納到已有的領(lǐng)域本體或分類體系之下。5205、設(shè)定詞頻閾值和長度閾值。詞頻閾值和長度閾值的設(shè)定可以憑經(jīng)驗(yàn),也可以從語料庫中學(xué)習(xí)得到,一般來說,詞頻閾值大于等于2,長度閾值視詞語的語種而定,如果是中文詞語,長度閾值設(shè)為2個字符長度,如果是英文詞語,長度閾值設(shè)為3個字符長度。這兩個閾值的設(shè)定并不絕對,比如說,對于英文詞語的長度閾值的取值就可以根據(jù)英文的寫法特點(diǎn)進(jìn)行修正如果是縮寫,則長度>=3,否則長度>=5。諸如此類等等。5206、如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率高于所述詞頻閾值,將該名詞短語選定為領(lǐng)域術(shù)語,加入領(lǐng)域術(shù)語集合。5207、如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率不高于所述詞頻閾值,判斷所述名詞短語的長度是否長于長度闊值。5208、如果所述名詞短語的長度長于長度閾值,將所述名詞短語拆分成數(shù)個更簡短的名詞短語,返回步驟S206和S207再進(jìn)行判斷。由于先前得到的名詞短語有可能是幾個詞組成的詞組,因?yàn)樘L所以出現(xiàn)的頻率低,如果將其拆分成較短的詞有可能提高其中一些詞與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,這樣可以保證查找領(lǐng)域術(shù)語的準(zhǔn)確性和完整性。S209、如果所述名詞短語的長度等于或短于長度閾值,刪除所述名詞短語。圖3所示為本發(fā)明方法的第二實(shí)施例中,計(jì)算提取的領(lǐng)域術(shù)語之間的相似度的過程,主要是利用共現(xiàn)分析和術(shù)語出現(xiàn)的位置來定義概念間關(guān)聯(lián)度,利用關(guān)聯(lián)規(guī)則移除掉非分類關(guān)系,通過句法模式來發(fā)現(xiàn)兄弟關(guān)系,然后綜合上述結(jié)果,得到一個一致連貫的初始相似度矩陣。該過程包括以下步驟S301、計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值。所述計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值的步驟是通過計(jì)算關(guān)聯(lián)關(guān)系矩陣得到的,本步驟主要是對在關(guān)鍵字和摘要中出現(xiàn)的領(lǐng)域術(shù)語進(jìn)行關(guān)聯(lián)關(guān)系的評價(jià)。所述關(guān)聯(lián)關(guān)系矩陣為^—(rm,j)L,,其中,rr代表關(guān)聯(lián)關(guān)系;ti、tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);A:=lv.,,(rr,ti,tj)=-,,、其中minA:=1,…,A:=1,…,S,S、doc&。edoc,這其中,dock表示第k個文檔;p表示總的文檔個數(shù);a表示初始權(quán)重;b表示距離衰減因子;D表示術(shù)語之間的距離。下面給出各參數(shù)的優(yōu)選值在處理關(guān)4定詞時,取a-O.25,處理摘要時,取a-O.1;b通取0.7;D取正整數(shù)。術(shù)語間的相關(guān)度與術(shù)語共現(xiàn)的頻率成正比,與術(shù)語間的距離成反比。關(guān)聯(lián)關(guān)系矩陣在后續(xù)的計(jì)算中,會被逐步精煉化,最終精煉成上下位關(guān)系。S302、計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值。20本步驟主要針對在論文的標(biāo)題中提取領(lǐng)域術(shù)語的情況。所述計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值的步驟是通過計(jì)算非分類關(guān)系矩陣得到的,所述非分類關(guān)系矩陣為/^^0",i,/j)L柚,其中,rn代表非分類關(guān)系;ti、tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);"山f(m,ti,tj)二l,術(shù)語i,j之間是非分類關(guān)系這條規(guī)則的確定基于以下統(tǒng)計(jì)結(jié)果論文的作者在寫論文標(biāo)題時,遵循最精煉原則;同時出現(xiàn)上位詞和下位詞,屬于語義重復(fù),因此在標(biāo)題中往往不會出現(xiàn)。進(jìn)一步的,研究發(fā)現(xiàn)僅憑這一點(diǎn)不足以確定非分類關(guān)系,需要再結(jié)合關(guān)聯(lián)關(guān)系矩陣,細(xì)化標(biāo)題的作用。S303、計(jì)算提取的領(lǐng)域術(shù)語之間的兄弟關(guān)系值。本步驟主要針對在論文的摘要中提取領(lǐng)域術(shù)語的情況。所述計(jì)算提取的領(lǐng)域術(shù)語之間的兄弟關(guān)系值的步驟是通過計(jì)算兄弟關(guān)系矩陣得到的,所述兄弟關(guān)系矩陣為^^1(A,^。)Lw,其中,rb代表兄弟關(guān)系;t"tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);卄^f(rb,t,,t」)^,術(shù)語i,j之間是兄弟關(guān)系對于術(shù)語tl,t2,若tl,t2同時出現(xiàn),并且以大于Pb的概率出現(xiàn)以下任意一種句法才莫式"tl,t2","tlandt2"或者"tl和t2",則認(rèn)為術(shù)語tl,t2是兄弟關(guān)系。在實(shí)驗(yàn)中,目前Pb取值為O。兄弟關(guān)系矩陣只是為了輔助計(jì)算相似度矩陣的中間結(jié)果。兄弟關(guān)系在最終學(xué)習(xí)到的領(lǐng)域本體中不會顯式出現(xiàn),但在本體樹的結(jié)構(gòu)中隱含了兄弟關(guān)系。其中,(rn,ti,tj)=O,術(shù)語i,j之間不是非分類關(guān)系(rb,tj,tj)=0,術(shù)語i,j之間不是兄弟關(guān)系S304、通過關(guān)聯(lián)關(guān)系值、非分類關(guān)系值和兄弟關(guān)系值,計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值。所述計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值的步驟是通過計(jì)算相似度矩陣得到的,所述相似度矩陣為K,=|5/附//"〃0<^。)^曙,其中,similarity(ti,t》表示進(jìn)行比舉交的兩個領(lǐng)域術(shù)語間的相似度;m代表矩陣的行列數(shù);其中,當(dāng)(m,ti,tj)=0=(rr,ti,tj)+maxwb,(rb,tj,tj),時4=1"..^min+maxsimilarit)(ti,tj)6,^mm乂乂(m,ti,tj):l時similaritj(ti,tj)=at—rr,ti,tj)+maxwb拳沐ti,tj),min這其中,Wb表示兄弟關(guān)系的權(quán)重因子;ado"表示第k個摘要文檔;q表示摘要文檔總的個數(shù);tdo"表示第k個標(biāo)題文檔;s表示標(biāo)題文檔總的個數(shù);wt表示標(biāo)題中共現(xiàn)的正面貢獻(xiàn)因子;at表示標(biāo)題中共現(xiàn)的負(fù)面衰減因子。下面給出各參數(shù)的優(yōu)選值Wb取O.2;wt取O.1;at取0.8。相似度矩陣由上述三個矩陣的元素加權(quán)組合而成。當(dāng)術(shù)語tl,t2是非分類關(guān)系時,降低術(shù)語ti,tj的相似度,衰減因子為at;當(dāng)ti,tj不是非分類關(guān)系時,若在論文的標(biāo)題中共同出現(xiàn),則提高術(shù)語ti,tj的相似度,至少提高Wt。5305、以句法模式對提取的領(lǐng)域術(shù)語進(jìn)行合并條件判斷。5306、設(shè)定相似度閾值,對于經(jīng)句法模式判斷,符合合并條件的領(lǐng)域術(shù)語,如果這些領(lǐng)域術(shù)語之間的相似度值高于相似度閾值,用其中一個領(lǐng)域術(shù)語代替與其相似度高于相似度閾值的所有提取的領(lǐng)域術(shù)語。本步驟主要是用來合并同義詞,對術(shù)語進(jìn)行精煉,有助于提高后續(xù)分類關(guān)系學(xué)習(xí)的性能。如果在語料庫中出現(xiàn)模式"tl(t2)",并且術(shù)語tl,t2的相似度similarity(tl,t2)大于相似度閾值,那么術(shù)語tl,t2是同義關(guān)系。統(tǒng)計(jì)發(fā)現(xiàn)句法模式對同義關(guān)系的學(xué)習(xí)有很高的精度,如果在步驟S301之前直接利用句法模式對同義關(guān)系進(jìn)行的判定,不考慮相似度閾值,可以提高程序的執(zhí)行效率。如果對同義關(guān)系學(xué)習(xí)的性能要求很高,則可以在概念聚類之后再進(jìn)行同義關(guān)系的判定。從嚴(yán)格的語言學(xué)角度來看,不存在兩個完全同義的術(shù)語。但是對具體的應(yīng)用領(lǐng)域而言存在多個術(shù)語共同指代同一概念的現(xiàn)象,最常見的就是術(shù)語和術(shù)語的縮寫(例如,VLSI,VeryLargeScaleIntegratedCircuit)。還有就是一個相克念有多種語言的版本,比如互耳關(guān)網(wǎng)和Internet。本實(shí)施例中,步驟S301與步驟S302為一個整體步驟,該整體步驟與步驟S303之間沒有必然的先后順序;步驟S305與步驟S306為一個整體步驟,該整體步驟與步驟S301至S304之間沒有必然的先后順序。圖4所示為本發(fā)明方法的第二實(shí)施例中,將相似的領(lǐng)域術(shù)語以自頂向下限定分支的方式逐層聚類的過程,包括以下步驟S401、在相似的領(lǐng)域術(shù)語中,選擇設(shè)立根節(jié)點(diǎn),作為逐層聚類的起始父節(jié)點(diǎn)。由于本實(shí)施例是通過自頂向下的方式實(shí)現(xiàn)的逐層聚類,所以先要選擇建立根節(jié)點(diǎn),本實(shí)施例中根節(jié)點(diǎn)在選出的相似的領(lǐng)域術(shù)語中產(chǎn)生,根節(jié)點(diǎn)選擇方式可以是用戶指定,也可以是計(jì)算機(jī)自動選取。如果選擇計(jì)算機(jī)自動選取的方式,可以隨積4由耳又,也可以按照一定算法抽取根節(jié)點(diǎn),下面給出一個優(yōu)選算法rao/(/)=max"《+a2"浙+a3"o/,,)其中,tfi表示領(lǐng)域術(shù)語i出現(xiàn)的頻率,idfi表示出現(xiàn)領(lǐng)域術(shù)語i的文檔個數(shù),cofreqi表示與領(lǐng)域術(shù)語i共現(xiàn)的其它領(lǐng)域術(shù)語個數(shù),表示各自相應(yīng)的加權(quán)因子,優(yōu)選取值依次為0.1,0.1,0.3。n表示總的領(lǐng)域術(shù)語的個^L選擇總得分最高的領(lǐng)域術(shù)語作為根節(jié)點(diǎn)。本方法可以保證那些最重要,最常出現(xiàn),與最多數(shù)領(lǐng)域術(shù)語相關(guān)的領(lǐng)域術(shù)語成為根節(jié)點(diǎn)。5402、設(shè)立判別閾值,將與父節(jié)點(diǎn)接近度值高于判別閾值的領(lǐng)域術(shù)語選為所述父節(jié)點(diǎn)的候選子節(jié)點(diǎn)。由于是父節(jié)點(diǎn)的候選子節(jié)點(diǎn),如果將判別閾值定得很高,會造成有很多領(lǐng)域術(shù)語不能作為候選子節(jié)點(diǎn)歸于父節(jié)點(diǎn),從而使這些領(lǐng)域術(shù)語游離于樹形結(jié)構(gòu)之外,不利于體系的建立,所以本實(shí)施例將判別閾值定為0。5403、設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù),選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該父節(jié)點(diǎn)的子節(jié)點(diǎn)。本實(shí)施例中,所述設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù)的方法為(1)設(shè)定接近閾值(本實(shí)施例推薦的優(yōu)選值為0.8),將與父節(jié)點(diǎn)的相似度值高于接近閾值的領(lǐng)域術(shù)語的個數(shù),作為所述父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值;(2)按照子節(jié)點(diǎn)個數(shù)確定公式確定父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)。本實(shí)施例中,所述子節(jié)點(diǎn)個數(shù)確定公式為24'=9,初始8>=9二B+1,初始2〈B〈9二B+2,初始B《2.=0,Cf沒有候選子概念其中,B為父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù);初始B為父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值;Cfather表示父節(jié)點(diǎn)。之后,選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該父節(jié)點(diǎn)的子節(jié)其中,Cfr表示父節(jié)點(diǎn);Ci表示候選子節(jié)點(diǎn);b,b2表示各自相應(yīng)的權(quán)重因子;struct(crath,Ci)表示給定概念與候選子節(jié)點(diǎn)的結(jié)構(gòu)相似性,similarity(cfather,表示給定概念與候選子節(jié)點(diǎn)的相似度。本步驟(S403)較為抽象,為了便于理解,下面針對本步驟舉例進(jìn)行說明。設(shè)接近閾值O.8;候選子節(jié)點(diǎn)共8個,其與父節(jié)點(diǎn)的相似度值分別為A為0.91、B為0.81、C為0.71、D為0.61、E為0.51、F為0.41、G為0.31、H為0.21;8個候選子節(jié)點(diǎn)與父節(jié)點(diǎn)的接近度值(按上面的接近度值計(jì)算公式計(jì)算)分別為A為0.8、B為0.6、C為0.7、D為0.6、E為0.5、F為0.4、G為0.3、H為0.2;那么,根據(jù)步驟(l),將與父節(jié)點(diǎn)的相似度值高于接近閾值的領(lǐng)域術(shù)語的個數(shù),作為所述父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值。與父節(jié)點(diǎn)的相似度值高于接近閾值的領(lǐng)域術(shù)語的個數(shù)為2(AO.91大于0.8;BO.81大于0.8),所以所述父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值為2。所述接近度值的計(jì)算公式為:c,)+V(ait力+a2喊+a3根據(jù)步驟(2),由于初始值為2,屬于子節(jié)點(diǎn)個數(shù)確定公式的第三種情況,所以取子節(jié)點(diǎn)個H為2+2=4。最后,選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該節(jié)點(diǎn)的子節(jié)點(diǎn)。接近度最高的四個候選子節(jié)點(diǎn)分別為A為O.8、C為O.7、B為0.6、D為0.6。這四個候選子節(jié)點(diǎn)即為該節(jié)點(diǎn)的子節(jié)點(diǎn)。5404、將父節(jié)點(diǎn)加入最終的概念集合,并記錄學(xué)習(xí)到的分類關(guān)系。5405、父節(jié)點(diǎn)的子節(jié)點(diǎn)重復(fù)父節(jié)點(diǎn)的過程,選取自身的子節(jié)點(diǎn)。在實(shí)際操作中,可以利用計(jì)算機(jī)先建立一個隊(duì)列,按照先進(jìn)先出原則組織該隊(duì)列。隊(duì)列建成之后,在隊(duì)列尾部按照自頂向下的順序依次加入需要建立子節(jié)點(diǎn)的父節(jié)點(diǎn)。每從隊(duì)列中提取一個父節(jié)點(diǎn)進(jìn)行查找子節(jié)點(diǎn)的搡作,就把該父節(jié)點(diǎn)刪除,直至隊(duì)列為空。圖5所示為本發(fā)明方法的第二實(shí)施例中,信息檢索模塊利用索引列表進(jìn)行信息檢索的步驟,包括以下步驟5501、接收用戶查詢請求。通過用戶界面接收用戶輸入的查詢請求。5502、提取用戶查詢請求的關(guān)鍵詞。通過4全索本體中術(shù)語和概念來提取關(guān)4建詞。如果本體中的術(shù)語或概念出現(xiàn)在用戶輸入的檢索短語或自然語句中,則該術(shù)語或概念被確定為待檢索的關(guān)鍵詞。最后得到一個關(guān)鍵詞的列表。5503、擴(kuò)充關(guān)鍵詞列表。通過^r索本體中^f既念的同義詞和下位詞來擴(kuò)充關(guān)4建詞列表。因?yàn)楸倔w中定義了同義關(guān)系和上下位關(guān)系,所以很容易地就可以檢索到關(guān)^l定詞所對應(yīng)的同義詞和下位詞,以此來擴(kuò)大檢索范圍,提高信息檢索模塊的查全率和查準(zhǔn)率。5504、根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索。根據(jù)關(guān)鍵詞列表對文檔進(jìn)行檢索,得到包含查詢詞的所有文檔,同時記錄每個文檔中包含哪些關(guān)鍵詞以及每個關(guān)鍵詞在文檔中出現(xiàn)的頻率。5505、對;險(xiǎn)索到的文檔進(jìn)行排序。把檢索到的文檔按權(quán)值大小排序。文檔的權(quán)值由包含的關(guān)鍵詞個數(shù)以及關(guān)鍵詞出現(xiàn)的頻率決定。計(jì)算公式如下weight(d)=其中,weight(d)表示文檔d的權(quán)值,戶^^,力表示關(guān)鍵詞k在文檔d中出現(xiàn)的次數(shù)。5506、向用戶返回4企索結(jié)果。通過用戶界面把;f全索到的文檔按順序返回給用戶。本實(shí)施例相對于現(xiàn)有的本體學(xué)習(xí)方法可以取得更好的本體學(xué)習(xí)效果,下面給出兩個實(shí)際的效果對比實(shí)例進(jìn)行說明效果對比實(shí)例一1.數(shù)據(jù)集如表1所示,本實(shí)驗(yàn)數(shù)據(jù)集是從EI檢索的電信領(lǐng)域的從2000年到2007年共46Q48篇英文論文。電信領(lǐng)域?qū)W術(shù)論文時間(年)20002001200220032004200520062007總計(jì)英文(篇)4385438050415480663880707245473646048表12.評價(jià)標(biāo)準(zhǔn)27本體學(xué)習(xí)的評價(jià)標(biāo)準(zhǔn)包括先驗(yàn)和后驗(yàn)兩大類。本實(shí)驗(yàn)采用先驗(yàn)方法。所謂先驗(yàn)方法即,把學(xué)習(xí)本體和標(biāo)準(zhǔn)本體進(jìn)行比較。逐層計(jì)算扭克念匹配和分類關(guān)系匹配的查準(zhǔn)率,查全率。內(nèi)容先驗(yàn)方法采用由領(lǐng)域?qū)<沂孪葮?gòu)建的標(biāo)準(zhǔn)本體。把學(xué)習(xí)本體和標(biāo)準(zhǔn)本體進(jìn)行比較,并對學(xué)習(xí)本體進(jìn)行評價(jià)。度量指標(biāo)/實(shí)施細(xì)則把學(xué)習(xí)本體和標(biāo)準(zhǔn)本體逐層進(jìn)行比較。分別計(jì)算每一層概念匹配和分類關(guān)系匹配的數(shù)量,再根據(jù)公式算出每一層的查準(zhǔn)率,查全率,最后計(jì)算總的平均值作為本體學(xué)習(xí)的查準(zhǔn)率,查全率。才既念匹配7>式<formula>formulaseeoriginaldocumentpage28</formula>分類關(guān)系匹配/>式<formula>formulaseeoriginaldocumentpage28</formula>3.程序運(yùn)行結(jié)果學(xué)習(xí)到8個本體,分別是從2000年到2007年的電信的英文本體,用先驗(yàn)方法來評《介。其中預(yù)先給定候選術(shù)語(為了減少術(shù)語獲取對分類關(guān)系學(xué)習(xí)的影響,因此預(yù)先給定候選術(shù)語)。4.評價(jià)的結(jié)果評價(jià)結(jié)果中包括"候選術(shù)語",由于是事先給定,所以精度和召回率為100%。該項(xiàng)不計(jì)入統(tǒng)計(jì)結(jié)果。"概念"是本體圖中的節(jié)點(diǎn)。"分類"是本體圖中的邊。而"本體"是兩者的平均。用先驗(yàn)方法評價(jià)的結(jié)果見圖6。結(jié)果的比較本體學(xué)習(xí)的結(jié)果之間往往沒有直接可比性,因?yàn)楸倔w學(xué)習(xí)的結(jié)果評價(jià)依賴于語料庫,本體的規(guī)模,評價(jià)標(biāo)準(zhǔn)以及具體的度量指標(biāo)(實(shí)施細(xì)則)。但考慮到橫向比較的參考價(jià)值。因此作了結(jié)果的比較,見表2。其中本發(fā)明的Best結(jié)果為Fl值最高年份2004的結(jié)果,而本發(fā)明的average結(jié)果為2000-2007年結(jié)果的評價(jià)值;對Tourism和Finance,選擇最優(yōu)方法FCA的結(jié)果作為本發(fā)明的比對結(jié)果。參考數(shù)據(jù)來自2005年JournalofArtificialIntelligenceResearch上發(fā)表的一篇論文"LearningConceptHierarchiesfromTextCorporausingFormalConceptAnalysis"[Cimianoetal,2005],利用形式?jīng)_既念分沖斤的才支術(shù)從文本中學(xué)習(xí)分類關(guān)系。<table>tableseeoriginaldocumentpage29</column></row><table>表2從結(jié)果的比較我們可以看出雖然學(xué)習(xí)的本體不同,但本發(fā)明實(shí)施例本體學(xué)習(xí)的各項(xiàng)數(shù)據(jù)要優(yōu)于現(xiàn)有本體學(xué)習(xí)方法。效果對比實(shí)例二1.數(shù)據(jù)集本實(shí)驗(yàn)數(shù)據(jù)集是從萬方數(shù)字化圖書館資源收錄的電信領(lǐng)域的2002年和2007年共3130篇中文i侖文,以及從EI檢索的電信領(lǐng)域的2000年和2007年共9777篇英文論文。數(shù)據(jù)集規(guī)模見表3:<table>tableseeoriginaldocumentpage30</column></row><table>表32.評價(jià)標(biāo)準(zhǔn)本體學(xué)習(xí)的評價(jià)標(biāo)準(zhǔn)包括先驗(yàn)和后驗(yàn)兩大類。本實(shí)驗(yàn)采用后驗(yàn)方法。所謂后驗(yàn)方法即,領(lǐng)域?qū)<覍Ρ倔w中每一層的概念和分類關(guān)系分別進(jìn)行評價(jià)。內(nèi)容后驗(yàn)方法要求領(lǐng)域?qū)<沂潞髮W(xué)習(xí)本體的每一個概念進(jìn)行評價(jià)。度量指標(biāo)/實(shí)施細(xì)則領(lǐng)域?qū)<覍Ρ倔w中每一層的概念和分類關(guān)系分別進(jìn)行評價(jià),有正確1分、近似正確0.6分、不完全錯誤0.3分和錯誤0分這四個等級,分別計(jì)算每一層得分的平均值,最后求出總的平均值作為本體學(xué)習(xí)的查準(zhǔn)率。評價(jià)標(biāo)準(zhǔn)的說明人們在實(shí)踐中發(fā)現(xiàn)采用標(biāo)準(zhǔn)本體對學(xué)習(xí)本體進(jìn)行評價(jià)可能會導(dǎo)致錯誤的結(jié)論,因?yàn)榧词箤W(xué)習(xí)本體不能反映黃金標(biāo)準(zhǔn),也不意味著學(xué)習(xí)本體是錯誤的。此外,先驗(yàn)的黃金標(biāo)準(zhǔn)方法往往難以實(shí)現(xiàn)。因此,在本體學(xué)習(xí)的評價(jià)方法中,由領(lǐng)域?qū)<疫M(jìn)行后驗(yàn)評價(jià)效果較好。3.程序運(yùn)行結(jié)果學(xué)習(xí)到4個本體,分別是2002和2007年電信的中英文本體,用后驗(yàn)方法來評價(jià)。其中候選術(shù)語也通過學(xué)習(xí)獲得。4.評價(jià)的結(jié)果用后驗(yàn)方法評價(jià)的結(jié)果見圖7。綜上所述,與完全手工構(gòu)建本體相比,本發(fā)明實(shí)施例利用自然語言處理、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)技術(shù)來自動構(gòu)建本體,不僅省時省力,而且更新及時。與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例生成的樹形結(jié)構(gòu)較好的同時保證了查準(zhǔn)率和查全率;不僅可以發(fā)現(xiàn)關(guān)系,還可以進(jìn)一步確認(rèn)關(guān)系的類型;并且無須對語料庫進(jìn)行標(biāo)注,自動完成整個本體學(xué)習(xí)過程,最大限度地減少了人的工作量。與基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)方法相比,本發(fā)明實(shí)施例選擇數(shù)字化圖書館的學(xué)術(shù)論文作為語料庫,充分利用了論文的結(jié)構(gòu)特征和語義信息。同時,因?yàn)檎撐牡臉?biāo)題、摘要、關(guān)鍵詞屬于公開信息,可以很方便地通過網(wǎng)絡(luò)等途徑獲取,使得構(gòu)建特定領(lǐng)域的語料庫的成本很低,所需的時間也很短。利用數(shù)字化圖書館中的文檔,對特定領(lǐng)域的指示性更強(qiáng),可以減少歧義和語法的變化,具有更好的實(shí)用性。本發(fā)明實(shí)施例針對現(xiàn)有本體學(xué)習(xí)方法更加適合復(fù)雜的本體學(xué)習(xí),尤其是涉及多個學(xué)習(xí)任務(wù)的本體學(xué)習(xí)。本發(fā)明實(shí)施例有效集成了多種本體學(xué)習(xí)策略基于關(guān)聯(lián)規(guī)則,過濾掉非分類關(guān)系;基于句法模式,發(fā)現(xiàn)兄弟節(jié)點(diǎn);利用概念聚類方法,學(xué)習(xí)上下位關(guān)系;基于啟發(fā)式規(guī)則,發(fā)現(xiàn)同義關(guān)系。這樣的集成策略較好的融合了各種學(xué)習(xí)的方法的優(yōu)點(diǎn),取長補(bǔ)短?,F(xiàn)有概念聚類方法中算法的可調(diào)節(jié)能力^f艮弱,不能4艮好地支持父節(jié)點(diǎn)的指定(可能會出現(xiàn)斷層現(xiàn)象),每個節(jié)點(diǎn)的聚類大小不可控制。本發(fā)明實(shí)施例可以通過調(diào)節(jié)各步驟中算法公式的參數(shù),尤其是權(quán)值來對最終結(jié)果進(jìn)行調(diào)整,控制聚類大小,算法可調(diào)節(jié)能力強(qiáng),可伸縮性強(qiáng),計(jì)算高效。本發(fā)明實(shí)施例充分利用學(xué)術(shù)論文的結(jié)構(gòu)特征(題目、摘要、關(guān)鍵字),而且針對不同的學(xué)習(xí)任務(wù)采用不同的本體學(xué)習(xí)方法,提高了本體學(xué)習(xí)的查準(zhǔn)率和查全率。針對具體的應(yīng)用而言,比如垂直搜索引擎和信息檢索,本發(fā)明實(shí)施例學(xué)習(xí)到的領(lǐng)域本體比目前已有的通用本體(如WordNet)有更多的實(shí)用Y介值。適用性強(qiáng),獨(dú)立于語言,既可以處理英文,也可以處理中文。綜上所述本發(fā)明實(shí)施例提出的方法自動構(gòu)建本體,省時省力,更新及時。查準(zhǔn)率和查全率高,具有很好的實(shí)用性和可擴(kuò)展性,并且可以處理中英文。另一方面,本發(fā)明系統(tǒng)的第一實(shí)施例,如圖8所示,包括術(shù)語獲取模塊l:用于通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;相似度計(jì)算模塊2:用于計(jì)算所述術(shù)語獲取模塊1提取的領(lǐng)域術(shù)語之間的相似度;聚類模塊3:用于將所述相似度計(jì)算模塊2判定的相似的領(lǐng)域術(shù)語,以自頂向下限定分支的方式逐層聚類,建立索引列表。存儲模塊5:用于存儲所述索引列表;信息檢索模塊6:用于利用索引列表進(jìn)行信息片企索。32還可以包括合并模塊4:用于將意義相同的領(lǐng)域術(shù)語合并。其中,合并模塊4可以位于聚類模塊3之后,也可以位于相似度計(jì)算模塊2與聚類模塊3之間。本發(fā)明實(shí)施例提供的數(shù)據(jù)檢索的系統(tǒng),在逐層聚類時,通過聚類模塊3以限定分支的形式,限定了每個節(jié)點(diǎn)的子(父)節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子(父)節(jié)點(diǎn)的問題,優(yōu)化了學(xué)習(xí)本體的樹形結(jié)構(gòu),提高了該樹形結(jié)構(gòu)作為列表索引查找的準(zhǔn)確性和完整性,進(jìn)而提高數(shù)據(jù)^r索的準(zhǔn)確性和完整性。。本發(fā)明系統(tǒng)的第二實(shí)施例,如圖9所示,包括術(shù)語獲取模塊l:用于通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語。相似度計(jì)算模塊2:用于計(jì)算所述術(shù)語獲取模塊1提取的領(lǐng)域術(shù)語之間的相似度。聚類模塊3:用于將所述相似度計(jì)算模塊2判定的相似的領(lǐng)域術(shù)語,以自頂向下限定分支的方式逐層聚類,建立索引列表。合并模塊4:用于將意義相同的領(lǐng)域術(shù)語合并。存儲模塊5:用于存儲所述索引列表;信息檢索模塊6:用于利用索引列表進(jìn)行信息檢索。其中,信息檢索模塊6包括查詢請求接收子模塊61:用于接收用戶查詢請求;關(guān)鍵詞提取子模塊62:用于提取用戶查詢請求的關(guān)鍵詞;列表擴(kuò)充子模塊63:用于擴(kuò)充關(guān)鍵詞列表;索引列表檢索子模塊64:用于根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索;33排序子模塊65:用于對檢索到的文檔進(jìn)行排序;檢索結(jié)果返回子模塊66:用于向用戶返回檢索結(jié)果。進(jìn)一步的,所述術(shù)語獲取模塊l包括提取子模塊11:用于獲取電子文檔,并從所述電子文檔中提取學(xué)術(shù)論文的標(biāo)題、摘要和關(guān)鍵詞。解析子模塊12:用于對所述提取子模塊ll提取的標(biāo)題、摘要和關(guān)鍵詞進(jìn)行解析,得到名詞短語。濾除子模塊13:用于事先設(shè)定停用詞表,將所述解析子模塊12得到的名詞短語中屬于停用詞表的名詞短語濾除。歸納子模塊14:用于將所述濾除子模塊13濾除后剩下的名詞短語歸納到已有的領(lǐng)域本體或分類體系之下。設(shè)定子模塊15:用于設(shè)定詞頻閾值和長度閾值。判斷子模塊16:用于判斷歸納子模塊14歸納的名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,是否高于所述設(shè)定子模塊15設(shè)定的詞頻閾值。如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率高于所述詞頻閾值,將該名詞短語選定為領(lǐng)域術(shù)語,加入領(lǐng)域術(shù)語集合。如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率不高于所述詞頻閾值,判斷所述名詞短語的長度是否長于所述設(shè)定子模塊15設(shè)定的長度閾值,如果所述名詞短語的長度長于長度閾值,將所述名詞短語拆分,將拆分得到的新名詞短語同已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,與詞頻閾值比較;如果所述名詞短語的長度等于或短于長度閾值,刪除所述名詞短語。所述相似度計(jì)算模塊2包括關(guān)聯(lián)關(guān)系計(jì)算子模塊21:用于計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值。非分類關(guān)系計(jì)算子模塊22:用于計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值。兄弟關(guān)系計(jì)算子模塊23:用于計(jì)算提取的領(lǐng)域術(shù)語之間的兄弟關(guān)系值。相似矩陣計(jì)算子模塊24:用于通過關(guān)聯(lián)關(guān)系計(jì)算子模塊21得到的關(guān)聯(lián)關(guān)系值、非分類關(guān)系計(jì)算子模塊22得到的非分類關(guān)系值和兄弟關(guān)系計(jì)算子模塊23得到的兄弟關(guān)系值,計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值。所述聚類模塊3包括根節(jié)點(diǎn)設(shè)立子模塊31:用于在相似的領(lǐng)域術(shù)語中,選擇設(shè)立根節(jié)點(diǎn),作為逐層聚類的起始父節(jié)點(diǎn)。子節(jié)點(diǎn)選取子模塊32:用于自頂向下為每個父節(jié)點(diǎn)選取子節(jié)點(diǎn),再以所述子節(jié)點(diǎn)為新的父節(jié)點(diǎn),為其選取子節(jié)點(diǎn)。所述子節(jié)點(diǎn)選取子模塊32包括判別閾值設(shè)立分模塊321:用于設(shè)立判別閾值,將與父節(jié)點(diǎn)相似度值高于判別閾值的領(lǐng)域術(shù)語,選為所述父節(jié)點(diǎn)的候選子節(jié)點(diǎn)。最大子節(jié)點(diǎn)數(shù)設(shè)定分模塊322:用于設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù),選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該節(jié)點(diǎn)的子節(jié)點(diǎn)。記錄分模塊323:用于將父節(jié)點(diǎn)加入最終的概念集合,并記錄學(xué)習(xí)到的分類關(guān)系。循環(huán)分模塊324:用于使父節(jié)點(diǎn)的子節(jié)點(diǎn)重復(fù)父節(jié)點(diǎn)的過程,選取自身的子節(jié)點(diǎn)。所述合并模塊4包括句法模式學(xué)習(xí)子模塊41:以句法模式對提取的領(lǐng)域術(shù)語進(jìn)行合并條件判斷;同義合并子模塊42:用于設(shè)定相似度闊值,對于經(jīng)句法模式判斷,符合合并條件的領(lǐng)域術(shù)語,如果這些領(lǐng)域術(shù)語之間的相似度值高于相似度閾值,用其中一個領(lǐng)域術(shù)語代替與其相似度高于相似度閾值的所有提取的領(lǐng)域術(shù)語。其中,合并模塊4可以位于聚類模塊3之后,也可以位于相似度計(jì)算模塊2與聚類模塊3之間。由于現(xiàn)有基于概念聚類的本體學(xué)習(xí)系統(tǒng)在逐層聚類時,無論是自頂向下還是自底向上的方式,在每一層的同級節(jié)點(diǎn)之間都是按照一定順序分先后一個一個選取自身的子(父)節(jié)點(diǎn)的,但在選取子(父)節(jié)點(diǎn)時,其限制條件只有一個,就是選做子(父)節(jié)點(diǎn)的領(lǐng)域術(shù)語與該同級節(jié)點(diǎn)之間的相似度必須滿足一定條件(比如相似度值超過設(shè)定的某種閾值),這樣帶來的結(jié)果就是只要滿足相似度的條件,該同級節(jié)點(diǎn)就可將這樣的領(lǐng)域術(shù)語作為自身的子(父)節(jié)點(diǎn)。但是,同級節(jié)點(diǎn)之間,尤其是同一個父節(jié)點(diǎn)下的同級節(jié)點(diǎn)之間往往也具有一定的相關(guān)性,它們在選取子(父)節(jié)點(diǎn)時,不可避免的在選取范圍上會存在一定的交叉,但是,按照順序先選取子(父)節(jié)點(diǎn)的同級節(jié)點(diǎn)會將同時與本級中多個節(jié)點(diǎn)都相似的領(lǐng)域術(shù)語選定,使后選取子(父)節(jié)點(diǎn)的同級節(jié)點(diǎn)失去選取機(jī)會,這就會造成同級節(jié)點(diǎn)之間子(父)節(jié)點(diǎn)數(shù)目的不均衡,前面的子(父)節(jié)點(diǎn)數(shù)目多,后面的子(父)節(jié)點(diǎn)數(shù)目少,這樣直接的后果就是本體學(xué)習(xí)的樹形結(jié)構(gòu)傾斜,而統(tǒng)計(jì)結(jié)果是查準(zhǔn)率不高。本實(shí)施例生成的樹形結(jié)構(gòu)在自頂向下逐層聚類時,通過聚類模塊3以限定分支的形式,限定了每個節(jié)點(diǎn)的子節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子節(jié)點(diǎn)的問題,優(yōu)化了本體學(xué)習(xí)的樹形結(jié)構(gòu),分類結(jié)果合理,提高了以該樹形結(jié)構(gòu)為基礎(chǔ)的數(shù)據(jù)檢索的準(zhǔn)確性和完整性。本發(fā)明另一種數(shù)據(jù);險(xiǎn)索的方法的實(shí)施例,如圖10所示,包括以下步驟5901、通過逐層聚類的方式,建立索引列表。5902、存儲所述索引列表。所述存儲的索引列表可以使用本體編輯工具進(jìn)行編輯。S903、信息檢索模塊利用索引列表進(jìn)行信息檢索。其中,步驟S903如圖ll所示,包括S903a、接收用戶查詢請求。S903b、提取用戶查詢請求的關(guān)鍵詞。S903c、擴(kuò)充關(guān)鍵詞列表。S903d、根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索。S903e、對檢索到的文檔進(jìn)行排序。S903f、向用戶返回4企索結(jié)果。本實(shí)施例在逐層聚類時,通過限定分支的形式,限定了每個節(jié)點(diǎn)的子(父)節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子(父)節(jié)點(diǎn)的問題,可以生成準(zhǔn)確性和完整性較高的,可以作為列表索引的樹形結(jié)構(gòu),進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。本發(fā)明另一種數(shù)據(jù)4企索的系統(tǒng)的實(shí)施例,如圖12所示,包括聚類建立索引列表模塊81:用于通過逐層聚類的方式,建立索引列表。存儲模塊82:用于存儲所述索引列表。信息檢索模塊83:用于利用索引列表進(jìn)行信息4企索。其中,信息檢索模塊83包括查詢請求接收子模塊831:用于接收用戶查詢請求。關(guān)鍵詞提取子模塊832:用于提取用戶查詢請求的關(guān)鍵詞。列表擴(kuò)充子模塊833:用于擴(kuò)充關(guān)鍵詞列表。索引列表檢索子模塊834:用于根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索。排序子模塊835:用于對檢索到的文檔進(jìn)行排序。檢索結(jié)果返回子模塊836:用于向用戶返回檢索結(jié)果。本實(shí)施例在逐層聚類時,通過限定分支的形式,限定了每個節(jié)點(diǎn)的子(父)節(jié)點(diǎn)數(shù)量,這樣就有效避免了同級節(jié)點(diǎn)中,先學(xué)習(xí)的節(jié)點(diǎn)大量占用后學(xué)習(xí)的節(jié)點(diǎn)的子(父)節(jié)點(diǎn)的問題,可以生成準(zhǔn)確性和完整性^^高的,可以作為列表索引的樹形結(jié)構(gòu),進(jìn)而提高數(shù)據(jù)檢索的準(zhǔn)確性和完整性。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本
技術(shù)領(lǐng)域:
的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。38權(quán)利要求1、一種數(shù)據(jù)檢索的方法,其特征在于,包括以下步驟通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;計(jì)算提取的領(lǐng)域術(shù)語之間的相似度;將相似的領(lǐng)域術(shù)語以限定分支的方式逐層聚類,建立索引列表;存儲所述索引列表;信息檢索模塊利用所述索引列表進(jìn)行信息檢索。2、根據(jù)權(quán)利要求1所述的數(shù)據(jù)檢索的方法,其特征在于,所述存儲的索引列表4吏用本體編輯工具進(jìn)行編輯。3、根據(jù)權(quán)利要求2所述的數(shù)據(jù)檢索的方法,其特征在于,信息檢索模塊利用索引列表進(jìn)行信息檢索的步驟包括接收用戶查詢請求;提取用戶查詢請求的關(guān)4建詞;擴(kuò)充關(guān)鍵詞列表;根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索;對檢索到的文檔進(jìn)行排序;向用戶返回檢索結(jié)果。4、根據(jù)權(quán)利要求3所述的數(shù)據(jù)檢索的方法,其特征在于,所述從電子文檔中提取領(lǐng)域術(shù)語的步驟包括從電子文檔中提取標(biāo)題、摘要和關(guān)4建詞;對所述提取的標(biāo)題、摘要和關(guān)鍵詞進(jìn)行解析,得到名詞短語;將所述得到的名詞短語中屬于預(yù)定停用詞表中的名詞短語濾除;將濾除后剩下的名詞短語歸納到已有的領(lǐng)域本體或分類體系之下;設(shè)定詞頻閾值和長度閾值;如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率高于所述詞頻閾值,將該名詞短語選定為領(lǐng)域術(shù)語,加入領(lǐng)域術(shù)語集合;如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率不高于所述詞頻閾值,判斷所述名詞短語的長度是否長于長度閾值,如果所述名詞短語的長度長于長度閾值,將所述名詞短語拆分,將拆分得到的新名詞短語同已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,與詞頻閾值比較;如果所述名詞短語的長度等于或短于長度閾值,刪除所述名詞短語。5、根據(jù)權(quán)利要求3所述的數(shù)據(jù)檢索的方法,其特征在于,所述計(jì)算提取的領(lǐng)域術(shù)語之間的相似度的步驟包括計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值;計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值;計(jì)算提耳又的領(lǐng)域術(shù)語之間的兄弟關(guān)系值;通過關(guān)聯(lián)關(guān)系值、非分類關(guān)系值和兄弟關(guān)系值,計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值。6、根據(jù)權(quán)利要求5所述的數(shù)據(jù)檢索的方法,其特征在于,所述還包括將意義相同的領(lǐng)域術(shù)語合并,其步驟包括以句法模式對提取的領(lǐng)域術(shù)語進(jìn)行合并條件判斷;設(shè)定相似度閾值,對于經(jīng)句法模式判斷,符合合并條件的領(lǐng)域術(shù)語,如果這些領(lǐng)域術(shù)語之間的相似度值高于相似度閾值,用其中一個領(lǐng)域術(shù)語代替與其相似度高于相似度闊值的所有提取的領(lǐng)域術(shù)語。7、沖艮據(jù)權(quán)利要求5所述的數(shù)據(jù)檢索的方法,其特征在于,所述計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值的步驟是通過計(jì)算關(guān)聯(lián)關(guān)系矩陣得到的,所述關(guān)聯(lián)關(guān)系矩陣為&=t(Ar,^,j)jwxw,其中,rr代表關(guān)聯(lián)關(guān)系;ti、tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);<formula>formulaseeoriginaldocumentpage4</formula>其中,,<formula>formulaseeoriginaldocumentpage4</formula>,這其中,do"表示第k個文檔;p表示總的文檔個數(shù);a表示初始權(quán)重;b表示距離衰減因子;D表示術(shù)語之間的距離;所述計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值的步驟是通過計(jì)算非分類關(guān)系矩陣得到的,所述非分類關(guān)系矩陣為^=^",々,^)1^,其中,rn代表非分類關(guān)系;t;、tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);{(m,、,tj)",術(shù)語i,j之間是非分類關(guān)系,、i(m,t,,tj)-O,術(shù)語i,j之間不是非分類關(guān)系,所述計(jì)算提取的領(lǐng)域術(shù)語之間的兄弟關(guān)系值的步驟是通過計(jì)算兄弟關(guān)系矩陣得到的,所述兄弟關(guān)系矩陣為&=1(^,^?!渡?,其中,rb代表兄弟關(guān)系;ti、tj代表進(jìn)行比較的兩個領(lǐng)域術(shù)語;m代表矩陣的行列數(shù);J(rb,t,,tj)-l,術(shù)語i,j之間是兄弟關(guān)系其中,i(rb,ti,tj)-O,術(shù)語i,j之間不是兄弟關(guān)系;所述計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值的步驟是通過計(jì)算相似度矩陣得到的,所述相似度矩陣為&二ts!'m"ar!XK〖i,fj)L^,其中,similarity(ti,t》表示進(jìn)4亍比較的兩個領(lǐng)域術(shù)語間的相似度;m代表矩陣的行列數(shù);其中,<formula>formulaseeoriginaldocumentpage5</formula>這其中,Wb表示兄弟關(guān)系的權(quán)重因子;adock表示第k個摘要文檔;q表示摘要文檔總的個數(shù);tdock表示第k個標(biāo)題文檔;s表示標(biāo)題文檔總的個數(shù);wt表示標(biāo)題中共現(xiàn)的正面貢獻(xiàn)因子;at表示標(biāo)題中共現(xiàn)的負(fù)面衰減因子。8、根據(jù)權(quán)利要求7所述的數(shù)據(jù)檢索的方法,其特征在于,所述將相似的領(lǐng)域術(shù)語以限定分支的方式逐層聚類的步驟包括在有關(guān)系的領(lǐng)域術(shù)語中,選擇設(shè)立根節(jié)點(diǎn),作為逐層聚類的起始父節(jié)點(diǎn);自頂向下為每個父節(jié)點(diǎn)選取子節(jié)點(diǎn),再以所述子節(jié)點(diǎn)為新的父節(jié)點(diǎn),為其選取子節(jié)點(diǎn)。9、根據(jù)權(quán)利要求8所述的數(shù)據(jù)檢索的方法,其特征在于,所述自頂向下為每個父節(jié)點(diǎn)選取子節(jié)點(diǎn),再以所述子節(jié)點(diǎn)為新的父節(jié)點(diǎn),為其選取子節(jié)點(diǎn)的步驟包括設(shè)立判別閾值,將與所述父節(jié)點(diǎn)相似度值高于判別閾值,且之前沒有被其它父節(jié)點(diǎn)選中過的領(lǐng)域術(shù)語選為所述父節(jié)點(diǎn)的候選子節(jié)點(diǎn);設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù),選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該節(jié)點(diǎn)的子節(jié)點(diǎn);將父節(jié)點(diǎn)加入最終的概念集合,并記錄學(xué)習(xí)到的分類關(guān)系;父節(jié)點(diǎn)的子節(jié)點(diǎn)重復(fù)父節(jié)點(diǎn)的過程,選取自身的子節(jié)點(diǎn)。10、根據(jù)權(quán)利要求9所述的數(shù)據(jù)檢索的方法,其特征在于,所述接近度值的計(jì)算公式為<formula>formulaseeoriginaldocumentpage6</formula>Pl,結(jié)構(gòu)上c,。紐是。子串自#一^')=|=0,其他,其中,"^表示父節(jié)點(diǎn);C,表示候選子節(jié)點(diǎn);b2表示各自相應(yīng)的權(quán)重因子;struct(cfath,表示給定概念與候選子節(jié)點(diǎn)的結(jié)構(gòu)相似性,similarity(cfath,Ci)表示給定概念與候選子節(jié)點(diǎn)的相似度。11、根據(jù)權(quán)利要求IO所述的數(shù)據(jù)檢索的方法,其特征在于,所述設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù)的方法為設(shè)定接近閾值,將與父節(jié)點(diǎn)的相似度值高于接近閾值的領(lǐng)域術(shù)語的個數(shù),作為所述父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值;按照子節(jié)點(diǎn)個數(shù)確定公式確定父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)。12、根據(jù)權(quán)利要求11所述的數(shù)據(jù)檢索的方法,其特征在于,所述子節(jié)點(diǎn)個數(shù)確定公式為=9,初始8>=96+1,初始2<5<9£+2,初始5<=2:0,Cf。tto沒有候選子概念其中,B為父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù);初始B為父節(jié)點(diǎn)最大子節(jié)點(diǎn)數(shù)的初始值;Cfather表示父節(jié)點(diǎn)。13、根據(jù)權(quán)利要求12所述的數(shù)據(jù)檢索的方法,其特征在于,根節(jié)點(diǎn)由用戶指定設(shè)立,或者通過自動選取設(shè)立;所述自動選取i殳立才艮節(jié)點(diǎn)的7>式為<formula>formulaseeoriginaldocumentpage7</formula>其中,tfi表示概念i出現(xiàn)的頻率;idfi表示出現(xiàn)概念i的文檔個數(shù);cofre(b表示與概念i共現(xiàn)的概念個數(shù);a!,a之,&3表示各自相應(yīng)的加權(quán)因子;n表示總的概念的個H。14、一種數(shù)據(jù);險(xiǎn)索的系統(tǒng),其特征在于,包括術(shù)語獲取模塊用于通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;相似度計(jì)算模塊用于計(jì)算所述術(shù)語獲取模塊提取的領(lǐng)域術(shù)語之間的相似度;聚類模塊用于將所述相似度計(jì)算模塊判定的相似的領(lǐng)域術(shù)語,以限定分支的方式逐層聚類,建立索引列表;存儲模塊用于存儲所述索引列表;信息檢索模塊用于利用索引列表進(jìn)行信息檢索。15、根據(jù)權(quán)利要求14所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,信息檢索模塊包括查詢請求接收子模塊用于接收用戶查詢請求;關(guān)鍵詞提取子模塊用于提取用戶查詢請求的關(guān)鍵詞;列表擴(kuò)充子模塊用于擴(kuò)充關(guān)鍵詞列表;索引列表檢索子模塊用于根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索;排序子模塊用于對檢索到的文檔進(jìn)行排序;檢索結(jié)果返回子模塊用于向用戶返回檢索結(jié)果。16、根據(jù)權(quán)利要求14所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,所述術(shù)語獲取模塊包括提取子模塊用于從電子文檔中提取學(xué)術(shù)論文的標(biāo)題、摘要和關(guān)鍵詞;解析子模塊用于對所述提取子模塊提取的標(biāo)題、摘要和關(guān)鍵詞進(jìn)行解析,得到名詞短語;濾除子模塊用于事先設(shè)定停用詞表,將所述解析子模塊得到的名詞短語中屬于停用詞表的名詞短語濾除;歸納子模塊用于將所述濾除子模塊濾除后剩下的名詞短語歸納到已有的領(lǐng)域本體或分類體系之下;設(shè)定子模塊用于設(shè)定詞頻閾值和長度閾值;判斷子模塊用于判斷歸納子模塊歸納的名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,是否高于所述設(shè)定子模塊設(shè)定的詞頻闊值;如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率高于所述詞頻閾值,將該名詞短語選定為領(lǐng)域術(shù)語,加入領(lǐng)域術(shù)語集合;如果所述名詞短語與已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率不高于所述詞頻閾值,判斷所述名詞短語的長度是否長于所述設(shè)定子模塊設(shè)定的長度閾值,如果所述名詞短語的長度長于長度閾值,將所述名詞短語拆分,將拆分得到的新名詞短語同已有的領(lǐng)域本體或分類體系中的術(shù)語共現(xiàn)的頻率,與詞頻閾值比較;如果所述名詞短語的長度等于或短于長度閾值,刪除所述名詞短語。17、根據(jù)權(quán)利要求14所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,所述相似度計(jì)算模塊包括-.關(guān)聯(lián)關(guān)系計(jì)算子模塊用于計(jì)算提取的領(lǐng)域術(shù)語之間的關(guān)聯(lián)關(guān)系值;非分類關(guān)系計(jì)算子模塊用于計(jì)算提取的領(lǐng)域術(shù)語之間的非分類關(guān)系值;兄弟關(guān)系計(jì)算子模塊用于計(jì)算提取的領(lǐng)域術(shù)語之間的兄弟關(guān)系值;相似矩陣計(jì)算子模塊用于通過關(guān)聯(lián)關(guān)系計(jì)算子模塊得到的關(guān)聯(lián)關(guān)系值、非分類關(guān)系計(jì)算子模塊得到的非分類關(guān)系值和兄弟關(guān)系計(jì)算子模塊得到的兄弟關(guān)系值,計(jì)算提取的領(lǐng)域術(shù)語之間的相似度值。18、根據(jù)權(quán)利要求14所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,還包括合并模塊用于將意義相同的領(lǐng)域術(shù)語合并。19、根據(jù)權(quán)利要求18所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,所述合并模塊包括句法模式學(xué)習(xí)子模塊用于以句法模式對提取的領(lǐng)域術(shù)語進(jìn)行合并條件判斷;同義合并子模塊用于設(shè)定相似度閾值,對于經(jīng)句法模式判斷,符合合并條件的領(lǐng)域術(shù)語,如果這些領(lǐng)域術(shù)語之間的相似度值高于相似度閾值,用其中一個領(lǐng)域術(shù)語代替與其相似度高于相似度閾值的所有提取的領(lǐng)域術(shù)語。20、根據(jù)權(quán)利要求14所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,所述聚類模塊包括根節(jié)點(diǎn)設(shè)立子模塊用于在有關(guān)系的領(lǐng)域術(shù)語中,選擇設(shè)立根節(jié)點(diǎn),作為逐層聚類的起始父節(jié)點(diǎn);子節(jié)點(diǎn)選取子模塊用于自頂向下為每個父節(jié)點(diǎn)選取子節(jié)點(diǎn),再以所述子節(jié)點(diǎn)為新的父節(jié)點(diǎn),為其選取子節(jié)點(diǎn)。21、根據(jù)權(quán)利要求20所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,所述子節(jié)點(diǎn)選取子模塊包括判別閾值設(shè)立分模塊用于設(shè)立判別閾值,將與父節(jié)點(diǎn)相似度值高于判別閾值,且之前沒有被其它父節(jié)點(diǎn)選中過的領(lǐng)域術(shù)語,選為所述父節(jié)點(diǎn)的候選子節(jié)點(diǎn);最大子節(jié)點(diǎn)數(shù)設(shè)定分模塊用于設(shè)定所述父節(jié)點(diǎn)的最大子節(jié)點(diǎn)數(shù),選擇接近度最高的最大子節(jié)點(diǎn)數(shù)個候選子節(jié)點(diǎn)作為該節(jié)點(diǎn)的子節(jié)點(diǎn);記錄分模塊用于將父節(jié)點(diǎn)加入最終的概念集合,并記錄學(xué)習(xí)到的分類關(guān)系;循環(huán)分模塊用于使父節(jié)點(diǎn)的子節(jié)點(diǎn)重復(fù)父節(jié)點(diǎn)的過程,選取自身的子節(jié)點(diǎn)。22、一種數(shù)據(jù);險(xiǎn)索的方法,其特征在于,包括以下步驟通過逐層聚類的方式,建立索引列表;存儲所述索引列表;信息檢索模塊利用索引列表進(jìn)行信息檢索。23、根據(jù)權(quán)利要求22所述的數(shù)據(jù)檢索的方法,其特征在于,所述存儲的索引列表可以使用本體編輯工具進(jìn)行編輯。24、根據(jù)權(quán)利要求22所述的數(shù)據(jù)檢索的方法,其特征在于,信息檢索模塊利用索引列表進(jìn)行信息檢索的步驟包括接收用戶查詢請求;提取用戶查詢請求的關(guān)鍵詞;擴(kuò)充關(guān)鍵詞列表;根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索;對檢索到的文檔進(jìn)行排序;向用戶返回^r索結(jié)果。25、一種數(shù)據(jù)才企索的系統(tǒng),其特征在于,包括聚類建立索引列表模塊用于通過逐層聚類的方式,建立索引列表;存儲模塊用于存儲所述索引列表;信息檢索模塊用于利用索引列表進(jìn)行信息檢索。26、根據(jù)權(quán)利要求25所述的數(shù)據(jù)檢索的系統(tǒng),其特征在于,信息檢索模塊包括查詢請求接收子模塊用于接收用戶查詢請求;關(guān)鍵詞提取子模塊用于提取用戶查詢請求的關(guān)鍵詞;列表擴(kuò)充子模塊用于擴(kuò)充關(guān)鍵詞列表;索引列表檢索子模塊用于根據(jù)關(guān)鍵詞對索引列表進(jìn)行檢索;排序子模塊用于對檢索到的文檔進(jìn)行排序;檢索結(jié)果返回子模塊用于向用戶返回檢索結(jié)果。全文摘要本發(fā)明公開了一種數(shù)據(jù)檢索的方法和系統(tǒng),涉及信息采集和處理領(lǐng)域,為解決數(shù)據(jù)檢索的準(zhǔn)確性和完整性低的問題。本發(fā)明實(shí)施例提供的方法,包括通過網(wǎng)絡(luò)獲取電子文檔,從所述電子文檔中提取領(lǐng)域術(shù)語;計(jì)算提取的領(lǐng)域術(shù)語之間的相似度;將相似的領(lǐng)域術(shù)語以限定分支的方式逐層聚類,建立索引列表;存儲所述索引列表;信息檢索模塊利用索引列表進(jìn)行信息檢索。本發(fā)明適用于數(shù)據(jù)采集和信息檢索。文檔編號G06F17/30GK101685455SQ200810169830公開日2010年3月31日申請日期2008年9月28日優(yōu)先權(quán)日2008年9月28日發(fā)明者惠徐,戴昌林,朱望斌,陳世宏,高志強(qiáng)申請人:華為技術(shù)有限公司;東南大學(xué)