一種分類目錄自動構(gòu)建方法及相關(guān)系統(tǒng)的制作方法

文檔序號：6470914閱讀：278來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種分類目錄自動構(gòu)建方法及相關(guān)系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計算機(jī)搜索領(lǐng)域，特別涉及在計算機(jī)搜索過程中為搜索結(jié) 果創(chuàng)建分類目錄的方法以及相應(yīng)的系統(tǒng)。
背景技術(shù)：
'計算機(jī)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展，方便了人們對信息的獲取。尤其是近幾年來，隨著搜索引擎技術(shù)的飛速發(fā)展，因特網(wǎng)用戶通過搜索引擎獲取
信息已經(jīng)成為非常普遍的現(xiàn)象。CNNIC信息服務(wù)部在2005年1月公布的《全球互聯(lián)網(wǎng)統(tǒng)計信息報告》就已經(jīng)顯示搜索引擎擁有84%的網(wǎng)民用戶。現(xiàn)在的搜索引擎用戶恐怕會更多。但是現(xiàn)在的搜索引擎很多時候并不能返回正確的答案，尼爾森-諾曼集團(tuán)的調(diào)查顯示搜索引擎的評價成功率只有 42%。
如何幫助用戶快速準(zhǔn)確地發(fā)現(xiàn)其所尋找的信息是搜索引擎的重要目標(biāo)。到目前為止，搜索引擎已經(jīng)經(jīng)歷了兩代第一代搜索引擎指主要依靠人工分揀的分類目錄搜索，這一類當(dāng)時以Yahoo這樣的門戶網(wǎng)站為代表。隨著互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大，靠人工編輯生成的分類目錄難以跟上互聯(lián)網(wǎng) 信息增長速度；另外內(nèi)容增多導(dǎo)致目錄深度和每一層節(jié)點(diǎn)數(shù)的不斷增加，這些無疑加重了用戶瀏覽信息和檢索的負(fù)擔(dān)。第二代搜索引擎以超鏈接分析為基礎(chǔ)的機(jī)器抓取技術(shù)為基礎(chǔ)，在一定程度上解決了上述問題；這一類以Google公司為代表。從交互上看，可以直接獲取相關(guān)文檔的第二代搜
索引擎自然要比層層瀏覽跳轉(zhuǎn)才能找到信息的第一代搜索引擎好。但是當(dāng) 前的第二代搜索引擎相對于第一代搜索引擎也引入了兩個弊端一是搜索
引擎返回的結(jié)杲缺乏人工目錄的有效組織，不利于瀏覽。另一點(diǎn)在于，當(dāng) 用戶初始查詢失敗時，用戶不能利用目錄索引找到當(dāng)前查詢的相關(guān)內(nèi)容。而在人工編輯的分類目錄中，用戶查找失敗后可以通過當(dāng)前目錄的上層目錄或相關(guān)目錄去再次組織尋找。
鑒于上述兩種搜索引擎模式各自所存在的缺陷，若能夠提供一種將兩種搜索引擎模式的優(yōu)點(diǎn)集于一身的新的搜索方法，則有助于向用戶提供更
快、更有效的搜索服務(wù)。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有的搜索引擎模式在搜索過程中各自所存在的缺陷，從而提供一種在搜索過程中創(chuàng)建分類目錄并根據(jù)所創(chuàng)建的分類目錄實(shí)現(xiàn)搜索的搜索方法。
為了實(shí)現(xiàn)上述目的，本發(fā)明提供了一種分類目錄自動構(gòu)建方法，包括步驟l)、查找與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢
詞相關(guān)的概念術(shù)語集合；
步驟2)、計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；步驟3)、根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概
念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；
步驟4 )、將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織
成分類目錄。
上述技術(shù)方案中，所述的步驟3)還包括對所得到的概念術(shù)語類中的概念術(shù)語做進(jìn)一步的分類或聚類操作，得到范圍更小的新的概念術(shù)語類。
上述技術(shù)方案中，在所述的步驟3)中，采用圖分割算法實(shí)現(xiàn)對概念術(shù)語的分類操作，釆用聚類算法實(shí)現(xiàn)對概念術(shù)語的聚類操作。
上述技術(shù)方案中，所述的圖分割算法包括
步驟3-l)、根據(jù)所述概念術(shù)語間的相關(guān)度，為所述的概念術(shù)語構(gòu)建概念關(guān)系步驟3-2 )、對所述概念關(guān)系圖中代表概念術(shù)語的各個頂點(diǎn)進(jìn)行劃分，按照所述頂點(diǎn)間相互聯(lián)系的密切程度將所述概念關(guān)系圖分為多個子圖，每個子圖代表一個概念術(shù)語類。
上述技術(shù)方案中，在所述的步驟3-1)中，在構(gòu)建所述的概念關(guān)系圖時，包括
步驟3-1-1)、用一個節(jié)點(diǎn)表示一個概念術(shù)語；
步驟3-l-2)、當(dāng)兩個概念術(shù)語間的相關(guān)度高于用戶指定的閾值時，為表示這兩個概念術(shù)語的兩個節(jié)點(diǎn)間添加一條有權(quán)邊，用所述概念術(shù)語間的相關(guān)度數(shù)值表示所述有權(quán)邊的權(quán)重；
步驟3-1-3 )、對概念術(shù)語集合中的所有概念術(shù)語完成上述的兩兩相關(guān) 度判斷后即可得到所述的概念關(guān)系圖。
上述技術(shù)方案中，在所述的步驟3-2)中，對所述子圖劃分的方法包
括Kernighan-Li圖劃分方法、求解拉普拉斯矩陣特征向量的譜方法、基于edge-betweenness的劃分方法、K完全子圖方法、互耳關(guān)網(wǎng)H接分析中的 HITS、 MCL方法，基于最大流最小割的web社區(qū)發(fā)現(xiàn)算法和密度二部圖劃分方法，基于Modularity的社區(qū)發(fā)現(xiàn)算法，基于5 - Closure的社區(qū)發(fā)現(xiàn) 算法。
上述技術(shù)方案中，所述的聚類算法包括single-linkage方法、ROCK 方法、Chameleon方法、或conceptual clustering方法。
上述技術(shù)方案中，在所述的步驟1)中，從現(xiàn)有數(shù)據(jù)中查找與用戶提交的查詢詞有關(guān)的概念術(shù)語，所述的現(xiàn)有數(shù)據(jù)包括用于記錄以前用戶查詢的搜索引擎日志、搜索引擎返回的與當(dāng)前查詢相關(guān)的文檔、詞典、網(wǎng)上人工編輯目錄信息、Wiki信息、用戶標(biāo)注信息在內(nèi)的信息。
上述技術(shù)方案中，在所述的步驟1)中，所述的現(xiàn)有數(shù)據(jù)還包括用戶查詢歷史信息、用戶查詢傾向信息和/或用戶注冊帳號信息在內(nèi)的用戶個人
JS息。
上述技術(shù)方案中，所述的步驟2)還包括在計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度前，對所述概念術(shù)語集合中各個概念術(shù)語與所述查詢詞的相關(guān)度進(jìn)行計算，將與所述查詢詞的相關(guān)度小于用戶指定閾值的概念術(shù)語從所述概念術(shù)語集合中刪除。
上述技術(shù)方案中，在所述的步驟2)中，采用一種相關(guān)度計算方法對所述概念術(shù)語間或概念術(shù)語與查詢詞間的相關(guān)度進(jìn)行計算，所述的相關(guān)度計算方法包括計算兩個術(shù)語在同一文本內(nèi)容中的共同出現(xiàn)次數(shù)的方法、數(shù)據(jù)挖掘方法、計算兩個術(shù)語間的互信息的方法、計算兩個術(shù)語在詞典或人工目錄中的距離的方法、傳統(tǒng)信息檢索中計算文本間距離的計算方法。
上述技術(shù)方案中，在所述的步驟2)中，還包括采用至少兩種計算相關(guān)度的方法對概念術(shù)語間的相關(guān)度進(jìn)行計算，將所得到的多種計算結(jié)果做歸一化加權(quán)操作，得到最終的相關(guān)度值。
上述技術(shù)方案中，所述的步驟3)還包括采用類標(biāo)簽對所得到的概念術(shù)語類進(jìn)行標(biāo)識。
上述技術(shù)方案中，所述的類標(biāo)簽采用所代表的概念術(shù)語類中最具代表性的概念術(shù)語，或能夠?qū)λ淼母拍钚g(shù)語類中所有概念術(shù)語進(jìn)行概括的標(biāo)簽。
上述技術(shù)方案中，所述的概念術(shù)語類中最具代表性的概念術(shù)語為所述概念術(shù)語類中與類中心相似度值最大的概念術(shù)語。
上述技術(shù)方案中，所述的能夠?qū)λ淼母拍钚g(shù)語類中所有概念術(shù)語
進(jìn)行概括的標(biāo)簽的產(chǎn)生包括
步驟a)、事先定義一組類別標(biāo)簽，依據(jù)類別標(biāo)簽對各概念術(shù)語類進(jìn)行分類，概念術(shù)語類的類標(biāo)簽就是其所屬類別的類別標(biāo)簽；
點(diǎn)，以這些節(jié)點(diǎn)共有的;深祖先節(jié)點(diǎn)作為該類的類標(biāo)簽?？? '；、
上述技術(shù)方案中，在所述的步驟4)中，還包括將所述的分類目錄返回給用戶，在返回給用戶時，結(jié)合用戶設(shè)定的模式信息顯示所述的分類目錄，所述的模式信息包括圖標(biāo)、顏色、字體大小、對概念術(shù)語的注釋說明。本發(fā)明還提供了一種計算機(jī)搜索方法，包括步驟1 )、用戶輸入查詢詞；
步驟2)、采用所述的分類目錄自動構(gòu)建方法為所述的查詢詞構(gòu)建分類目錄；
步驟3 )、用戶將步驟2 )所得到的分類目錄中的概念術(shù)語作為推薦的查詢詞發(fā)起下一次搜索，以得到更為精確的搜索結(jié)果。本發(fā)明還提供了一種分類目錄自動構(gòu)建系統(tǒng)，包括概念術(shù)語抽取模塊、相關(guān)度計算模塊、概念術(shù)語分類模塊、分類目錄顯示模塊以及用于包括現(xiàn)有數(shù)據(jù)的數(shù)據(jù)庫；其中，
所述的概念術(shù)語抽取模塊從所述數(shù)據(jù)庫所存儲的現(xiàn)有數(shù)據(jù)中找到與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢詞相關(guān)的概念術(shù)語集合；
所述的相關(guān)度計算模塊計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；
所述的概念術(shù)語分類模塊根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；
所述的分類目錄顯示模塊將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織成分類目錄。
上述技術(shù)方案中，所述的相關(guān)度計算模塊中還包括概念術(shù)語篩選單元，所述的概念術(shù)語篩選單元對由概念術(shù)語抽取才莫塊所得到的概念術(shù)語集合中各個概念術(shù)語與所述查詢詞的相關(guān)度進(jìn)行計算，將與所述查詢詞的相關(guān)度小于用戶指定閾值的概念術(shù)語從所述概念術(shù)語集合中刪除，然后再由相關(guān)度計算模塊對所述概念術(shù)語集合中的各個概念術(shù)語計算相關(guān)度。
上述技術(shù)方案中，所述的概念術(shù)語分類模塊還包括標(biāo)簽選擇單元，所述的標(biāo)簽選擇單元為所得到的概念術(shù)語類選擇類標(biāo)簽。
本發(fā)明又提供了一種計算機(jī)搜索系統(tǒng)，包括查詢詞輸入模塊、分類目
錄自動構(gòu)建系統(tǒng)、以及再搜索模塊；其中，
所述的查詢詞輸入模塊用于由用戶輸入查詢詞；
所述的分類目錄自動構(gòu)建系統(tǒng)用于為所述的查詢詞構(gòu)建分類目錄；
所述的再搜索模塊將所述的分類目錄自動構(gòu)建系統(tǒng)所創(chuàng)建的分類目錄中的概念術(shù)語作為推薦的查詢詞發(fā)起下一次搜索，以得到更為精確的搜索結(jié)果。
本發(fā)明的優(yōu)點(diǎn)在于
1、本發(fā)明在現(xiàn)有的搜索引擎的基礎(chǔ)上，為用戶提供的查詢詞生成了相應(yīng)的分類目錄，所得到的分類目錄能夠反映用戶查詢的不同含義，從而有助于用戶更容易、更快捷地找到所需的信息。
2、本發(fā)明所生成的分類目錄只需要顯示與用戶查詢相關(guān)的目錄，相對于門戶網(wǎng)站或其他人工編輯的全局目錄結(jié)構(gòu)，用戶不需要從全局根目錄層層瀏覽查找，這將大大降低用戶的負(fù)擔(dān)。
3、本發(fā)明可以應(yīng)用在搜索引擎相關(guān)搜索推薦領(lǐng)域，當(dāng)用戶查詢失敗時，本發(fā)明提供含義分類明確的相關(guān)搜索查詢，利用這些相關(guān)搜索查詢用戶可以逐步明確其搜索意圖并找到答案。
4、本發(fā)明可以在大規(guī)模數(shù)據(jù)集上自動構(gòu)建層次化的目錄，相對于人工分類編輯目錄，大大提高了效率和覆蓋率。

圖1為本發(fā)明的分類目錄自動構(gòu)建方法在一個實(shí)施例中的實(shí)現(xiàn)流程
圖2為在一個實(shí)施例中，根據(jù)相關(guān)度值對"Java"所涉及的概念術(shù)語所構(gòu)建的概念關(guān)系圖3為在一個實(shí)施例中，為"Java"所生成的分類目錄以及搜索結(jié)果的示意圖4為本發(fā)明的分類目錄自動構(gòu)建系統(tǒng)的示意圖。
具體實(shí)施例方式
下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明加以i兌明。
在對本發(fā)明進(jìn)行詳細(xì)說明前，對本發(fā)明中所涉及到的幾個概念進(jìn)行解釋，以更好地理解本發(fā)明。
搜索引擎本發(fā)明中所述的搜索引擎是一個泛指概念，它不是指具體某個網(wǎng)站搜索服務(wù)或某個公司的搜索引擎產(chǎn)品，也不是專門搜索某類"對象，'的搜索引擎，這里所說的"對象"包括但不限于網(wǎng)頁、圖像、音頻、視頻。所述的搜索引擎是指任何以輸入關(guān)鍵字，提交后獲取搜索結(jié)果的方式進(jìn)行信息查找的計算機(jī)系統(tǒng)。
查詢本發(fā)明中所述的查詢是一個泛指概念，它是指能體現(xiàn)瀏覽或搜索意圖的詞和/或短語集合。詞和/或短語的集合可由用戶直接提交，也可以從其他其他系統(tǒng)或組件獲得。
概念術(shù)語本發(fā)明所述的概念術(shù)語由詞、短語或它們的組合表示，也可賦予一段注釋說明。
分類目錄本發(fā)明所述的分類目錄是由與某一查詢Q相關(guān)的概念術(shù)語組成的層次化結(jié)構(gòu)，通過其中任一概念術(shù)語C用戶可以找到與C相關(guān)的"對象"集合Ds。集合Ds中的"對象"有可能并不存在于搜索引擎對查詢Q 的返回結(jié)果中。
在對概念進(jìn)行解釋說明后，下面對本發(fā)明的具體實(shí)現(xiàn)過程進(jìn)行詳細(xì)說明。
當(dāng)前，用戶采用搜索引擎所提供的搜索服務(wù)時，通常會根據(jù)自己的搜索意圖輸入一個或一個以上的關(guān)鍵詞，通過搜索引擎所返回的與關(guān)4建詞相關(guān)的搜索結(jié)果來查找自己所需要的信息。但在這一搜索過程中，可能會存在以下問題
1、用戶并不清楚如何用有限的幾個詞語來描述他的搜索意圖，特別是當(dāng)所涉及的搜索意圖較為生僻、不易描述時，由此所得到的搜索結(jié)果往往不符合用戶的要求。
2、用戶所輸入的關(guān)鍵詞由于語言中常見的多義性，使得所采用的關(guān) 鍵詞并不能準(zhǔn)確地表達(dá)用戶的搜索意圖。例如，關(guān)鍵詞"筆記本，，既可能是指便攜式電腦，也可能是指紙質(zhì)的記事本。對于這類關(guān)鍵詞，需要用戶對所返回的搜索結(jié)果做進(jìn) 一步的篩選，或者需要用戶在現(xiàn)有關(guān)鍵詞的基礎(chǔ) 上添加和/或替換一些關(guān)鍵詞做進(jìn)一步搜索。
上述問題的存在都不利于搜索結(jié)果的正確獲得，特別是那些非熱門的搜索對象。在本發(fā)明中，為了有效地避免上述情況的發(fā)生，本發(fā)明的4叟索引擎在為用戶的查詢生成相應(yīng)的搜索結(jié)果的同時，還提供了與用戶的查詢詞相關(guān)的相關(guān)概念術(shù)語分類目錄，通過這一分類目錄做更為精確的二次查詢。
為了便于理解，我們用一個具體的例子對本發(fā)明中所涉及的相關(guān)概念術(shù)語分類目錄的生成過程進(jìn)行說明。
假設(shè)有一個不了解計算機(jī)技術(shù)的用戶想查詢關(guān)于咖啡的信息，他輸入
了 "Java"作為查詢詞，由于當(dāng)前互聯(lián)網(wǎng)上關(guān)于"Java編程"的信息占據(jù) 絕對優(yōu)勢地位。所以無論搜索引擎返回的文檔結(jié)果還是相關(guān)搜索信息都是關(guān)于計算機(jī)技術(shù)的，用戶難以找到其所要的信息。但單獨(dú)對"Java"這個詞進(jìn)行考察的話，可以知道這個詞所包含的含義可以分為三類，一是在計算機(jī)技術(shù)方面的，如Java語言，二是與咖啡相關(guān)的，如爪哇咖啡，三是與區(qū)域(region)相關(guān)的，如爪哇島。顯然，前面所提到的用戶想要查詢的是與爪哇咖啡有關(guān)的內(nèi)容。通過現(xiàn)有的搜索引擎無法做到，因此，需要生成與Java有關(guān)的相關(guān)概念術(shù)語分類目錄。參考圖1，生成相關(guān)概念術(shù)語分類目錄的具體過程如下。
首先，對當(dāng)前的查詢詞進(jìn)行分析，并從現(xiàn)有數(shù)據(jù)中找到與查詢詞有關(guān) 的概念術(shù)語。此處所涉及的現(xiàn)有數(shù)據(jù)可以是用于記錄以前用戶查詢的搜索引擎日志、搜索引擎返回的與當(dāng)前查詢相關(guān)的文檔、詞典、網(wǎng)上人工編輯目錄信息、Wiki信息、用戶標(biāo)注信息等。在這些現(xiàn)有數(shù)據(jù)中，識別出與查詢詞有一定關(guān)聯(lián)(如在同一篇文檔中)的高頻詞和/或短語，這些高頻詞和
/或短語就可纟皮認(rèn)作概念術(shù)語。前述例子中的查詢詞只有"Java" —個詞，在現(xiàn)有數(shù)據(jù)中可以找到與之相關(guān)的內(nèi)容，如"computer"、 "coffee"、 "region" 等，這些都可以作為"Java"的概念術(shù)語。除了上述的概念術(shù)語外，還可以包括如"Java island" 、 "Java language" 、 "Java servlet" 、 "javascript" 、 " cafe au lait"、 " cappuccino coffee" 、 "south" 、 "code"等概念術(shù)語。以上是對查詢詞進(jìn)行分析從而得到概念術(shù)語的基本操作，在本發(fā)明的一個優(yōu)選實(shí)施
即最終所生成的分類目錄對于不同的用戶有不同的內(nèi)容，如對于計算機(jī)編程人員顯示關(guān)于"Java編程，，的內(nèi)容，而對于咖啡店老才反顯示關(guān)于爪哇咖啡的內(nèi)容。要使得所述的分類目錄具有個性化功能，就需要在對查詢詞進(jìn)
行分析，生成相關(guān)概念術(shù)語時，所用到的數(shù)據(jù)除了前面所提到的用于記錄以前用戶查詢的搜索引擎日志、搜索引擎返回的與當(dāng)前查詢相關(guān)的文檔、
詞典、網(wǎng)上人工編輯目錄信息、Wiki信息、用戶標(biāo)注信息外，還包括用戶個人信息，如用戶查詢歷史信息、用戶查詢傾向和/或用戶注冊帳號信息等。
相關(guān)的分類目錄。
在得到關(guān)于查詢詞的諸多概念術(shù)語后，就要對這些概念術(shù)語進(jìn)行分類。對概念術(shù)語的分類操作是在計算概念術(shù)語間相關(guān)度的基礎(chǔ)上實(shí)現(xiàn)的。在前面所提到的"Java"例子中，才既念術(shù)語"computer"與"Java language"、 "Java servlet"、 "javascript"等的相關(guān)性較大，而沖既念術(shù)語"coffee"則與 "cafe au lait"、 " cappuccino coffee"等的相關(guān)性4交大。對這種才既念術(shù)語間相關(guān)性大小的衡量就用所述的相關(guān)度表示。由于在前面的操作中，與某一特定查詢詞的相關(guān)概念術(shù)語的數(shù)量可能較多，因此，在計算概念術(shù)語間相關(guān)度之前，還可以先對概念術(shù)語進(jìn)行篩選，即計算各個概念術(shù)語與當(dāng)前查詢的查詢詞之間的相關(guān)度，從中選取相關(guān)度高的概念術(shù)語。概念術(shù)語篩選后，就可以對篩選得到的概念術(shù)語間的相關(guān)度進(jìn)行計算。計算概念術(shù)語與查詢詞的相關(guān)度，以及計算概念術(shù)語間的相關(guān)度的實(shí)現(xiàn)方法相類似，可以采用現(xiàn)有技術(shù)中的各種實(shí)現(xiàn)方法，包括但不限于計算兩個術(shù)語在同一文本內(nèi)容中的共同出現(xiàn)次數(shù)、數(shù)據(jù)挖掘中相關(guān)方法(如關(guān)聯(lián)規(guī)則)、計算兩個術(shù)語間的互信息、計算兩個術(shù)語在詞典或人工目錄中的距離、傳統(tǒng)信息檢索中計算文本間距離的計算方法。下面給出利用同一文本中共同出現(xiàn)
次數(shù)的方法來計算查詢詞與扭克念術(shù)語間以及概念術(shù)語間相關(guān)度的公式，以方便理解。其中
查詢詞與概念術(shù)語間的相關(guān)度計算公式如下 c) = CF x log(iV /司
其中的Q表示當(dāng)前查詢，c表示一個概念術(shù)語，CF是查詢Q返回結(jié) 果中概念c出現(xiàn)的總次數(shù)，DF是出現(xiàn)概念c的文檔個^:， N是查詢Q總的返回結(jié)果數(shù)。
概念術(shù)語間的計算公式如下 D(c,)oD(。)
其中，D(c)表示含有概念c的文檔集合:
從上述的計算公式中可以看出，如果兩個概念術(shù)語經(jīng)常在同一篇文檔中出現(xiàn)，那么它們之間的相關(guān)度就高。
前述公式給出了相關(guān)度值計算的一種方法，但在實(shí)際應(yīng)用中，為了使得相關(guān)度值更為精確，最好采用現(xiàn)有技術(shù)中的多種相關(guān)度值計算方法中的若干種對相關(guān)概念術(shù)語間的相關(guān)度值進(jìn)行計算，從而得到多種計算結(jié)果，然后對不同的計算結(jié)果做歸一化加權(quán)計算，得到一個新的相關(guān)度值，這一相關(guān)度值也就是概念術(shù)語間的最終相關(guān)度值。
在得到概念術(shù)語間的相關(guān)度值(或最終相關(guān)度值)后，就可以根據(jù)相關(guān)度值對各個概念術(shù)語做分類。對概念術(shù)語做分類的方法可以有多種，單純從分類目的上講，所有基于對象間相似度或距離值進(jìn)行計算的分類或聚類算法都是可行的。但是考慮到在分類前類別數(shù)目和類別標(biāo)簽都是未知
的，傳統(tǒng)的分類方法(classification)難以解決此分類問題。這里可以采用不需要事先指定類別個數(shù)的聚類(cluster analysis )算法、圖分割算法。這里所述的聚類算法包括但不限于如single-linkage, ROCK、 Chameleon 之類的層次4匕(Hierarchical)方法，如conceptual clustering之類的基于才莫型的方法。這里所述的圖分割算法包括各種基于圖結(jié)構(gòu)的分類
(graph-based classification)算法、一土?xí)P(guān)系網(wǎng)纟各分才斤(social networks analysis )中的社區(qū)(community )發(fā)現(xiàn)算法，如Kernighan-Li圖劃分方法、求解拉普拉斯矩陣特征向量的譜方法、基于edge-betweenness的劃分方法、 K完全子圖(k-clique )方法、互聯(lián)網(wǎng)鏈接分析中的中的HITS 、 MCL方法，基于最大流最小割的web社區(qū)發(fā)現(xiàn)算法和Kumar等人提出的密度二部圖劃分方法，基于Modularity的社區(qū)發(fā)現(xiàn)算法，基于5 - Closure的社區(qū)發(fā)現(xiàn) 算法等多種現(xiàn)有技術(shù)中已經(jīng)存在的方法。
相對于傳統(tǒng)的文本分類、聚類方法，基于圖分割的方法更能給出體現(xiàn) 一個查詢不同意圖的分類結(jié)果。物以類聚，人以群分。當(dāng)一個查詢能體現(xiàn) 多種不同含義時，屬于同一個含義的概念術(shù)語相互間往往聯(lián)系緊密，而不同含義的概念術(shù)語則聯(lián)系松散。正是基于這種思想，采用圖中的社區(qū)
(community)發(fā)現(xiàn)算法會耳又得更好的效果。在本實(shí)施例中，以圖分割算法中的基于Modularity的社區(qū)發(fā)現(xiàn)算法為例，對如何實(shí)現(xiàn)概念術(shù)語的分類進(jìn)行說明。
在圖分割算法中，首先需要構(gòu)建概念關(guān)系圖G,在概念關(guān)系圖G中，節(jié)點(diǎn)]^表示概念術(shù)語c,,如果兩個概念術(shù)語(c,，。)間的相關(guān)度高于用戶指定
的閾值，則將用于表示這兩個概念術(shù)語的節(jié)點(diǎn)間用一條有權(quán)邊^(qū)相連，邊的權(quán)重就是兩個概念術(shù)語間的相關(guān)度數(shù)值。圖2就是根據(jù)相關(guān)度值對前述
的"Java"例子中所涉及的概念術(shù)語所構(gòu)建的概念關(guān)系圖，從該圖中可以看出，這一概念關(guān)系圖大致分為三個區(qū)域，其中一個區(qū)域與地理相關(guān)，其中一個區(qū)域與計算^/L相關(guān)，而另一個區(qū)域與咖啡相關(guān)，與"Java"在現(xiàn)實(shí) 中所包含的多種含義基本一致。
在得到概念術(shù)語的概念關(guān)系圖后，就可以對概念關(guān)系圖進(jìn)行劃分。以圖2中所示的概念關(guān)系圖G為例，對如何采用基于Modularity的社區(qū)發(fā)現(xiàn) 算法對該圖進(jìn)行劃分做示例性說明。
假設(shè)圖G中包括n個頂點(diǎn)(^^,…義)，分別表示n個相關(guān)概念術(shù)語 (CpC2,c3,…,c")，連接頂點(diǎn)(K,K)的邊4又重e,y = Ww(c,，c,)。首先只于所有邊的4又重進(jìn)行歸一化
A可以看作是頂點(diǎn)&^之間有相互關(guān)系的概率f f;/ey. = 1 然后對概念關(guān)系圖按照以下步驟做具體的劃分
第一步，將概念關(guān)系圖中的每個頂點(diǎn)形成一個子圖，從而建立子圖 G,。,《,…《.此時N=n。每一個子圖代表一個類。
第二步，計算各類間的邊的權(quán)重之和^ = 22/^。
第三步，計算當(dāng)前這種子圖劃分方式的Modularity值，Modularity值的計算方法如下
;=1 y=i /=1
M值可以看作是每個子圖內(nèi)頂點(diǎn)間有相互聯(lián)系的概率是否遠(yuǎn)大于他們與其他子圖間頂點(diǎn)相關(guān)聯(lián)的概率。M值越大說明劃分效果越好，反之則越差。
第四步，如果現(xiàn)在還有多個子圖尋找兩個子圖G:,《進(jìn)行合并，使得合并后新分類下M值增加的數(shù)值最大。這樣形成了新的子圖劃分結(jié)果G",GCGf1,.…。
第五步，轉(zhuǎn)到第二步，重復(fù)計算及合并，直到所有子圖都合并成一個圖為止。尋找整個合并過程中M值最大時的分類結(jié)果，這個結(jié)果就是最終的分類結(jié)果。根據(jù)子圖中頂點(diǎn)與相關(guān)概念術(shù)語的對應(yīng)關(guān)系就可以做出對相關(guān)概念術(shù)語的分類結(jié)果。
圖2所示的概念關(guān)系圖經(jīng)過上述步驟后，可以得到三個子圖，即與地理相關(guān)的子圖、與計算機(jī)相關(guān)的子圖以及與咖啡相關(guān)的子圖。這些子圖所包括的范圍較大，根據(jù)分類目錄的需要，還可以對子圖做進(jìn)一步的劃分以得到范圍更小的子圖。例如，可以設(shè)定一個閾值，然后采用前述的方法對現(xiàn)有的某一子圖做子圖劃分，直到劃分所得到的子圖個數(shù)超過所設(shè)定的閾值后才停止相關(guān)操作。以圖2為例，與計算機(jī)相關(guān)的子圖還可以進(jìn)一步分
為"Java language" 、 "Java servlet"等范圍更小的子圖。
完成對概念關(guān)系圖中的子圖的劃分后，就可以從各個子圖中抽取對應(yīng) 的相關(guān)概念術(shù)語從而構(gòu)成相關(guān)概念術(shù)語類，并為所得到的相關(guān)概念術(shù)語類尋找用于標(biāo)識類的類標(biāo)簽。在尋找類標(biāo)簽時，可能有多種實(shí)現(xiàn)方式。如在一個實(shí)例中，可以從類中選擇一個最具代表性的概念術(shù)語作為類別標(biāo)簽。具體地，可以選取與類中心相似度值最大的概念術(shù)語作為類別標(biāo)簽。在另一個實(shí)例中，也可以用一個能概括相關(guān)概念術(shù)語的類中所有概念術(shù)語的標(biāo) 簽作為類別標(biāo)簽，所述標(biāo)簽可以從現(xiàn)有數(shù)據(jù)中獲取，如一個人工編輯的目錄。例如，先找出類中每個相關(guān)概念術(shù)語在人工編輯目錄(像ODP)中對應(yīng)的節(jié)點(diǎn)，然后找出這些節(jié)點(diǎn)共有的最深祖先節(jié)點(diǎn)，這個祖先節(jié)點(diǎn)的內(nèi)容就可以作為該類的標(biāo)簽。此處還可以采用如下方式事先定義一組類別標(biāo) 簽，依據(jù)類別標(biāo)簽對各概念術(shù)語類進(jìn)行分類，概念術(shù)語類的類標(biāo)簽就是其所屬類別的類別標(biāo)簽。在本實(shí)施例中，可以釆用如下方式
假設(shè)要為子圖g所代表的類尋找類標(biāo)簽，首先選擇與子圖g內(nèi)其他概念術(shù)語連邊數(shù)Wl最大的概念術(shù)語；如果有多個概念術(shù)語的Wl值相同且均超過其他概念術(shù)語的Wl值，那么從中選擇與所有子圖中概念術(shù)語間連邊權(quán)重之和最大的概念術(shù)語；如果這時選出的概念術(shù)語仍不止一個，那么選擇其中CF最大的；按照上述方法最終選出的概念術(shù)語作為子圖g中概念術(shù)語類的標(biāo)簽。
通過上述方法，可以為前述的"Java"例子中的各個類設(shè)定用于標(biāo)識類的類標(biāo)簽。例如，對于與地理相關(guān)的類可以用"location"作為標(biāo)簽，對于與計算;^幾相關(guān)的類可以用"computers"作為標(biāo)簽，而對于與咖啡相關(guān)的
類則可以用"coffee"作為標(biāo)簽。在上述類的子類中，也可以設(shè)定相應(yīng)的標(biāo)簽，例如,"computers"類的子類中還包括有 "Java language" 、 "Java servlet"、 "javaapi"、 "Java enterprise platform" 等類標(biāo)簽。
一個相關(guān)概念術(shù)語類在設(shè)定類標(biāo)簽后，將這個類標(biāo)簽作為根目錄，將類中的其他概念術(shù)語作為根目錄下的子目錄。所有的相關(guān)概念術(shù)語類通過上述方式組合后，就可以得到本發(fā)明所涉及的相關(guān)概念術(shù)語的分類目錄。
以上所得到的具有類標(biāo)簽的相關(guān)概念術(shù)語的分類目錄是一種較佳的實(shí)現(xiàn)方式，在具體實(shí)現(xiàn)時，也可以將所得到的與某一查詢詞有關(guān)的相關(guān)概念術(shù)語直接按照所在的類進(jìn)行顯示，而無需為類設(shè)定類標(biāo)簽。
在本發(fā)明中，為了更好地服務(wù)于用戶，對于所得到的分類目錄還可以根據(jù)用戶設(shè)定和/或分類目錄的具體應(yīng)用場景對目錄所顯示的概念術(shù)語做一定的調(diào)整。例如，如果概念術(shù)語將作為"相關(guān)搜索"的超鏈接，那么概念術(shù)語將根據(jù)當(dāng)前查詢和查詢?nèi)罩局械男畔⒄{(diào)整概念術(shù)語的組合方式，使其達(dá)到更好的查詢效果；如果用戶設(shè)定每個類別的相關(guān)概念術(shù)語顯示數(shù)目不大于5,那么需要對類內(nèi)的相關(guān)術(shù)語再次排序，刪除掉排名靠后的概念術(shù)語。
在得到概念術(shù)語的分類目錄后，可以將分類目錄與搜索結(jié)果一起返回給用戶，以方便用戶作進(jìn)一步查詢。這一返回用戶的過程實(shí)際上就是對相關(guān)概念術(shù)語的分類目錄的顯示。在顯示過程中，需要用到用戶所設(shè)定的模式信息，如圖標(biāo)、顏色、字體大小、對概念術(shù)語的注釋說明等。例如，可以通過字體的大小來體現(xiàn)一個概念術(shù)語相關(guān)的文檔數(shù)量，字體大的概念術(shù) 語擁有更多的相關(guān)文檔；也可以用不同顏色來表示概念術(shù)語的熱門程度。在圖3中給出了前述"Java"例子的分類目錄以及對應(yīng)的搜索結(jié)果的顯示結(jié)果。在該圖中包括有查詢框602,其中用戶已輸入查詢"java"。返回結(jié)果的頁面中包括兩部分查詢相關(guān)網(wǎng)頁604和相關(guān)概念術(shù)語分類目錄612
(黑色方框內(nèi)內(nèi)容)。從相關(guān)概念術(shù)語分類目錄612中可以看出，"Java" 的相關(guān)沖既念術(shù)語分屬于三個大類"computer"、 "coffee"、 "location",每一類通過類標(biāo)簽608標(biāo)識。每一類可以展開顯示該類中的相關(guān)概念術(shù)語606，例如 "location" 類展開后顯示 "location" 、 "Java island" 、 "Indonesia" 三個相關(guān)概念術(shù)語。有的類內(nèi)概念術(shù)語還可以再次組織成分類目錄，每個概念術(shù)語前的圖標(biāo)610指示了該概念術(shù)語是否還包含更多概念術(shù)語。例如
"Java language"可以展開,里面包含"javascript" 、 "open source Java"等
概念術(shù)語。在圖3中只是給出了 "Java"例子的分類目錄的一部分，在實(shí) 際應(yīng)用中可能并不限于上述內(nèi)容。
在得到相關(guān)概念術(shù)語的分類目錄后，就可以利用該分類目錄進(jìn)行計算機(jī)搜索。在一種計算機(jī)搜索方法中，在得到由用戶的查詢詞所生成的分類目錄后，可根據(jù)分類目錄由用戶做進(jìn)一步的搜索。例如，可將分類目錄中所包含的概念術(shù)語作為搜索引擎所推薦的"相關(guān)搜索"，它包括多種情況。在一個實(shí)例中，將分類目錄中的概念術(shù)語作為查詢詞，當(dāng)用戶點(diǎn)擊分類目錄中的某一概念術(shù)語時，搜索引擎返回以該概念術(shù)語作為查詢詞的搜索結(jié) 果。在另一個實(shí)例中，將分類目錄中的概念術(shù)語作為當(dāng)前查詢的補(bǔ)充信息，在下一次查詢中，將概念術(shù)語補(bǔ)充到當(dāng)前查詢的查詢詞中，以構(gòu)造更加精確的查詢。在又一個實(shí)例中，若所給出的概念術(shù)語的分類目錄來自事先人工編輯好的目錄信息，當(dāng)用戶點(diǎn)擊某一相關(guān)概念術(shù)語后，將轉(zhuǎn)到事先人工編輯的關(guān)于此概念術(shù)語的網(wǎng)頁目錄，此時，沖既念術(shù)語相當(dāng)于事先人工編輯好的標(biāo)簽或目錄。此外，還可以采用在用戶搜索查詢與先前查詢之間的距離度量來確定向用戶顯示哪些相關(guān)概念術(shù)語，進(jìn)而根據(jù)用戶個性化展示其感興趣的分類目錄信息。具體的，系統(tǒng)記錄每個用戶的查詢歷史信息，對相關(guān)概念術(shù)語分類后，計算各類相關(guān)概念術(shù)語與當(dāng)前用戶歷史查詢的相關(guān) 度，去除相關(guān)度低于某一閾值的概念術(shù)語類，將相關(guān)度高的概念術(shù)語類組織成分類目錄展示。
以上是對本發(fā)明如何生成相關(guān)概念術(shù)語分類目錄的方法所作的詳細(xì) 說明，在上述方法的基礎(chǔ)上，本發(fā)明還提供了能夠?qū)崿F(xiàn)上述方法的系統(tǒng)。如圖4所示，該系統(tǒng)主要包括概念術(shù)語抽取模塊、相關(guān)度計算模塊、概念術(shù)語分類模塊、分類目錄顯示模塊以及用于包括現(xiàn)有數(shù)據(jù)的數(shù)據(jù)庫；
其中，所述的概念術(shù)語抽取模塊從所述數(shù)據(jù)庫所存儲的現(xiàn)有數(shù)據(jù)中找到與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢詞相關(guān)的概念術(shù) 語集合；所述的相關(guān)度計算模塊計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；所述的概念術(shù)語分類模塊根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；所述的分類目錄顯示模塊將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織成分類目錄后返回給用戶。
在前述的系統(tǒng)中，所述的相關(guān)度計算模塊中還包括概念術(shù)語篩選單元，所述的概念術(shù)語篩選單元對由概念術(shù)語抽取才莫塊所得到的概念術(shù)語集合中各個概念術(shù)語與所述查詢詞的相關(guān)度進(jìn)行計算，將與所述查詢詞的相關(guān)度小于用戶指定閾值的概念術(shù)語從所述概念術(shù)語集合中刪除，然后再由相關(guān)度計算模塊對所述概念術(shù)語集合中的各個概念術(shù)語計算相關(guān)度。
所述的概念術(shù)語分類模塊還包括標(biāo)簽選擇單元，所述的標(biāo)簽選擇單元為所得到的概念術(shù)語類選擇類標(biāo)簽。
最后所應(yīng)說明的是，以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換，都不脫離本發(fā)明技術(shù)方案的精神和范圍，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
1、一種分類目錄自動構(gòu)建方法，包括步驟1)、查找與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢詞相關(guān)的概念術(shù)語集合；步驟2)、計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；步驟3)、根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；步驟4)、將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織成分類目錄。
2、根據(jù)權(quán)利要求1所述的分類目錄自動構(gòu)建方法，其特征在于，所述的步驟3)還包括對所得到的概念術(shù)語類中的概念術(shù)語做進(jìn)一步的分類或聚類操作，得到范圍更小的新的概念術(shù)語類。
3、根據(jù)權(quán)利要求l或2所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟3)中，釆用圖分割算法實(shí)現(xiàn)對概念術(shù)語的分類操作，采用聚類算法實(shí)現(xiàn)對概念術(shù)語的聚類操作。
4、根據(jù)權(quán)利要求3所述的分類目錄自動構(gòu)建方法，其特征在于，所述的圖分割算法包括步驟3-l)、根據(jù)所述概念術(shù)語間的相關(guān)度，為所述的概念術(shù)語構(gòu)建概念關(guān)系圖；步驟3-2 )、對所述概念關(guān)系圖中代表概念術(shù)語的各個頂點(diǎn)進(jìn)行劃分，按照所述頂點(diǎn)間相互聯(lián)系的密切程度將所述概念關(guān)系圖分為多個子圖，每個子圖代表一個概念術(shù)語類。
5、根據(jù)權(quán)利要求4所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟3-l)中，在構(gòu)建所述的概念關(guān)系圖時，包括步驟3-1-1)、用一個節(jié)點(diǎn)表示一個概念術(shù)語；步驟3-l-2)、當(dāng)兩個概念術(shù)語間的相關(guān)度高于用戶指定的閾值時，為表示這兩個概念術(shù)語的兩個節(jié)點(diǎn)間添加一條有權(quán)邊，用所述概念術(shù)語間的相關(guān)度數(shù)值表示所述有權(quán)邊的權(quán)重；步驟3-1-3 )、對概念術(shù)語集合中的所有概念術(shù)語完成上述的兩兩相關(guān) 度判斷后即可得到所述的概念關(guān)系圖。
6、根據(jù)權(quán)利要求4所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟3-2)中，對所述子圖劃分的方法包括Kernighan-Li圖劃分方法、求解拉普拉斯矩陣特征向量的譜方法、基于edge-betweenness的劃分方法、K完全子圖方法、互聯(lián)網(wǎng)鏈接分析中的HITS、 MCL方法，基于最大流最小割的web社區(qū)發(fā)現(xiàn)算法和密度二部圖劃分方法，基于Modularity 的社區(qū)發(fā)現(xiàn)算法，基于5 -Closure的社區(qū)發(fā)現(xiàn)算法。
7、根據(jù)權(quán)利要求3所述的分類目錄自動構(gòu)建方法，其特征在于，所述的聚類算法包括single-linkage方法、ROCK方法、Chameleon方法、或conceptual clustering方法。
8、根據(jù)權(quán)利要求1所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟1)中，從現(xiàn)有數(shù)據(jù)中查找與用戶提交的查詢詞有關(guān)的概念術(shù) 語，所述的現(xiàn)有數(shù)據(jù)包括用于記錄以前用戶查詢的搜索引擎日志、搜索引擎返回的與當(dāng)前查詢相關(guān)的文檔、詞典、網(wǎng)上人工編輯目錄信息、Wiki 信息、用戶標(biāo)注信息在內(nèi)的信息。
9、根據(jù)權(quán)利要求8所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟1)中，所述的現(xiàn)有數(shù)據(jù)還包括用戶查詢歷史信息、用戶查詢傾向信息和/或用戶注冊帳號信息在內(nèi)的用戶個人信息。
10、根據(jù)權(quán)利要求1所述的分類目錄自動構(gòu)建方法，其特征在于，所述的步驟2)還包括在計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān) 度前，對所述概念術(shù)語集合中各個概念術(shù)語與所述查詢詞的相關(guān)度進(jìn)行計算，將與所述查詢詞的相關(guān)度小于用戶指定閾值的概念術(shù)語從所述概念術(shù) 語集合中刪除。
11、根據(jù)權(quán)利要求1或10所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟2)中，采用一種相關(guān)度計算方法對所述概念術(shù)語間或概念術(shù)語與查詢詞間的相關(guān)度進(jìn)行計算，所述的相關(guān)度計算方法包括計算兩個術(shù)語在同一文本內(nèi)容中的共同出現(xiàn)次數(shù)的方法、數(shù)據(jù)挖掘方法、計算兩個術(shù)語間的互信息的方法、計算兩個術(shù)語在詞典或人工目錄中的距離的方法、傳統(tǒng)信息檢索中計算文本間距離的計算方法。
12、根據(jù)權(quán)利要求11所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟2)中，還包括采用至少兩種計算相關(guān)度的方法對概念術(shù)語間的相關(guān)度進(jìn)行計算，將所得到的多種計算結(jié)果做歸一化加權(quán)操作，得到最終的相關(guān)度值。
13、根據(jù)權(quán)利要求1或2所述的分類目錄自動構(gòu)建方法，其特征在于，所述的步驟3 )還包括采用類標(biāo)簽對所得到的概念術(shù)語類進(jìn)行標(biāo)識。
14、根據(jù)權(quán)利要求13所述的分類目錄自動構(gòu)建方法，其特征在于，所述的類標(biāo)簽采用所代表的概念術(shù)語類中最具代表性的概念術(shù)語，或能夠對所代表的概念術(shù)語類中所有概念術(shù)語進(jìn)行概括的標(biāo)簽。
15、根據(jù)權(quán)利要求14所述的分類目錄自動構(gòu)建方法，其特征在于，所述的概念術(shù)語類中最具代表性的概念術(shù)語為所述概念術(shù)語類中與類中心相似度值最大的概念術(shù)語。
16、根據(jù)權(quán)利要求14所述的分類目錄自動構(gòu)建方法，其特征在于，所述的能夠?qū)λ淼母拍钚g(shù)語類中所有概念術(shù)語進(jìn)行概括的標(biāo)簽的產(chǎn) 生包括步驟a)、事先定義一組類別標(biāo)簽，依據(jù)類別標(biāo)簽對各概念術(shù)語類進(jìn)行分類，概念術(shù)語類的類標(biāo)簽就是其所屬類別的類別標(biāo)簽；步驟b )、找出類中每個相關(guān)概念術(shù)語在樹形人工編輯目錄中對應(yīng)的節(jié) 點(diǎn)，以這些節(jié)點(diǎn)共有的最深祖先節(jié)點(diǎn)作為該類的類標(biāo)簽。
17、根據(jù)權(quán)利要求1所述的分類目錄自動構(gòu)建方法，其特征在于，在所述的步驟4)中，還包括將所述的分類目錄返回給用戶，在返回給用戶時，結(jié)合用戶設(shè)定的模式信息顯示所述的分類目錄，所述的模式信息包括圖標(biāo)、顏色、字體大小、對概念術(shù)語的注釋說明。
18、一種計算才幾4叟索方法，包括步驟1 )、用戶輸入查詢詞；步驟2)、采用權(quán)利要求1-17之一的分類目錄自動構(gòu)建方法為所述的查詢詞構(gòu)建分類目錄；步驟3)、用戶將步驟2)所得到的分類目錄中的概念術(shù)語作為推薦的查詢詞發(fā)起下一次搜索，以得到更為精確的搜索結(jié)果。
19、一種分類目錄自動構(gòu)建系統(tǒng)，包括概念術(shù)語抽取模塊、相關(guān)度計算模塊、概念術(shù)語分類模塊、分類目錄顯示模塊以及用于包括現(xiàn)有數(shù)據(jù) 的數(shù)據(jù)庫；其中，所述的概念術(shù)語抽取模塊從所述數(shù)據(jù)庫所存儲的現(xiàn)有數(shù)據(jù)中找到與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢詞相關(guān)的概念術(shù)語集合；所述的相關(guān)度計算模塊計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；所述的概念術(shù)語分類模塊根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；所述的分類目錄顯示模塊將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織成分類目錄。
20、根據(jù)權(quán)利要求19所述的分類目錄自動構(gòu)建系統(tǒng)，其特征在于，所述的相關(guān)度計算模塊中還包括概念術(shù)語篩選單元，所述的概念術(shù)語篩選單元對由概念術(shù)語抽取模塊所得到的概念術(shù)語集合中各個概念術(shù)語與所述查詢詞的相關(guān)度進(jìn)行計算，將與所述查詢詞的相關(guān)度小于用戶指定闊值的概念術(shù)語從所述概念術(shù)語集合中刪除，然后再由相關(guān)度計算模塊對所述概念術(shù)語集合中的各個概念術(shù)語計算相關(guān)度。
21、根據(jù)權(quán)利要求19所述的分類目錄自動構(gòu)建系統(tǒng)，其特征在于，所述的概念術(shù)語分類模塊還包括標(biāo)簽選擇單元，所述的標(biāo)簽選擇單元為所得到的概念術(shù)語類選擇類標(biāo)簽。
22、一種計算機(jī)搜索系統(tǒng)，包括查詢詞輸入模塊、權(quán)利要求19-21之一所述的分類目錄自動構(gòu)建系統(tǒng)、以及再搜索模塊；其中，所述的查詢詞輸入模塊用于由用戶輸入查詢詞；所述的分類目錄自動構(gòu)建系統(tǒng)用于為所述的查詢詞構(gòu)建分類目錄；所述的再搜索模塊將所述的分類目錄自動構(gòu)建系統(tǒng)所創(chuàng)建的分類目錄中的概念術(shù)語作為推薦的查詢詞發(fā)起下一次搜索，以得到更為精確的搜索結(jié)果。
全文摘要
本發(fā)明提供一種分類目錄自動構(gòu)建方法，包括從現(xiàn)有數(shù)據(jù)中查找與用戶提交的查詢詞有關(guān)的概念術(shù)語，得到與所述查詢詞相關(guān)的概念術(shù)語集合；計算所述概念術(shù)語集合中各個概念術(shù)語間的相關(guān)度；根據(jù)所述概念術(shù)語間的相關(guān)度，對所述概念術(shù)語集合中的概念術(shù)語做分類或聚類操作，得到至少一個概念術(shù)語類；將所述概念術(shù)語集合中的概念術(shù)語按照所述概念術(shù)語類組織成分類目錄后，返回給用戶。本發(fā)明在現(xiàn)有的搜索引擎的基礎(chǔ)上，為用戶提供的查詢詞生成了相應(yīng)的分類目錄，所得到的分類目錄能夠反映用戶查詢的不同含義，從而有助于用戶更容易、更快捷地找到所需的信息。
文檔編號G06F17/30GK101364239SQ20081022379
公開日2009年2月11日申請日期2008年10月13日優(yōu)先權(quán)日2008年10月13日
發(fā)明者鵬李, 李亞楠, 李錦濤, 斌王申請人:中國科學(xué)院計算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李亞楠;王斌;李錦濤;李鵬
技術(shù)所有人：中國科學(xué)院計算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

系統(tǒng)發(fā)育樹構(gòu)建方法相關(guān)技術(shù)

構(gòu)建系統(tǒng)發(fā)育樹的方法相關(guān)技術(shù)

醫(yī)療器械分類目錄相關(guān)技術(shù)

醫(yī)療廢物分類目錄相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分類目錄自動構(gòu)建方法及相關(guān)系統(tǒng)的制作方法