專利名稱:搜索引擎中包含web對(duì)象的聚類方法
技術(shù)領(lǐng)域:
本發(fā)明涉及垂直搜索引擎引擎文本檢索技術(shù),尤其是涉及一種搜索引擎中包含 WEB對(duì)象的聚類方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)上數(shù)據(jù)的規(guī)模及復(fù)雜度以指數(shù)級(jí)增長(zhǎng),傳統(tǒng)搜索引擎對(duì)于用戶呈現(xiàn)雜 亂的搜索結(jié)果的表現(xiàn)方式已逐漸不能滿足人們的需求。高細(xì)粒度的聚類方法針對(duì)這一問(wèn) 題應(yīng)運(yùn)而生,目前研究機(jī)構(gòu)以及大型互聯(lián)網(wǎng)公司已經(jīng)將高細(xì)粒度的聚類方法作為研究的熱 點(diǎn)。 面向WEB對(duì)象的數(shù)據(jù)是指對(duì)網(wǎng)頁(yè)經(jīng)過(guò)簡(jiǎn)單前期處理但未對(duì)內(nèi)容進(jìn)行屬性標(biāo)注的 文本數(shù)據(jù),這類數(shù)據(jù)描述大量對(duì)象信息,如產(chǎn)品,地址,事件等。雖然現(xiàn)在大部分垂直搜索系 統(tǒng)能一定程度上聚類搜索結(jié)果,但是這種聚類粒度遠(yuǎn)遠(yuǎn)沒(méi)有達(dá)到很高的標(biāo)準(zhǔn),在噪音的影 響下,使得用戶親和力降低很多。另一方面,提供高細(xì)粒度的搜索結(jié)果可以使垂直搜索引擎 提供附帶的高質(zhì)量的檢索功能。 由于WEB對(duì)象各個(gè)屬性在同一類別下具有一定的收斂性,差異性只會(huì)存在于個(gè)別 特殊的屬性中,而且WEB對(duì)象一般是屬于短文本信一息,因此利用這些聯(lián)系可以設(shè)計(jì)出高 細(xì)粒度的聚類方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種搜索引擎中包含WEB對(duì)象的聚類方法。本發(fā)明解決其 技術(shù)問(wèn)題采用的技術(shù)方案的步驟如下 1)根據(jù)垂直搜索引擎應(yīng)用環(huán)境,對(duì)搜索結(jié)果中包含的WEB對(duì)象聚類結(jié)果高細(xì)粒度 的要求,選擇衡量WEB對(duì)象關(guān)聯(lián)度的建模方法,構(gòu)建一個(gè)針對(duì)WEB對(duì)象的信息檢索聚類系 統(tǒng); 2)基于步驟1)中關(guān)聯(lián)度的建模方法,建立一種WEB對(duì)象表示特征標(biāo)志;
3)基于步驟2)中的特征標(biāo)志,建立衡量詞匯信息重要度和WEB對(duì)象的相似度;
4)基于步驟3)中定義的詞匯信息重要度和相似度,建立一個(gè)自適應(yīng)的記錄合并 模型,結(jié)合詞匯的信息分布模型和WEB對(duì)象的高相似度聯(lián)合性; 5)基于步驟1)、步驟2)、步驟3)、步驟4),在搜索引擎服務(wù)系統(tǒng)上建立WEB對(duì)象的 信息聚類處理系統(tǒng),實(shí)現(xiàn)垂直搜索引擎檢索結(jié)果。 所述步驟1)的建模方法應(yīng)將原始的WEB對(duì)象文本數(shù)據(jù)結(jié)構(gòu)化,表示成計(jì)算機(jī)系統(tǒng) 易理解與處理的形式。 所述步驟2)中特征標(biāo)志建立的一個(gè)WEB對(duì)象實(shí)體特征的模型,構(gòu)建WEB對(duì)象應(yīng)具 有以下特點(diǎn)a)能夠重點(diǎn)突出同一類WEB對(duì)象之間的關(guān)鍵特征,減少文本差異對(duì)聚類結(jié)果 的影響;b)能夠突出不同WEB對(duì)象之間的差異和同屬性在不同類別下的差異。
所述步驟2)中特征標(biāo)志建立的一種衡量詞匯間關(guān)聯(lián)度的建模方法,構(gòu)建WEB對(duì)象應(yīng)具有以下特點(diǎn)a)基于樹(shù)狀結(jié)構(gòu),具有語(yǔ)義的上下層次關(guān)系;b)表示各個(gè)詞匯間的關(guān)聯(lián) 性和凝聚性。 所述步驟3)應(yīng)實(shí)現(xiàn)現(xiàn)實(shí)網(wǎng)絡(luò)中同一個(gè)意義上WEB對(duì)象的相似度,提供正確的聚類 標(biāo)準(zhǔn)。 所述步驟4)中的一個(gè)自適應(yīng)的記錄合并模型應(yīng)利用WEB對(duì)象的相似度,詞匯間關(guān)
聯(lián)度和現(xiàn)實(shí)網(wǎng)絡(luò)的中閉包結(jié)構(gòu),統(tǒng)一WEB對(duì)象的聚類,歸并所有統(tǒng)一對(duì)象。 所述步驟5)的具體實(shí)施應(yīng)滿足如下需求 1)所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足搜索結(jié)果的統(tǒng)一性,確保各個(gè)網(wǎng)站 上的WEB對(duì)象可以準(zhǔn)確高效聚類,減少噪音的影響。 2)所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足服務(wù)器端對(duì)檢索到的WEB對(duì)象進(jìn)行 高效的一次聚類。然后根據(jù)具體的應(yīng)用需求,對(duì)中間結(jié)果進(jìn)行二次歸類合并,得到準(zhǔn)確的聚 類結(jié)果。 本發(fā)明具有的有益效果是 充分利用了垂直搜索引擎環(huán)境中檢索系統(tǒng)的現(xiàn)有研究和實(shí)現(xiàn)成果,可以方便快捷 的提高WEB對(duì)象的聚類結(jié)果細(xì)粒度,并且不依賴于一種特有的文本檢索技術(shù),使用者根據(jù) 應(yīng)用需求選擇最合適的聚類合并技術(shù),提供最好的性能。
圖1是本發(fā)明實(shí)施步驟流程圖。 圖2是目標(biāo)聚類檢索系統(tǒng)工作原理示意圖。
具體實(shí)施例方式
現(xiàn)結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。
如圖1與圖2所示,本發(fā)明具體實(shí)施過(guò)程和工作原理如下 1)根據(jù)垂直搜索引擎具體應(yīng)用環(huán)境,對(duì)搜索結(jié)果中包含的WEB對(duì)象聚類結(jié)果高細(xì) 粒度的要求,選擇WEB對(duì)象表示和關(guān)聯(lián)度選型; 2)根據(jù)定義的建模方法,建立一種新型的WEB對(duì)象特征標(biāo)志方法;
3)定義衡量詞匯信息重要性的尺度,以及基于該尺度下WEB對(duì)象的相似程度;
4)建立一個(gè)自適應(yīng)的記錄合并模型,結(jié)合詞匯的信息分布模型和WEB對(duì)象的高相 似度聯(lián)合性; 5)根據(jù)具體應(yīng)用,在以上步驟以及垂直搜索引擎服務(wù)系統(tǒng)上,建立WEB對(duì)象的信 息聚類處理系統(tǒng),實(shí)現(xiàn)高標(biāo)準(zhǔn)的垂直搜索引擎檢索結(jié)果。 所述步驟1)應(yīng)將原始的WEB對(duì)象文本數(shù)據(jù)結(jié)構(gòu)化,表示成計(jì)算機(jī)系統(tǒng)易理解與處 理的形式。 所述步驟2)中建立的一個(gè)真正突出WEB對(duì)象實(shí)體特征的模型,構(gòu)建WEB對(duì)象應(yīng)具 有以下特點(diǎn) a)能夠重點(diǎn)突出同一類WEB對(duì)象之間的關(guān)鍵特征,盡量減少文本差異對(duì)聚類結(jié)果 的影響; b)能夠盡量突出不同WEB對(duì)象之間的差異和同屬性在不同類別下的差異。
如網(wǎng)絡(luò)垂直搜索引擎經(jīng)常會(huì)檢索諸如"諾基亞(Nokia)GSM手機(jī)N96","諾基亞N95 智能手機(jī)貨到付款"和"諾基亞N958g GSM促銷"等面向手機(jī)對(duì)象的數(shù)據(jù),并且需要按照具 體手機(jī)的款式如"諾基亞n96手機(jī)","諾基亞n95普通手機(jī)"和"諾基亞n95大容量手機(jī)"進(jìn) 行聚類,聚類結(jié)果需要嚴(yán)格區(qū)分三條記錄的差異,提高搜索結(jié)果的準(zhǔn)確性和完備性。建立信 息傳遞有向無(wú)環(huán)圖根據(jù)詞匯的層次關(guān)系建立信息傳遞有向無(wú)環(huán)圖,然后,根據(jù)圖中各節(jié)點(diǎn) 的拓?fù)潢P(guān)系確定低頻詞匯對(duì)高頻詞匯的信息傳遞量。最終將詞匯信息分布的集中度作為特 征權(quán)重。 所述步驟2)中建立的一種衡量詞匯間關(guān)聯(lián)度的建模方法,構(gòu)建WEB對(duì)象應(yīng)具有以 下特點(diǎn) a)基于樹(shù)狀結(jié)構(gòu),具有語(yǔ)義的上下層次關(guān)系; b)可以表示各個(gè)詞匯間的關(guān)聯(lián)性和凝聚性。建立相似連通圖利用詞匯的相似度 將所有記錄劃分成多個(gè)粗粒度的記錄簇,允許單個(gè)記錄重復(fù)出現(xiàn)在多個(gè)記錄簇中。
所述步驟3)應(yīng)實(shí)現(xiàn)現(xiàn)實(shí)網(wǎng)絡(luò)中同一個(gè)意義上WEB對(duì)象的相似度,提供正確的聚類 標(biāo)準(zhǔn)。將聚類看作一個(gè)分辨對(duì)象的過(guò)程,對(duì)辨別對(duì)象能力較強(qiáng)的特征詞匯賦予較高的權(quán)重, 因此具有很高的通用性。面向?qū)ο缶垲愂且粋€(gè)對(duì)象辨認(rèn)過(guò)程,只有分辨出每條記錄描述的 對(duì)象,才能進(jìn)行準(zhǔn)確的聚類。每條記錄中存在對(duì)分辨對(duì)象起到關(guān)鍵作用的特征詞匯,如例 子中的"8g" "n95"詞匯;存在對(duì)分辨對(duì)象不起任何作用的噪音詞匯,如例子中的"貨到付 款""促銷"詞匯;存在分辨對(duì)象能力介于兩者之間的一般詞匯,如例子中"GSM"等詞匯。
所述步驟4)中的一個(gè)自適應(yīng)的記錄合并模型應(yīng)利用WEB對(duì)象的相似度,詞匯間關(guān) 聯(lián)度和現(xiàn)實(shí)網(wǎng)絡(luò)的中閉包結(jié)構(gòu),統(tǒng)一WEB對(duì)象的聚類,歸并所有統(tǒng)一對(duì)象。在提取特征并且 確定權(quán)重之后,記錄合并模型需要根據(jù)記錄間的相似度,得到最終聚類結(jié)果Clusters。
已有的合并模型一般有如下兩個(gè)缺點(diǎn)首先,當(dāng)記錄合并到一個(gè)記錄簇之后就不 允許更換新的記錄簇,這種缺少自適應(yīng)的局部最優(yōu)過(guò)程很容易受到噪音的影響,產(chǎn)生較大 的誤差。 其次,噪音詞匯容易引起橋接效應(yīng),導(dǎo)致兩條不同的記錄因?yàn)榇嬖谙嗨频脑胍舳?錯(cuò)誤地將各自所屬的記錄簇合并。 在本發(fā)明中首先根據(jù)每個(gè)特征的倒排索引建立粗粒度的聚類集合,這個(gè)集合取消 了對(duì)每條記錄只能屬于一個(gè)記錄簇的限制,然后再將重復(fù)出現(xiàn)在多個(gè)記錄簇的記錄根據(jù)其 對(duì)記錄簇相似度的影響程度重新自適應(yīng)地選擇最佳記錄簇,這樣產(chǎn)生的聚類結(jié)果可以極大 地修正上述所提到的兩個(gè)缺點(diǎn)。記錄去重對(duì)重復(fù)出現(xiàn)的記錄選擇最佳的保留記錄簇,刪除 其他重復(fù)的記錄,得到最終細(xì)粒度的聚類結(jié)果。
所述步驟5)的具體實(shí)施應(yīng)滿足如下需求 1)所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足搜索結(jié)果的統(tǒng)一性,確保各個(gè)網(wǎng)站 上的WEB對(duì)象可以準(zhǔn)確高效聚類,減少噪音的影響; 2)所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足服務(wù)器端對(duì)檢索到的WEB對(duì)象進(jìn)行 高效的一次聚類。然后根據(jù)具體的應(yīng)用需求,對(duì)中間結(jié)果進(jìn)行二次歸類合并,得到準(zhǔn)確的聚 類結(jié)果。
權(quán)利要求
一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于該方法的步驟如下1)根據(jù)垂直搜索引擎應(yīng)用環(huán)境,對(duì)搜索結(jié)果中包含的WEB對(duì)象聚類結(jié)果高細(xì)粒度的要求,選擇衡量WEB對(duì)象關(guān)聯(lián)度的建模方法,構(gòu)建一個(gè)針對(duì)WEB對(duì)象的信息檢索聚類系統(tǒng);2)基于步驟1)中關(guān)聯(lián)度的建模方法,建立一種WEB對(duì)象表示特征標(biāo)志;3)基于步驟2)中的特征標(biāo)志,建立衡量詞匯信息重要度和WEB對(duì)象的相似度;4)基于步驟3)中定義的詞匯信息重要度和相似度,建立一個(gè)自適應(yīng)的記錄合并模型,結(jié)合詞匯的信息分布模型和WEB對(duì)象的高相似度聯(lián)合性;5)基于步驟1)、步驟2)、步驟3)、步驟4),在搜索引擎服務(wù)系統(tǒng)上建立WEB對(duì)象的信息聚類處理系統(tǒng),實(shí)現(xiàn)垂直搜索引擎檢索結(jié)果。
2. 根據(jù)權(quán)利要求1所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,,其特征在于所 述步驟1)的建模方法應(yīng)將原始的WEB對(duì)象文本數(shù)據(jù)結(jié)構(gòu)化,表示成計(jì)算機(jī)系統(tǒng)易理解與處 理的形式。
3. 根據(jù)權(quán)利要求2所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于所 述步驟2)中特征標(biāo)志建立的一個(gè)WEB對(duì)象實(shí)體特征的模型,構(gòu)建WEB對(duì)象應(yīng)具有以下特 點(diǎn)a)能夠重點(diǎn)突出同一類WEB對(duì)象之間的關(guān)鍵特征,減少文本差異對(duì)聚類結(jié)果的影響;b) 能夠突出不同WEB對(duì)象之間的差異和同屬性在不同類別下的差異。
4. 根據(jù)權(quán)利要求2所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于所 述步驟2)中特征標(biāo)志建立的一種衡量詞匯間關(guān)聯(lián)度的建模方法,構(gòu)建WEB對(duì)象應(yīng)具有以下 特點(diǎn)a)基于樹(shù)狀結(jié)構(gòu),具有語(yǔ)義的上下層次關(guān)系;b)表示各個(gè)詞匯間的關(guān)聯(lián)性和凝聚性。
5. 根據(jù)權(quán)利要求3所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于所 述步驟3)應(yīng)實(shí)現(xiàn)現(xiàn)實(shí)網(wǎng)絡(luò)中同一個(gè)意義上WEB對(duì)象的相似度,提供正確的聚類標(biāo)準(zhǔn)。
6. 根據(jù)權(quán)利要求4所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于所 述步驟4)中的一個(gè)自適應(yīng)的記錄合并模型應(yīng)利用WEB對(duì)象的相似度,詞匯間關(guān)聯(lián)度和現(xiàn)實(shí) 網(wǎng)絡(luò)的中閉包結(jié)構(gòu),統(tǒng)一 WEB對(duì)象的聚類,歸并所有統(tǒng)一對(duì)象。
7. 根據(jù)權(quán)利要求5所述的一種搜索引擎中包含WEB對(duì)象的聚類方法,其特征在于所 述步驟5)的具體實(shí)施應(yīng)滿足如下需求1) 所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足搜索結(jié)果的統(tǒng)一性,確保各個(gè)網(wǎng)站上的 WEB對(duì)象可以準(zhǔn)確高效聚類,減少噪音的影響。2) 所建立的層次化垂直搜索引擎系統(tǒng),應(yīng)滿足服務(wù)器端對(duì)檢索到的WEB對(duì)象進(jìn)行高效 的一次聚類。然后根據(jù)具體的應(yīng)用需求,對(duì)中間結(jié)果進(jìn)行二次歸類合并,得到準(zhǔn)確的聚類結(jié) 果。
全文摘要
本發(fā)明公開(kāi)了一種搜索引擎中包含WEB對(duì)象的聚類方法。通過(guò)挖掘詞匯間的樹(shù)狀概率層次關(guān)系,計(jì)算詞匯在數(shù)據(jù)集中的信息分布集中度,作為分辨對(duì)象的標(biāo)志。該方法建立一個(gè)新型的信息傳遞有向無(wú)環(huán)圖模型,準(zhǔn)確提取數(shù)據(jù)中對(duì)辨別對(duì)象起到關(guān)鍵作用的特征詞匯,提高相似度計(jì)算的精確性,并且建立一種新型的自適應(yīng)記錄合并模型,有效地提高各個(gè)記錄簇中記錄間高相似度比例,減少噪音對(duì)合并過(guò)程的影響,具有很高的準(zhǔn)確性,健壯性和通用性。本發(fā)明充分利用了垂直搜索引擎環(huán)境中檢索系統(tǒng)的現(xiàn)有研究和實(shí)現(xiàn)成果,可以方便快捷的提高WEB對(duì)象的聚類結(jié)果細(xì)粒度,并且不依賴于一種特有的文本檢索技術(shù),使用者根據(jù)應(yīng)用需求選擇最合適的聚類合并技術(shù),提供最好的性能。
文檔編號(hào)G06F17/30GK101706790SQ200910152879
公開(kāi)日2010年5月12日 申請(qǐng)日期2009年9月18日 優(yōu)先權(quán)日2009年9月18日
發(fā)明者壽黎但, 盛振華, 胡天磊, 陳剛, 陳珂 申請(qǐng)人:浙江大學(xué)