基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法

文檔序號(hào)：6382432閱讀：256來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法
技術(shù)領(lǐng)域：
本發(fā)明涉及數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún)，屬于計(jì)算機(jī)應(yīng)用領(lǐng)域，尤其涉及一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法。
背景技術(shù)：
數(shù)據(jù)庫(kù)系統(tǒng)是用來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù)，它在企業(yè)、部門(mén)乃至個(gè)人的日常生產(chǎn)生活等諸多領(lǐng)域都得到了廣泛的應(yīng)用。隨著現(xiàn)代互聯(lián)網(wǎng)的迅速發(fā)展，信息呈現(xiàn)爆炸式增長(zhǎng)，數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的信息不斷增多，用戶(hù)搜索這些信息的需求也日益激增。傳統(tǒng)的數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)方式需要用戶(hù)掌握結(jié)構(gòu)化的查詢(xún)語(yǔ)言，了解并且熟悉底層的數(shù)據(jù)模式，而這對(duì)于大多數(shù)的普通用戶(hù)來(lái)說(shuō)是非常復(fù)雜的。受到關(guān)鍵字查詢(xún)?cè)赪eb搜索引擎上獲得巨大成功的影響，近些年來(lái)在數(shù)據(jù)庫(kù)支持關(guān)鍵字查詢(xún)得到了來(lái)自數(shù)據(jù)庫(kù)領(lǐng)域和信息檢索領(lǐng)域研究人員的廣泛關(guān)注并且成為新興的研究熱點(diǎn)。不同于傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)方式，數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún)簡(jiǎn)單易用，查詢(xún)沒(méi)有固定的格式限制，極大地減輕了用戶(hù)學(xué)習(xí)和記憶的壓力。但是這也給如何開(kāi)發(fā)一個(gè)高效健壯的關(guān)鍵字查詢(xún)系統(tǒng)帶來(lái)了巨大挑戰(zhàn)。具體表現(xiàn)如下BI.傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)的結(jié)果是一組孤立的元組，而關(guān)鍵字查詢(xún)則需要從數(shù)據(jù)庫(kù)的不同表中組合與關(guān)鍵字匹配的元組來(lái)形成最終結(jié)果，這會(huì)導(dǎo)致查詢(xún)的搜索空間急劇膨脹。一般來(lái)講，關(guān)鍵字查詢(xún)的搜索空間與查詢(xún)中的關(guān)鍵字?jǐn)?shù)目成指數(shù)型關(guān)系。2、關(guān)鍵字查詢(xún)經(jīng)常是臟的，用戶(hù)的查詢(xún)中經(jīng)常包含一些不相關(guān)或者不正確的詞，而通常這些臟查詢(xún)會(huì)對(duì)隨后的查詢(xún)處理的效率和準(zhǔn)確性產(chǎn)生負(fù)面的影響。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問(wèn)題，提供了一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法。為了實(shí)現(xiàn)上述目的，本發(fā)明采用如下技術(shù)方案基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，包括以下步驟步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)導(dǎo)出需要的元組集，候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不，并把表不后的候選網(wǎng)絡(luò)作為輸出；步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘，以獲取用戶(hù)偏好的頻繁模式樹(shù)；步驟3.利用樹(shù)編輯距離來(lái)定義步驟I輸出的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度，生成頻繁模式樹(shù)的相似度；步驟4、根據(jù)步驟I輸出的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)，以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟
(1-1) IR引擎模塊從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集，候選模塊生成器調(diào)用候選網(wǎng)絡(luò)生成算法，生成候選網(wǎng)絡(luò)；(1-2)用自由樹(shù)的形式表示步驟(1-1)中生成的候選網(wǎng)絡(luò)，這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖；(1-3)將經(jīng)過(guò)以上步驟(1-2)處理過(guò)的候選網(wǎng)絡(luò)傳送到下一個(gè)模塊，進(jìn)行數(shù)據(jù)挖掘，發(fā)現(xiàn)其中的頻繁模式。步驟I所述的IR索引是一個(gè)倒排索引，它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。步驟(1-1)所述的候選網(wǎng)絡(luò)生成算法最早由DISCOVER提出，然后把它由AND語(yǔ)義擴(kuò)展到OR語(yǔ)義。所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟(2-1)用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義，其中模式的支持度(support)是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例；(2-2)在步驟I輸出的候選網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中，枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù)，合并一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選，合并的頻繁一個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同；掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的，即支持度是否大于或者等于用戶(hù)指定的最小支持度；若子樹(shù)的支持度大于或等于用戶(hù)指定的最小支持度，該子樹(shù)則為頻繁的，否則不進(jìn)行選擇；(2-3)重復(fù)步驟(2-2)，合并一對(duì)頻繁k_l子樹(shù)生成一棵頻繁k子樹(shù)的候選，觀(guān)察到合并的頻繁k-Ι子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同，對(duì)每棵頻繁k子樹(shù)，掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的；選擇出所有的頻繁子樹(shù)；所述的k表示節(jié)點(diǎn)數(shù)；(2-4)獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾；符合條件的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系；如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系，則這樣的頻繁子樹(shù)被過(guò)濾掉。所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟(3-1)計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離；( 3-2 )獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄龋?3-3)根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度；公式如下sin (CW,) = nim {-- * sup ^ j
I/ PYjeFT +
(HsnCNnFTj)J其中Clist(CNpFTj)指的是候選網(wǎng)絡(luò)與頻繁模式之間的編輯距離。Sup(FTj)指的
是頻繁模式在查詢(xún)?nèi)罩镜闹С侄?，它的取值范圍?br> ；CN= ICN1, CN2,......，CNJ指
的是一組候選網(wǎng)絡(luò)，CNi e CN, i的取值范圍[1，n] ；FT = (FT1, FT2,......，F(xiàn)Tj指的是一
組頻繁模式，F(xiàn)Tj e FT, j的取值范圍是
，其中η為自然數(shù)；這個(gè)公式反映我們更偏好與支持度較大的頻繁模式相似的候選網(wǎng)絡(luò)。其中第(3-1)步還可以細(xì)分成以下步驟 a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù)。預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,這樣就可以把無(wú)序樹(shù)轉(zhuǎn)化為有序樹(shù)。b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù)。我們使用窮舉法來(lái)解決這個(gè)問(wèn)題，即把每個(gè)節(jié)點(diǎn)當(dāng)作根計(jì)算與另一棵樹(shù)的距離取最小值。c根據(jù)步驟a和步驟b，將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù)，調(diào)用已有的KaizhongZhang和Dennis ShaSh提出計(jì)算有序標(biāo)簽樹(shù)(rooted ordered labeled tree)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。所述步驟4中候選網(wǎng)絡(luò)排序具體包括以下步驟(4-1)根據(jù)步驟3，根據(jù)候選網(wǎng)絡(luò)與頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序;
(4-2)優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。步驟4所述的候選網(wǎng)絡(luò)排序即基于以上操作，對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)，以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。本發(fā)明的有益效果I、不同于傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)方式，數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún)簡(jiǎn)單易用，查詢(xún)沒(méi)有固定的格式限制，極大地減輕了用戶(hù)學(xué)習(xí)和記憶的壓力。2、通過(guò)使用查詢(xún)?nèi)罩緛?lái)進(jìn)一步改進(jìn)傳統(tǒng)的基于模式圖的查詢(xún)方法。改進(jìn)查詢(xún)的質(zhì)量和效率。

圖I為一種擴(kuò)展的基于模式圖的關(guān)鍵字查詢(xún)系統(tǒng)的基本架構(gòu)；圖2為候選網(wǎng)絡(luò)的生成流程；圖3為獲取用戶(hù)偏好的頻繁模式樹(shù)流程；圖4為頻繁模式樹(shù)的相似度的生成流程；圖5為候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離的計(jì)算流程；圖6為候選網(wǎng)絡(luò)排序流程；圖7為用于測(cè)試的幾類(lèi)模式字符串；圖8為在原始的discover系統(tǒng)和我們改進(jìn)的discover++系統(tǒng)上的進(jìn)行實(shí)例檢驗(yàn)的實(shí)驗(yàn)結(jié)果。
具體實(shí)施例方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。圖I中，一種擴(kuò)展的基于模式圖的關(guān)鍵字查詢(xún)系統(tǒng)的基本架構(gòu)。它包括以下步驟步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集，候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不，并把表不后的候選網(wǎng)絡(luò)作為輸出；步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘，以獲取用戶(hù)偏好的頻繁模式樹(shù)；步驟3.利用樹(shù)編輯距離來(lái)定義步驟I生成的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度，生成頻繁模式樹(shù)的相似度；
步驟4、根據(jù)步驟I生成的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)，以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。所述步驟I候選網(wǎng)絡(luò)生成即借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集。候選模塊生成器接受IR模塊生成的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，生成一組候選網(wǎng)絡(luò)作為輸出。候選網(wǎng)絡(luò)生成算法最早由DISCOVER提出，然后把它由AND語(yǔ)義擴(kuò)展到OR語(yǔ)義。所述步驟2獲取用戶(hù)偏好的頻繁模式樹(shù)即將數(shù)據(jù)挖掘算法引入到關(guān)鍵字查詢(xún)中來(lái)，使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘，以獲取用戶(hù)偏好的頻繁模式樹(shù)。所述步驟3生成頻繁模式樹(shù)的相似度即引入樹(shù)編輯距離來(lái)定義生成的候選網(wǎng)絡(luò)與挖掘得到的頻繁模式樹(shù)的相似度。所述步驟4候選網(wǎng)絡(luò)排序即基于以上操作，對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)，以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率?！?br> 圖2中，所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟1-1. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集。IR索引實(shí)際上是一個(gè)倒排索引，它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。1-2候選模塊生成器，它接受IR模塊生成的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，調(diào)用discover提出的候選網(wǎng)絡(luò)生成算法，生成一組候選網(wǎng)絡(luò)。1-3用自由樹(shù)的形式表示用戶(hù)選擇的候選網(wǎng)絡(luò)。這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖。1-4將經(jīng)過(guò)以上步驟處理過(guò)生成的候選網(wǎng)絡(luò)傳送到下一個(gè)模塊，進(jìn)行數(shù)據(jù)挖掘，發(fā)現(xiàn)其中的頻繁模式。圖3中，所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟2-1用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義。模式的支持度(support)是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例。2-2在步驟I中自由樹(shù)(候選網(wǎng)絡(luò))形成的數(shù)據(jù)庫(kù)中，枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù)，合并一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選，合并的頻繁一個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同。掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的，即支持度是否大于或者等于用戶(hù)指定的最小支持度。若子樹(shù)的支持度大于或等于用戶(hù)指定的最小支持度，該子樹(shù)則為頻繁的，否則不進(jìn)行選擇。2-3重復(fù)步驟B2，合并一對(duì)頻繁k_l子樹(shù)生成一棵頻繁k子樹(shù)的候選，可以觀(guān)察到合并的頻繁k-Ι子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同，對(duì)每棵頻繁k子樹(shù)，掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的。選擇出所有的頻繁子樹(shù)。獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾。我們需要的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系，如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系，則這樣的頻繁子樹(shù)應(yīng)該被過(guò)濾掉。圖4中，所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟3-1計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離。3-2獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄取?-3根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度。公式如下
Sim(CNj) = min {---*sup(Fr.)}
1+ dist(CNn FTj)jJf其中Clist(CNpFTj)指的是候選網(wǎng)絡(luò)與頻繁模式之間的編輯距離。Sup(FTj)指的
是頻繁模式在查詢(xún)?nèi)罩镜闹С侄龋娜≈捣秶赱OJhCN= (CN17CN2,......,CNJ指的
是一組候選網(wǎng)絡(luò)，CNi e CN。FT = (FT1, FT2,......，F(xiàn)Tj指的是一組頻繁模式，F(xiàn)Tj e FT。
這個(gè)公式反映我們更偏好與支持度較大的頻繁模式相似的候選網(wǎng)絡(luò)。圖5中，所述步驟3-1具體包括以下步驟a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù)。預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,這樣就可以把無(wú)序樹(shù) 轉(zhuǎn)化為有序樹(shù)。b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù)。我們使用窮舉法來(lái)解決這個(gè)問(wèn)題，即把每個(gè)節(jié)點(diǎn)當(dāng)做根計(jì)算與另一棵樹(shù)的距離取最小值。c根據(jù)步驟a和步驟b，將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù)，調(diào)用已有的KaizhongZhang和Dennis ShaSh提出計(jì)算有序標(biāo)簽樹(shù)(rooted ordered labeled tree)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。圖6中，所述步驟4中候選網(wǎng)絡(luò)排序具體包括以下步驟4-1根據(jù)步驟3，根據(jù)候選網(wǎng)絡(luò)與頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序4-2優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。本發(fā)明的另一個(gè)實(shí)施實(shí)例，我們按照以下方式生成我們所需的查詢(xún)?nèi)罩菊?0個(gè)普通用戶(hù)，每個(gè)人提交20個(gè)查詢(xún)給系統(tǒng)，并從返回的結(jié)果中選擇自己感興趣的結(jié)果，然后我們將用戶(hù)的選擇記錄在查詢(xún)?nèi)罩局?。列出的是我們用于測(cè)試的幾類(lèi)模式字符串如附圖7。我們?cè)谠嫉膁iscover系統(tǒng)和我們改進(jìn)的discover++系統(tǒng)上的進(jìn)行實(shí)例檢驗(yàn),實(shí)驗(yàn)結(jié)果如附圖8所示。
權(quán)利要求
1.基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，它包括以下步驟步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)導(dǎo)出需要的元組集，候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不，并把表不后的候選網(wǎng)絡(luò)作為輸出；步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘，以獲取用戶(hù)偏好的頻繁模式樹(shù)；步驟3.利用樹(shù)編輯距離來(lái)定義步驟I輸出的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度，生成頻繁模式樹(shù)的相似度；步驟4、跟據(jù)步驟I輸出的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。
2.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟 (I-I)IR引擎模塊從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集，候選模塊生成器，調(diào)用候選網(wǎng)絡(luò)生成算法，生成候選網(wǎng)絡(luò)； (1-2)用自由樹(shù)的形式表示步驟(1-1)中生成的候選網(wǎng)絡(luò)，這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖； (1-3)將經(jīng)過(guò)以上步驟(1-2)處理過(guò)的候選網(wǎng)絡(luò)傳送到下ー個(gè)模塊，進(jìn)行數(shù)據(jù)挖掘，發(fā)現(xiàn)其中的頻繁模式。
3.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，步驟I所述的IR索引是ー個(gè)倒排索引，它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。
4.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟 (2-1)用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義，其中模式的支持度是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例； (2-2)在步驟I形成的候選網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中，枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù)，合井一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選,合并的頻繁ー個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同；掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的，即支持度是否大于或者等于用戶(hù)指定的最小支持度；若子樹(shù)的支持度大于或等于用戶(hù)指定的最小支持度，該子樹(shù)則為頻繁的，否則不進(jìn)行選擇； (2-3)重復(fù)步驟(2-2)，合井一對(duì)頻繁k-1子樹(shù)生成一棵頻繁k子樹(shù)的候選，觀(guān)察到合并的頻繁k-1子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同，對(duì)每棵頻繁k子樹(shù)，掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的；選擇出所有的頻繁子樹(shù)；所述的k表示節(jié)點(diǎn)數(shù)； (2-4)獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾；符合條件的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系；如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系，則這樣的頻繁子樹(shù)被過(guò)濾掉。
5.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟 (3-1)計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離；(3-2)獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄龋? (3-3)根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度；公式如下
6.如權(quán)利要求書(shū)5所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，其特征是，其中第(3-1)步包括以下步驟 a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù)；預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,進(jìn)而把無(wú)序樹(shù)轉(zhuǎn)化為有序樹(shù)； b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù)；使用窮舉法把每個(gè)節(jié)點(diǎn)當(dāng)作根計(jì)算與另ー棵樹(shù)的距離取最小值； c根據(jù)步驟a和步驟b，將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù)，調(diào)用已有的計(jì)算有序標(biāo)簽樹(shù)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。
全文摘要
本發(fā)明公開(kāi)了一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法，它包括以下步驟步驟1．IR引擎模塊借助于索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集，候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入，生成一組候選網(wǎng)絡(luò)，并把候選網(wǎng)絡(luò)作為輸出；步驟2．查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘，以獲取用戶(hù)偏好的頻繁模式樹(shù)；步驟3．利用樹(shù)編輯距離來(lái)定義步驟1生成的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度，生成頻繁模式樹(shù)的相似度；步驟4．跟據(jù)步驟1生成的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)，以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。
文檔編號(hào)G06F17/30GK102955860SQ20121049244
公開(kāi)日2013年3月6日申請(qǐng)日期2012年11月27日優(yōu)先權(quán)日2012年11月27日
發(fā)明者禹曉輝, 高磊, 彭朝暉, 閆中敏, 楊敏申請(qǐng)人:山東大學(xué), 山東英佰德信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：禹曉輝;高磊;彭朝暉;閆中敏;楊敏
技術(shù)所有人：山東大學(xué);山東英佰德信息科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：腦波音樂(lè)生成方法
上一篇：瀏覽器及瀏覽器間數(shù)據(jù)共享方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

mysql關(guān)鍵字查詢(xún)相關(guān)技術(shù)

sql關(guān)鍵字查詢(xún)相關(guān)技術(shù)

關(guān)鍵字查詢(xún)相關(guān)技術(shù)

數(shù)據(jù)庫(kù)關(guān)鍵字查詢(xún)相關(guān)技術(shù)

lol關(guān)鍵字查詢(xún)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法