欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法

文檔序號(hào):6382432閱讀:256來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún),屬于計(jì)算機(jī)應(yīng)用領(lǐng)域,尤其涉及一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法。
背景技術(shù)
數(shù)據(jù)庫(kù)系統(tǒng)是用來(lái)組織、存儲(chǔ)和管理數(shù)據(jù)的倉(cāng)庫(kù),它在企業(yè)、部門(mén)乃至個(gè)人的日常生產(chǎn)生活等諸多領(lǐng)域都得到了廣泛的應(yīng)用。隨著現(xiàn)代互聯(lián)網(wǎng)的迅速發(fā)展,信息呈現(xiàn)爆炸式增長(zhǎng),數(shù)據(jù)庫(kù)系統(tǒng)存儲(chǔ)的信息不斷增多,用戶(hù)搜索這些信息 的需求也日益激增。傳統(tǒng)的數(shù)據(jù)庫(kù)訪(fǎng)問(wèn)方式需要用戶(hù)掌握結(jié)構(gòu)化的查詢(xún)語(yǔ)言,了解并且熟悉底層的數(shù)據(jù)模式,而這對(duì)于大多數(shù)的普通用戶(hù)來(lái)說(shuō)是非常復(fù)雜的。受到關(guān)鍵字查詢(xún)?cè)赪eb搜索引擎上獲得巨大成功的影響,近些年來(lái)在數(shù)據(jù)庫(kù)支持關(guān)鍵字查詢(xún)得到了來(lái)自數(shù)據(jù)庫(kù)領(lǐng)域和信息檢索領(lǐng)域研究人員的廣泛關(guān)注并且成為新興的研究熱點(diǎn)。不同于傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)方式,數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún)簡(jiǎn)單易用,查詢(xún)沒(méi)有固定的格式限制,極大地減輕了用戶(hù)學(xué)習(xí)和記憶的壓力。但是這也給如何開(kāi)發(fā)一個(gè)高效健壯的關(guān)鍵字查詢(xún)系統(tǒng)帶來(lái)了巨大挑戰(zhàn)。具體表現(xiàn)如下BI.傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)的結(jié)果是一組孤立的元組,而關(guān)鍵字查詢(xún)則需要從數(shù)據(jù)庫(kù)的不同表中組合與關(guān)鍵字匹配的元組來(lái)形成最終結(jié)果,這會(huì)導(dǎo)致查詢(xún)的搜索空間急劇膨脹。一般來(lái)講,關(guān)鍵字查詢(xún)的搜索空間與查詢(xún)中的關(guān)鍵字?jǐn)?shù)目成指數(shù)型關(guān)系。2、關(guān)鍵字查詢(xún)經(jīng)常是臟的,用戶(hù)的查詢(xún)中經(jīng)常包含一些不相關(guān)或者不正確的詞,而通常這些臟查詢(xún)會(huì)對(duì)隨后的查詢(xún)處理的效率和準(zhǔn)確性產(chǎn)生負(fù)面的影響。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決上述問(wèn)題,提供了一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法。為了實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,包括以下步驟步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)導(dǎo)出需要的元組集,候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不,并把表不后的候選網(wǎng)絡(luò)作為輸出;步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘,以獲取用戶(hù)偏好的頻繁模式樹(shù);步驟3.利用樹(shù)編輯距離來(lái)定義步驟I輸出的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度,生成頻繁模式樹(shù)的相似度;步驟4、根據(jù)步驟I輸出的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò),以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟
(1-1) IR引擎模塊從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集,候選模塊生成器調(diào)用候選網(wǎng)絡(luò)生成算法,生成候選網(wǎng)絡(luò);(1-2)用自由樹(shù)的形式表示步驟(1-1)中生成的候選網(wǎng)絡(luò),這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖;(1-3)將經(jīng)過(guò)以上步驟(1-2)處理過(guò)的候選網(wǎng)絡(luò)傳送到下一個(gè)模塊,進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)其中的頻繁模式。步驟I所述的IR索引是一個(gè)倒排索引,它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。步驟(1-1)所述的候選網(wǎng)絡(luò)生成算法最早由DISCOVER提出,然后把它由AND語(yǔ)義擴(kuò)展到OR語(yǔ)義。所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟(2-1)用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義,其中模式的支持度(support)是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例;(2-2)在步驟I輸出的候選網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù),合并一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選,合并的頻繁一個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同;掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的,即支持度是否大于或者等于用戶(hù)指定的最小支持度;若子樹(shù)的支持度大于或等于用戶(hù)指定 的最小支持度,該子樹(shù)則為頻繁的,否則不進(jìn)行選擇;(2-3)重復(fù)步驟(2-2),合并一對(duì)頻繁k_l子樹(shù)生成一棵頻繁k子樹(shù)的候選,觀(guān)察到合并的頻繁k-Ι子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同,對(duì)每棵頻繁k子樹(shù),掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的;選擇出所有的頻繁子樹(shù);所述的k表示節(jié)點(diǎn)數(shù);(2-4)獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾;符合條件的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系;如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系,則這樣的頻繁子樹(shù)被過(guò)濾掉。所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟(3-1)計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離;( 3-2 )獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄龋?3-3)根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度;公式如下sin (CW,) = nim {-- * sup ^ j
I/ PYjeFT +
(HsnCNnFTj)J其中Clist(CNpFTj)指的是候選網(wǎng)絡(luò)與頻繁模式之間的編輯距離。Sup(FTj)指的
是頻繁模式在查詢(xún)?nèi)罩镜闹С侄?,它的取值范圍?br> ;CN= ICN1, CN2,......,CNJ指
的是一組候選網(wǎng)絡(luò),CNi e CN, i的取值范圍[1,n] ;FT = (FT1, FT2,......,F(xiàn)Tj指的是一
組頻繁模式,F(xiàn)Tj e FT, j的取值范圍是
,其中η為自然數(shù);這個(gè)公式反映我們更偏好與支持度較大的頻繁模式相似的候選網(wǎng)絡(luò)。其中第(3-1)步還可以細(xì)分成以下步驟 a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù)。預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,這樣就可以把無(wú)序樹(shù)轉(zhuǎn)化為有序樹(shù)。b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù)。我們使用窮舉法來(lái)解決這個(gè)問(wèn)題,即把每個(gè)節(jié)點(diǎn)當(dāng)作根計(jì)算與另一棵樹(shù)的距離取最小值。c根據(jù)步驟a和步驟b,將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù),調(diào)用已有的KaizhongZhang和Dennis ShaSh提出計(jì)算有序標(biāo)簽樹(shù)(rooted ordered labeled tree)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。所述步驟4中候選網(wǎng)絡(luò)排序具體包括以下步驟(4-1)根據(jù)步驟3,根據(jù)候選網(wǎng)絡(luò)與頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序;
(4-2)優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。步驟4所述的候選網(wǎng)絡(luò)排序即基于以上操作,對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò),以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。本發(fā)明的有益效果I、不同于傳統(tǒng)的數(shù)據(jù)庫(kù)查詢(xún)方式,數(shù)據(jù)庫(kù)上的關(guān)鍵字查詢(xún)簡(jiǎn)單易用,查詢(xún)沒(méi)有固定的格式限制,極大地減輕了用戶(hù)學(xué)習(xí)和記憶的壓力。2、通過(guò)使用查詢(xún)?nèi)罩緛?lái)進(jìn)一步改進(jìn)傳統(tǒng)的基于模式圖的查詢(xún)方法。改進(jìn)查詢(xún)的質(zhì)量和效率。


圖I為一種擴(kuò)展的基于模式圖的關(guān)鍵字查詢(xún)系統(tǒng)的基本架構(gòu);圖2為候選網(wǎng)絡(luò)的生成流程;圖3為獲取用戶(hù)偏好的頻繁模式樹(shù)流程;圖4為頻繁模式樹(shù)的相似度的生成流程;圖5為候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離的計(jì)算流程;圖6為候選網(wǎng)絡(luò)排序流程;圖7為用于測(cè)試的幾類(lèi)模式字符串;圖8為在原始的discover系統(tǒng)和我們改進(jìn)的discover++系統(tǒng)上的進(jìn)行實(shí)例檢驗(yàn)的實(shí)驗(yàn)結(jié)果。
具體實(shí)施例方式下面結(jié)合附圖與實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明。圖I中,一種擴(kuò)展的基于模式圖的關(guān)鍵字查詢(xún)系統(tǒng)的基本架構(gòu)。它包括以下步驟步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集,候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不,并把表不后的候選網(wǎng)絡(luò)作為輸出;步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘,以獲取用戶(hù)偏好的頻繁模式樹(shù);步驟3.利用樹(shù)編輯距離來(lái)定義步驟I生成的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度,生成頻繁模式樹(shù)的相似度;
步驟4、根據(jù)步驟I生成的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò),以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。所述步驟I候選網(wǎng)絡(luò)生成即借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集。候選模塊生成器接受IR模塊生成的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,生成一組候選網(wǎng)絡(luò)作為輸出。候選網(wǎng)絡(luò)生成算法最早由DISCOVER提出,然后把它由AND語(yǔ)義擴(kuò)展到OR語(yǔ)義。所述步驟2獲取用戶(hù)偏好的頻繁模式樹(shù)即將數(shù)據(jù)挖掘算法引入到關(guān)鍵字查詢(xún)中來(lái),使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘,以獲取用戶(hù)偏好的頻繁模式樹(shù)。所述步驟3生成頻繁模式樹(shù)的相似度即引入樹(shù)編輯距離來(lái)定義生成的候選網(wǎng)絡(luò)與挖掘得到的頻繁模式樹(shù)的相似度。所述步驟4候選網(wǎng)絡(luò)排序即基于以上操作,對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò),以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率?!?br> 圖2中,所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟1-1. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集。IR索引實(shí)際上是一個(gè)倒排索引,它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。1-2候選模塊生成器,它接受IR模塊生成的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,調(diào)用discover提出的候選網(wǎng)絡(luò)生成算法,生成一組候選網(wǎng)絡(luò)。1-3用自由樹(shù)的形式表示用戶(hù)選擇的候選網(wǎng)絡(luò)。這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖。1-4將經(jīng)過(guò)以上步驟處理過(guò)生成的候選網(wǎng)絡(luò)傳送到下一個(gè)模塊,進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)其中的頻繁模式。圖3中,所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟2-1用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義。模式的支持度(support)是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例。2-2在步驟I中自由樹(shù)(候選網(wǎng)絡(luò))形成的數(shù)據(jù)庫(kù)中,枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù),合并一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選,合并的頻繁一個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同。掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的,即支持度是否大于或者等于用戶(hù)指定的最小支持度。若子樹(shù)的支持度大于或等于用戶(hù)指定的最小支持度,該子樹(shù)則為頻繁的,否則不進(jìn)行選擇。2-3重復(fù)步驟B2,合并一對(duì)頻繁k_l子樹(shù)生成一棵頻繁k子樹(shù)的候選,可以觀(guān)察到合并的頻繁k-Ι子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同,對(duì)每棵頻繁k子樹(shù),掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的。選擇出所有的頻繁子樹(shù)。獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾。我們需要的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系,如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系,則這樣的頻繁子樹(shù)應(yīng)該被過(guò)濾掉。圖4中,所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟3-1計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離。3-2獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄取?-3根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度。公式如下
Sim(CNj) = min {---*sup(Fr.)}
1+ dist(CNn FTj)jJf其中Clist(CNpFTj)指的是候選網(wǎng)絡(luò)與頻繁模式之間的編輯距離。Sup(FTj)指的
是頻繁模式在查詢(xún)?nèi)罩镜闹С侄龋娜≈捣秶赱OJhCN= (CN17CN2,......,CNJ指的
是一組候選網(wǎng)絡(luò),CNi e CN。FT = (FT1, FT2,......,F(xiàn)Tj指的是一組頻繁模式,F(xiàn)Tj e FT。
這個(gè)公式反映我們更偏好與支持度較大的頻繁模式相似的候選網(wǎng)絡(luò)。圖5中,所述步驟3-1具體包括以下步驟a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù)。預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,這樣就可以把無(wú)序樹(shù) 轉(zhuǎn)化為有序樹(shù)。b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù)。我們使用窮舉法來(lái)解決這個(gè)問(wèn)題,即把每個(gè)節(jié)點(diǎn)當(dāng)做根計(jì)算與另一棵樹(shù)的距離取最小值。c根據(jù)步驟a和步驟b,將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù),調(diào)用已有的KaizhongZhang和Dennis ShaSh提出計(jì)算有序標(biāo)簽樹(shù)(rooted ordered labeled tree)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。圖6中,所述步驟4中候選網(wǎng)絡(luò)排序具體包括以下步驟4-1根據(jù)步驟3,根據(jù)候選網(wǎng)絡(luò)與頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序4-2優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。本發(fā)明的另一個(gè)實(shí)施實(shí)例,我們按照以下方式生成我們所需的查詢(xún)?nèi)罩菊?0個(gè)普通用戶(hù),每個(gè)人提交20個(gè)查詢(xún)給系統(tǒng),并從返回的結(jié)果中選擇自己感興趣的結(jié)果,然后我們將用戶(hù)的選擇記錄在查詢(xún)?nèi)罩局?。列出的是我們用于測(cè)試的幾類(lèi)模式字符串如附圖7。我們?cè)谠嫉膁iscover系統(tǒng)和我們改進(jìn)的discover++系統(tǒng)上的進(jìn)行實(shí)例檢驗(yàn),實(shí)驗(yàn)結(jié)果如附圖8所示。
權(quán)利要求
1.基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,它包括以下步驟 步驟I. IR引擎模塊借助于IR索引從數(shù)據(jù)庫(kù)導(dǎo)出需要的元組集,候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,生成一組候選網(wǎng)絡(luò)并用自由樹(shù)的形式表不,并把 表不后的候選網(wǎng)絡(luò)作為輸出; 步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘,以獲取用戶(hù)偏好的頻繁模式樹(shù); 步驟3.利用樹(shù)編輯距離來(lái)定義步驟I輸出的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度,生成頻繁模式樹(shù)的相似度; 步驟4、跟據(jù)步驟I輸出的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò)。
2.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,所述步驟I中的候選網(wǎng)絡(luò)的生成具體包括以下步驟 (I-I)IR引擎模塊從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集,候選模塊生成器,調(diào)用候選網(wǎng)絡(luò)生成算法,生成候選網(wǎng)絡(luò); (1-2)用自由樹(shù)的形式表示步驟(1-1)中生成的候選網(wǎng)絡(luò),這里的自由樹(shù)是指連通的且無(wú)環(huán)的無(wú)向圖; (1-3)將經(jīng)過(guò)以上步驟(1-2)處理過(guò)的候選網(wǎng)絡(luò)傳送到下ー個(gè)模塊,進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)其中的頻繁模式。
3.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,步驟I所述的IR索引是ー個(gè)倒排索引,它記錄所有的關(guān)鍵字和關(guān)鍵字在數(shù)據(jù)庫(kù)中的出現(xiàn)位置。
4.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,所述步驟2中獲取用戶(hù)偏好的頻繁模式樹(shù)具體包括以下步驟 (2-1)用戶(hù)對(duì)數(shù)據(jù)庫(kù)中的最小支持度進(jìn)行定義,其中模式的支持度是指數(shù)據(jù)庫(kù)中支持的事務(wù)所占的比例; (2-2)在步驟I形成的候選網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中,枚舉所有頻繁的2個(gè)節(jié)點(diǎn)子樹(shù),合井一對(duì)頻繁I節(jié)點(diǎn)子樹(shù)生成一棵頻繁2子樹(shù)的候選,合并的頻繁ー個(gè)節(jié)點(diǎn)子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同;掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的,即支持度是否大于或者等于用戶(hù)指定的最小支持度;若子樹(shù)的支持度大于或等于用戶(hù)指定的最小支持度,該子樹(shù)則為頻繁的,否則不進(jìn)行選擇; (2-3)重復(fù)步驟(2-2),合井一對(duì)頻繁k-1子樹(shù)生成一棵頻繁k子樹(shù)的候選,觀(guān)察到合并的頻繁k-1子樹(shù)僅有一個(gè)葉節(jié)點(diǎn)不同而其他部分全部相同,對(duì)每棵頻繁k子樹(shù),掃描數(shù)據(jù)庫(kù)計(jì)算候選的支持度并核實(shí)生成的候選是否頻繁的;選擇出所有的頻繁子樹(shù);所述的k表示節(jié)點(diǎn)數(shù); (2-4)獲得所有頻繁子樹(shù)后對(duì)不符合條件的頻繁子樹(shù)進(jìn)行過(guò)濾;符合條件的頻繁子樹(shù)是指模式樹(shù)的葉節(jié)點(diǎn)的標(biāo)簽都是關(guān)鍵字關(guān)系;如果模式樹(shù)的任何一個(gè)葉節(jié)點(diǎn)標(biāo)簽不是關(guān)鍵字關(guān)系,則這樣的頻繁子樹(shù)被過(guò)濾掉。
5.如權(quán)利要求書(shū)I所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,所述步驟3中生成頻繁模式樹(shù)的相似度具體包括以下步驟 (3-1)計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的編輯距離;(3-2)獲得頻繁模式樹(shù)在查詢(xún)?nèi)罩局械闹С侄龋? (3-3)根據(jù)公式計(jì)算候選網(wǎng)絡(luò)與頻繁模式樹(shù)的相似度;公式如下
6.如權(quán)利要求書(shū)5所述的基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,其特征是,其中第(3-1)步包括以下步驟 a把自由標(biāo)簽樹(shù)轉(zhuǎn)化成有序樹(shù);預(yù)先規(guī)定標(biāo)簽間的順序關(guān)系,進(jìn)而把無(wú)序樹(shù)轉(zhuǎn)化為有序樹(shù); b把無(wú)根樹(shù)轉(zhuǎn)化為有根樹(shù);使用窮舉法把每個(gè)節(jié)點(diǎn)當(dāng)作根計(jì)算與另ー棵樹(shù)的距離取最小值; c根據(jù)步驟a和步驟b,將自由樹(shù)轉(zhuǎn)換為有序有根的標(biāo)簽樹(shù),調(diào)用已有的計(jì)算有序標(biāo)簽樹(shù)編輯距離的算法來(lái)計(jì)算自由樹(shù)之間的編輯距離。
全文摘要
本發(fā)明公開(kāi)了一種基于模式圖的關(guān)鍵字查詢(xún)改進(jìn)方法,它包括以下步驟步驟1.IR引擎模塊借助于索引從數(shù)據(jù)庫(kù)表導(dǎo)出需要的元組集,候選模塊生成器把導(dǎo)出的元組集中的非空元組集和數(shù)據(jù)庫(kù)模式圖作為輸入,生成一組候選網(wǎng)絡(luò),并把候選網(wǎng)絡(luò)作為輸出;步驟2.查詢(xún)?nèi)罩就诰蚰K使用已有的樹(shù)挖掘算法來(lái)對(duì)用戶(hù)的查詢(xún)?nèi)罩具M(jìn)行挖掘,以獲取用戶(hù)偏好的頻繁模式樹(shù);步驟3.利用樹(shù)編輯距離來(lái)定義步驟1生成的候選網(wǎng)絡(luò)與步驟2挖掘得到的頻繁模式樹(shù)的相似度,生成頻繁模式樹(shù)的相似度;步驟4.跟據(jù)步驟1生成的候選網(wǎng)絡(luò)與步驟3生成的頻繁子樹(shù)的相似度對(duì)生成的候選網(wǎng)絡(luò)進(jìn)行排序并優(yōu)先求解排位靠前的候選網(wǎng)絡(luò),以此來(lái)改進(jìn)查詢(xún)的質(zhì)量和效率。
文檔編號(hào)G06F17/30GK102955860SQ20121049244
公開(kāi)日2013年3月6日 申請(qǐng)日期2012年11月27日 優(yōu)先權(quán)日2012年11月27日
發(fā)明者禹曉輝, 高磊, 彭朝暉, 閆中敏, 楊敏 申請(qǐng)人:山東大學(xué), 山東英佰德信息科技有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
徐水县| 抚顺市| 海原县| 株洲县| 宜黄县| 宜春市| 博野县| 济源市| 沾益县| 喀什市| 镇巴县| 苗栗县| 鲁甸县| 墨江| 河北省| 阜康市| 麦盖提县| 巨野县| 鄄城县| 西和县| 宜阳县| 定安县| 辽宁省| 石河子市| 兰考县| 县级市| 赞皇县| 从化市| 井陉县| 涞水县| 芜湖县| 祁东县| 耒阳市| 靖宇县| 四会市| 营口市| 高州市| 凭祥市| 大姚县| 临漳县| 新竹县|