欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于偽相關(guān)反饋模型的信息檢索方法及系統(tǒng)與流程

文檔序號:11323266閱讀:477來源:國知局
本發(fā)明屬于信息檢索
技術(shù)領(lǐng)域
,特別涉及一種將核函數(shù)詞相關(guān)度融合到偽相關(guān)反饋模型中的信息檢索方法及系統(tǒng)。
背景技術(shù)
:在信息競爭趨勢日盛的年代,借助搜索引擎瀏覽和獲取所需信息是人們?nèi)粘I畹闹匾M成部分。然而,網(wǎng)絡(luò)資源異常豐富,信息總量迅速膨脹,使得用戶難以高效和準(zhǔn)確的獲取并識別重要信息,信息處理技術(shù)迫切需要一種更為有效的理論和方法來處理日益增長的海量數(shù)據(jù)。信息檢索作為經(jīng)典的文本處理技術(shù),能夠適應(yīng)這一要求并迅速成為當(dāng)前信息處理研究領(lǐng)域中的研究熱點。信息檢索(informationretrieval)是指信息按一定的方式組織起來,并根據(jù)信息用戶的需要找出有關(guān)的信息的過程和技術(shù)。信息檢索過程可以簡單地描述為:用戶根據(jù)其信息需求,組織一個查詢字符串提交給信息檢索系統(tǒng),信息檢索系統(tǒng)在文檔集中檢索出與查詢相關(guān)的文檔子集返回給用戶。具體來說是指給定一組特定的查詢主題,通過某種信息檢索模型,對目標(biāo)中的所有文檔與查詢主題進(jìn)行相關(guān)度計算,并將每個文檔按得分從大到小的順序返回,返回的結(jié)果中文檔越靠前說明該文檔與查詢主題越相關(guān)。經(jīng)過近半個世紀(jì)的研究發(fā)展,一些有效的信息檢索模型陸續(xù)提出并逐漸應(yīng)用到相關(guān)的系統(tǒng)中。其中,影響比較大的檢索模型包括:布爾邏輯模型、向量空間模型、概率模型、語言模型以及新近提出來的基于監(jiān)督學(xué)習(xí)的檢索模型。在實際的信息檢索應(yīng)用中,用戶的查詢請求與系統(tǒng)反饋的查詢結(jié)果之間存在一定的偏差,造成檢索系統(tǒng)的性能下降。所以,信息檢索往往是一個反復(fù)的過程,用戶常常需要經(jīng)過多次的查詢調(diào)整才能獲得滿意的檢索結(jié)果。查詢擴(kuò)展技術(shù)通過對用戶的初始查詢進(jìn)行擴(kuò)展和重構(gòu),較好的解決了用戶查詢用詞與文檔用詞不匹配以及用戶表達(dá)不完整的問題,因而被廣泛應(yīng)用于信息檢索領(lǐng)域。簡單地說來,查詢擴(kuò)展就是檢索系統(tǒng)在進(jìn)行檢索之前,先根據(jù)擴(kuò)展詞表,自動把用戶查詢中的關(guān)鍵詞的同義詞或者近義詞擴(kuò)展進(jìn)而形成新的查詢,然后再進(jìn)行檢索。偽相關(guān)反饋的出現(xiàn)是為了使檢索系統(tǒng)更加有效,使檢索結(jié)果更好地滿足用戶的查詢請求。其主要機(jī)制是,系統(tǒng)默認(rèn)自己檢索出的結(jié)果中含有大量與用戶查詢主題相關(guān)的文檔,從中取出前n篇作為相關(guān)文檔,對查詢進(jìn)行調(diào)整或擴(kuò)展。通常,影響一個檢索系統(tǒng)的性能有很多因素,其中最為關(guān)鍵的是信息檢索策略,包括文檔和查詢條件的表示方法、評價文檔和查詢相關(guān)性的匹配策略、查詢結(jié)果的排序方法和用戶進(jìn)行相關(guān)反饋的機(jī)制等。隨著高速的互聯(lián)網(wǎng)發(fā)展,海量的信息堆疊,信息的搜索精度成為所有用戶關(guān)注的第一要點,現(xiàn)在想通過信息檢索工具找到用戶想要的東西變得越來越困難了,同時各種信息的過度泛濫,使得用戶不得不花費更多的時間來甄別哪些信息對于用戶來說是有價值的。現(xiàn)有信息檢索方法普遍存在的問題是檢索平均精度不高,即使目前最好的檢索模型的平均精度也只有30%,信息檢索精度的提高還有很長的路要走。而信息檢索已經(jīng)深入到人類生活的各個方面,大部分人每天用百度、谷歌等搜索工具查找需要的各種資料,解決各種現(xiàn)實問題。2010年中國網(wǎng)頁搜索的請求量規(guī)模達(dá)到了600多億次,而到了2016年,僅百度一個天的搜索請求量就達(dá)到了60億次,在如此大量的檢索需求下,信息檢索的平均精度每一個百分點的提升將為獲取所需要的信息節(jié)省大量的時間和精力,其產(chǎn)生的價值非凡。各大互聯(lián)網(wǎng)公司也在不斷追求更低成本更高效率的信息檢索技術(shù)。技術(shù)實現(xiàn)要素:本發(fā)明所要解決的問題是,優(yōu)化查詢擴(kuò)展最終以提高檢索的平均精度。本發(fā)明提供了一種基于偽相關(guān)反饋模型的信息檢索方法,將詞相關(guān)度融合到偽相關(guān)反饋模型中實現(xiàn)信息檢索,包括在偽相關(guān)文檔集合中生成查詢擴(kuò)展詞的時候,分別生成以候選擴(kuò)展詞的重要度為特征的查詢擴(kuò)展詞和以候選擴(kuò)展詞與查詢主題詞的相關(guān)度為特征的查詢擴(kuò)展詞,再將兩者結(jié)合到原查詢擴(kuò)展詞中,完成最終的信息檢索;生成以候選擴(kuò)展詞與查詢主題詞的相關(guān)度為特征的查詢擴(kuò)展詞時,采用核函數(shù)計算文檔中出現(xiàn)在不同位置上的查詢詞和候選詞之間的相關(guān)度。而且,將詞相關(guān)度融合到偽相關(guān)反饋模型中實現(xiàn)信息檢索,實現(xiàn)方式如下,當(dāng)用戶提交查詢主題時,將查詢主題進(jìn)行預(yù)處理得到查詢關(guān)鍵詞q,d為所有目標(biāo)文檔,nd為目標(biāo)文檔集合d的文檔總數(shù),通過預(yù)設(shè)的檢索權(quán)重模型計算查詢關(guān)鍵詞q與目標(biāo)文檔集合d中的每一個文檔的得分,按得分結(jié)果從高到低排列得到第一次查詢結(jié)果;設(shè)根據(jù)偽相關(guān)反饋的方式取出目標(biāo)文檔集合d中的前n篇文檔作為偽相關(guān)文檔集合d1,在進(jìn)行查詢擴(kuò)展詞選擇的時候進(jìn)行以下步驟,步驟1,將偽相關(guān)文檔集合d1中每篇文檔中所有的詞作為擴(kuò)展候選詞,分別計算各擴(kuò)展候選詞tj本身在偽相關(guān)文檔集合d1的文檔di中的重要度得分得到各文檔di的重要度向量如下,其中,i=1,2,3…,n,j=1,2,3…,n;計算擴(kuò)展候選詞在所有文檔中的重要度得分向量如下,將中每個擴(kuò)展候選詞的重要度得分取出后按從大到小的順序排序,將得分最大的前n1個值在對應(yīng)的擴(kuò)展候選詞選取出來構(gòu)成重要度查詢擴(kuò)展詞集合q1,用多項式v1表示重要度查詢擴(kuò)展詞集合q1中的每個詞和該詞對應(yīng)的重要度得分;步驟2,將偽相關(guān)文檔集合d1中每篇文檔中所有的詞作為擴(kuò)展候選詞,分別根據(jù)共現(xiàn)位置和次數(shù)采用核函數(shù)計算各擴(kuò)展候選詞tj與查詢關(guān)鍵詞q在文檔di中的相關(guān)度得分得到各文檔di的相關(guān)度向量如下,其中,i=1,2,3…,n,j=1,2,3…,n;計算擴(kuò)展候選詞在所有文檔中的相關(guān)度得分向量如下,將中每個擴(kuò)展候選詞的相關(guān)度得分取出后按從大到小的順序排序,將得分最大的前n1個值在對應(yīng)的擴(kuò)展候選詞選取出來構(gòu)成相關(guān)度查詢擴(kuò)展詞集合q1',用多項式v1'來表示查詢擴(kuò)展詞集合q1'中的每個詞和該詞對應(yīng)的相關(guān)度得分;步驟3,將步驟1和步驟2中所得多項式v1和v1'歸一化后再進(jìn)行線性組合,得到新的查詢詞多項式v如下,v=(1-γ)×||v1||+γ×||v1'||其中,||x||表示對向量x進(jìn)行歸一化運算,γ為調(diào)節(jié)因子;步驟4,根據(jù)步驟3所得查詢詞多項式v按每個詞項的系數(shù)從大到小排序,將系數(shù)最大的前n1個詞項取出得到新的擴(kuò)展詞集合步驟5,設(shè)查詢關(guān)鍵詞q包括查詢詞qs,s=1,2,3…,m,將查詢關(guān)鍵詞q表示為多項式vq,每個查詢詞的系數(shù)值設(shè)為1.0;將步驟4中得到的擴(kuò)展詞集合用多項式v'表示,將查詢多項式vq和查詢擴(kuò)展詞多項式v'歸一化后進(jìn)行線性組合,到新的查詢詞多項式k如下,k=α×||vq||+β×||v'||其中,α和β為調(diào)節(jié)因子;步驟6,根據(jù)步驟5所得查詢詞多項式k得到新的查詢關(guān)鍵詞集合q',使用新查詢關(guān)鍵詞集合q'和q'中每個查詢詞在查詢詞多項式k中對應(yīng)的權(quán)重,采用預(yù)設(shè)的檢索權(quán)重模型進(jìn)行第二次信息檢索,得到的查詢結(jié)果作為最終信息檢索結(jié)果。而且,步驟1中,重要度得分采用tfidf、bm25或rm3方式求取。而且,步驟2中,計算各擴(kuò)展候選詞tj與查詢關(guān)鍵詞q在文檔di中的相關(guān)度得分實現(xiàn)如下,設(shè)tr和qs在某個文檔di中共現(xiàn),表示為計算如下,其中,表示tr與qs在文檔di中的相關(guān)度,表示文檔di中的共現(xiàn)頻率,表示文檔di中的共現(xiàn)反文檔頻率;計算得出tr與查詢關(guān)鍵詞q在文檔di中的相關(guān)度,而且,文檔di中的共現(xiàn)頻率計算如下,其中,m和l分別表示tr與qs在文檔di中出現(xiàn)的次數(shù),表示文檔di中出現(xiàn)的第k1個tr,表示文檔di中出現(xiàn)的第k2個qs,k1=1,2,3…,m,k2=1,2,3…,l;是指以核函數(shù)體現(xiàn)的與的位置鄰近程度。而且,核函數(shù)為高斯函數(shù)或三角函數(shù)。而且,核函數(shù)為高斯函數(shù)時,計算如下,其中,pt和pq分別表示與在文檔中的位置值,σ是調(diào)節(jié)參數(shù)。而且,文檔di中的共現(xiàn)反文檔頻率計算如下,其中,表示當(dāng)時,在文檔di中的共現(xiàn)的總次數(shù)。而且,所述預(yù)設(shè)的檢索權(quán)重模型為基于向量空間模型、概率模型或語言模型。本發(fā)明還提供一種基于偽相關(guān)反饋模型的信息檢索系統(tǒng),包括計算機(jī)或服務(wù)器,在計算機(jī)或服務(wù)器上執(zhí)行如上所述的方法。依照本發(fā)明所提供的將核函數(shù)詞相關(guān)度信息融到偽相關(guān)反饋模型中的信息檢索方法,能夠克服傳統(tǒng)的偽相關(guān)反饋模型只考慮詞頻信息的不足。此外,通過核函數(shù)計算文檔中出現(xiàn)在不同位置上的查詢詞和候選詞之間的相關(guān)度,既能突出查詢詞和候選詞的分布情況,選取與查詢主題詞相關(guān)程度更高的候選詞,還能因為附加的相關(guān)度信息,從而定位更加精準(zhǔn)的候選詞、提高擴(kuò)展查詢及最終檢索的平均精度。在多個國際信息檢索評價標(biāo)準(zhǔn)數(shù)據(jù)集上的與國際上最好的多個模型的對比實驗結(jié)果表明,依照本發(fā)明提供的將核函數(shù)的詞相關(guān)度信息融入到偽相關(guān)反饋模型中的信息檢索方法,在檢索精確度上實現(xiàn)了顯著的提升,達(dá)到國際領(lǐng)先水平。附圖說明圖1為本發(fā)明實施例完整的信息檢索過程流程圖。具體實施方法本發(fā)明要解決的核心問題是:提出一種使用核函數(shù)來體現(xiàn)用戶查詢詞與文檔候選詞之間的分布情況和兩者之間的相關(guān)度,并把這種相關(guān)度作為附加權(quán)重融合到偽相關(guān)反饋模型中,實現(xiàn)查詢擴(kuò)展以提高檢索的精確度。以下結(jié)合附圖和實施例,詳細(xì)描述本發(fā)明的將核函數(shù)詞相關(guān)度融合到偽相關(guān)反饋模型中的信息檢索方法。本發(fā)明針對經(jīng)典方法中不盡合理的詞匯獨立假設(shè),提出將詞與詞之間的相互關(guān)聯(lián)關(guān)系考慮進(jìn)來。通過對文檔集合中數(shù)據(jù)的一些統(tǒng)計信息(比如上下文信息等反映詞匯搭配使用關(guān)系的信息)的有效利用,結(jié)合查詢條件設(shè)計相關(guān)技術(shù)方案來獲得能夠反映查詢條件主題并由查詢條件所觸發(fā)的詞匯,也就是利用這些信息來更準(zhǔn)確的捕獲用戶的信息需求。本發(fā)明方法中采用的核函數(shù)原本是把原坐標(biāo)系里線性不可分的數(shù)據(jù)用kernel投影到另一個空間,盡量使得數(shù)據(jù)在新的空間里線性可分。而在本發(fā)明方法中將用它來評估一篇文檔中兩個詞的相關(guān)程度。參見附圖1,實施例的流程為,當(dāng)用戶根據(jù)相關(guān)查詢主題進(jìn)行檢索時:信息檢索系統(tǒng)會根據(jù)目標(biāo)文檔集合建立查詢索引,當(dāng)用戶提交相關(guān)查詢主題時,系統(tǒng)會將查詢主題進(jìn)行預(yù)處理為查詢關(guān)鍵詞q(q是一個集合,一般包含多個主題詞q1、q2、q3等),d為所有目標(biāo)文檔,nd為目標(biāo)文檔集合d的文檔總數(shù)。隨后,檢索系統(tǒng)會通過某種預(yù)設(shè)的檢索權(quán)重模型(如tfidf、bm25、rm3等)方式計算查詢關(guān)鍵詞q與文檔集合d中的每一個文檔的得分,按得分結(jié)果從高到低排列得到第一次查詢結(jié)果。根據(jù)偽相關(guān)反饋的原理,檢索系統(tǒng)將取出文檔集合d的第一次查詢結(jié)果文檔中的前n(在大量相關(guān)研究文獻(xiàn)中,n一般為取值為10、20或30)篇文檔作為偽相關(guān)文檔集合d1,n小于等于nd,本領(lǐng)域技術(shù)人員可預(yù)設(shè)取值。在檢索系統(tǒng)得到第一次查詢所產(chǎn)生的偽相關(guān)文檔集合d1,并進(jìn)行查詢擴(kuò)展詞選擇的時候進(jìn)行以下步驟,步驟1,分別計算偽相關(guān)文檔集合d1中每篇文檔中所有的詞(即擴(kuò)展候選詞)本身的重要度得分,該重要度得分可以通過詞的詞頻及逆文檔詞頻(如tfidf、bm25、rm3等)計算獲得,再將不同文檔中相同的詞重要度得分以詞向量的方式進(jìn)行累加后除以d1中的文檔數(shù)n,即可得到所有的擴(kuò)展候選詞的重要度得分向量將向量中元素的得分按從大到小的順序排列,取出前n1(n1一般為取值為10、20、30或50,本領(lǐng)域技術(shù)人員可預(yù)設(shè)取值)個得分在中所對應(yīng)的詞,得到重要度擴(kuò)展候選詞集合q1,可用一個多項式v1來表示集合q1中的每個詞和該詞對應(yīng)的重要度得分。本發(fā)明中,將n篇偽相關(guān)文檔集合d1中的每篇文檔看作詞袋模型,以詞向量的方式表示,其中第i篇文檔的相關(guān)度向量公式如下所示。在上述公式中,表示偽相關(guān)文檔集合d1中的第i篇文檔(i=1,2,3…,n)di的詞向量表達(dá),t1、t2、t3、…、tn為偽相關(guān)文檔集合d1中所有文檔中的所有詞,n表示這些詞的總數(shù),即偽相關(guān)文檔集合d1中所有詞的個數(shù);表示對應(yīng)的t1、t2、t3、…、tn在文檔di中的權(quán)重得分(也稱重要度得分,權(quán)重用來表現(xiàn)擴(kuò)展候選詞的重要度)。某個詞的重要度得分通過該詞的詞頻及逆文檔詞頻等信息(如tfidf、bm25、rm3等)計算獲得,如在使用tfidf的方式計算文檔di中詞條tj的重要度時,其中,指某個詞條tj在文檔di中的重要度得分(j=1,2,3…,n),tf(tj,d)指詞條tj在文檔di中出現(xiàn)的頻率(次數(shù)),nd為目標(biāo)文檔集合d的文檔總數(shù),df(tj)是偽相關(guān)集合d1中,包含了詞條tj的文檔個數(shù)。依照公式(2),n個文檔中的每個文檔di都可以表示成相應(yīng)的詞的重要度的向量形式并對每個文檔向量進(jìn)行累加求和后再除以偽相關(guān)文檔總數(shù)n,得到所有詞條在所有文檔中的重要度得分向量如公式(3)所示:將中每個詞的重要度得分取出后按從大到小的順序排序,將得分最大的前n1個值在對應(yīng)的詞選取出來構(gòu)成重要度查詢擴(kuò)展詞集合q1。為了方便后面的計算,用多項式v1來表示集合q1中的每個詞和該詞對應(yīng)的重要度得分,如公式(4)所示。在公式(4)中,qh1、qh2、qh3、…、表示q1中每個具體的擴(kuò)展候選詞(一共有n1個),wh1、wh2、wh3、…、表示對應(yīng)的擴(kuò)展候選詞在中的得分。步驟2,通過依次計算偽相關(guān)文檔集合d1中每篇文檔中所有的詞(即擴(kuò)展候選詞)與查詢詞之間的相關(guān)度得分,相關(guān)度得分根據(jù)每篇文檔中查詢詞與擴(kuò)展候選詞的位置由核函數(shù)計算獲得,再將不同文檔中相同的詞的得分累加,即可得到所有擴(kuò)展候選詞與查詢詞的相關(guān)度得分向量將向量中元素的得分按從大到小的順序排列,取出前n1(n1一般為取值為10、20、30或50)個得分在中所對應(yīng)的詞,得到相關(guān)度擴(kuò)展候選詞集合q1',這里我們用一個多項式v1'來表示集合q1'中的每個詞和該詞的相關(guān)度得分。為了便于解釋,給定擴(kuò)展候選詞tr和查詢詞qs,(其中,r=1,2,3…,n,n為偽相關(guān)文檔集合d1中所有詞的個數(shù),s=1,2,3…,m,m為查詢關(guān)鍵詞q集合中的詞個數(shù)),如果tr和qs在某個文檔di中共現(xiàn),在此表示為則它們存在一個共現(xiàn)權(quán)重(即相關(guān)度)。由于tr和qs可能在一篇文檔中的多個位置出現(xiàn),因此不能簡單地以的共現(xiàn)次數(shù)表示tr與qs在文檔di中的相關(guān)度,為了更合理的衡量它,本發(fā)明進(jìn)一步提出如下公式:在公式(5)中,表示tr與qs在文檔di中的相關(guān)度。在公式(5)中,表示文檔di中的共現(xiàn)頻率,其具體的計算公式如下:在公式(6)中,m和l分別表示tr與qs在文檔di中出現(xiàn)的次數(shù),表示文檔di中出現(xiàn)的第k1個tr,表示文檔di中出現(xiàn)的第k2個qs,k1=1,2,3…,m,k2=1,2,3…,l。其中,kernel()表示核函數(shù),核函數(shù)是一類可以通過詞的位置信息來衡量兩個詞之間的鄰近關(guān)系,當(dāng)兩個詞共現(xiàn)的位置更接近,其鄰近關(guān)系更強(qiáng),即相關(guān)程度更高。如高斯函數(shù),三角函數(shù)等在很多場景都非常有效。實施例的是指以高斯核函數(shù)(具體實施時也可以采用其他核函數(shù))來體現(xiàn)與的位置鄰近程度,如公式(7):其中,pt和pq分別表示與在文檔中的位置值(即該詞在文檔中的出現(xiàn)序號,為一個正整數(shù)),σ是一個調(diào)節(jié)參數(shù),用于調(diào)節(jié)高斯函數(shù)的分布,σ的取值范圍在10到100之前,在具體實施例中優(yōu)選取50。在公式(5)中,表示文檔di中的共現(xiàn)反文檔頻率,其具體計算方式如下:其中,表示當(dāng)時,在文檔di中的共現(xiàn)的總次數(shù)。公式(5)給出了tr與qs在文檔di中的相關(guān)度由于qs是查詢關(guān)鍵詞集合q中的一個查詢詞,通過公式(5),可以得出tr與查詢關(guān)鍵詞q在文檔di中的相關(guān)度,本發(fā)明用來表示,具體計算公式如下:依照公式(9),n篇偽相關(guān)文檔集合d1中的第i篇文檔di都可以表示成相應(yīng)的擴(kuò)展候選詞與查詢詞的相關(guān)度向量形式即具體公式如下。接下來對每個文檔相關(guān)度向量進(jìn)行累加求和后再除以偽相關(guān)文檔總數(shù)n,最終得到所有詞條在所有文檔中的相關(guān)度得分向量如公式(11)所示:將中每個詞的相關(guān)度得分取出后按從大到小的順序排序,將得分最大的前n1個值在對應(yīng)的詞選取出來構(gòu)成相關(guān)度查詢擴(kuò)展詞集合q1'。為了方便后面的計算,用多項式v1'來表示集合q1'中的每個詞和該詞對應(yīng)的相關(guān)度得分,如公式(12)所示。在公式(12)中,qh1'、qh'2、qh3'、…、表示q1'中每個具體的擴(kuò)展詞(一共有n1個),wh′1、wh′2、wh′3、...、表示對應(yīng)的擴(kuò)展詞在中的得分。步驟3,將步驟1和步驟2中得到的查詢擴(kuò)展詞多項式v1和v1'歸一化后再進(jìn)行線性組合得到新的查詢詞多項式v,具體組合方式如公式(13)所示。v=(1-γ)×||v1||+γ×||v1'||公式(13)在公式(13)中,||x||表示對向量x進(jìn)行歸一化運算,歸一化的目的是統(tǒng)一量綱,即將向量中每個元素的值規(guī)范到區(qū)間[0,1.0]中,方便后續(xù)的參數(shù)調(diào)節(jié)。歸一化有多種方法可以實現(xiàn),本實施例中采用的是除以最大值法,即每個元素歸一化后的值為該元素原來的值除以向量中元素的最大值。例如有一個向量[1,2,3,4],有4個元素,元素的最大值是4,那么對這個向量進(jìn)行除以最大值法歸一化后的結(jié)果為即[0.25,0.5,0.75,1],可以看到原向量中的所有的值都規(guī)范到區(qū)間[0,1.0]中了。公式(13)中的調(diào)節(jié)因子γ的取值范圍為0到1.0,它的功能是用來平衡擴(kuò)展詞的重要度得分和擴(kuò)展詞與查詢詞之前的相關(guān)度得分,在具體應(yīng)用時,可以預(yù)先用測試數(shù)據(jù)在需要應(yīng)用的目標(biāo)文檔集上測試得出γ的最優(yōu)值。步驟4,根據(jù)步驟3中的多項式v按每個詞項的系數(shù)(綜合權(quán)重得分)從大到小排序,將系數(shù)最大的前n1個詞項取出得到新的擴(kuò)展詞集合即為最終的查詢擴(kuò)展詞集合。步驟5,將原查詢關(guān)鍵詞集合q表示為多項式vq,多項式vq中的每個項為q中的每個查詢詞qs,s=1,2,3…,m,每個項的系數(shù)值設(shè)置為1.0,則可表示為vq=1.0×q1+1.0×q2+1.0×q3+...+1.0×qm公式(14)接著,將步驟4中得到的擴(kuò)展詞集合也用多項式v'來表示,多項式v'中的每個項為中的每個具體的查詢擴(kuò)展詞,每個項(詞項)的系數(shù)為該詞項在步驟4中多項式v中對應(yīng)的值,其中,q'2、q'3、…、表示中每個具體的擴(kuò)展詞(一共有n1個),w'1、w'2、w'3、…、表示對應(yīng)的擴(kuò)展詞在查詢詞多項式v中的得分。將查詢多項式vq和查詢擴(kuò)展詞多項式v'歸一化后再次進(jìn)行線性組合得到新的查詢詞多項式k,具體組合方式如公式(16)所示。k=α×||vq||+β×||v'||公式(16)在公式(16)中采用了與步驟3一致的歸一化方法,公式中的調(diào)節(jié)因子α一般取固定值1.0,調(diào)節(jié)因子β的取值范圍為0到1.0,它的功能是用來平衡原查詢詞與擴(kuò)展查詢詞之前的權(quán)重,具體實施時可設(shè)置為經(jīng)驗值。步驟6,根據(jù)步驟5可以得到新的查詢關(guān)鍵詞集合q',q'中的每個查詢詞即為查詢詞多項式k中每個詞項。使用新查詢關(guān)鍵詞集合q'和q'中每個查詢詞在查詢詞多項式k中對應(yīng)的權(quán)重進(jìn)行第二次信息檢索(與第一次檢索所采用同一個檢索模型),即再次計算q'與目標(biāo)文檔集合d中每篇文檔的得分,得到的查詢結(jié)果即為最終信息檢索結(jié)果。在進(jìn)行第二次檢索時,查詢詞為新產(chǎn)生的查詢關(guān)鍵詞集合q',在計算查詢詞與每個文檔的得分時,每個查詢詞的權(quán)重為該詞在查詢詞多項式k中的系數(shù),而在進(jìn)行第一次檢索每個查詢詞的權(quán)重為1.0。具體實施時,本領(lǐng)域技術(shù)人員可采用軟件技術(shù)實現(xiàn)以上流程的自動運行。相應(yīng)地,如果提供一種基于偽相關(guān)反饋模型的信息檢索系統(tǒng),包括計算機(jī)或服務(wù)器,在計算機(jī)或服務(wù)器上執(zhí)行以上流程將詞相關(guān)度融合到偽相關(guān)反饋模型中實現(xiàn)信息檢索,也應(yīng)當(dāng)在本發(fā)明的保護(hù)范圍內(nèi)。例如,信息檢索的開發(fā)環(huán)境為java、python開發(fā)環(huán)境,開發(fā)支持庫為lucene。信息檢索框架可為基于向量空間模型、概率模型、語言模型等偽相關(guān)反饋信息檢索框架。為了驗證本發(fā)明方法的實際效果,在多個標(biāo)準(zhǔn)數(shù)據(jù)集上的做了對比實驗,對比實驗分兩組,一組采用標(biāo)準(zhǔn)的rocchio偽相關(guān)反饋信息檢索模型,另外一組采用結(jié)合了本發(fā)明方法的rocchio偽相關(guān)反饋信息檢索模型簡稱為krc。本實驗使用了六個標(biāo)準(zhǔn)的國際數(shù)據(jù)集,它們包括ap88-89、ap90、disk1&2、disk4&5、wt2g和wt10g,這些數(shù)據(jù)集的信息如下表(表1)所示:數(shù)據(jù)集名稱文檔總數(shù)大小查詢主題編號查詢主題數(shù)ap9078,3210.23gb51-10050ap88-89164,5970.50gb51-10050disk1&2741,8562.03gb51-200150disk4&5528,1551.85gb301-450150wt2g247,4912.14gb401-45050wt10g1,692,09610gb451-550100表1六個數(shù)據(jù)集的基本信息在對比實驗中,采用了本發(fā)明方法中的核函數(shù)選用了高斯核函數(shù)(也可以采用其他的核函數(shù)),高斯核函數(shù)中σ值取50。為了使實驗更加公平,查詢擴(kuò)展詞個數(shù)n1分別選取了10、20、30和50四種情況,不同情況下的實驗結(jié)果如下表(表2)所示:表2rocchio與krc模型在六個標(biāo)準(zhǔn)數(shù)據(jù)集上的平均精度(map)對比在表2中,第二列中的rocchio模型沒有采用本發(fā)明方法,而krc模型是采用了本發(fā)明方法的rocchio模型,map為檢索結(jié)果的平均精度,從表中可以觀察得出,本發(fā)明方法在rocchio偽相關(guān)模型上的檢索精度提升效果顯著,表明本發(fā)明技術(shù)方案有效。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
临安市| 颍上县| 治多县| 肇庆市| 微山县| 贵南县| 新闻| 井冈山市| 金华市| 新野县| 乌兰察布市| 抚顺县| 油尖旺区| 区。| 连江县| 温宿县| 海阳市| 辛集市| 汝南县| 揭西县| 达孜县| 双柏县| 铜川市| 云林县| 西林县| 遂川县| 乐平市| 鞍山市| 海南省| 高雄县| 宜都市| 游戏| 延长县| 集安市| 禄丰县| 兴仁县| 定西市| 新宁县| 厦门市| 金平| 溧水县|