專利名稱::一種基于觀點檢索的信息檢索文檔的評分方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于信息處理領(lǐng)域,特別是涉及信息檢索系統(tǒng),具體說是在信息檢索系統(tǒng)中對文檔進行評分的方法,最終得到與用戶査詢相關(guān)的且?guī)в兄饔^意見的檢索結(jié)果。
背景技術(shù):
:信息檢索系統(tǒng)是以一定的策略收集信息(例如互聯(lián)網(wǎng)上的網(wǎng)頁文檔,或數(shù)字圖書館中的數(shù)字文檔等),對信息進行組織和處理后為用戶提供檢索服務(wù)的計算機系統(tǒng),它包括計算機硬件系統(tǒng)以及在硬件系統(tǒng)上運行的軟件程序兩個部分。它的主要作用是幫助用戶快捷、高效的獲取那些能夠滿足用戶需求的有用信息。信息檢索系統(tǒng)通過查詢服務(wù)器與用戶進行交互。一方面査詢服務(wù)器提供一個可供用戶輸入或選擇自己的查詢需求的頁面,通常査詢需求由一個或幾個關(guān)鍵詞構(gòu)成。另一方面査詢服務(wù)器針對用戶提交的査詢,在系統(tǒng)內(nèi)所有的文檔中進行檢索,返回排序后的相關(guān)結(jié)果列表,并在結(jié)果頁面中按順序展示給用戶。其中對系統(tǒng)內(nèi)文檔的排序依據(jù)就是文檔與用戶査詢之間的相關(guān)性評分,評分越高,排序越靠前。因此査詢服務(wù)器中的一個關(guān)鍵技術(shù)是如何計算文檔的相關(guān)性,得到可供排序的相關(guān)性評分,從而使得用戶想要的頁面排在返回結(jié)果的前列位置,相關(guān)信息更容易被用戶訪問到。隨著信息檢索系統(tǒng)的發(fā)展,人們也開始提出了更多更復(fù)雜的査詢需求,其中一種重要需求是觀點檢索(opinionsearch)。在觀點檢索中,系統(tǒng)不僅要找出與用戶査詢相關(guān)的信息,而且這些信息必須帶有一定的感情色彩,即檢索系統(tǒng)要返回相關(guān)的且?guī)в兄饔^性意見的信息。而那些僅僅是客觀性描述的相關(guān)信息也被認(rèn)為不符合用戶需求。例如一個用戶想要買一款手機,那么他在檢索系統(tǒng)中輸入査詢"N95手機"進行觀點檢索,希望返回的內(nèi)容是其他用戶或者評論中關(guān)于N95的各種性能和功能上的意見,例如手機的價格是否便宜,外觀是否好看,電池是否耐用,總體評價是否好,等等。在這樣的要求下,查詢服務(wù)器不僅要計算每個文檔的相關(guān)性評分,還要計算其主客觀性評分,然后將這兩種評分合并到一起,形成一篇文檔的最終得分,并排序后返回給用戶。從20世紀(jì)60年代中期以來,人們提出了很多計算文檔與用戶查詢的相關(guān)性的模型。其主要的思想就是"TF*IDF",即一方面考慮用戶的査詢詞在一篇文檔中出現(xiàn)的次數(shù),出現(xiàn)次數(shù)越多越有可能相關(guān),另一方面考慮這個查詢詞在全部文檔中的常見程度,越常見,其區(qū)分能力越弱。當(dāng)前應(yīng)用廣泛的模型主要有布爾模型(BooleanModel),統(tǒng)計模型(StatisticalModel)和語言知識模型(LinguisticandKnowledge-basedModel)。在計算文檔的主客觀性評分方面,一種常用的方法是看這篇文檔中出現(xiàn)了多少帶有主觀性感情色彩的詞(通常稱為情感詞)。出現(xiàn)的情感詞越多,則文檔的主客觀性評分越高。其中情感詞通常由一個人工或自動的方法事先構(gòu)建好的情感詞列表給出。另一種方法是通過文本分類的技術(shù),把一篇文檔分為主觀類或客觀類,根據(jù)該文檔屬于某類的程度不同,得到該文檔的主客觀性評分。在觀點檢索中,如何將主客觀性評分和相關(guān)性評分合并起來,是影響觀點檢索系統(tǒng)性能的一個重要因素。由于缺乏深入研究,目前的相關(guān)技術(shù)中并沒有把這兩個評分之間的聯(lián)系建立起來,常用的方法是把這兩種評分以一定的比例進行簡單地相加(例如將客觀性評分乘以A,將相關(guān)性評分乘以B,并把二者加起來。A和B是事先給定的數(shù)值)。不少實驗結(jié)果表明,這種方法不能很好地滿足用戶的觀點檢索需求。甚至在很多情況下,經(jīng)過這種相關(guān)性和主客觀性評分合并之后的結(jié)果,其性能還不如只使用相關(guān)性評分進行排序后提供給用戶的結(jié)果的效果。因此,有必要提出一種有效地合并相關(guān)性和主客觀性評分的方法,以改進信息檢索系統(tǒng)的性能,滿足用戶進行觀點檢索的需求。
發(fā)明內(nèi)容觀點檢索系統(tǒng)要根據(jù)用戶需求,返回與用戶査詢相關(guān)的、且?guī)в兄饔^性意見的信息。本發(fā)明提出一種既考慮文檔的主客觀性又考慮文檔的相關(guān)性的評分方法。不同于傳統(tǒng)的加權(quán)線性合并方法(即對兩個評分分別乘以一個常數(shù)的權(quán)值,然后以相加的方式合并起來),在本發(fā)明提出的合并方法中,綜合考慮了相關(guān)性對主客觀性的影響,將相關(guān)性評分與主客觀評分以二次函數(shù)(即相乘)的關(guān)系合并起來。其中特別考慮到兩種評分的取值差異,將主客觀評分進行了取對數(shù)(log)的歸一化處理。通過這種合并方法,最終排序后返回給用戶的結(jié)果文檔中,那些排序靠前的文檔既具有很高的相關(guān)性,又具有很強的主觀性,從而有效地改進觀點檢索系統(tǒng)的性能,方便用戶在較早出現(xiàn)的結(jié)果頁面中就能進行信息的訪問,因此更能滿足用戶觀點檢索的需求。該方法的具體內(nèi)容如下1.首先建立情感詞列表,在列表中指定要在檢索系統(tǒng)中使用的所有帶有感情色彩的詞,然后針對用戶輸入給系統(tǒng)的査詢,系統(tǒng)自動找出候選文檔集合;2.在檢索系統(tǒng)中計算每篇文檔與用戶輸入的査詢之間的相關(guān)性程度,得到文檔的相關(guān)性評分;3.根據(jù)一篇文檔中與査詢詞在設(shè)定距離范圍內(nèi)共同出現(xiàn)的帶有感情色彩的詞(即情感詞)的個數(shù),計算出文檔的主客觀評分;4.將一篇文檔的相關(guān)性評分和主客觀評分進行基于二次函數(shù)(即相乘)的合并,得到合并后的文檔最終評分;5.檢索系統(tǒng)根據(jù)最終評分對系統(tǒng)中的所有候選文檔進行排序,并按照評分從大到小的次序顯示給用戶。本發(fā)明的特征在于所述方法是在一個計算機信息檢索系統(tǒng)中依次按以下步驟實現(xiàn)的步驟(1).在所述系統(tǒng)的觀點檢索服務(wù)器中建立一個中、英文對照的情感詞列表,所述情感詞至少包括下列所有屬性中的一個屬性好、良、美、偉、壞、莠以及偽;步驟(2).針對用戶輸入的至少一個査詢詞R,所述系統(tǒng)通過信息檢索把所有帶有用戶査詢中任一査詢詞R的文檔"自動挑選出來,作為候選文檔集合,所述候選文檔簡稱為文檔4并建立文檔索引,統(tǒng)計所有被索引的文檔總數(shù)yV,計算平均每篇文檔中所包含的詞數(shù)a^/力同時,對用戶的每一個査詢詞K,統(tǒng)計所述候選文檔集合中所有出現(xiàn)了該査詢詞R的文檔^的總數(shù),用變量Q^(W)表示;步驟(3).按下式計算每一篇文檔^/與用戶査詢中的每一個查詢詞R的相關(guān)性評分5"c。rei^(dR):<formula>complexformulaseeoriginaldocumentpage6</formula>其中A是l.O2.0之間的常數(shù),c(w,o)是詞w在文檔"中出現(xiàn)的總次數(shù),c(w,9)是詞w出現(xiàn)在用戶査詢。中的總次數(shù),6是0.0l.O之間的常數(shù),厶是文檔^的長度,用文檔d中的總詞數(shù)表示,A是01000之間的整數(shù)常數(shù);步驟(4).按下式把每一篇文檔J與用戶査詢中的所有査詢詞的相關(guān)性評分相加,得到該文檔c/關(guān)于用戶査詢P的相關(guān)性評分,<7是用戶的査詢詞集合<formula>complexformulaseeoriginaldocumentpage7</formula>步驟(5).按下式計算每篇文檔c/的主客觀性評分5bore;(d^,。是用戶的査詢詞集合<formula>complexformulaseeoriginaldocumentpage7</formula>其中義是一個O.Ol.O之間的常數(shù),^ed是文檔t/中的每個情感詞,co(&,rI的是所有與用戶查詢C中的任一査詢詞w同時出現(xiàn)在文檔^中并且與查詢詞^的位置距離小于伊的情感詞&在所有位置上出現(xiàn)的總次數(shù),^25,單位是詞數(shù),c(r,d是査詢詞^在文檔c/中出現(xiàn)的總次數(shù);步驟(6).按下式計算每一篇文檔的最終評分,用&weUJ,9)x&o^/。p^,W表示;步驟(7).在所述系統(tǒng)中,把所有的候選文檔按照其相應(yīng)的最終評分從大到小的順序進行排序,得到觀點檢索后的結(jié)果列表并作為最終的檢索結(jié)果返回給用戶。本發(fā)明能夠充分考慮文檔的主客觀評分與文檔的相關(guān)性評分之間的聯(lián)系,將這兩種評分以二次函數(shù)(即相乘)的方式合并起來,同時還考慮到這兩種評分的差異,因此對文檔的主客觀評分進行了取對數(shù)的處理,最終得到優(yōu)化的觀點檢索系統(tǒng)的結(jié)果列表。從而針對用戶的觀點檢索需求,能夠?qū)⒛切┘葞в懈星樯视峙c用戶査詢的內(nèi)容密切相關(guān)的文檔排在前面返回給用戶。該方法處理簡單,算法復(fù)雜度低,在測試數(shù)據(jù)上取得了很好的結(jié)果,較大幅度地提高了搜索引擎進行觀點檢索的性能。這說明本發(fā)明具有較好的推廣性和適應(yīng)性,能對搜索引擎的觀點檢索結(jié)果進行有效改進,具有良好的應(yīng)用前景。圖1.信息檢索系統(tǒng)進行觀點檢索的基本流程架構(gòu)。圖2.本發(fā)明提出的觀點檢索評分方法流程。具體實施例方式它是在計算機上自動完成的,依次含有如下步驟步驟1生成情感詞列表和候選文檔集合情感詞列表包括系統(tǒng)將要處理的所有帶有感情色彩的詞,如中文的"好","壞","令人失望"等,英文包括"good","bad"等。這里對知網(wǎng)HowNet中的詞,根據(jù)其屬性進行自動篩選,如果一個詞在知網(wǎng)中的屬性定義至少包括"goodl好","desirel良","beautifull美","great|偉","badl壞","undesired|莠","fakel偽"中的一項,則將該詞以及該詞對應(yīng)的英文描述詞挑選出來,分別加入中文和英文情感詞列表。針對用戶輸入的一次査詢(可能包含多個查詢詞),檢索系統(tǒng)將所有帶有用戶查詢中任一査詢詞的文檔自動挑選出來,作為候選文檔集合。以后的操作都在這個候選文檔集合的范圍內(nèi)進行,其他的文檔在這次用戶査詢中就都不予考慮了。步驟2計算一篇文檔與用戶査詢的相關(guān)性評分可以使用現(xiàn)有信息檢索系統(tǒng)中常用的相關(guān)性計算方法得到每一篇候選文檔與査詢的相關(guān)性評分。使用如下所示的公式<formula>complexformulaseeoriginaldocumentpage8</formula>(式l)其中^是步驟一處理后的文檔;^是步驟一處理后的用戶査詢;&0^/^^,《)是文檔^與査詢^的相關(guān)性評分;vv,.e《是用戶査詢中的每一個詞;ln()為對括號中的內(nèi)容去自然對數(shù)操作;W是系統(tǒng)中的全部文檔總數(shù);rf/(w,.)是系統(tǒng)中所有包括詞W的文檔總數(shù);A是1.0到2.0之間的常數(shù);c(^o)是詞r,在文檔"中出現(xiàn)的總次數(shù);力是0.0到1.0之間的常數(shù);^是文檔c/的長度(即文檔t/中的總詞數(shù));a^7是系統(tǒng)中所有文檔的平均長度;A是0到1000之間的整數(shù)常數(shù);c(^^是詞出現(xiàn)在査詢。中的次數(shù)。這些參數(shù)中,除A,6和Aa是人工設(shè)定的常數(shù)以外,其他各值都可以根據(jù)用戶查詢以及文檔集合自動統(tǒng)計得到。步驟3計算一篇文檔的主客觀評分使用如下公式計算系統(tǒng)中每篇候選文檔的主客觀性評分<formula>complexformulaseeoriginaldocumentpage9</formula>1,若義=0,其中t/是步驟一處理后的文檔;《是步驟一處理后的用戶査詢;Scow/^是文檔^相對于査詢《的主客觀評分;;i是一個0.0到1.0之間的常數(shù);S,.erf是文檔c/中的每個情感詞(其中情感詞的范圍由步驟3.1中的情感詞列表給定);10g()為對括號中的內(nèi)容取對數(shù)操作;co(&,d的是所有與用戶査詢^的任一査詢詞r,同時出現(xiàn)在文檔W中并且與査詢詞R的位置距離小于/f的情感詞&在所有位置上出現(xiàn)的總次數(shù);F是距離(也稱作窗口)的大小,是一個正整數(shù);c(&o!)是查詢詞R在文檔c/中出現(xiàn)的總次數(shù)。這些參數(shù)中,除;i和/f是由人工設(shè)定的常數(shù)以外,其他各值都可以根據(jù)用戶査詢、情感詞列表以及文檔集合自動統(tǒng)計得到。步驟4計算一篇文檔的最終評分將步驟2與步驟4所得到的相關(guān)性評分和主客觀評分相乘,艮卩iScore/re,《)x5"core/印《),(式3)就可得到系統(tǒng)中一篇候選文檔d相對于用戶査詢。的觀點檢索最終評分。步驟5得到最終的觀點檢索結(jié)果列表在檢索系統(tǒng)中,將所有候選文檔按照其相應(yīng)的最終評分從大到小的順序進行排序,就得到了觀點檢索后的結(jié)果列表,并作為最終的檢索結(jié)果返回給用戶。為了驗證本發(fā)明的有效性、可靠性和應(yīng)用性,我們設(shè)計和測試了相關(guān)的驗證實驗。從數(shù)據(jù)源上,我們使用了美國國家技術(shù)研究所NIST組織的文本檢索會議TREC所給出的標(biāo)準(zhǔn)測試數(shù)據(jù)互聯(lián)網(wǎng)英文博客網(wǎng)頁數(shù)據(jù)集合、100個用戶査詢以及每個査詢相應(yīng)的答案集合(由NIST組織人工標(biāo)注得到)。在驗證實驗中使用信息檢索中常用的平均檢索精度(MAP)進行性能的評價。依照本發(fā)明所述的步驟在上述數(shù)據(jù)集合上進行觀點檢索的驗證實驗,表1列出了使用本發(fā)明的評分方法,與現(xiàn)在常用的線性加權(quán)的方法相比,帶來的檢索系統(tǒng)性能提高情況。其中現(xiàn)在常用的線性加權(quán)方法為<formula>complexformulaseeoriginaldocumentpage10</formula>其各部分參數(shù)的含義和計算方法與本發(fā)明公式1和公式2的方法中的相應(yīng)參數(shù)相同。本發(fā)明中用到的人工設(shè)定的參數(shù)分別取值為先=1.0,6=0.75,A3=100,/f=25。義的取值如表1中所示。可以看到性能提高的幅度較大,均在8%以上,最高達(dá)到18.6%。表1本發(fā)明評分方法與現(xiàn)在常用的線性加權(quán)方法相比帶來的檢索系統(tǒng)性能提高<table>complextableseeoriginaldocumentpage10</column></row><table>例如對用戶査詢"Oprah"(OprahWinfrey是美國一個脫口秀電視節(jié)目的主持人),希望找到她的節(jié)目的評論和觀點信息。但是用傳統(tǒng)方法,找到的只是大量的節(jié)目列表和客觀的內(nèi)容介紹與宣傳,因此對這個査詢的MAP精度只有0.0687,檢索系統(tǒng)返回的前IO個結(jié)果中只有兩個是帶有觀點信息的;而采用本發(fā)明所提出的評分方法進行檢索,則改進的檢索系統(tǒng)MAP精度提高到了0.2721,且返回的前10個結(jié)果中,有8個都是用戶需要的觀點和評論信息,系統(tǒng)性能是傳統(tǒng)方法系統(tǒng)性能的4倍。再例如用戶査詢"tivo"(是一款數(shù)字錄像機),希望找到大家對這個品牌的評價。用傳統(tǒng)方法,找到了大量該品牌的產(chǎn)品介紹,包括不少型號、體積等數(shù)字類型的客觀信息,但是并沒有提供該品牌好或者不好的觀點性的信息,因此對該査詢的前10個返回結(jié)果中,只有l(wèi)個是用戶需要的信息;而使用本發(fā)明提出的方法,則將那些其他用戶的使用心得、感受以及對產(chǎn)品的評價觀點等信息文檔排在了最前面,使得系統(tǒng)返回的前10個結(jié)果中,有9個都是用戶需要的帶有觀點的相關(guān)信息,極大地改進了用戶使用的滿意度。附圖1描述了信息檢索系統(tǒng)進行觀點檢索的基本流程架構(gòu)1、首先將已經(jīng)收集得到的原始數(shù)據(jù)進行預(yù)處理,包括去除文檔中過于常用的詞(稱為停用詞),例如"的"、"地"、"得"、"了"等。停用詞列表可根據(jù)需要自由制定;對中文內(nèi)容使用分詞技術(shù)(正向最長匹配分詞算法)對文檔進行分詞,以詞(包括單字詞)作為文檔的基本單位,一個詞內(nèi)的所有字均看作一個整體進行處理。2、然后對文檔的內(nèi)容利用倒排文檔技術(shù)建立索引。3、對用戶提交的查詢,使用與文檔相同的預(yù)處理(去除停用詞、分詞)方法進行查詢預(yù)處理。4、最后根據(jù)本發(fā)明提出的方法,利用已經(jīng)建立好的情感詞列表,在觀點檢索服務(wù)器中對處理后的査詢與索引后的文檔進行匹配,對每篇文檔得到觀點檢索評分,進行排序后形成結(jié)果頁面,返回給用戶。本發(fā)明就是針對上述流程的第4步,即如何建立情感詞列表,以及在觀點檢索服務(wù)器中如何對文檔進行評分提出相應(yīng)的方法。附圖2描述了本發(fā)明的流程。下面就如何在觀點檢索系統(tǒng)中實施本發(fā)明進行詳細(xì)的流程說明。1.根據(jù)用戶提交的一次査詢內(nèi)容,系統(tǒng)找出候選文檔集合對系統(tǒng)中的文檔進行預(yù)處理,包括去除停用詞,中文文檔進行分詞,以及建立文檔索引。同時對用戶提交給系統(tǒng)的査詢內(nèi)容,也進行完全一致的預(yù)處理過程。首先統(tǒng)計系統(tǒng)中所有被索引的文檔總數(shù),就得到式(1)中的變量7V的值。計算系統(tǒng)中平均每篇文檔包含的詞數(shù)(用系統(tǒng)中所有文檔的總詞數(shù)除以系統(tǒng)中的文檔總數(shù)即可),就是式(1)中變量arW的值。當(dāng)用戶提交了査詢Q之后(査詢中包括一個或多個詞),將已經(jīng)索引好的所有文檔中(文檔中也包括一個或多個詞),那些至少出現(xiàn)了用戶查詢e中的一個查詢詞的文檔挑選出來,構(gòu)成候選文檔集合。剩下的那些沒有包括任何査詢詞的文檔在本次檢索過程中都不再考慮。對査詢P中的每一個詞w,統(tǒng)計候選文檔集合中所有出現(xiàn)了該詞的文檔的總數(shù),記為式(1)中變量^/(w,)的值。設(shè)定系統(tǒng)中用到的各常數(shù)的值,例如可以設(shè)為A=1.0,6=0.75,A3=100,/f=25,A=0.8。2.按照下述流程生成情感詞列表。_<table>Complextableseetheoriginaldocumentpage12<table>根據(jù)該流程得到的列表中,其中中文詞有個,英文情感詞有4621個。3.計算每篇文檔的相關(guān)性評分對候選文檔集合中的每篇文檔"進行如下操作(1)統(tǒng)計文檔"的總詞數(shù),記作式(1)中變量人的值;對査詢。中的每一個詞W,統(tǒng)計該詞在文檔^中出現(xiàn)的次數(shù),記為式(1)中變量C(^0)的值;統(tǒng)計該詞在査詢Q中出現(xiàn)的次數(shù),記作式(1)中變量C(^。)的值;(2)將上述步驟中己經(jīng)得到的W、aW厶rf/(W,)、A、6、A3、A、C(R,O)、C(R,G)的值代入式(1)進行如下計算<formula>complexformulaseeoriginaldocumentpage13</formula>就得到文檔d關(guān)于一個査詢詞w的相關(guān)性評分。(3)將文檔d關(guān)于。中所有査詢詞的相關(guān)性評分加起來,就得到該文檔"關(guān)于査詢。的相關(guān)性評分。4.計算每篇文檔的主客觀性評分如果系統(tǒng)中的常數(shù);i設(shè)定為o,則直接得到文檔的主客觀性評分為l。否則根據(jù)系統(tǒng)中設(shè)定的常數(shù)/f的值(記為式(2)中r的值),計算每篇文檔的主客觀性評分。這里以W取值25為例,說明其流程如下(1)首先統(tǒng)計査詢。中的所有査詢詞在文檔中出現(xiàn)的總次數(shù),記作公式(2)中Sc(w,.,J)的值。同時記錄這些査詢詞在文檔中出現(xiàn)的位置力。^。(2)對情感詞列表中的每個情感詞&,進行如下流程的操作(2.1)依次統(tǒng)計該詞在每個位置力前后各25個詞的范圍內(nèi)出現(xiàn)的次數(shù),并將所有位置統(tǒng)計得到的次數(shù)相加,就得到文檔c/中&與査詢。同時出現(xiàn)的總次數(shù),記作式(2)中<formula>complexformulaseeoriginaldocumentpage13</formula>的值。(2.2)根據(jù)式(2),將前述流程中得到<formula>complexformulaseeoriginaldocumentpage13</formula>代入如下公式進行計算,得到文檔c/相對于每個情感詞&的評分<formula>complexformulaseeoriginaldocumentpage13</formula>(3)將所有情感詞的評分加起來,再乘以izA的系數(shù),最后將結(jié)果加l,就得到文檔^的主客觀性評分。5.計算每篇文檔的最終評分將每篇文檔在流程3中得到的相關(guān)性評分,與在流程4中得到的主客觀性評分相乘,就得到了每篇在觀點檢索系統(tǒng)中的最終評分。6.將系統(tǒng)中的所有文檔進行排序,并對用戶返回最終結(jié)果根據(jù)每篇文檔的最終評分,把文檔候選集合中的所有進行排序,按照評分從大到小的順序產(chǎn)生結(jié)果列表,使得文檔的最終評分越高,則它在結(jié)果列表中的位置越靠前。最后將這個結(jié)果返回給用戶,就完成了針對用戶輸入的一次査詢的完整的信息檢索。按照以上步驟,就可以構(gòu)建一個有效的計算機自動執(zhí)行的觀點信息檢索系統(tǒng),在系統(tǒng)中綜合考慮文檔的相關(guān)性和主客觀性對文檔進行評分,使得在觀點檢索系統(tǒng)的返回結(jié)果列表中,那些既與用戶査詢的內(nèi)容相關(guān),又帶有較強烈的感情色彩的文檔排在靠前的位置,更有可能被用戶先訪問到,從而改進觀點檢索系統(tǒng)的檢索結(jié)果,提高系統(tǒng)的檢索性能。權(quán)利要求1.一種基于觀點檢索的信息檢索文檔的評分方法,其特征在于,所述方法是在一個計算機信息檢索系統(tǒng)中依次按以下步驟實現(xiàn)的步驟(1).在所述系統(tǒng)的觀點檢索服務(wù)器中建立一個中、英文對照的情感詞列表,所述情感詞至少包括下列所有屬性中的一個屬性好、良、美、偉、壞、莠以及偽;步驟(2).針對用戶輸入的至少一個查詢詞wi,所述系統(tǒng)通過信息檢索把所有帶有用戶查詢中任一查詢詞wi的文檔d自動挑選出來,作為候選文檔集合,所述候選文檔簡稱為文檔d,并建立文檔索引,統(tǒng)計所有被索引的文檔總數(shù)N,計算平均每篇文檔中所包含的詞數(shù)avdl;同時,對用戶的每一個查詢詞wi,統(tǒng)計所述候選文檔集合中所有出現(xiàn)了該查詢詞wi的文檔d的總數(shù),用變量df(wi)表示;步驟(3).按下式計算每一篇文檔d與用戶查詢中的每一個查詢詞wi的相關(guān)性評分ScoreIrel(d,wi)<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msub><mi>ScoreI</mi><mi>rel</mi></msub><mrow><mo>(</mo><mi>d</mi><mo>,</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mi>ln</mi><mrow><mo>(</mo><mfrac><mrow><mi>N</mi><mo>-</mo><mi>df</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>0.5</mn></mrow><mrow><mi>df</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>+</mo><mn>0.5</mn></mrow></mfrac><mo>)</mo></mrow><mo>×</mo><mfrac><mrow><mrow><mo>(</mo><msub><mi>k</mi><mn>1</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>×</mo><mi>c</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>k</mi><mn>1</mn></msub><mrow><mo>(</mo><mn>1</mn><mo>-</mo><mi>b</mi><mo>)</mo></mrow><mo>+</mo><mi>b</mi><mfrac><msub><mi>l</mi><mi>d</mi></msub><mi>avdl</mi></mfrac><mo>+</mo><mi>c</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>d</mi><mo>)</mo></mrow></mrow></mfrac><mo>×</mo><mfrac><mrow><mrow><mo>(</mo><msub><mi>k</mi><mn>3</mn></msub><mo>+</mo><mn>1</mn><mo>)</mo></mrow><mo>×</mo><mi>c</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow></mrow><mrow><msub><mi>k</mi><mn>3</mn></msub><mo>+</mo><mi>c</mi><mrow><mo>(</mo><msub><mi>w</mi><mi>i</mi></msub><mo>,</mo><mi>q</mi><mo>)</mo></mrow></mrow></mfrac><mo>,</mo></mrow>]]></math></maths>其中k1是1.0~2.0之間的常數(shù),c(wi,d)是詞wi在文檔d中出現(xiàn)的總次數(shù),c(wi,q)是詞wi出現(xiàn)在用戶查詢Q中的總次數(shù),b是0.0~1.0之間的常數(shù),ld是文檔d的長度,用文檔d中的總詞數(shù)表示,k3是0~1000之間的整數(shù)常數(shù);步驟(4).按下式把每一篇文檔d與用戶查詢中的所有查詢詞的相關(guān)性評分相加,得到該文檔d關(guān)于用戶查詢Q的相關(guān)性評分,q是用戶的查詢詞集合<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mi>ScoreI</mi><mi>rel</mi></msub><mrow><mo>(</mo><mi>d</mi><mo>,</mo><mi>q</mi><mo>)</mo></mrow><mo>=</mo><munder><mi>Σ</mi><mrow><msub><mi>w</mi><mi>i</mi></msub><mo>∈</mo><mi>q</mi></mrow></munder><msub><mi>ScoreI</mi><mi>rel</mi></msub><mrow><mo>(</mo><mi>d</mi><mo>,</mo><msub><mi>w</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>;</mo></mrow>]]></math></maths>步驟(5).按下式計算每篇文檔d的主客觀性評分ScoreIop(d,q),q是用戶的查詢詞集合其中λ是一個0.0~1.0之間的常數(shù),si∈d是文檔d中的每個情感詞,co(si,wi|W)是所有與用戶查詢Q中的任一查詢詞wi同時出現(xiàn)在文檔d中并且與查詢詞wi的位置距離小于W的情感詞si在所有位置上出現(xiàn)的總次數(shù),W=25,單位是詞數(shù),c(wi,d)是查詢詞wi在文檔d中出現(xiàn)的總次數(shù);步驟(6).按下式計算每一篇文檔的最終評分,用ScoreIrel(d,q)×ScoreIop(d,q)表示;步驟(7).在所述系統(tǒng)中,把所有的候選文檔按照其相應(yīng)的最終評分從大到小的順序進行排序,得到觀點檢索后的結(jié)果列表并作為最終的檢索結(jié)果返回給用戶。2.根據(jù)權(quán)利要求1所述的一種基于觀點檢索的信息檢索文檔的評分方法,其特征在于,在所述步驟(1)之前還有一個對原始數(shù)據(jù)的預(yù)處理步驟,其中包括去除停用詞,對文檔進行分詞,以及對文檔內(nèi)容利用倒排文檔技術(shù)建立索引,對用戶提交的査詢使用與所述文檔相同的預(yù)處理方法進行預(yù)處理。全文摘要一種基于觀點檢索的信息檢索文檔的評分方法屬于信息處理領(lǐng)域。其特征在于它首先建立情感詞列表,在列表中指定要在檢索系統(tǒng)中使用的所有帶有感情色彩的詞,然后根據(jù)用戶具體輸入的查詢,生成候選結(jié)果集合;其次在系統(tǒng)中計算文檔與用戶查詢之間的相關(guān)性,得到每篇文檔的相關(guān)性評分;然后根據(jù)文檔中與查詢詞在一定距離范圍內(nèi)共同出現(xiàn)的情感詞的次數(shù),計算出系統(tǒng)中每篇文檔的主客觀性評分;再將一篇文檔的相關(guān)性評分和主客觀性評分進行基于二次函數(shù)(即相乘)的合并,得到合并后的文檔最終評分;最后檢索系統(tǒng)根據(jù)文檔的最終評分對系統(tǒng)中的所有候選文檔進行排序,并按照評分從大到小的次序顯示給用戶。該技術(shù)具有計算機自動完成,能夠返回既具有高相關(guān)性又帶有強烈主觀意見的檢索結(jié)果的優(yōu)點。文檔編號G06F17/30GK101344890SQ200810118668公開日2009年1月14日申請日期2008年8月22日優(yōu)先權(quán)日2008年8月22日發(fā)明者敏張,馬少平申請人:清華大學(xué)