專利名稱:查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備,更具體地說(shuō),本發(fā)明涉及一種把 從查詢結(jié)果中提取的詞添加到查詢語(yǔ)句以提高搜索精度的查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備。
背景技術(shù):
隨著信息技術(shù)的發(fā)展,信息量的增大,信息檢索在工作和生活中越來(lái)越重要。通過(guò) 檢索來(lái)快速找到需要的信息,從而便利于工作和生活。但由于人們往往對(duì)所需要的信息不 甚了解,因此在搜索工具中輸入的查詢?cè)~不合適,以至于不能找到相關(guān)有用的信息。用戶的查詢語(yǔ)句經(jīng)常太短,以至于不能準(zhǔn)確地描述用戶的信息需求。查詢語(yǔ)句中 缺少許多重要的詞,這導(dǎo)致了只能搜索到少量的一部分相關(guān)文檔。為了克服此問(wèn)題,查詢語(yǔ) 句擴(kuò)展技術(shù)應(yīng)運(yùn)而生。用新詞擴(kuò)展查詢語(yǔ)句是一種解決此問(wèn)題的有效方法。在所有的查詢 擴(kuò)展方法中,偽相關(guān)查詢反饋是最有效的方法。此方法假定第一次查詢結(jié)果中高排名的文 檔是與用戶感興趣的主題相關(guān)的,于是從高排名的文檔中提取詞來(lái)擴(kuò)展查詢語(yǔ)句。但是一 些高排名的文檔可能與用戶感興趣的主題無(wú)關(guān),于是噪聲詞被提取出來(lái),這使得搜索精度 未有效提高甚至被降低。例如,專利文獻(xiàn)1提出了一種查詢擴(kuò)展系統(tǒng)和方法。此專利利用記錄查詢歷史的 查詢?nèi)罩?、和查詢?nèi)罩局胁樵冋Z(yǔ)句的查詢結(jié)果來(lái)擴(kuò)展用戶查詢語(yǔ)句,即,從以前的相關(guān)查詢 語(yǔ)句及它們的查詢結(jié)果中提取新詞。此發(fā)明存在的問(wèn)題是,日志中的查詢語(yǔ)句可能與查詢 無(wú)關(guān),由此而得到的查詢結(jié)果可能更不相關(guān),從這些不相關(guān)的查詢結(jié)果數(shù)據(jù)中提取的詞將 是噪聲詞。專利文獻(xiàn)2提出了另一種查詢擴(kuò)展系統(tǒng)和方法。在此專利中,所提取的詞是通過(guò) 計(jì)算聯(lián)合概率并排序而得到的高排名詞,此概率是所有查詢?nèi)罩窘y(tǒng)計(jì)數(shù)據(jù)的函數(shù)。但是日 志中的查詢語(yǔ)句可能與查詢無(wú)關(guān),由此而來(lái)的查詢結(jié)果可能更不相關(guān),從這些不相關(guān)的數(shù) 據(jù)中提取的詞將是噪聲詞。在非專利文獻(xiàn)1中,擴(kuò)展查詢語(yǔ)句的詞來(lái)自于根據(jù)查詢結(jié)果而生成的聚類層次關(guān) 系。此方案中存在的問(wèn)題是,普通數(shù)據(jù)不像IPC(國(guó)際專利分類)那樣存在層次分類,因此 該方法不能被廣泛使用。在非專利文獻(xiàn)2中,詞分類過(guò)程用來(lái)預(yù)測(cè)擴(kuò)展詞的有用性。被預(yù)測(cè)為好的詞被加 到查詢語(yǔ)句中。此方案中存在的問(wèn)題是因?yàn)樵~是從排名高的搜索結(jié)果文檔中提取出來(lái)的, 而這些排名高的搜索結(jié)果文檔可能與查詢語(yǔ)句并不相關(guān),于是可能從這些不相關(guān)的文檔中 抽出大量的噪聲詞,這些噪聲詞將導(dǎo)致錯(cuò)誤的分類并使得噪聲詞被加到查詢語(yǔ)句中。專利文獻(xiàn)1美國(guó)專利US 7287025B專利文獻(xiàn)2美國(guó)專利申請(qǐng)US 2004/0158560A1[非專利文獻(xiàn)1]A Patent Retrieval Method Using a Hierarchy of Clusters atTUT, Hironori Doi, Yohei Seki, Masaki Aono, proceedings of NTCIR-5 workshopmeeting, December 6—9, 2008, Tokyo, Japan.
非 專 禾lj 文 獻(xiàn) 2Selecting good expansion terms for pseudo-relevancefeedback, Guihong Cao, Jian—Yun Nie, Jianfeng Gao, Stephen Robertson, Proceedings of the 31st annual international ACM SIGIR conference on Researchand development in information retrieval 2008, Singapore, Singapore, Pages243-250.
發(fā)明內(nèi)容
現(xiàn)有查詢語(yǔ)句擴(kuò)展技術(shù)增加的詞包含有大量的噪聲詞,以致搜索精度未有效提高 甚至降低。針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明提出一種新的查詢語(yǔ)句擴(kuò)展技術(shù),通過(guò)對(duì)搜 索結(jié)果中排名在前N的文檔進(jìn)行聚類以生成簇,并進(jìn)而生成簇簡(jiǎn)檔,以簇簡(jiǎn)檔為單位進(jìn)行 搜索,從搜索結(jié)果提取新詞,來(lái)擴(kuò)展查詢語(yǔ)句。根據(jù)本發(fā)明的一個(gè)方面,提供一種查詢擴(kuò)展方法,包括步驟(a)針對(duì)給定的查詢 語(yǔ)句進(jìn)行搜索,得到查詢結(jié)果;(b)在所得到的查詢結(jié)果集合中,在排名在前一定數(shù)目的 查詢結(jié)果子集中進(jìn)行聚類,生成簇;(c)針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔;(d)使用在步 驟(a)中所使用的查詢語(yǔ)句,以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索,來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序; (e)從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞;(f)把所提取的詞添加到查詢語(yǔ)句,生成新的 查詢語(yǔ)句。根據(jù)本發(fā)明的另一個(gè)方面,提供一種查詢擴(kuò)展設(shè)備,包括搜索器,針對(duì)給定的查 詢語(yǔ)句進(jìn)行搜索,得到查詢結(jié)果;簇生成器,在所得到的查詢結(jié)果集合中,在排名在前一定 數(shù)目的查詢結(jié)果子集中進(jìn)行聚類,生成簇;簇簡(jiǎn)檔生成器,針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn) 檔;簇簡(jiǎn)檔排序器,使用所述搜索器所使用的查詢語(yǔ)句,以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜 索,來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序;詞提取器,從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞;新查詢語(yǔ)句 生成器,把所提取的詞添加到查詢語(yǔ)句,生成新的查詢語(yǔ)句。根據(jù)本發(fā)明,對(duì)排名高的搜索結(jié)果文檔進(jìn)行聚類以生成簇,對(duì)簇簡(jiǎn)檔進(jìn)行二次搜 索并刪除排名低的簇,于是這些排名低的簇中的文檔就被刪除,這樣就可以除掉第一次搜 索結(jié)果中排名高但不相關(guān)的文檔。通過(guò)從排名高的簇簡(jiǎn)檔中提取詞,去除簇或相應(yīng)主題中 的噪聲,提高了搜索精度。進(jìn)一步,通過(guò)對(duì)簇中文檔內(nèi)容的關(guān)鍵部分進(jìn)行組合,來(lái)去除每個(gè) 文檔中的噪聲詞,則能夠產(chǎn)生更高的搜索精度。通過(guò)閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述,將更好地理解本 發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點(diǎn)和技術(shù)及工業(yè)重要性。
圖1為按照本發(fā)明實(shí)施例的查詢擴(kuò)展設(shè)備的總體框圖;以及圖2為按照本發(fā)明實(shí)施例的查詢擴(kuò)展方法的總體流程圖。
具體實(shí)施例方式圖1為按照本發(fā)明實(shí)施例的查詢擴(kuò)展設(shè)備的總體框圖。如圖1所示,此查詢擴(kuò)展 設(shè)備包括搜索器101 ;簇生成器102 ;簇簡(jiǎn)檔生成器103,簇簡(jiǎn)檔排序器104 ;詞提取器105 ; 和新查詢語(yǔ)句生成器106。
搜索器101針對(duì)給定的查詢語(yǔ)句,來(lái)檢索全文索引,得到排序的相關(guān)文檔的集合, 作為一次查詢的結(jié)果。搜索的范圍可以是數(shù)據(jù)庫(kù)、因特網(wǎng)、內(nèi)部網(wǎng)等等。搜索器101進(jìn)行搜 索并排序的算法可以是概率統(tǒng)計(jì)算法,例如TF/IDF、BM25、DFR_BM25等,或者是基于鏈接分 析的算法,例如Page Rank(網(wǎng)頁(yè)等級(jí))等,或向量空間算法,或者可以是上述這些排序算法 的任意組合。其中,搜索器101使用的BM25算法例如記載在Ed Greengras, InformationRetrieval :A Survey 30November 2000 中,用來(lái)計(jì)算給定查詢語(yǔ)句和文檔 庫(kù)中文檔的相關(guān)性得分,得到相應(yīng)的搜索排名。給定查詢語(yǔ)句Q,文檔d的相關(guān)性得分 score (d, Q)由如下公式計(jì)算得到 其中,t是查詢Q中的單詞,tf是t在文檔d中出現(xiàn)的次數(shù),qtf是t在查詢Q中 出現(xiàn)的次數(shù),N是文檔庫(kù)中的文檔數(shù),Nt是文檔庫(kù)中包含單詞t的文檔數(shù),k2和k3是參數(shù), 例如k2 = 0. 5,k3 = 1000, K定義如下 其中1是文檔d的長(zhǎng)度,含義為文檔中單詞的總數(shù),avg_l是文檔庫(kù)的平均文檔長(zhǎng) 度,即所有文檔長(zhǎng)度之和除以文檔個(gè)數(shù),和b是參數(shù),例如& = 1. 2,b = 0. 75。score (d,Q)的數(shù)值越高,表示該文檔d與查詢語(yǔ)句的相關(guān)度越高。簇生成器102將一次查詢的結(jié)果中排名靠前的一定數(shù)目N的文檔的子集進(jìn)行聚 類,以形成不同的簇,每個(gè)簇中的文檔數(shù)據(jù)屬于同一個(gè)特征或主題。簇生成器102進(jìn)行聚類 的算法可以是K-均值法聚類算法、模糊c-均值法聚類算法、圖論方法等、或上述算法的任 思組合。其中,K-均值法聚類算法例如記載在Lloyd,S. P. (1957). “ Last squarequantization in PCM " . Bell Telephone Laboratories Paper. Published in journalmuch later :Lloyd. , S. P. (1982)中,用來(lái)對(duì)排名最靠前的N個(gè)搜索結(jié)果文檔聚類 生成簇。該算法步驟包括(1)選擇聚類參數(shù)k,其中k可以定義為k = (N/2)172 ;(2)隨機(jī)選擇k個(gè)文檔作為k個(gè)初始類;(3)對(duì)每個(gè)類,將其出現(xiàn)次數(shù)最多的10個(gè)詞(tl,tlO)確定為其聚類中心;(4)分別計(jì)算每個(gè)文檔和每個(gè)類之間的距離
距離 其中sl,s2, ... , slO分別是類c的10個(gè)中心詞tl,. . .,tlO出現(xiàn)的次數(shù),11,
12,......,110分別是文檔d中10個(gè)中心詞tl,. . .,tlO出現(xiàn)的次數(shù),文檔d將屬于距離
最近的類;(5)循環(huán)(3)到⑷直到每個(gè)聚類不再發(fā)生變化為止。簇簡(jiǎn)檔生成器103集成一個(gè)簇中的所有文檔來(lái)生成簇簡(jiǎn)檔。集成方式可以是簡(jiǎn)單地集成簇中所有文檔中所有的詞,或者也可以集成簇中所有文檔中的關(guān)鍵詞。關(guān)鍵詞可以 是文檔題目、黑體詞、包含查詢語(yǔ)句的語(yǔ)句等、或上述內(nèi)容的任意組合。通過(guò)集成關(guān)鍵詞,可 以刪除文檔中的噪聲詞,這將產(chǎn)生更多的相關(guān)度高的詞并提高查詢精度。簇簡(jiǎn)檔排序器104以簇簡(jiǎn)檔而非文檔為單位,針對(duì)查詢語(yǔ)句在所有簇中進(jìn)行搜 索,對(duì)簇簡(jiǎn)檔進(jìn)行排序,作為二次查詢的結(jié)果。簇簡(jiǎn)檔排序器104采用的算法可以是概率統(tǒng) 計(jì)算法,例如TF/IDF、BM25、DFR_BM25等,或者是基于鏈接分析的算法,例如Page Rank (網(wǎng) 頁(yè)等級(jí))等,或向量空間算法,或者可以是上述這些排序算法的任意組合。其中,簇簡(jiǎn)檔排序器104采用的BM25算法用來(lái)計(jì)算給定查詢語(yǔ)句和簇簡(jiǎn)檔的相關(guān) 性得分,得到相應(yīng)的簇簡(jiǎn)檔的搜索排名。對(duì)于給定的查詢語(yǔ)句Q,簇簡(jiǎn)檔ρ的相關(guān)性得分score (p,Q)由如下公式計(jì)算得 到 其中,t是查詢Q中的單詞,tf是t在簇簡(jiǎn)檔ρ中出現(xiàn)的次數(shù),qtf是t在查詢Q 中出現(xiàn)的次數(shù),N是簇簡(jiǎn)檔集中的簇簡(jiǎn)檔數(shù),Nt是簇簡(jiǎn)檔集中包含單詞t的簇簡(jiǎn)檔數(shù),k2和 k3是參數(shù),例如k2 = 0. 5,k3 = 1000, K定義如下 其中1是簇簡(jiǎn)檔ρ的長(zhǎng)度,含義為簇簡(jiǎn)檔ρ所含單詞總數(shù),avg 1是簇簡(jiǎn)檔集的平 均簇簡(jiǎn)檔長(zhǎng)度,即所有簇簡(jiǎn)檔長(zhǎng)度之和除以簇簡(jiǎn)檔個(gè)數(shù),ki和b是參數(shù),例如Ic1 = 1. 2,b = 0. 75。score (ρ, Q)的數(shù)值越高,表示該簇簡(jiǎn)檔ρ與查詢語(yǔ)句的相關(guān)度越高。針對(duì)簇簡(jiǎn)檔排序的結(jié)果,可以自動(dòng)選擇排名靠前的一定數(shù)目的簇簡(jiǎn)檔進(jìn)行進(jìn)一步 的處理,或者用戶可以交互地選擇相關(guān)的簇簡(jiǎn)檔來(lái)進(jìn)行進(jìn)一步的處理。詞提取器105從排名靠前的一定數(shù)目的簇簡(jiǎn)檔中提取詞,產(chǎn)生更多的相關(guān)度高的 詞并提高查詢精度。詞提取器105也可以從用戶交互地選擇的簇簡(jiǎn)檔中提取詞。詞提取器 105采用的算法可以是Robertson's選擇值算法、或最大出現(xiàn)次數(shù)算法等、或者上述算法的 任意組合。詞提取器105從排名最靠前的R個(gè)簇簡(jiǎn)檔中提取詞,具有較高得分的詞被選擇。只
選擇排名最靠前的R個(gè)簇簡(jiǎn)檔中的詞可以去除簇的噪聲。所采用的Robertson's Selection
Value (RSV)方法例如記載在 S. Ε· Robertson,"Onterm selection for query expansion,,,
Journal of documentation,46,4,1990,pp. 359-364中,該算法計(jì)算詞的得分的公式如下
L0051」 其中,RSV(t)是詞t的值,rt是排名最靠前的R個(gè)簇簡(jiǎn)檔中包含詞t的簇簡(jiǎn)檔個(gè)數(shù),N是簇簡(jiǎn)檔總數(shù),1^是所有簇簡(jiǎn)檔中包含詞t的簇簡(jiǎn)檔個(gè)數(shù),&和a是參數(shù),例如= 0. 5, a = 0. 5。RSV(t)的數(shù)值越高,表示該詞t與查詢語(yǔ)句的相關(guān)度越高。新查詢語(yǔ)句生成器106組合所提取出的詞和查詢語(yǔ)句,以生成新的查詢語(yǔ)句。提 取出的詞的權(quán)重可以與查詢語(yǔ)句中原有的詞的權(quán)重一樣,也可以不一樣。圖2是按照本發(fā)明實(shí)施例的查詢擴(kuò)展方法的總體流程圖。在步驟S201,針對(duì)給定的查詢語(yǔ)句搜索相關(guān)文檔,得到排序的文檔集合,作為一次 檢索結(jié)果。在步驟S202,將前N個(gè)相關(guān)文檔聚類形成M個(gè)簇1,N>M> 1),其中一個(gè) 簇對(duì)應(yīng)于一個(gè)主題。在步驟S203,對(duì)每個(gè)簇,集成它的所有文檔的所有內(nèi)容來(lái)生成一個(gè)簇簡(jiǎn) 檔,或者,在步驟S203,對(duì)每個(gè)簇,集成簇中所有文檔中的關(guān)鍵詞,來(lái)生成一個(gè)簇簡(jiǎn)檔。在步 驟S204,針對(duì)該給定的查詢語(yǔ)句在所有簇中進(jìn)行二次搜索,對(duì)簇簡(jiǎn)檔進(jìn)行排序,作為二次查 詢的結(jié)果。在步驟S205,從排名高的k個(gè)簇簡(jiǎn)檔中提取詞。在步驟S206,所提取的詞和查 詢語(yǔ)句進(jìn)行組合。然后,可以用擴(kuò)展后的查詢語(yǔ)句搜索相關(guān)文檔。在步驟S203中,如果用文檔的關(guān)鍵詞生成簇簡(jiǎn)檔,則能夠消除噪聲詞,更多相關(guān) 度高的詞能夠被提取出來(lái)加入查詢語(yǔ)句,擴(kuò)展后的查詢語(yǔ)句提高搜索精度。在步驟S205 中,僅從排名高的簇簡(jiǎn)檔中提取詞,從而消除了不相關(guān)的簇中的噪聲文檔,提高了搜索精度。在說(shuō)明書(shū)中說(shuō)明的一系列操作能夠通過(guò)硬件、軟件、或者硬件與軟件的組合來(lái)執(zhí) 行。當(dāng)由軟件執(zhí)行該一系列操作時(shí),可以把其中的計(jì)算機(jī)程序安裝到內(nèi)置于專用硬件的計(jì) 算機(jī)中的存儲(chǔ)器中,使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序?;蛘撸梢园延?jì)算機(jī)程序安裝到能夠執(zhí) 行各種類型的處理的通用計(jì)算機(jī)中,使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序。例如,可以把計(jì)算機(jī)程序預(yù)先存儲(chǔ)到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲(chǔ)器) 中?;蛘?,可以臨時(shí)或者永久地存儲(chǔ)(記錄)計(jì)算機(jī)程序到可移動(dòng)記錄介質(zhì)中,諸如軟盤、 ⑶-ROM(光盤只讀存儲(chǔ)器)、M0(磁光)盤、DVD(數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲(chǔ)器。可 以把這樣的可移動(dòng)記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實(shí)施例進(jìn)行了詳細(xì)說(shuō)明。然而,很明顯,在不背離本發(fā)明的精 神的情況下,本領(lǐng)域技術(shù)人員能夠?qū)?shí)施例執(zhí)行更改和替換。換句話說(shuō),本發(fā)明用說(shuō)明的形 式公開(kāi),而不是被限制地解釋。要判斷本發(fā)明的要旨,應(yīng)該考慮所附的權(quán)利要求。
權(quán)利要求
一種查詢擴(kuò)展方法,包括步驟(a)針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索,得到查詢結(jié)果;(b)在所得到的查詢結(jié)果集合中,在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類,生成簇;(c)針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔;(d)使用在步驟(a)中所使用的查詢語(yǔ)句,以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索,來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序;(e)從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞;(f)把所提取的詞添加到查詢語(yǔ)句,生成新的查詢語(yǔ)句。
2.如權(quán)利要求1所述的查詢擴(kuò)展方法,其中,在步驟(b)中,進(jìn)行聚類的方法為K-均值 法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個(gè)或多個(gè)的組合。
3.如權(quán)利要求1所述的查詢擴(kuò)展方法,其中,所述簇簡(jiǎn)檔為簇中所有文檔的全部?jī)?nèi)容 的組合,或者為簇中所有文檔的關(guān)鍵內(nèi)容的組合。
4.如權(quán)利要求3所述的查詢擴(kuò)展方法,其中,在所述簇簡(jiǎn)檔為簇中所有文檔的關(guān)鍵內(nèi) 容的組合的情況下,所述關(guān)鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語(yǔ)句的語(yǔ)句中的任意一 個(gè)或多個(gè)的組合。
5.如權(quán)利要求1所述的查詢擴(kuò)展方法,其中,進(jìn)行搜索的方法為概率統(tǒng)計(jì)方法、基于鏈 接分析的算法、及向量空間算法中的任意一個(gè)或多個(gè)的組合。
6.如權(quán)利要求5所述的查詢擴(kuò)展方法,其中,所述概率統(tǒng)計(jì)方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個(gè)或多個(gè)的組合。
7.如權(quán)利要求1所述的查詢擴(kuò)展方法,其中,在步驟(e)中,提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個(gè)或多個(gè)的組合。
8.如權(quán)利要求1所述的查詢擴(kuò)展方法,其中,在步驟(f),所提取的詞與查詢語(yǔ)句中原 有的詞有不同或相同的權(quán)重。
9.一種查詢擴(kuò)展設(shè)備,包括搜索器,針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索,得到查詢結(jié)果;簇生成器,在所得到的查詢結(jié)果集合中,在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行 聚類,生成簇;簇簡(jiǎn)檔生成器,針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔;簇簡(jiǎn)檔排序器,使用所述搜索器所使用的查詢語(yǔ)句,以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行 搜索,來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序;詞提取器,從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞;新查詢語(yǔ)句生成器,把所提取的詞添加到查詢語(yǔ)句,生成新的查詢語(yǔ)句。
10.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備,其中,所述簇生成器進(jìn)行聚類的方法為K-均值 法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個(gè)或多個(gè)的組合。
11.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備,其中,所述簇簡(jiǎn)檔為簇中所有文檔的全部?jī)?nèi)容 的組合,或者為簇中所有文檔的關(guān)鍵內(nèi)容的組合。
12.如權(quán)利要求11所述的查詢擴(kuò)展設(shè)備,其中,在所述簇簡(jiǎn)檔為簇中所有文檔的關(guān)鍵 內(nèi)容的組合的情況下,所述關(guān)鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語(yǔ)句的語(yǔ)句中的任意一個(gè)或多個(gè)的組合。
13.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備,其中,進(jìn)行搜索的方法為概率統(tǒng)計(jì)方法、基于 鏈接分析的算法、及向量空間算法中的任意一個(gè)或多個(gè)的組合。
14.如權(quán)利要求13所述的查詢擴(kuò)展設(shè)備,其中,所述概率統(tǒng)計(jì)方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個(gè)或多個(gè)的組合。
15.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備,其中,所述詞提取器提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個(gè)或多個(gè)的組合。
16.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備,其中,在所述新查詢語(yǔ)句生成器中,所提取的 詞與查詢語(yǔ)句中原有的詞有不同或相同的權(quán)重。
全文摘要
本發(fā)明提供一種查詢擴(kuò)展設(shè)備,包括搜索器,針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索,得到查詢結(jié)果;簇生成器,在所得到的查詢結(jié)果集合中,在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類,生成簇;簇簡(jiǎn)檔生成器,針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔;簇簡(jiǎn)檔排序器,使用所述搜索器所使用的查詢語(yǔ)句,以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索,來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序;詞提取器,從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞;新查詢語(yǔ)句生成器,把所提取的詞添加到查詢語(yǔ)句,生成新的查詢語(yǔ)句。
文檔編號(hào)G06F17/30GK101876979SQ20091013219
公開(kāi)日2010年11月3日 申請(qǐng)日期2009年4月28日 優(yōu)先權(quán)日2009年4月28日
發(fā)明者姜珊珊, 游贛梅, 謝宣松, 趙利軍, 鄭繼川 申請(qǐng)人:株式會(huì)社理光