查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備的制作方法

文檔序號(hào)：6577615閱讀：253來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備，更具體地說(shuō)，本發(fā)明涉及一種把從查詢結(jié)果中提取的詞添加到查詢語(yǔ)句以提高搜索精度的查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備。
背景技術(shù)：
隨著信息技術(shù)的發(fā)展，信息量的增大，信息檢索在工作和生活中越來(lái)越重要。通過(guò) 檢索來(lái)快速找到需要的信息，從而便利于工作和生活。但由于人們往往對(duì)所需要的信息不甚了解，因此在搜索工具中輸入的查詢?cè)~不合適，以至于不能找到相關(guān)有用的信息。用戶的查詢語(yǔ)句經(jīng)常太短，以至于不能準(zhǔn)確地描述用戶的信息需求。查詢語(yǔ)句中缺少許多重要的詞，這導(dǎo)致了只能搜索到少量的一部分相關(guān)文檔。為了克服此問(wèn)題，查詢語(yǔ) 句擴(kuò)展技術(shù)應(yīng)運(yùn)而生。用新詞擴(kuò)展查詢語(yǔ)句是一種解決此問(wèn)題的有效方法。在所有的查詢擴(kuò)展方法中，偽相關(guān)查詢反饋是最有效的方法。此方法假定第一次查詢結(jié)果中高排名的文檔是與用戶感興趣的主題相關(guān)的，于是從高排名的文檔中提取詞來(lái)擴(kuò)展查詢語(yǔ)句。但是一些高排名的文檔可能與用戶感興趣的主題無(wú)關(guān)，于是噪聲詞被提取出來(lái)，這使得搜索精度未有效提高甚至被降低。例如，專利文獻(xiàn)1提出了一種查詢擴(kuò)展系統(tǒng)和方法。此專利利用記錄查詢歷史的查詢?nèi)罩?、和查詢?nèi)罩局胁樵冋Z(yǔ)句的查詢結(jié)果來(lái)擴(kuò)展用戶查詢語(yǔ)句，即，從以前的相關(guān)查詢語(yǔ)句及它們的查詢結(jié)果中提取新詞。此發(fā)明存在的問(wèn)題是，日志中的查詢語(yǔ)句可能與查詢無(wú)關(guān)，由此而得到的查詢結(jié)果可能更不相關(guān)，從這些不相關(guān)的查詢結(jié)果數(shù)據(jù)中提取的詞將是噪聲詞。專利文獻(xiàn)2提出了另一種查詢擴(kuò)展系統(tǒng)和方法。在此專利中，所提取的詞是通過(guò) 計(jì)算聯(lián)合概率并排序而得到的高排名詞，此概率是所有查詢?nèi)罩窘y(tǒng)計(jì)數(shù)據(jù)的函數(shù)。但是日志中的查詢語(yǔ)句可能與查詢無(wú)關(guān)，由此而來(lái)的查詢結(jié)果可能更不相關(guān)，從這些不相關(guān)的數(shù) 據(jù)中提取的詞將是噪聲詞。在非專利文獻(xiàn)1中，擴(kuò)展查詢語(yǔ)句的詞來(lái)自于根據(jù)查詢結(jié)果而生成的聚類層次關(guān) 系。此方案中存在的問(wèn)題是，普通數(shù)據(jù)不像IPC(國(guó)際專利分類)那樣存在層次分類，因此該方法不能被廣泛使用。在非專利文獻(xiàn)2中，詞分類過(guò)程用來(lái)預(yù)測(cè)擴(kuò)展詞的有用性。被預(yù)測(cè)為好的詞被加到查詢語(yǔ)句中。此方案中存在的問(wèn)題是因?yàn)樵~是從排名高的搜索結(jié)果文檔中提取出來(lái)的，而這些排名高的搜索結(jié)果文檔可能與查詢語(yǔ)句并不相關(guān)，于是可能從這些不相關(guān)的文檔中抽出大量的噪聲詞，這些噪聲詞將導(dǎo)致錯(cuò)誤的分類并使得噪聲詞被加到查詢語(yǔ)句中。專利文獻(xiàn)1美國(guó)專利US 7287025B專利文獻(xiàn)2美國(guó)專利申請(qǐng)US 2004/0158560A1[非專利文獻(xiàn)1]A Patent Retrieval Method Using a Hierarchy of Clusters atTUT, Hironori Doi, Yohei Seki, Masaki Aono, proceedings of NTCIR-5 workshopmeeting, December 6—9, 2008, Tokyo, Japan.
非專禾lj 文獻(xiàn) 2Selecting good expansion terms for pseudo-relevancefeedback, Guihong Cao, Jian—Yun Nie, Jianfeng Gao, Stephen Robertson, Proceedings of the 31st annual international ACM SIGIR conference on Researchand development in information retrieval 2008, Singapore, Singapore, Pages243-250.

發(fā)明內(nèi)容
現(xiàn)有查詢語(yǔ)句擴(kuò)展技術(shù)增加的詞包含有大量的噪聲詞，以致搜索精度未有效提高甚至降低。針對(duì)現(xiàn)有技術(shù)中存在的問(wèn)題，本發(fā)明提出一種新的查詢語(yǔ)句擴(kuò)展技術(shù)，通過(guò)對(duì)搜索結(jié)果中排名在前N的文檔進(jìn)行聚類以生成簇，并進(jìn)而生成簇簡(jiǎn)檔，以簇簡(jiǎn)檔為單位進(jìn)行搜索，從搜索結(jié)果提取新詞，來(lái)擴(kuò)展查詢語(yǔ)句。根據(jù)本發(fā)明的一個(gè)方面，提供一種查詢擴(kuò)展方法，包括步驟(a)針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索，得到查詢結(jié)果；(b)在所得到的查詢結(jié)果集合中，在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類，生成簇；(c)針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔；(d)使用在步驟(a)中所使用的查詢語(yǔ)句，以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索，來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序； (e)從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞；(f)把所提取的詞添加到查詢語(yǔ)句，生成新的查詢語(yǔ)句。根據(jù)本發(fā)明的另一個(gè)方面，提供一種查詢擴(kuò)展設(shè)備，包括搜索器，針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索，得到查詢結(jié)果；簇生成器，在所得到的查詢結(jié)果集合中，在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類，生成簇；簇簡(jiǎn)檔生成器，針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn) 檔；簇簡(jiǎn)檔排序器，使用所述搜索器所使用的查詢語(yǔ)句，以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索，來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序；詞提取器，從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞；新查詢語(yǔ)句生成器，把所提取的詞添加到查詢語(yǔ)句，生成新的查詢語(yǔ)句。根據(jù)本發(fā)明，對(duì)排名高的搜索結(jié)果文檔進(jìn)行聚類以生成簇，對(duì)簇簡(jiǎn)檔進(jìn)行二次搜索并刪除排名低的簇，于是這些排名低的簇中的文檔就被刪除，這樣就可以除掉第一次搜索結(jié)果中排名高但不相關(guān)的文檔。通過(guò)從排名高的簇簡(jiǎn)檔中提取詞，去除簇或相應(yīng)主題中的噪聲，提高了搜索精度。進(jìn)一步，通過(guò)對(duì)簇中文檔內(nèi)容的關(guān)鍵部分進(jìn)行組合，來(lái)去除每個(gè) 文檔中的噪聲詞，則能夠產(chǎn)生更高的搜索精度。通過(guò)閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實(shí)施例的詳細(xì)描述，將更好地理解本發(fā)明的以上和其他目標(biāo)、特征、優(yōu)點(diǎn)和技術(shù)及工業(yè)重要性。

圖1為按照本發(fā)明實(shí)施例的查詢擴(kuò)展設(shè)備的總體框圖；以及圖2為按照本發(fā)明實(shí)施例的查詢擴(kuò)展方法的總體流程圖。
具體實(shí)施例方式圖1為按照本發(fā)明實(shí)施例的查詢擴(kuò)展設(shè)備的總體框圖。如圖1所示，此查詢擴(kuò)展設(shè)備包括搜索器101 ；簇生成器102 ；簇簡(jiǎn)檔生成器103，簇簡(jiǎn)檔排序器104 ；詞提取器105 ；和新查詢語(yǔ)句生成器106。
搜索器101針對(duì)給定的查詢語(yǔ)句，來(lái)檢索全文索引，得到排序的相關(guān)文檔的集合，作為一次查詢的結(jié)果。搜索的范圍可以是數(shù)據(jù)庫(kù)、因特網(wǎng)、內(nèi)部網(wǎng)等等。搜索器101進(jìn)行搜索并排序的算法可以是概率統(tǒng)計(jì)算法，例如TF/IDF、BM25、DFR_BM25等，或者是基于鏈接分析的算法，例如Page Rank(網(wǎng)頁(yè)等級(jí))等，或向量空間算法，或者可以是上述這些排序算法的任意組合。其中，搜索器101使用的BM25算法例如記載在Ed Greengras, InformationRetrieval :A Survey 30November 2000 中，用來(lái)計(jì)算給定查詢語(yǔ)句和文檔庫(kù)中文檔的相關(guān)性得分，得到相應(yīng)的搜索排名。給定查詢語(yǔ)句Q，文檔d的相關(guān)性得分 score (d, Q)由如下公式計(jì)算得到其中，t是查詢Q中的單詞，tf是t在文檔d中出現(xiàn)的次數(shù)，qtf是t在查詢Q中出現(xiàn)的次數(shù)，N是文檔庫(kù)中的文檔數(shù)，Nt是文檔庫(kù)中包含單詞t的文檔數(shù)，k2和k3是參數(shù)，例如k2 = 0. 5，k3 = 1000, K定義如下其中1是文檔d的長(zhǎng)度，含義為文檔中單詞的總數(shù)，avg_l是文檔庫(kù)的平均文檔長(zhǎng) 度，即所有文檔長(zhǎng)度之和除以文檔個(gè)數(shù)，和b是參數(shù)，例如& = 1. 2，b = 0. 75。score (d,Q)的數(shù)值越高，表示該文檔d與查詢語(yǔ)句的相關(guān)度越高。簇生成器102將一次查詢的結(jié)果中排名靠前的一定數(shù)目N的文檔的子集進(jìn)行聚類，以形成不同的簇，每個(gè)簇中的文檔數(shù)據(jù)屬于同一個(gè)特征或主題。簇生成器102進(jìn)行聚類的算法可以是K-均值法聚類算法、模糊c-均值法聚類算法、圖論方法等、或上述算法的任思組合。其中，K-均值法聚類算法例如記載在Lloyd，S. P. (1957). “ Last squarequantization in PCM " . Bell Telephone Laboratories Paper. Published in journalmuch later :Lloyd. , S. P. (1982)中，用來(lái)對(duì)排名最靠前的N個(gè)搜索結(jié)果文檔聚類生成簇。該算法步驟包括(1)選擇聚類參數(shù)k，其中k可以定義為k = (N/2)172 ；(2)隨機(jī)選擇k個(gè)文檔作為k個(gè)初始類；(3)對(duì)每個(gè)類，將其出現(xiàn)次數(shù)最多的10個(gè)詞(tl，tlO)確定為其聚類中心；(4)分別計(jì)算每個(gè)文檔和每個(gè)類之間的距離
距離其中sl，s2, ... , slO分別是類c的10個(gè)中心詞tl，. . .，tlO出現(xiàn)的次數(shù)，11，
12，......，110分別是文檔d中10個(gè)中心詞tl，. . .，tlO出現(xiàn)的次數(shù)，文檔d將屬于距離
最近的類；(5)循環(huán)(3)到⑷直到每個(gè)聚類不再發(fā)生變化為止。簇簡(jiǎn)檔生成器103集成一個(gè)簇中的所有文檔來(lái)生成簇簡(jiǎn)檔。集成方式可以是簡(jiǎn)單地集成簇中所有文檔中所有的詞，或者也可以集成簇中所有文檔中的關(guān)鍵詞。關(guān)鍵詞可以是文檔題目、黑體詞、包含查詢語(yǔ)句的語(yǔ)句等、或上述內(nèi)容的任意組合。通過(guò)集成關(guān)鍵詞，可以刪除文檔中的噪聲詞，這將產(chǎn)生更多的相關(guān)度高的詞并提高查詢精度。簇簡(jiǎn)檔排序器104以簇簡(jiǎn)檔而非文檔為單位，針對(duì)查詢語(yǔ)句在所有簇中進(jìn)行搜索，對(duì)簇簡(jiǎn)檔進(jìn)行排序，作為二次查詢的結(jié)果。簇簡(jiǎn)檔排序器104采用的算法可以是概率統(tǒng) 計(jì)算法，例如TF/IDF、BM25、DFR_BM25等，或者是基于鏈接分析的算法，例如Page Rank (網(wǎng) 頁(yè)等級(jí))等，或向量空間算法，或者可以是上述這些排序算法的任意組合。其中，簇簡(jiǎn)檔排序器104采用的BM25算法用來(lái)計(jì)算給定查詢語(yǔ)句和簇簡(jiǎn)檔的相關(guān) 性得分，得到相應(yīng)的簇簡(jiǎn)檔的搜索排名。對(duì)于給定的查詢語(yǔ)句Q，簇簡(jiǎn)檔ρ的相關(guān)性得分score (p，Q)由如下公式計(jì)算得到其中，t是查詢Q中的單詞，tf是t在簇簡(jiǎn)檔ρ中出現(xiàn)的次數(shù)，qtf是t在查詢Q 中出現(xiàn)的次數(shù)，N是簇簡(jiǎn)檔集中的簇簡(jiǎn)檔數(shù)，Nt是簇簡(jiǎn)檔集中包含單詞t的簇簡(jiǎn)檔數(shù)，k2和 k3是參數(shù)，例如k2 = 0. 5，k3 = 1000, K定義如下其中1是簇簡(jiǎn)檔ρ的長(zhǎng)度，含義為簇簡(jiǎn)檔ρ所含單詞總數(shù)，avg 1是簇簡(jiǎn)檔集的平均簇簡(jiǎn)檔長(zhǎng)度，即所有簇簡(jiǎn)檔長(zhǎng)度之和除以簇簡(jiǎn)檔個(gè)數(shù)，ki和b是參數(shù)，例如Ic1 = 1. 2，b = 0. 75。score (ρ, Q)的數(shù)值越高，表示該簇簡(jiǎn)檔ρ與查詢語(yǔ)句的相關(guān)度越高。針對(duì)簇簡(jiǎn)檔排序的結(jié)果，可以自動(dòng)選擇排名靠前的一定數(shù)目的簇簡(jiǎn)檔進(jìn)行進(jìn)一步的處理，或者用戶可以交互地選擇相關(guān)的簇簡(jiǎn)檔來(lái)進(jìn)行進(jìn)一步的處理。詞提取器105從排名靠前的一定數(shù)目的簇簡(jiǎn)檔中提取詞，產(chǎn)生更多的相關(guān)度高的詞并提高查詢精度。詞提取器105也可以從用戶交互地選擇的簇簡(jiǎn)檔中提取詞。詞提取器 105采用的算法可以是Robertson's選擇值算法、或最大出現(xiàn)次數(shù)算法等、或者上述算法的任意組合。詞提取器105從排名最靠前的R個(gè)簇簡(jiǎn)檔中提取詞，具有較高得分的詞被選擇。只
選擇排名最靠前的R個(gè)簇簡(jiǎn)檔中的詞可以去除簇的噪聲。所采用的Robertson's Selection
Value (RSV)方法例如記載在 S. Ε· Robertson,"Onterm selection for query expansion，，，
Journal of documentation，46，4，1990，pp. 359-364中，該算法計(jì)算詞的得分的公式如下

L0051」其中，RSV(t)是詞t的值，rt是排名最靠前的R個(gè)簇簡(jiǎn)檔中包含詞t的簇簡(jiǎn)檔個(gè)數(shù)，N是簇簡(jiǎn)檔總數(shù)，1^是所有簇簡(jiǎn)檔中包含詞t的簇簡(jiǎn)檔個(gè)數(shù)，&和a是參數(shù)，例如= 0. 5, a = 0. 5。RSV(t)的數(shù)值越高，表示該詞t與查詢語(yǔ)句的相關(guān)度越高。新查詢語(yǔ)句生成器106組合所提取出的詞和查詢語(yǔ)句，以生成新的查詢語(yǔ)句。提取出的詞的權(quán)重可以與查詢語(yǔ)句中原有的詞的權(quán)重一樣，也可以不一樣。圖2是按照本發(fā)明實(shí)施例的查詢擴(kuò)展方法的總體流程圖。在步驟S201，針對(duì)給定的查詢語(yǔ)句搜索相關(guān)文檔，得到排序的文檔集合，作為一次檢索結(jié)果。在步驟S202，將前N個(gè)相關(guān)文檔聚類形成M個(gè)簇1，N>M> 1)，其中一個(gè) 簇對(duì)應(yīng)于一個(gè)主題。在步驟S203，對(duì)每個(gè)簇，集成它的所有文檔的所有內(nèi)容來(lái)生成一個(gè)簇簡(jiǎn) 檔，或者，在步驟S203，對(duì)每個(gè)簇，集成簇中所有文檔中的關(guān)鍵詞，來(lái)生成一個(gè)簇簡(jiǎn)檔。在步驟S204，針對(duì)該給定的查詢語(yǔ)句在所有簇中進(jìn)行二次搜索，對(duì)簇簡(jiǎn)檔進(jìn)行排序，作為二次查詢的結(jié)果。在步驟S205，從排名高的k個(gè)簇簡(jiǎn)檔中提取詞。在步驟S206，所提取的詞和查詢語(yǔ)句進(jìn)行組合。然后，可以用擴(kuò)展后的查詢語(yǔ)句搜索相關(guān)文檔。在步驟S203中，如果用文檔的關(guān)鍵詞生成簇簡(jiǎn)檔，則能夠消除噪聲詞，更多相關(guān) 度高的詞能夠被提取出來(lái)加入查詢語(yǔ)句，擴(kuò)展后的查詢語(yǔ)句提高搜索精度。在步驟S205 中，僅從排名高的簇簡(jiǎn)檔中提取詞，從而消除了不相關(guān)的簇中的噪聲文檔，提高了搜索精度。在說(shuō)明書(shū)中說(shuō)明的一系列操作能夠通過(guò)硬件、軟件、或者硬件與軟件的組合來(lái)執(zhí) 行。當(dāng)由軟件執(zhí)行該一系列操作時(shí)，可以把其中的計(jì)算機(jī)程序安裝到內(nèi)置于專用硬件的計(jì) 算機(jī)中的存儲(chǔ)器中，使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序?；蛘撸梢园延?jì)算機(jī)程序安裝到能夠執(zhí) 行各種類型的處理的通用計(jì)算機(jī)中，使得計(jì)算機(jī)執(zhí)行該計(jì)算機(jī)程序。例如，可以把計(jì)算機(jī)程序預(yù)先存儲(chǔ)到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲(chǔ)器) 中?；蛘?，可以臨時(shí)或者永久地存儲(chǔ)(記錄)計(jì)算機(jī)程序到可移動(dòng)記錄介質(zhì)中，諸如軟盤、 ⑶-ROM(光盤只讀存儲(chǔ)器)、M0(磁光)盤、DVD(數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲(chǔ)器。可以把這樣的可移動(dòng)記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實(shí)施例進(jìn)行了詳細(xì)說(shuō)明。然而，很明顯，在不背離本發(fā)明的精神的情況下，本領(lǐng)域技術(shù)人員能夠?qū)?shí)施例執(zhí)行更改和替換。換句話說(shuō)，本發(fā)明用說(shuō)明的形式公開(kāi)，而不是被限制地解釋。要判斷本發(fā)明的要旨，應(yīng)該考慮所附的權(quán)利要求。
權(quán)利要求
一種查詢擴(kuò)展方法，包括步驟(a)針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索，得到查詢結(jié)果；(b)在所得到的查詢結(jié)果集合中，在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類，生成簇；(c)針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔；(d)使用在步驟(a)中所使用的查詢語(yǔ)句，以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索，來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序；(e)從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞；(f)把所提取的詞添加到查詢語(yǔ)句，生成新的查詢語(yǔ)句。
2.如權(quán)利要求1所述的查詢擴(kuò)展方法，其中，在步驟(b)中，進(jìn)行聚類的方法為K-均值法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個(gè)或多個(gè)的組合。
3.如權(quán)利要求1所述的查詢擴(kuò)展方法，其中，所述簇簡(jiǎn)檔為簇中所有文檔的全部?jī)?nèi)容的組合，或者為簇中所有文檔的關(guān)鍵內(nèi)容的組合。
4.如權(quán)利要求3所述的查詢擴(kuò)展方法，其中，在所述簇簡(jiǎn)檔為簇中所有文檔的關(guān)鍵內(nèi) 容的組合的情況下，所述關(guān)鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語(yǔ)句的語(yǔ)句中的任意一個(gè)或多個(gè)的組合。
5.如權(quán)利要求1所述的查詢擴(kuò)展方法，其中，進(jìn)行搜索的方法為概率統(tǒng)計(jì)方法、基于鏈接分析的算法、及向量空間算法中的任意一個(gè)或多個(gè)的組合。
6.如權(quán)利要求5所述的查詢擴(kuò)展方法，其中，所述概率統(tǒng)計(jì)方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個(gè)或多個(gè)的組合。
7.如權(quán)利要求1所述的查詢擴(kuò)展方法，其中，在步驟(e)中，提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個(gè)或多個(gè)的組合。
8.如權(quán)利要求1所述的查詢擴(kuò)展方法，其中，在步驟(f)，所提取的詞與查詢語(yǔ)句中原有的詞有不同或相同的權(quán)重。
9.一種查詢擴(kuò)展設(shè)備，包括搜索器，針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索，得到查詢結(jié)果；簇生成器，在所得到的查詢結(jié)果集合中，在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類，生成簇；簇簡(jiǎn)檔生成器，針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔；簇簡(jiǎn)檔排序器，使用所述搜索器所使用的查詢語(yǔ)句，以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索，來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序；詞提取器，從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞；新查詢語(yǔ)句生成器，把所提取的詞添加到查詢語(yǔ)句，生成新的查詢語(yǔ)句。
10.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備，其中，所述簇生成器進(jìn)行聚類的方法為K-均值法聚類算法、模糊c-均值法聚類算法、及圖論方法中的任意一個(gè)或多個(gè)的組合。
11.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備，其中，所述簇簡(jiǎn)檔為簇中所有文檔的全部?jī)?nèi)容的組合，或者為簇中所有文檔的關(guān)鍵內(nèi)容的組合。
12.如權(quán)利要求11所述的查詢擴(kuò)展設(shè)備，其中，在所述簇簡(jiǎn)檔為簇中所有文檔的關(guān)鍵內(nèi)容的組合的情況下，所述關(guān)鍵內(nèi)容為文檔題目、黑體詞、及包含查詢語(yǔ)句的語(yǔ)句中的任意一個(gè)或多個(gè)的組合。
13.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備，其中，進(jìn)行搜索的方法為概率統(tǒng)計(jì)方法、基于鏈接分析的算法、及向量空間算法中的任意一個(gè)或多個(gè)的組合。
14.如權(quán)利要求13所述的查詢擴(kuò)展設(shè)備，其中，所述概率統(tǒng)計(jì)方法為TF/IDF方法、BM25 方法、及DFR_BM25方法中的任意一個(gè)或多個(gè)的組合。
15.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備，其中，所述詞提取器提取詞的方法為 Robertson' s選擇值算法、最大出現(xiàn)次數(shù)算法中的任意一個(gè)或多個(gè)的組合。
16.如權(quán)利要求9所述的查詢擴(kuò)展設(shè)備，其中，在所述新查詢語(yǔ)句生成器中，所提取的詞與查詢語(yǔ)句中原有的詞有不同或相同的權(quán)重。
全文摘要
本發(fā)明提供一種查詢擴(kuò)展設(shè)備，包括搜索器，針對(duì)給定的查詢語(yǔ)句進(jìn)行搜索，得到查詢結(jié)果；簇生成器，在所得到的查詢結(jié)果集合中，在排名在前一定數(shù)目的查詢結(jié)果子集中進(jìn)行聚類，生成簇；簇簡(jiǎn)檔生成器，針對(duì)所生成的每個(gè)簇來(lái)生成簇簡(jiǎn)檔；簇簡(jiǎn)檔排序器，使用所述搜索器所使用的查詢語(yǔ)句，以簇簡(jiǎn)檔為單位在所有簇中進(jìn)行搜索，來(lái)對(duì)簇簡(jiǎn)檔進(jìn)行排序；詞提取器，從排名在前一定數(shù)目的簇簡(jiǎn)檔中提取詞；新查詢語(yǔ)句生成器，把所提取的詞添加到查詢語(yǔ)句，生成新的查詢語(yǔ)句。
文檔編號(hào)G06F17/30GK101876979SQ20091013219
公開(kāi)日2010年11月3日申請(qǐng)日期2009年4月28日優(yōu)先權(quán)日2009年4月28日
發(fā)明者姜珊珊, 游贛梅, 謝宣松, 趙利軍, 鄭繼川申請(qǐng)人:株式會(huì)社理光

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：游贛梅;謝宣松;姜珊珊;趙利軍;鄭繼川
技術(shù)所有人：株式會(huì)社理光
我是此專利的發(fā)明人

上一篇：光學(xué)觸控裝置及其鍵盤的制作方法
上一篇：包括觸敏輸入表面的電子設(shè)備和確定用戶所選擇的輸入的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

少兒擴(kuò)展設(shè)備相關(guān)技術(shù)

擴(kuò)展的下載到設(shè)備相關(guān)技術(shù)

設(shè)備擴(kuò)展相關(guān)技術(shù)

tplink擴(kuò)展器設(shè)置方法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

查詢擴(kuò)展方法及查詢擴(kuò)展設(shè)備的制作方法