欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

目標(biāo)信息搜索方法和裝置的制作方法

文檔序號:6429163閱讀:133來源:國知局
專利名稱:目標(biāo)信息搜索方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息搜索領(lǐng)域,具體而言,涉及一種目標(biāo)信息搜索方法和裝置。
背景技術(shù)
搜索引擎技術(shù)正在被越來越多地應(yīng)用到各種IT系統(tǒng)中,搜索引擎索引庫中的數(shù)據(jù)因而呈指數(shù)級增長,隨著漢字文檔在索引庫中的不斷增加,越來越多的漢字詞匯進入到索引庫中,各類新詞和專用詞匯(如人名或特定領(lǐng)域的術(shù)語)在進入分詞庫后對分詞器的分詞準(zhǔn)確率產(chǎn)生了極大的負(fù)面影響,使得很多漢語句子無法按照語義被正確分解,例如漢語句子“離子云集中分布”,如果不對專業(yè)術(shù)語“離子云”做額外處理,那么該漢語句子將被分詞器分解為“離子云集中分布”,這樣的分詞結(jié)果會導(dǎo)致搜索引擎無法搜索到用戶期望的資料。
可見,目前的搜索方式還無法根據(jù)用戶的搜索目標(biāo)進行分詞,導(dǎo)致分詞結(jié)果與用戶的檢索目的不符;另外,上述分詞結(jié)果不夠全面,使得無法將某些關(guān)鍵檢索條件從用戶輸入的字符串中提取出來。針對相關(guān)技術(shù)中搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題,目前尚未提出有效的解決方案。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種目標(biāo)信息搜索方法和裝置,以至少解決上述搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題。根據(jù)本發(fā)明的一個方面,提供了一種目標(biāo)信息搜索方法,包括如下步驟接收用戶選擇的分詞器和用戶輸入的字符串,其中,該分詞器為與該用戶輸入的字符串匹配的分詞器;使用該分詞器對上述字符串進行分詞,得到搜索詞語;將得到的搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。上述接收用戶選擇的分詞器和用戶輸入的字符串之前,該方法還包括使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器。上述使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器包括對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔;根據(jù)分類文檔中每個字符出現(xiàn)的頻率,計算每個字符在當(dāng)前分類中的權(quán)值;確定當(dāng)前分類中指定字符串中的字符在當(dāng)前分類中的權(quán)值;根據(jù)指定字符串中每個字符的權(quán)值計算指定字符串在當(dāng)前分類中的權(quán)值;將指定字符串和指定字符串在當(dāng)前分類中的權(quán)值綁定,得到當(dāng)前分類的分詞器。上述根據(jù)分類文檔中每個字符出現(xiàn)的頻率,計算每個字符在當(dāng)前分類中的權(quán)值包括刪除分類文檔中的停止詞;統(tǒng)計刪除停止詞后的分類文檔中每個字符出現(xiàn)的頻率;統(tǒng)計分類文檔中包含字符的文檔頻率;根據(jù)字符的頻率、字符的文檔頻率和分類文檔的總數(shù)計算每個字符在當(dāng)前分類中的權(quán)值。上述確定當(dāng)前分類中指定字符串中的字符在當(dāng)前分類中的權(quán)值包括當(dāng)當(dāng)前分類中指定字符串中有未包含在分類文檔中的字符時,設(shè)置未包含在分類文檔中的字符的權(quán)值為默認(rèn)權(quán)值。上述字符包括以下之一漢字形式的字符、韓文形式的字符或日文形式的字符。根據(jù)本發(fā)明的另一方面,提供了一種目標(biāo)信息搜索裝置,包括如下模塊接收模塊,用于接收用戶選擇的分詞器和用戶輸入的字符串,其中,分詞器為與用戶輸入的字符串匹配的分詞器;分詞模塊,用于使用接收模塊接收的分詞器對字符串進行分詞,得到搜索詞語;搜索模塊,用于將分詞模塊得到的搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。上述裝置還包括分詞器建立模塊,用于使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器。上述分詞器建立模塊包括文檔確定單元,用于對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔;字符權(quán)值計算單元,用于根據(jù)文檔確定單元確定的分類文檔中每個字符出現(xiàn)的頻率,計算每個字符在當(dāng)前分類中的權(quán)值;權(quán)值確定單元,用于確定當(dāng)前分類中指 定字符串中的字符在當(dāng)前分類中的權(quán)值;字符串權(quán)值計算單元,用于根據(jù)指定字符串中每個字符的權(quán)值計算指定字符串在當(dāng)前分類中的權(quán)值;分詞器建立單元,用于將指定字符串和指定字符串在當(dāng)前分類中的權(quán)值綁定,得到當(dāng)前分類的分詞器。上述字符權(quán)值計算單元包括刪除子單元,用于刪除分類文檔中的停止詞;統(tǒng)計子單元,用于統(tǒng)計刪除子單元刪除停止詞后的分類文檔中每個字符出現(xiàn)的頻率,以及統(tǒng)計分類文檔中包含字符的文檔頻率;字符串計算子單元,用于根據(jù)字符的頻率、字符的文檔頻率和分類文檔的總數(shù)計算每個字符在當(dāng)前分類中的權(quán)值。通過本發(fā)明,采用使用與用戶輸入的字符串匹配的分詞器進行分詞,可以從用戶輸入的字符串中準(zhǔn)確地提取出各個詞語,使用分詞后的詞語進行搜索,得到的目標(biāo)信息將會符合用戶的期望,解決了現(xiàn)有搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題,方便了用戶使用,提高了檢索的質(zhì)量。


此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖I是根據(jù)本發(fā)明實施例I的目標(biāo)信息搜索方法的流程圖;圖2是根據(jù)本發(fā)明實施例2的目標(biāo)信息搜索裝置的結(jié)構(gòu)框圖;圖3是根據(jù)本發(fā)明實施例2的目標(biāo)信息搜索裝置的具體結(jié)構(gòu)框圖;圖4是根據(jù)本發(fā)明實施例2的目標(biāo)信息搜索裝置的具體結(jié)構(gòu)框圖;圖5是根據(jù)本發(fā)明實施例2的權(quán)值生成模塊的結(jié)構(gòu)框圖;圖6是根據(jù)本發(fā)明實施例2的應(yīng)用圖4所示裝置的目標(biāo)信息搜索方法的流程圖;圖7是根據(jù)本發(fā)明實施例2的應(yīng)用圖4所示裝置的目標(biāo)信息搜索方法的流程圖;圖8是根據(jù)本發(fā)明實施例2的應(yīng)用圖4所示裝置的目標(biāo)信息搜索方法的流程圖;圖9是根據(jù)本發(fā)明實施例2的目標(biāo)信息搜索系統(tǒng)示意圖。
具體實施例方式下文中將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。本發(fā)明實施例考慮到目前搜索引擎未按照技術(shù)領(lǐng)域?qū)z索信息進行檢索,導(dǎo)致搜索結(jié)果不準(zhǔn)確,提供了一種目標(biāo)信息搜索方法和裝置,該方式可以使搜索引擎在不同領(lǐng)域中對不同分類使用不同分詞模型,可以提高分詞的準(zhǔn)確度;適用于搜索引擎領(lǐng)域、分詞領(lǐng)域和WEB應(yīng)用系統(tǒng)等領(lǐng)域中。實施例I本實施例提供了一種目標(biāo)信息搜索方法,參見圖1,該方法包括如下步驟步驟S102,接收用戶選擇的分詞器和用戶輸入的字符串,其中,該分詞器為與用戶輸入的字符串匹配的分詞器;該匹配指該分詞器對應(yīng)的技術(shù)領(lǐng)域與用戶輸入的字符串對應(yīng)的技術(shù)領(lǐng)域一致;步驟S104,使用上述分詞器對該字符串進行分詞,得到搜索詞語; 步驟S106,將得到的搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。本實施例通過使用與用戶輸入的字符串匹配的分詞器進行分詞,可以從用戶輸入的字符串中準(zhǔn)確地提取出各個詞語,使用分詞后的詞語進行搜索,得到的目標(biāo)信息將會符合用戶的期望,解決了現(xiàn)有搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題,方便了用戶使用,提高了檢索的質(zhì)量。為了提高分詞的準(zhǔn)確性,在上述分詞器接收用戶選擇的分詞器和用戶輸入的字符串之前,該方法還包括使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器。其中,使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器包括下述步驟I)對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔;2)根據(jù)該分類文檔中每個字符出現(xiàn)的頻率,計算每個字符在當(dāng)前分類中的權(quán)值;3)確定當(dāng)前分類中指定字符串中的字符在該當(dāng)前分類中的權(quán)值;4)根據(jù)指定字符串中每個字符的權(quán)值計算該指定字符串在當(dāng)前分類中的權(quán)值;5)將指定字符串和該指定字符串在當(dāng)前分類中的權(quán)值綁定,得到當(dāng)前分類的分詞器。每個字符在當(dāng)前分類中的權(quán)值的具體計算方式可以采用刪除分類文檔中的停止詞;統(tǒng)計刪除停止詞后的分類文檔中每個字符出現(xiàn)的頻率;統(tǒng)計分類文檔中包含字符的文檔頻率;根據(jù)字符的頻率、字符的文檔頻率和分類文檔的總數(shù)計算每個字符在當(dāng)前分類中的權(quán)值。當(dāng)然,在實際使用中,也可以不刪除分類文檔中的停止詞,直接統(tǒng)計分類文檔中各個字符出現(xiàn)的頻率。其中,該停止詞可以事先設(shè)定,例如冠詞、連詞或助詞等。當(dāng)該當(dāng)前分類中指定字符串中有未包含在分類文檔中的字符時,設(shè)置該未包含在分類文檔中的字符的權(quán)值為默認(rèn)權(quán)值。上述字符包括以下之一漢字形式的字符、韓文形式的字符或日文形式的字符。建立好各個技術(shù)領(lǐng)域?qū)?yīng)的分詞器后,將得到比較專業(yè)的分詞器,這些分詞器可以顯示在搜索引擎的界面上,供用戶選擇。以漢字字符為例,目標(biāo)信息的搜索方法包括如下步驟步驟I、對分類中包含的文檔做漢字頻率分析。步驟2、對分類中包含的漢字頻率做概率分布處理,計算出分類中包含的漢字在分類中的權(quán)值。步驟3、根據(jù)分類中包含的漢字在分類中包含的權(quán)值計算出分詞器詞庫中每個詞語在分類中的權(quán)值。步驟4、將分詞器詞庫中每個詞語在分類中的權(quán)值輸入分詞器中,使分詞器成為分類的專用分詞器。步驟5、將已經(jīng)建立完成的多個分類的專用分詞器提供給用戶,用戶從多個專用分詞器中選擇一個最適合其檢索目的的專用分詞器,并使用專用分詞器為搜索引擎提供分詞服務(wù)。步驟6、用戶輸入檢索條件,專用分詞器對檢索條件進行分詞處理,并輸出分詞結(jié)果,搜索引擎將分詞結(jié)果作為檢索依據(jù)進行全文檢索,并將檢索結(jié)果返回給用戶。用戶在互聯(lián)網(wǎng)的WEB頁面上選擇與其搜索目標(biāo)最匹配的分詞器并輸入漢字字符串,該系統(tǒng)通過用戶指定的分詞器對漢字字符串進行分詞處理,輸出最符合用戶搜索目的 的漢字詞語,并將漢字詞語交由搜索引擎處理。本實施例可以為文檔庫中的每個分類提供專用分詞器,以漢字為例,通過對分類文檔中的漢字的出現(xiàn)次數(shù)做概率統(tǒng)計,計算出每個漢字在分類中的權(quán)值,并根據(jù)漢字權(quán)值計算出分詞器詞庫中每個漢字詞語在分類中的權(quán)值,進而為每個分類建立專用分詞器,用戶根據(jù)其搜索目的在分詞器選擇界面中選擇最適合其搜索目的的專用分詞器,并利用專業(yè)分詞器獲得針對用戶搜索目的的最佳分詞結(jié)果,從而提高搜索引擎的搜索準(zhǔn)確率,提高用戶對搜索引擎的滿意度。實施例2本實施例還提供了一種目標(biāo)信息搜索裝置,參見圖2,該裝置包括以下模塊接收模塊22,用于接收用戶選擇的分詞器和用戶輸入的字符串,其中,該分詞器為與該用戶輸入的字符串匹配的分詞器;分詞模塊24,與接收模塊22相連,用于使用接收模塊22接收的分詞器對字符串進行分詞,得到搜索詞語;搜索模塊26,與分詞模塊24相連,用于將分詞模塊24得到的搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。本實施例通過使用與用戶輸入的字符串匹配的分詞器進行分詞,可以從用戶輸入的字符串中準(zhǔn)確地提取出各個詞語,使用分詞后的詞語進行搜索,得到的目標(biāo)信息將會符合用戶的期望,解決了現(xiàn)有搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題,方便了用戶使用,提高了檢索的質(zhì)量。為了提高分詞的準(zhǔn)確性,參見圖3,上述裝置還包括分詞器建立模塊32,與接收模塊22相連,用于使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立技術(shù)領(lǐng)域?qū)?yīng)的分詞器。其中,分詞器建立模塊32包括文檔確定單元,用于對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔;字符權(quán)值計算單元,用于根據(jù)文檔確定單元確定的分類文檔中每個字符出現(xiàn)的頻率,計算每個字符在當(dāng)前分類中的權(quán)值;權(quán)值確定單元,用于確定當(dāng)前分類中指定字符串中的字符在當(dāng)前分類中的權(quán)值;字符串權(quán)值計算單元,用于根據(jù)指定字符串中每個字符的權(quán)值計算指定字符串在當(dāng)前分類中的權(quán)值;分詞器建立單元,用于將指定字符串和指定字符串在當(dāng)前分類中的權(quán)值綁定,得到當(dāng)前分類的分詞器。
優(yōu)選地,上述字符權(quán)值計算單元包括刪除子單元,用于刪除分類文檔中的停止詞;統(tǒng)計子單元,用于統(tǒng)計刪除子單元刪除停止詞后的分類文檔中每個字符出現(xiàn)的頻率,以及統(tǒng)計分類文檔中包含字符的文檔頻率;字符串計算子單元,用于根據(jù)字符的頻率、字符的文檔頻率和分類文檔的總數(shù)計算每個字符在當(dāng)前分類中的權(quán)值。本實施例提供的裝置,可以為分類文檔庫的每個分類建立專用分詞器,用戶可從眾多分類專用分詞器中選擇最適合其查詢目標(biāo)的一個分詞器,通過該分詞器為搜索引擎提供最適合其查詢目標(biāo)的分詞結(jié)果,從而提高搜索引擎的搜索精準(zhǔn)度。上述字符以漢字為例,本實施例還提供了另一種目標(biāo)信息搜索裝置,該裝置包括如下模塊(I)漢字頻率收集模塊、(2)漢字權(quán)值計算模塊、(3)漢字詞語權(quán)值生成模塊、(4)專用分詞器、(5)分詞器選擇模塊,和(6)檢索請求預(yù)處理模塊;其中,各個模塊的功能如下漢字頻率收集模塊,計算各個分類中每個漢字在分類中的出現(xiàn)頻率。 漢字權(quán)值計算模塊,以分類中的每個漢字出現(xiàn)頻率為依據(jù),計算出分類中每個漢字在分類中的出現(xiàn)概率,并對頻率進行歸一化處理,得出漢字在分類中的權(quán)值。該漢字權(quán)值計算模塊能夠根據(jù)分類中包含的所有漢字的出現(xiàn)頻率計算出分類中包含的所有漢字在分類中的權(quán)值。其中,漢字頻率收集模塊和漢字權(quán)值計算模塊相當(dāng)于上述字符權(quán)值計算單元。該漢字頻率收集模塊能夠收集分類中包含的所有漢字的出現(xiàn)頻率。漢字詞語權(quán)值生成模塊,以分類中的漢字權(quán)值為依據(jù),為分詞器詞庫中的詞語計算出在分類中的權(quán)值。該漢字詞語權(quán)值生成模塊能夠根據(jù)分類中包含的所有漢字在分類中的權(quán)值計算出分詞庫中漢字詞語在分類中的權(quán)值。專用分詞器,為分類建立一個通用分詞器,并將分類的所有漢字詞語的權(quán)值傳入通用分詞器中,使通用分詞器成為分類的專用分詞器,專用分詞器以分詞器詞庫和分類的所有漢字詞語的權(quán)值作為分詞依據(jù)??梢?,本實施例的專用分詞器是建立在通用分詞器基礎(chǔ)上,通過向通用分詞器輸入分類的所有漢字詞語的權(quán)值,將通用分詞器轉(zhuǎn)變?yōu)榉诸惖膶S梅衷~器,專用分詞器以分詞器詞庫和分類的所有漢字詞語的權(quán)值作為分詞依據(jù)。分詞器選擇模塊,將已經(jīng)建立的多個分類專有分詞器展示給用戶,用戶從多個分類專用分詞器中選擇一個,為搜索引擎提供分詞服務(wù)。用戶通過該分詞器選擇模塊可以選擇與其搜索目的最匹配的專用分詞器。檢索請求預(yù)處理模塊,接收用戶輸入的漢字字符串,將漢字字符串輸入用戶選定的專用分詞器,從用戶選定的專用分詞器獲得分詞結(jié)果,并將分詞結(jié)果組裝成查詢條件輸入搜索引擎中。以漢字輸入為例,本實施例提供了一種目標(biāo)信息搜索裝置,該裝置可以設(shè)置在搜索引擎服務(wù)器40中,參見圖4,該裝置由如下幾個模塊組成(I)權(quán)值生成模塊41 ;(2)專用分詞器42,與權(quán)值生成模塊41相連;
(3)分詞器選擇模塊43,與專用分詞器42相連;(4)檢索請求預(yù)處理模塊44,與分詞器選擇模塊43和網(wǎng)絡(luò)相連;(5)搜索引擎45,與檢索請求預(yù)處理模塊44相連;其中,權(quán)值生成模塊41負(fù)責(zé)生成所述分類中包含的詞語在所述分類中的權(quán)值,參見圖5,該模塊包含三個子模塊I、漢字頻率收集模塊411 :該模塊首先去掉文檔中的停止詞,然后統(tǒng)計分類文檔庫中包含的漢字的出現(xiàn)頻率(漢字頻率=分類中包含的單個漢字的出現(xiàn)次數(shù)/分類中漢字的總字?jǐn)?shù)),同時統(tǒng)計分類中包含漢字的文檔數(shù)(以后稱為文檔頻率)。2、漢字權(quán)值計算模塊412 :該模塊首先根據(jù)漢字頻率收集模塊411計算出的漢字頻率,文檔頻率和分類中的文檔總數(shù)算出漢字在分類中的權(quán)值;其次為存在于分詞庫中但不存在于分類中的漢字賦予默認(rèn)權(quán)值。
3、漢字詞語權(quán)值生成模塊413 :將分詞器詞庫中的漢字詞語逐條取出,并根據(jù)漢字詞語取得漢字權(quán)值計算模塊412計算出的漢字詞語包含的漢字在分類中的權(quán)值,然后根據(jù)漢字詞語中漢字的權(quán)值計算出漢字詞語在分類中的權(quán)值,最后將漢字詞語在分類中的權(quán)值寫入硬盤。專用分詞器42負(fù)責(zé)為用戶提供專業(yè)的分詞服務(wù),專用分詞器42可將用戶輸入的檢索條件分解為最符合用戶期望的漢字詞語,該模塊的實施過程如下首先建立一個普通分詞器,然后從硬盤中讀入漢字詞語權(quán)值生成模塊43計算出的分類對應(yīng)的漢字詞語權(quán)值,并將漢字詞語權(quán)值與分詞庫中的漢字詞語綁定在一起,最后將專用分詞器注冊到分詞器選擇模塊43中;在分詞過程中,根據(jù)漢字詞語權(quán)值計算出最符合分類的漢字詞語組合。分詞器選擇模塊43負(fù)責(zé)將建立好的專用分詞器42以可視化的方式展示給用戶,并允許用戶通過該模塊選擇一個最符合檢索目的的專用分詞器42,該模塊的實施過程如下首先將建立好的專用分詞器42保存到鏈表之中,然后由分詞器選擇模塊43提供一個用戶界面,在用戶界面中將鏈表中的專用分詞器42展示出來,供用戶選擇。用戶只能選擇鏈表中其中一個專用分詞器42,在用戶選擇完畢后,分詞器選擇模塊43將用戶選定的專用分詞器42傳遞給檢索請求預(yù)處理模塊44。檢索請求預(yù)處理模塊44負(fù)責(zé)接收用戶輸入的檢索條件,調(diào)用用戶選定的專用分詞器42進行分詞處理,并將分詞結(jié)果傳遞給搜索引擎首先檢索請求預(yù)處理模塊44接收用戶的檢索請求,然后檢索請求預(yù)處理模塊44將檢索請求傳遞到用戶通過分詞器選擇模塊43選定的專用分詞器42中進行分詞處理,并從專用分詞器42中取回分詞結(jié)果,最后檢索請求預(yù)處理模塊44將分詞結(jié)果作為檢索條件傳遞給搜索引擎?;趫D4和5提供的裝置,本實施例還提供了一種目標(biāo)信息搜索方法,參見圖6所示的目標(biāo)信息搜索方法流程圖,該方法包括以下步驟步驟S601,掃描分類文檔;步驟S602,統(tǒng)計漢字在該分類中的出現(xiàn)頻率;步驟S603,統(tǒng)計漢字在該分類中的權(quán)值;步驟S604,統(tǒng)計漢字詞語在該分類中的權(quán)值;步驟S605,生成專用分詞器;步驟S606,將專用分詞器注冊到分詞器選擇模塊中;
步驟S607,判斷用戶是否選擇分詞器;如果是,執(zhí)行步驟S608 ;如果否,執(zhí)行步驟S609 ;步驟S608,將用戶選擇的分詞器傳遞到檢索請求預(yù)處理模塊;步驟S609,等待用戶選擇分詞器;步驟S610,判斷用戶是否輸入檢索條件(或者稱檢索請求,相當(dāng)于上述字符串);如果是,執(zhí)行步驟S611 ;如果否,執(zhí)行步驟S612 ;步驟S611,調(diào)用用戶選擇的分詞器對檢索請求進行分詞處理,并將處理結(jié)果作為查詢條件傳遞給搜索引擎,然后執(zhí)行步驟S613 ;步驟S612,等待用戶輸入檢索請求;步驟S613,返回檢索結(jié)果到客戶端。 參見圖7目標(biāo)信息搜索方法流程圖,該方法包括以下步驟步驟S700 :漢字頻率收集模塊411掃描分類文檔;步驟S701 :漢字頻率收集模塊411去掉文檔中的停止詞;步驟S702 :漢字頻率收集模塊411統(tǒng)計分類文檔庫中包含的漢字的出現(xiàn)頻率(漢字頻率=分類中包含的單個漢字的出現(xiàn)次數(shù)/分類中漢字的總字?jǐn)?shù));步驟S703 :漢字頻率收集模塊411統(tǒng)計分類中包含漢字的文檔數(shù)(以后稱為文檔頻率);步驟S704 :漢字權(quán)值計算模塊412根據(jù)漢字頻率收集模塊411計算出的漢字頻率,文檔頻率和分類中的文檔總數(shù)算出漢字在分類中的權(quán)值;步驟S705 :漢字權(quán)值計算模塊412為存在于分詞庫中但不存在于分類中的漢字賦予默認(rèn)權(quán)值;步驟S706 :漢字詞語權(quán)值生成模塊413根據(jù)漢字權(quán)值計算模塊412計算出的漢字權(quán)值為分詞器詞庫中包含漢字的漢字詞語賦予權(quán)值;步驟S707 建立一個普通分詞器;步驟S708 :從硬盤中讀入漢字詞語權(quán)值生成模塊413計算出的分類對應(yīng)的漢字詞語權(quán)值,并將漢字詞語權(quán)值與分詞庫中的漢字詞語綁定在一起;步驟S709 :將帶有漢字權(quán)值的分詞庫注入普通分詞器中,使之成為專用分詞器42 ;步驟S710 :將專用分詞器注冊到分詞器選擇模塊中;步驟S711 :判斷是否每個分類都建立了專用分詞器,如果否,重復(fù)步驟S700到S710直到所有分類庫的專用分詞器42都建立完成為止;如果是,結(jié)束。圖8所示的目標(biāo)信息搜索方法流程圖,該方法包括以下步驟步驟S800 :分詞器選擇模塊43將專用分詞器42展示到用戶界面中。步驟S801 :分詞器選擇模塊43等待用戶選擇分詞器42。步驟S802 :分詞器選擇模塊43接受用戶選擇的專用分詞器42,并將其記錄下來。步驟S803 :分詞器選擇模塊43將用戶選定的分詞器傳送給檢索請求預(yù)處理模塊44。步驟S804 :檢索請求預(yù)處理模塊44接受用戶的檢索請求,并調(diào)用用戶選定的分詞器對檢索請求進行分詞處理,并將處理結(jié)果作為查詢條件傳遞給搜索引擎45。
步驟S805 :搜索引擎45根據(jù)分詞處理后的檢索條件進行檢索,并返回檢索結(jié)果。步驟S806 :用戶是否重新選擇專用分詞器42,如果是,重復(fù)執(zhí)行步驟S802 ;如果否,執(zhí)行步驟S807。步驟S807 :用戶是否重新輸入檢索請求,如果是,重新執(zhí)行步驟S804和步驟S805,如果否,結(jié)束,即如果用戶沒有新的活動,業(yè)務(wù)處理流程自動結(jié)束。本實施例可以根據(jù)技術(shù)領(lǐng)域劃分出多個分類,如圖9所示的目標(biāo)信息搜索系統(tǒng)示意圖,每個分類均分別對應(yīng)一套上述裝置,其中,該裝置中的分詞器選擇模塊、檢索請求預(yù)處理模塊和搜索引擎為公用模塊。本實施例可以為文檔庫中的每個分類提供專用分詞器,以漢字為例,通過對分類文檔中的漢字的出現(xiàn)次數(shù)做概率統(tǒng)計,計算出每個漢字在分類中的權(quán)值,并根據(jù)漢字權(quán)值計算出分詞器詞庫中每個漢字詞語在分類中的權(quán)值,進而為每個分類建立專用分詞器,用戶根據(jù)其搜索目的在分詞器選擇界面中選擇最適合其搜索目的的專用分詞器,并利用專業(yè)分詞器獲得針對用戶搜索目的的最佳分詞結(jié)果,從而提高搜索引擎的搜索準(zhǔn)確率,提高用
從以上的描述中可以看出,本發(fā)明實現(xiàn)了如下技術(shù)效果I、為用戶提供多樣化的專用分詞器,用戶通過使用與其搜索目的最符合的專用分詞器,可以有效提高分詞的準(zhǔn)確度,并在此基礎(chǔ)上提高搜索引擎的檢索準(zhǔn)確度。2、用戶可以選擇多個分詞器對同一檢索條件進行多次分詞處理,并將每次分詞結(jié)果單獨提交到搜索引擎做檢索,從而精確地檢索到用戶期望的文檔。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種目標(biāo)信息搜索方法,其特征在于包括如下步驟 接收用戶選擇的分詞器和所述用戶輸入的字符串,其中,所述分詞器為與所述用戶輸入的字符串匹配的分詞器; 使用所述分詞器對所述字符串進行分詞,得到搜索詞語; 將得到的所述搜索詞語輸入搜索弓I擎進行搜索,得到目標(biāo)信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,接收所述用戶選擇的分詞器和所述用戶輸入的字符串之前,所述方法還包括 使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立所述技術(shù)領(lǐng)域?qū)?yīng)的分詞器。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立所述技術(shù)領(lǐng)域?qū)?yīng)的分詞器包括 對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔; 根據(jù)所述分類文檔中每個字符出現(xiàn)的頻率,計算所述每個字符在所述當(dāng)前分類中的權(quán)值; 確定所述當(dāng)前分類中指定字符串中的字符在所述當(dāng)前分類中的權(quán)值; 根據(jù)所述指定字符串中每個字符的權(quán)值計算所述指定字符串在所述當(dāng)前分類中的權(quán)值; 將所述指定字符串和所述指定字符串在所述當(dāng)前分類中的權(quán)值綁定,得到所述當(dāng)前分類的分詞器。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述分類文檔中每個字符出現(xiàn)的頻率,計算所述每個字符在所述當(dāng)前分類中的權(quán)值包括 刪除所述分類文檔中的停止詞; 統(tǒng)計刪除所述停止詞后的所述分類文檔中每個字符出現(xiàn)的頻率; 統(tǒng)計所述分類文檔中包含所述字符的文檔頻率; 根據(jù)所述字符的頻率、所述字符的文檔頻率和所述分類文檔的總數(shù)計算所述每個字符在所述當(dāng)前分類中的權(quán)值。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述確定所述當(dāng)前分類中指定字符串中的字符在所述當(dāng)前分類中的權(quán)值包括 當(dāng)所述當(dāng)前分類中指定字符串中有未包含在所述分類文檔中的字符時,設(shè)置所述未包含在所述分類文檔中的字符的權(quán)值為默認(rèn)權(quán)值。
6.根據(jù)權(quán)利要求1-5任一項所述的方法,其特征在于,所述字符包括以下之一漢字形式的字符、韓文形式的字符或日文形式的字符。
7.一種目標(biāo)信息搜索裝置,其特征在于包括如下模塊 接收模塊,用于接收用戶選擇的分詞器和所述用戶輸入的字符串,其中,所述分詞器為與所述用戶輸入的字符串匹配的分詞器; 分詞模塊,用于使用所述接收模塊接收的所述分詞器對所述字符串進行分詞,得到搜索詞語; 搜索模塊,用于將所述分詞模塊得到的所述搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括分詞器建立模塊,用于使用與技術(shù)領(lǐng)域?qū)?yīng)的分類文檔建立所述技術(shù)領(lǐng)域?qū)?yīng)的分詞器。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述分詞器建立模塊包括 文檔確定單元,用于對技術(shù)領(lǐng)域進行分類,確定當(dāng)前分類對應(yīng)的分類文檔; 字符權(quán)值計算單元,用于根據(jù)所述文檔確定單元確定的分類文檔中每個字符出現(xiàn)的頻率,計算所述每個字符在所述當(dāng)前分類中的權(quán)值; 權(quán)值確定單元,用于確定所述當(dāng)前分類中指定字符串中的字符在所述當(dāng)前分類中的權(quán)值; 字符串權(quán)值計算單元,用于根據(jù)所述指定字符串中每個字符的權(quán)值計算所述指定字符串在所述當(dāng)前分類中的權(quán)值; 分詞器建立單元,用于將所述指定字符串和所述指定字符串在所述當(dāng)前分類中的權(quán)值綁定,得到所述當(dāng)前分類的分詞器。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述字符權(quán)值計算單元包括 刪除子單元,用于刪除所述分類文檔中的停止詞; 統(tǒng)計子單元,用于統(tǒng)計所述刪除子單元刪除所述停止詞后的所述分類文檔中每個字符出現(xiàn)的頻率,以及統(tǒng)計所述分類文檔中包含所述字符的文檔頻率; 字符串計算子單元,用于根據(jù)所述字符的頻率、所述字符的文檔頻率和所述分類文檔的總數(shù)計算所述每個字符在所述當(dāng)前分類中的權(quán)值。
全文摘要
本發(fā)明公開了一種目標(biāo)信息搜索方法和裝置。其中,該方法包括如下步驟接收用戶選擇的分詞器和用戶輸入的字符串,其中,該分詞器為與該用戶輸入的字符串匹配的分詞器;使用該分詞器對上述字符串進行分詞,得到搜索詞語;將得到的搜索詞語輸入搜索引擎進行搜索,得到目標(biāo)信息。通過本發(fā)明,解決了現(xiàn)有搜索引擎存在搜索結(jié)果不準(zhǔn)確的問題,方便了用戶使用,提高了檢索的質(zhì)量。
文檔編號G06F17/30GK102890690SQ20111020733
公開日2013年1月23日 申請日期2011年7月22日 優(yōu)先權(quán)日2011年7月22日
發(fā)明者王 琦, 左楊眉 申請人:中興通訊股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
登封市| 五华县| 望江县| 隆回县| 红桥区| 龙泉市| 红原县| 张家港市| 岗巴县| 昌图县| 晋州市| 元阳县| 西华县| 长阳| 秦皇岛市| 汕头市| 新沂市| 威信县| 临猗县| 广汉市| 黄冈市| 博野县| 涿州市| 德令哈市| 宜州市| 阿克苏市| 岫岩| 新绛县| 宁晋县| 定南县| 美姑县| 张家界市| 米林县| 广元市| 宜兰市| 凤凰县| 嵊州市| 万源市| 吉水县| 兴义市| 永新县|