1.一種基于Sorl的問稅系統(tǒng),其特征在于:采用基于Lucene的企業(yè)級搜索應(yīng)用服務(wù)器Solr,并對其進(jìn)行擴(kuò)展,從而建立的高性能全文搜索服務(wù)器;所述高性能全文搜索服務(wù)器能夠提供更為豐富的查詢語言和完善的功能管理界面,并與12366知識(shí)庫和12366機(jī)器人進(jìn)行對接,進(jìn)而實(shí)現(xiàn)詞組分詞,數(shù)據(jù)索引和信息檢索等可配置功能,以及權(quán)重配置優(yōu)化,分詞器定制和檢索詞預(yù)測等可擴(kuò)展功能。
2.根據(jù)權(quán)利要求1所述的基于Sorl的問稅系統(tǒng),其特征在于:所述高性能全文搜索服務(wù)器是以云計(jì)算、大數(shù)據(jù)、移動(dòng)互聯(lián)等信息技術(shù)為支撐,嵌于電子稅務(wù)局中的一個(gè)查詢功能系統(tǒng),其技術(shù)主要是創(chuàng)建索引和搜索索引;所述查詢功能系統(tǒng)的搜索引擎包括核心模塊,緩存管理模塊,權(quán)重配置模塊和分詞器模塊。
3.根據(jù)權(quán)利要求2所述的基于Sorl的問稅系統(tǒng),其特征在于:所述緩存管理模塊包括索引組件,依據(jù)分詞結(jié)果建立索引庫,并自動(dòng)更新索引庫;所述分詞器模塊包括分詞組件,語言處理組件,分詞詞庫和分詞模型,對資料庫及搜索詞組進(jìn)行分詞;所述查詢功能系統(tǒng)通過關(guān)鍵詞檢索索引庫,并根據(jù)權(quán)重配置得到檢索結(jié)果。
4.根據(jù)權(quán)利要3所述的基于Sorl的問稅系統(tǒng),其特征在于:所述查詢功能系統(tǒng)的索引創(chuàng)建過程,包括以下步驟:
(1)把接收的原始文檔交給分詞器組件,分詞器組件將文檔分成一個(gè)個(gè)單獨(dú)的單詞,去除標(biāo)點(diǎn)符號(hào),去除停詞,最終得到詞匯單元;
(2)詞匯單元傳給語言處理組件,語言處理組件將詞匯單元變?yōu)樾懀卧~縮減或者轉(zhuǎn)變?yōu)樵~根形式;
(3)將步驟(2)得到的詞傳遞給索引組件,利用得到的詞創(chuàng)建一個(gè)字典,并將字典按字母順序排序,合并相同的詞成為文檔倒排鏈表。
5.根據(jù)權(quán)利要3所述的基于Sorl的問稅系統(tǒng),其特征在于:所述查詢功能系統(tǒng)的索引搜索過程,包括以下步驟:
(1)對查詢內(nèi)容進(jìn)行詞法分析,語法分析和語言處理,區(qū)分查詢內(nèi)容中單詞和關(guān)鍵字,并根據(jù)查詢語法的語法規(guī)則形成一棵樹;
(2)搜索索引,得到符合語法樹的文檔集合;
(3)根據(jù)查詢語句與文檔的相關(guān)性,對結(jié)果進(jìn)行排序即可。