專利名稱:一種基于云存儲(chǔ)的電力全文檢索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及全文檢索技術(shù),尤其涉及一種基于云存儲(chǔ)的電力全文檢索方法及系統(tǒng)。
背景技術(shù):
全文檢索技術(shù)是上世紀(jì)50年代末出現(xiàn)的一種信息檢索技術(shù),它是一種面向全文和提供全文的檢索技術(shù),這種檢索技術(shù)不需對(duì)文獻(xiàn)進(jìn)行標(biāo)引就可以實(shí)現(xiàn)檢索。它可以將原文中任何有意義的字或詞作為檢索項(xiàng)目,并由其指向原文的有關(guān)頁面或鏈接。全文檢索技術(shù)是發(fā)現(xiàn)信息、分析和過濾信息、信息代理、信息安全控制等應(yīng)用的主要技術(shù)基礎(chǔ)。在電力企業(yè)生產(chǎn)和管理工作中,工作人員經(jīng)常面對(duì)海量的標(biāo)準(zhǔn)信息,而電力信息資源專業(yè)性強(qiáng),電力專業(yè)術(shù)語有時(shí)又和日常用語代表意義不同,例如“EMS”在生活中是快遞的意思,而在電力系統(tǒng)中表示“能量管理系統(tǒng)”的英語縮寫。因此,當(dāng)前主流的全文檢索系統(tǒng)并不能完全滿足電力專業(yè)用戶的需求,用戶一般只希望輸入很少量的信息就能檢索到自己需要的電力相關(guān)信息,但當(dāng)前的搜索引擎由于較低的查準(zhǔn)率大都會(huì)返回大量的匹配信息讓用戶篩選,并不能針對(duì)用戶的特定情況返回用戶希望得到的準(zhǔn)確的結(jié)果?,F(xiàn)有技術(shù)中還沒有專門為電力專業(yè)用戶提供的進(jìn)行全文檢索的方法和系統(tǒng)。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明要解決的技術(shù)問題是,提供一種基于云存儲(chǔ)的電力全文檢索方法及系統(tǒng),能夠?qū)崿F(xiàn)對(duì)于電力關(guān)鍵詞的全文檢索,且提高了檢索效率。為此,本發(fā)明實(shí)施例采用如下技術(shù)方案一種基于云存儲(chǔ)的電力全文檢索方法,包括獲取查詢信息,確定查詢信息的特征向量;根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔,將獲取到的文檔存儲(chǔ)于臨時(shí)數(shù)據(jù)庫中,所述臨時(shí)數(shù)據(jù)庫設(shè)置在云存儲(chǔ)系統(tǒng)中;根據(jù)預(yù)設(shè)的電力主題詞表的分詞詞庫對(duì)臨時(shí)數(shù)據(jù)庫中各個(gè)文檔進(jìn)行分詞處理,將得到的分詞結(jié)果按照倒排結(jié)構(gòu)進(jìn)行存儲(chǔ),得到索引數(shù)據(jù)庫,所述索引數(shù)據(jù)庫也設(shè)置在云存儲(chǔ)系統(tǒng)中;獲取用戶的搜索信息,從索引數(shù)據(jù)庫中查找得到與所述搜索信息關(guān)聯(lián)性最大的預(yù)設(shè)數(shù)量個(gè)文檔,將所述文檔返回給用戶所在的客戶端。確定查詢信息的特征向量包括確定查詢信息中的關(guān)鍵詞,并且,確定各個(gè)關(guān)鍵詞的權(quán)重;根據(jù)所述關(guān)鍵詞以及關(guān)鍵詞的權(quán)重確定查詢信息的特征向量。根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔包括
確定各個(gè)文檔的特征向量;根據(jù)各個(gè)文檔的特征向量以及查詢信息的特征向量分別計(jì)算各個(gè)文檔與查詢信息之間的特征向量相似度;獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔。在確定各個(gè)文檔的特征向量時(shí),關(guān)鍵詞w在文檔i中的權(quán)重通過以下公式進(jìn)行計(jì)算
權(quán)利要求
1.一種基于云存儲(chǔ)的電力全文檢索方法,其特征在于,包括獲取查詢信息,確定查詢信息的特征向量;根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔,將獲取到的文檔存儲(chǔ)于臨時(shí)數(shù)據(jù)庫中,所述臨時(shí)數(shù)據(jù)庫設(shè)置在云存儲(chǔ)系統(tǒng)中;根據(jù)預(yù)設(shè)的電力主題詞表的分詞詞庫對(duì)臨時(shí)數(shù)據(jù)庫中各個(gè)文檔進(jìn)行分詞處理,將得到的分詞結(jié)果按照倒排結(jié)構(gòu)進(jìn)行存儲(chǔ),得到索引數(shù)據(jù)庫,所述索引數(shù)據(jù)庫也設(shè)置在云存儲(chǔ)系統(tǒng)中;獲取用戶的搜索信息,從索引數(shù)據(jù)庫中查找得到與所述搜索信息關(guān)聯(lián)性最大的預(yù)設(shè)數(shù)量個(gè)文檔,將所述文檔返回給用戶所在的客戶端。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定查詢信息的特征向量包括確定查詢信息中的關(guān)鍵詞,并且,確定各個(gè)關(guān)鍵詞的權(quán)重;根據(jù)所述關(guān)鍵詞以及關(guān)鍵詞的權(quán)重確定查詢信息的特征向量。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔包括確定各個(gè)文檔的特征向量;根據(jù)各個(gè)文檔的特征向量以及查詢信息的特征向量分別計(jì)算各個(gè)文檔與查詢信息之間的特征向量相似度;獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在確定各個(gè)文檔的特征向量時(shí),關(guān)鍵詞w 在文檔i中的權(quán)重通過以下公式進(jìn)行計(jì)算
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,還包括通過計(jì)算公式
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,從索引數(shù)據(jù)庫中查找得到與所述搜索信息關(guān)聯(lián)性最大的預(yù)設(shè)數(shù)量個(gè)文檔包括對(duì)所述搜索信息進(jìn)行分詞處理,并且,從分詞得到的詞項(xiàng)序列中刪除預(yù)設(shè)的詞項(xiàng);確定刪除后得到的詞項(xiàng)序列中的關(guān)鍵詞;根據(jù)刪除后得到的詞項(xiàng)序列從索引數(shù)據(jù)庫中查找得到各個(gè)詞項(xiàng)對(duì)應(yīng)的文檔集合,確定所述各個(gè)詞項(xiàng)對(duì)應(yīng)的文檔集合的交集;將得到的所述交集中的文檔按照與詞項(xiàng)序列的關(guān)鍵詞之間的關(guān)聯(lián)度進(jìn)行非升序排序, 將位置靠前的預(yù)設(shè)數(shù)量個(gè)文檔作為所述關(guān)聯(lián)性最大的文檔。
7.一種基于云存儲(chǔ)的電力全文檢索系統(tǒng),其特征在于,包括 第一確定單元,用于獲取查詢信息,確定查詢信息的特征向量;獲取單元,用于根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔,將獲取到的文檔存儲(chǔ)于臨時(shí)數(shù)據(jù)庫中;分詞單元,用于根據(jù)預(yù)設(shè)的電力主題詞表的分詞詞庫對(duì)臨時(shí)數(shù)據(jù)庫中各個(gè)文檔進(jìn)行分詞處理,將得到的分詞結(jié)果按照倒排結(jié)構(gòu)進(jìn)行存儲(chǔ),得到索引數(shù)據(jù)庫;搜索單元,用于獲取用戶的搜索信息,從索引數(shù)據(jù)庫中查找得到與所述搜索信息關(guān)聯(lián)性最大的預(yù)設(shè)數(shù)量個(gè)文檔,將所述文檔返回給用戶所在的客戶端; 云存儲(chǔ)系統(tǒng),用于存儲(chǔ)臨時(shí)數(shù)據(jù)庫以及索引數(shù)據(jù)庫。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,第一確定單元包括 第一獲取子單元,用于獲取查詢信息;第一確定子單元,用于確定查詢信息中的關(guān)鍵詞,并且,確定各個(gè)關(guān)鍵詞的權(quán)重; 第二確定子單元,用于根據(jù)所述關(guān)鍵詞以及關(guān)鍵詞的權(quán)重確定查詢信息的特征向量。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,獲取單元包括 第三確定子單元,用于確定各個(gè)文檔的特征向量;計(jì)算子單元,用于根據(jù)各個(gè)文檔的特征向量以及查詢信息的特征向量分別計(jì)算各個(gè)文檔與查詢信息之間的特征向量相似度;第二獲取子單元,用于獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,計(jì)算子單元具體用于通過計(jì)算公式
11.根據(jù)權(quán)利要求7至10任一項(xiàng)所述的系統(tǒng),其特征在于,搜索單元包括分詞子單元,用于對(duì)所述搜索信息進(jìn)行分詞處理,并且,從分詞得到的詞項(xiàng)序列中刪除預(yù)設(shè)的詞項(xiàng);確定刪除后得到的詞項(xiàng)序列中的關(guān)鍵詞;查找子單元,用于根據(jù)刪除后得到的詞項(xiàng)序列從索引數(shù)據(jù)庫中查找得到各個(gè)詞項(xiàng)對(duì)應(yīng)的文檔集合,確定所述各個(gè)詞項(xiàng)對(duì)應(yīng)的文檔集合的交集;排序子單元,用于將得到的所述交集中的文檔按照與詞項(xiàng)序列的關(guān)鍵詞之間的關(guān)聯(lián)度進(jìn)行非升序排序,將位置靠前的預(yù)設(shè)數(shù)量個(gè)文檔作為所述關(guān)聯(lián)性最大的文檔。
全文摘要
本發(fā)明公開了一種基于云存儲(chǔ)的電力全文檢索方法,包括獲取查詢信息,確定查詢信息的特征向量;根據(jù)查詢信息的特征向量獲取特征向量相似度大于預(yù)設(shè)相似度閾值的文檔,將獲取到的文檔存儲(chǔ)于臨時(shí)數(shù)據(jù)庫中,所述臨時(shí)數(shù)據(jù)庫設(shè)置在云存儲(chǔ)系統(tǒng)中;根據(jù)預(yù)設(shè)的電力主題詞表的分詞詞庫對(duì)臨時(shí)數(shù)據(jù)庫中各個(gè)文檔進(jìn)行分詞處理,將得到的分詞結(jié)果按照倒排結(jié)構(gòu)進(jìn)行存儲(chǔ),得到索引數(shù)據(jù)庫,所述索引數(shù)據(jù)庫也設(shè)置在云存儲(chǔ)系統(tǒng)中;獲取用戶的搜索信息,從索引數(shù)據(jù)庫中查找得到與所述搜索信息關(guān)聯(lián)性最大的預(yù)設(shè)數(shù)量個(gè)文檔,將所述文檔返回給用戶所在的客戶端。本發(fā)明還提供一種基于云存儲(chǔ)的電力全文檢索系統(tǒng),能夠?qū)崿F(xiàn)對(duì)于電力關(guān)鍵詞的全文檢索,且提高了檢索效率。
文檔編號(hào)G06F17/30GK102156711SQ20111005438
公開日2011年8月17日 申請(qǐng)日期2011年3月8日 優(yōu)先權(quán)日2011年3月8日
發(fā)明者吳凱峰, 吳鏵明, 孫雪芬, 張 榮, 徐杰鋒, 方東煦, 曹汝濱, 李云, 肖政 申請(qǐng)人:北京友友天宇系統(tǒng)技術(shù)有限公司, 北京天云融創(chuàng)科技有限公司, 國網(wǎng)信息通信有限公司