欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息查詢方法及裝置與流程

文檔序號(hào):12915928閱讀:223來源:國知局
信息查詢方法及裝置與流程

本發(fā)明涉及信息化技術(shù)領(lǐng)域,特別是涉及一種技術(shù)標(biāo)準(zhǔn)信息的處理方法及裝置。



背景技術(shù):

行業(yè)標(biāo)準(zhǔn)是在全國某個(gè)行業(yè)范圍內(nèi)統(tǒng)一使用的標(biāo)準(zhǔn),例如,機(jī)械、電子、石油化工等。為了方便石油技術(shù)標(biāo)準(zhǔn)信息化管理,創(chuàng)建了相應(yīng)的信息網(wǎng)和門戶網(wǎng)站,具備信息化的初步框架和內(nèi)容。

但是,上述的信息網(wǎng)僅僅提供sy和q/sy系列標(biāo)準(zhǔn)在線閱讀功能,而且全部以圖片格式顯示,無法實(shí)現(xiàn)標(biāo)準(zhǔn)文本的全文檢索和打印,上述的門戶網(wǎng)站僅僅提供技術(shù)標(biāo)準(zhǔn)的制修訂管理,即標(biāo)準(zhǔn)立項(xiàng)、申報(bào)、征求意見、標(biāo)準(zhǔn)發(fā)布等管理流程,支持標(biāo)準(zhǔn)q/sy系列標(biāo)準(zhǔn)的發(fā)布日期查詢功能,但是不支持標(biāo)準(zhǔn)文本的檢索、查閱功能??梢娔壳暗男畔⒕W(wǎng)和門戶網(wǎng)站遠(yuǎn)遠(yuǎn)不能滿足當(dāng)前的使用需求。

因此,開發(fā)一個(gè)技術(shù)標(biāo)準(zhǔn)管理系統(tǒng),動(dòng)態(tài)管理技術(shù)標(biāo)準(zhǔn)成為石油技術(shù)標(biāo)準(zhǔn)信息化發(fā)展亟需解決的技術(shù)問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例中提供了一種信息查詢方法及裝置,以實(shí)現(xiàn)對(duì)技術(shù)標(biāo)準(zhǔn)動(dòng)態(tài)管理。

為了解決上述技術(shù)問題,本發(fā)明實(shí)施例公開了如下技術(shù)方案:

第一方面,本發(fā)明實(shí)施例提供一種信息查詢方法,應(yīng)用于服務(wù)器中,包括:

接收上傳的待處理文檔存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)庫中,并獲取所述待處理文檔對(duì)應(yīng)的可編輯文本;

根據(jù)所述待處理文檔對(duì)應(yīng)的可編輯文本,為所述待處理文檔創(chuàng)建索引表,所述索引表包括文檔內(nèi)容、文檔名稱、當(dāng)前內(nèi)容所在的頁碼之間的對(duì)應(yīng)關(guān)系;

獲取輸入的查詢語句;

根據(jù)所述查詢語句搜索所述索引表得到查詢結(jié)果,并返回所述查詢結(jié)果。

可選地,所述根據(jù)所述待處理文檔對(duì)應(yīng)的可編輯文本,為所述待處理文檔創(chuàng)建索引表,包括:

利用分詞算法對(duì)所述待處理文檔的內(nèi)容進(jìn)行分詞得到分詞結(jié)果,并獲取所述分詞結(jié)果在所述待處理文檔中的使用頻率及詞語搭配方式;

獲取所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置,建立所述分詞結(jié)果與所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置之間的對(duì)應(yīng)關(guān)系,得到所述待處理文檔的索引表。

可選地,所述位置包括所述待處理文檔中單詞的位置,或者,所述待處理文檔中字符的位置。

可選地,所述根據(jù)所述查詢語句搜索所述索引表得到查詢結(jié)果,包括:

從所述查詢語句中獲取檢索關(guān)鍵詞;

利用關(guān)鍵詞擴(kuò)展算法,獲得與所述檢索關(guān)鍵詞的詞義相關(guān)聯(lián)的查詢?cè)~;

根據(jù)所述檢索關(guān)鍵詞及所述查詢?cè)~,從所述索引表中查詢得到查詢結(jié)果。

可選地,所述方法還包括:

根據(jù)指定統(tǒng)計(jì)策略,對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫中的所有文檔進(jìn)行統(tǒng)計(jì)分析,得到統(tǒng)計(jì)結(jié)果。

第二方面,本發(fā)明實(shí)施例提供一種信息查詢裝置,應(yīng)用于服務(wù)器中,包括:

第一獲取模塊,用于接收上傳的待處理文檔存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)庫中,并獲取所述待處理文檔對(duì)應(yīng)的可編輯文本;

索引創(chuàng)建模塊,用于根據(jù)所述待處理文檔對(duì)應(yīng)的可編輯文本,為所述待處理文檔創(chuàng)建索引表,所述索引表包括文檔內(nèi)容、文檔名稱、當(dāng)前內(nèi)容所在的頁碼之間的對(duì)應(yīng)關(guān)系;

第二獲取模塊,用于獲取輸入的查詢語句;

返回模塊,用于根據(jù)所述查詢語句搜索所述索引表得到查詢結(jié)果,并返回所述查詢結(jié)果。

可選地,所述索引創(chuàng)建模塊,包括:

分詞子模塊,用于根據(jù)分詞算法對(duì)所述待處理文檔的內(nèi)容進(jìn)行分詞得到分詞結(jié)果,并獲取所述分詞結(jié)果在所述待處理文檔中的使用頻率及詞語搭配方式;

第一獲取子模塊,用于獲取所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置;

建立子模塊,用于建立所述分詞結(jié)果與所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置之間的對(duì)應(yīng)關(guān)系,得到所述待處理文檔的索引表。

可選地,所述位置包括所述待處理文檔中單詞的位置,或者,所述待處理文檔中字符的位置。

可選地,所述返回模塊,包括:

第二獲取子模塊,用于從所述查詢語句中獲取檢索關(guān)鍵詞;

擴(kuò)展子模塊,用于根據(jù)關(guān)鍵詞擴(kuò)展算法,獲得與所述檢索關(guān)鍵詞的詞義相關(guān)聯(lián)的查詢?cè)~;

查詢子模塊,用于根據(jù)所述檢索關(guān)鍵詞及所述查詢?cè)~,從所述索引表中查詢得到查詢結(jié)果。

可選地,所述裝置還包括:

統(tǒng)計(jì)模塊,用于根據(jù)指定統(tǒng)計(jì)策略,對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫中的所有文檔進(jìn)行統(tǒng)計(jì)分析,得到統(tǒng)計(jì)結(jié)果。

由以上技術(shù)方案可見,本發(fā)明實(shí)施例提供的信息查詢方法接收用戶上傳的待處理文檔,用戶上傳的待處理文檔通常是不能直接編輯的格式,例如,pdf格式;因此,需要將對(duì)待處理文檔進(jìn)行文字識(shí)別,獲得待處理文檔的可編輯格式,例如,txt格式。然后,根據(jù)可編輯格式的待處理文檔的全部內(nèi)容創(chuàng)建索引,當(dāng)獲得用戶輸入的查詢語句后,根據(jù)該查詢語句搜索索引表得到查詢結(jié)果,并返回查詢結(jié)果。利用該方法,用戶可以在客戶端輸入查詢語句,服務(wù)器直接查詢標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的文檔中包含該查詢語句的文檔及該查詢語句在文檔中的位置,并將搜索到的信息返回到客戶端的頁面以供用戶查看,實(shí)現(xiàn)了對(duì)標(biāo)準(zhǔn)文本的檢索及查閱功能。

附圖說明

為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例提供的信息查詢方法的示意圖;

圖2為本發(fā)明實(shí)施例提供的一種信息查詢方法的流程示意圖;

圖3為本發(fā)明實(shí)施例提供的另一種信息查詢方法的流程圖;

圖4為本發(fā)明另一種信息查詢方法的流程示意圖;

圖5為本發(fā)明實(shí)施例提供的一種信息查詢裝置的結(jié)構(gòu)示意圖;

圖6為為本發(fā)明實(shí)施例一種索引創(chuàng)建模塊的框圖;

圖7為本發(fā)明實(shí)施例一種返回模塊的框圖;

圖8為本發(fā)明實(shí)施例另一種信息查詢裝置的框圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。

本發(fā)明提供的信息查詢方法應(yīng)用于客戶端和服務(wù)器端構(gòu)成的查詢系統(tǒng)中,其中,客戶端主要采用以下幾種技術(shù):jsp(javaserverpages,java服務(wù)器頁面)、jstl(jspstandardtaglibrary,jsp標(biāo)準(zhǔn)標(biāo)簽庫)、javascript和ajax(asynchronousjavascriptandxml,異步j(luò)avascript和xml)。

jsp:jsp是由sunmicrosystems公司倡導(dǎo)、許多公司參與一起建立的一種動(dòng)態(tài)網(wǎng)頁技術(shù)標(biāo)準(zhǔn)。它是在傳統(tǒng)的網(wǎng)頁html(hypertextmarkuplanguage,超文本標(biāo)記語言)文件(*.htm,*.html)中插入java程序段(scriptlet)和jsp標(biāo)記(tag),從而形成jsp文件(*.jsp)。用jsp開發(fā)的web應(yīng)用是跨平臺(tái)的,既能在linux下運(yùn)行,也能在其他操作系統(tǒng)上運(yùn)行。

jsp技術(shù)使用java編程語言編寫類xml的tags和scriptlets,來封裝產(chǎn)生動(dòng)態(tài)網(wǎng)頁的處理邏輯。網(wǎng)頁還能通過tags和scriptlets訪問存在于服務(wù)端的資源的應(yīng)用邏輯。jsp將網(wǎng)頁邏輯與網(wǎng)頁設(shè)計(jì)和顯示分離,支持可重用的基于組件的設(shè)計(jì),使基于web的應(yīng)用程序的開發(fā)和維護(hù)變得迅速和容易。

jstl:jsp標(biāo)準(zhǔn)標(biāo)簽庫,在應(yīng)用程序服務(wù)器之間提供了一致的接口,最大程度地提高了web應(yīng)用在各應(yīng)用服務(wù)器之間的移植。簡化了jsp和web應(yīng)用程序的開發(fā)和維護(hù)。

javascript:是一種基于對(duì)象和事件驅(qū)動(dòng)并具有相對(duì)安全性的客戶端腳本語言。同時(shí)也是一種廣泛用于客戶端web開發(fā)的腳本語言,常用來給html網(wǎng)頁添加動(dòng)態(tài)功能,比如響應(yīng)用戶的各種操作。

ajax:是指一種創(chuàng)建交互式網(wǎng)頁應(yīng)用的網(wǎng)頁開發(fā)技術(shù)。是一種用于創(chuàng)建更好更快以及交互性更強(qiáng)的web應(yīng)用程序的技術(shù)。ajax的使用使因特網(wǎng)應(yīng)用程序變得更小、更快,更友好。

此外,客戶端還安裝有pdf在線瀏覽控件,由于標(biāo)準(zhǔn)文獻(xiàn)格式多為pdf,為了實(shí)現(xiàn)不同權(quán)限用戶對(duì)標(biāo)準(zhǔn)文獻(xiàn)分別具有在線瀏覽、打印和下載保存的權(quán)限要求,需要開發(fā)專用的web環(huán)境下的pdf在線閱讀插件,做到瀏覽、打印、下載分離控制,以滿足不同級(jí)別用戶的需要。

該客戶端包括首頁、標(biāo)準(zhǔn)查詢、統(tǒng)計(jì)分析、幫助等模塊,各模塊能夠根據(jù)業(yè)務(wù)需要選擇性的使用。本系統(tǒng)易于安裝部署及升級(jí),并擁有強(qiáng)大的系統(tǒng)管理功能。

首頁:系統(tǒng)的信息發(fā)布、展示和登陸頁,用戶可在此頁面登陸并執(zhí)行對(duì)應(yīng)權(quán)限的操作。如普通用戶可執(zhí)行標(biāo)準(zhǔn)查詢、統(tǒng)計(jì)分析等操作;管理員用戶可對(duì)系統(tǒng)做管理操作,如用戶管理、數(shù)據(jù)錄入和系統(tǒng)備份等。

標(biāo)準(zhǔn)查詢:實(shí)現(xiàn)對(duì)標(biāo)準(zhǔn)文檔的查詢。提供對(duì)標(biāo)準(zhǔn)號(hào)、標(biāo)準(zhǔn)名稱、起草單位、起草人、發(fā)布日期、使用范圍以及標(biāo)準(zhǔn)全文的智能檢索。支持的檢索方法有:模糊檢索、組合檢索、分類檢索和二次檢索等主流檢索方式,并支持瀏覽全庫。對(duì)于檢索結(jié)果,可瀏覽標(biāo)準(zhǔn)全文和打印。

統(tǒng)計(jì)分析:對(duì)標(biāo)準(zhǔn)庫里的所有標(biāo)準(zhǔn),根據(jù)指定的統(tǒng)計(jì)方法和條件進(jìn)行統(tǒng)計(jì)分析,顯示統(tǒng)計(jì)結(jié)果和打印。

幫助:為用戶提供詳細(xì)的系統(tǒng)使用說明。

服務(wù)器端主要采用ssh框架,ssh為struts+spring+hibernate的一個(gè)集成框架,是目前較流行的一種web應(yīng)用程序開源框架。ssh框架的系統(tǒng)從職責(zé)上分為四層:展現(xiàn)層、業(yè)務(wù)邏輯層、數(shù)據(jù)持久層和域模塊層??梢詭椭_發(fā)人員在短期內(nèi)搭建結(jié)構(gòu)清晰、可復(fù)用性好、維護(hù)方便的企業(yè)級(jí)web應(yīng)用程序。

該查詢系統(tǒng)的展現(xiàn)層采用ajax,js等大量web2.0的先進(jìn)技術(shù),以提高用戶操作體驗(yàn),減少頁面的切換及刷新,有效地減輕服務(wù)器的壓力。

該查詢系統(tǒng)的業(yè)務(wù)層用spring框架支持。struts框架作為系統(tǒng)的整體基礎(chǔ)架構(gòu),負(fù)責(zé)mvc的分離,在struts框架的模型部分,利用hibernate框架對(duì)數(shù)據(jù)層提供支持,保證數(shù)據(jù)的安全性及完整性,并且有效降低數(shù)據(jù)庫的維護(hù)成本。

參見圖1,為本發(fā)明實(shí)施例提供的信息查詢方法的示意圖,如圖1所示,客戶在客戶端輸入查詢語句,并根據(jù)查詢語句獲取檢索關(guān)鍵詞;服務(wù)器可以利用檢索關(guān)鍵詞檢索索引數(shù)據(jù)庫,并將索引結(jié)果返回給客戶端。當(dāng)用戶新增標(biāo)準(zhǔn)文本時(shí),用戶可以在客戶端上傳文檔,服務(wù)器為該文檔創(chuàng)建索引。

參見圖2,為本發(fā)明實(shí)施例提供的一種信息查詢方法的流程示意圖,該方法應(yīng)用于服務(wù)器中,如圖2所示,該方法可以包括以下步驟:

s110,接收上傳的待處理文檔存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)庫中,并獲取所述待處理文檔對(duì)應(yīng)的可編輯文本。

本申請(qǐng)實(shí)施例針對(duì)技術(shù)標(biāo)準(zhǔn)文檔的管理系統(tǒng)為例進(jìn)行說明,即待處理文檔為技術(shù)標(biāo)準(zhǔn)文檔。

因?yàn)闃?biāo)準(zhǔn)文檔通常是圖片格式,例如,pdf文檔,基于java構(gòu)建的管理系統(tǒng)無法自動(dòng)解析標(biāo)準(zhǔn)文檔為文本,此種應(yīng)用場景下,需要用戶手動(dòng)將pdf文檔轉(zhuǎn)換為txt格式的文本,并將pdf格式及txt格式的文檔上傳到服務(wù)器。

服務(wù)器將pdf格式的標(biāo)準(zhǔn)文檔存儲(chǔ)起來,以便用戶下載查看,同時(shí),服務(wù)器還將txt格式的標(biāo)準(zhǔn)文檔存儲(chǔ)起來,以便為標(biāo)準(zhǔn)文檔建立索引表。

s120,根據(jù)所述待處理文檔對(duì)應(yīng)的可編輯文本,為所述待處理文檔創(chuàng)建索引表,所述索引表包括文檔內(nèi)容、文檔名稱、當(dāng)前內(nèi)容所在的頁碼之間的對(duì)應(yīng)關(guān)系。

服務(wù)器根據(jù)txt文檔的全部內(nèi)容(例如,文檔名稱及全文內(nèi)容),利用lucene創(chuàng)建索引表,lucene是一個(gè)開放源代碼的全文檢索引擎工具包,是基于java的全文檢索庫。建立完索引后服務(wù)器會(huì)將待處理文檔的可編輯格式文本刪除。

全文檢索大體分為兩個(gè)過程分別是索引創(chuàng)建和搜索索引;其中,索引創(chuàng)建的過程是將現(xiàn)實(shí)世界中所有的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)提取信息,建立索引表;搜索索引就是獲得用戶查詢 請(qǐng)求,搜索索引表并返回搜索結(jié)果的過程。

需要說明的是,步驟s110和s120只是在接收到用戶上傳文檔時(shí)執(zhí)行一次,得到用戶上傳的文檔的索引,并添加到索引表中,后續(xù)用戶查詢時(shí),可以直接利用索引表完成查詢工作。

s130,獲取用戶輸入的查詢語句。

用戶可以在客戶端界面的搜索欄中輸入查詢語句;客戶端檢測到用戶操作搜索控件的操作后,獲取用戶輸入的查詢語句并生成相應(yīng)的查詢請(qǐng)求,然后,將查詢請(qǐng)求發(fā)送給服務(wù)器。服務(wù)器解析查詢請(qǐng)求獲取查詢語句。

在本申請(qǐng)的一些實(shí)施例中,該查詢語句可以是一個(gè)或多個(gè)關(guān)鍵詞組合構(gòu)成,也可以是一個(gè)或多個(gè)完整的句子。

s140,根據(jù)所述查詢語句搜索所述索引表得到查詢結(jié)果,并返回所述查詢結(jié)果。

如果查詢語句是一個(gè)或多個(gè)檢索關(guān)鍵詞,則直接查詢索引表中是否包含該檢索關(guān)鍵詞。如果查詢語句是一個(gè)或多個(gè)完整的句子,則需要利用分詞算法將查詢語句中的句子劃分成檢索關(guān)鍵詞,然后,再根據(jù)檢索關(guān)鍵詞查詢索引表。

服務(wù)器獲得檢索關(guān)鍵詞后,搜索索引表中是否包含該檢索關(guān)鍵詞,如果索引表中包含該檢索關(guān)鍵詞,則返回查詢結(jié)果。該查詢結(jié)果包括標(biāo)準(zhǔn)數(shù)據(jù)庫中全部文檔中包含該檢索關(guān)鍵詞的文檔及檢索關(guān)鍵詞在文檔中出現(xiàn)的位置。

本實(shí)施例提供的信息查詢方法,接收用戶上傳的待處理文檔,用戶上傳的待處理文檔通常是不能直接編輯的格式,例如,pdf格式;因此,需要將對(duì)待處理文檔進(jìn)行文字識(shí)別,獲得待處理文檔的可編輯格式,例如,txt格式。然后,根據(jù)可編輯格式的待處理文檔的全部內(nèi)容創(chuàng)建索引,當(dāng)獲得用戶輸入的查詢語句后,根據(jù)該查詢語句搜索索引表得到查詢結(jié)果,并返回查詢結(jié)果。利用該方法,用戶可以在客戶端輸入查詢語句,服務(wù)器直接查詢標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的文檔中包含該查詢語句的文檔及該查詢語句在文檔中的位置,并將搜索到的信息返回到客戶端的頁面以供用戶查看,實(shí)現(xiàn)了對(duì)標(biāo)準(zhǔn)文本的檢索及查閱功能。

參見圖3,為本發(fā)明實(shí)施例提供的另一種信息查詢方法的流程圖,本實(shí)施例應(yīng)用于包含客戶端和服務(wù)器系統(tǒng)中,本實(shí)施例著重介紹用戶查詢文檔的過程;如圖3所示,該方法包括以下步驟:

s210,客戶端接收用戶輸入的查詢語句,并根據(jù)該查詢語句生成相應(yīng)的查詢請(qǐng)求發(fā)送給服務(wù)器。

s220,服務(wù)器解析查詢請(qǐng)求,獲得查詢語句。

s230,服務(wù)器獲取所述查詢語句的檢索關(guān)鍵詞。

在本發(fā)明的一些實(shí)施例中,如果所述查詢語句是包含至少一個(gè)檢索關(guān)鍵詞的查詢表達(dá)式, 則直接獲取查詢語句所包含的檢索關(guān)鍵詞。

在本發(fā)明的另一些實(shí)施例中,如果查詢語句包含至少一個(gè)完整的句子,則服務(wù)器利用分詞算法對(duì)查詢語句進(jìn)行分詞,得到句子中包含的檢索關(guān)鍵詞。

s240,服務(wù)器利用關(guān)鍵詞擴(kuò)展算法,獲得與所述檢索關(guān)鍵詞詞義相關(guān)聯(lián)的查詢?cè)~。

對(duì)檢索關(guān)鍵詞進(jìn)行擴(kuò)展能夠擴(kuò)展出與檢索關(guān)鍵詞相關(guān)的全部特征詞,從而提高召回率,即提高檢索準(zhǔn)確率。例如,檢索關(guān)鍵詞包括“腐蝕”,可以擴(kuò)展到“防腐”,這樣,就能檢索到關(guān)于“腐蝕”和“防腐”的全部文檔。

在本發(fā)明的一些實(shí)施例中,對(duì)初始檢索關(guān)鍵詞進(jìn)行擴(kuò)展和重構(gòu),即進(jìn)行一次性的全局分析(例如,分析標(biāo)準(zhǔn)數(shù)據(jù)庫中的全部文檔)來產(chǎn)生同/近義詞。例如,查詢“腐蝕”可以擴(kuò)展到“防腐、侵蝕、氧化”。對(duì)于查詢中的每個(gè)查詢?cè)~項(xiàng),可以通過在詞典(即索引表所包含的關(guān)鍵詞)中找出該查詢?cè)~項(xiàng)的同義詞或相關(guān)詞對(duì)查詢進(jìn)行自動(dòng)擴(kuò)展。

在本發(fā)明的另一些實(shí)施例中,通過計(jì)算相關(guān)文檔中的高頻詞來擴(kuò)展檢索關(guān)鍵詞,例如,包含“腐蝕”的文檔中同時(shí)包含“鋼鐵”、“硫酸”等詞,可以通過合適算法選擇相關(guān)詞加入查詢。其中,擴(kuò)展檢索關(guān)鍵詞時(shí),可以根據(jù)關(guān)鍵詞與檢索關(guān)鍵詞之間的相似度來確定關(guān)鍵詞的權(quán)重,然后,根據(jù)權(quán)重確定查詢?cè)~。

s250,服務(wù)器查詢索引表中是否包含所述檢索關(guān)鍵詞及所述查詢?cè)~;如果包含,則執(zhí)行s260;如果不包含,則執(zhí)行280。

本實(shí)施例中,所述索引表包含標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的全部技術(shù)標(biāo)準(zhǔn)文檔的索引,本申請(qǐng)實(shí)施例應(yīng)用于石油技術(shù)領(lǐng)域,石油領(lǐng)域的技術(shù)標(biāo)準(zhǔn)數(shù)量有限,即,標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的全部石油技術(shù)標(biāo)準(zhǔn)的數(shù)量也在一定數(shù)量范圍內(nèi),因此,能夠針對(duì)全部石油技術(shù)標(biāo)準(zhǔn)的全文內(nèi)容創(chuàng)建索引表。

此外,該方法能夠提供對(duì)標(biāo)準(zhǔn)號(hào)、標(biāo)準(zhǔn)名稱、起草單位、起草人、發(fā)布日期、使用范圍以及標(biāo)準(zhǔn)全文的智能檢索。支持模糊檢索、分類檢索和二次檢索等檢索方式,并支持瀏覽全庫。對(duì)于檢索結(jié)果可瀏覽標(biāo)準(zhǔn)全文并進(jìn)行打印。

s260,服務(wù)器獲得查詢結(jié)果,并將查詢結(jié)果發(fā)送給所述客戶端。

服務(wù)器獲得的查詢結(jié)果是檢索關(guān)鍵詞或查詢?cè)~出現(xiàn)在哪個(gè)技術(shù)標(biāo)準(zhǔn)文檔中,以及,在該技術(shù)標(biāo)準(zhǔn)文檔中的具體位置(例如,頁碼)。

s270,客戶端展示所述查詢結(jié)果。

客戶端的頁面可以直接向用戶展示包含檢索關(guān)鍵詞或查詢?cè)~的文檔頁面,或者,在客戶端頁面上顯示包含檢索關(guān)鍵詞或查詢?cè)~的文檔名稱及具體位置。

s280,服務(wù)器向客戶端發(fā)送未查詢到相關(guān)內(nèi)容的提示信息。

s290,客戶端顯示所述提示信息。

本實(shí)施例提供的信息查詢方法,服務(wù)器獲得用戶輸入的查詢語句后,將查詢語句轉(zhuǎn)換成檢索關(guān)鍵詞,然后,利用關(guān)鍵詞擴(kuò)展算法找出與檢索關(guān)鍵詞同義或近義的查詢?cè)~。查找標(biāo)準(zhǔn)數(shù)據(jù)庫中的文檔中包含檢索關(guān)鍵詞及查詢?cè)~的文檔及文檔中的具體位置。利用該方法可以對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫中的全部文檔進(jìn)行檢索;而且,該方法可以支持關(guān)鍵詞檢索方式及語句查詢方式,從而,提高文檔查詢的精確率。

參見圖4,為本發(fā)明另一種信息查詢方法的流程示意圖,該方法應(yīng)用于服務(wù)器中,著重介紹為文檔創(chuàng)建索引的過程。如圖4所示,該方法可以包括以下步驟:

s310,服務(wù)器接收客戶端上傳的待處理文檔。

s320,服務(wù)器將待處理文檔轉(zhuǎn)換成可編輯格式。

用戶上傳的文檔通常是不可編輯格式,例如,pdf格式,服務(wù)器通過文字識(shí)別方式(例如,ocr識(shí)別)將不可編輯格式的文檔轉(zhuǎn)換成可編輯格式的文檔,例如,txt格式。

s330,服務(wù)器利用分詞算法對(duì)待處理文檔的全部內(nèi)容進(jìn)行分詞,得到分詞結(jié)果,并獲取分詞結(jié)果在待處理文檔中的使用頻率及詞語搭配方式。

s340,服務(wù)器獲取分詞結(jié)果在待處理文檔中出現(xiàn)的位置,并建立分詞結(jié)果及其在待處理文檔中出現(xiàn)的位置之間的對(duì)應(yīng)關(guān)系,得到待處理文檔的索引。

本發(fā)明實(shí)施例中采用倒排索引技術(shù),倒排索引是一種面向單詞的索引機(jī)制,利用倒排索引可以提高檢索時(shí)的速度。倒排索引結(jié)構(gòu)由“詞典”和“出現(xiàn)情況”兩部分組成。對(duì)于“詞典”中的每一個(gè)單詞,都會(huì)有一個(gè)詞匯列表記錄單詞在所有文檔中出現(xiàn)的位置,這些位置可以是單詞的位置(即,文本中的第幾個(gè)單詞),也可以是字符的位置(文本中的第幾個(gè)字符)。

本發(fā)明實(shí)施例中采用non-clustered方法建立倒排索引,該技術(shù)和語音文字的理解有很大關(guān)系,具體包含以下幾點(diǎn):

存儲(chǔ)語法庫,和詞匯庫配合劃分出句子中的詞匯;

存儲(chǔ)詞匯庫,同時(shí)存儲(chǔ)詞匯的使用頻率和常見搭配方式;

詞匯寬,可劃分不同的專業(yè)庫,以便于處理專業(yè)文獻(xiàn);

對(duì)于無法分詞的句子,把每個(gè)字當(dāng)作詞來處理。

索引器生成從關(guān)鍵詞到文檔id的關(guān)系索引表,索引表一般使用某種形式的倒排表,即由索引項(xiàng)查找相應(yīng)的url(uniformresourelocator,統(tǒng)一資源定位器),索引表也要記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便計(jì)算索引項(xiàng)之間的相鄰關(guān)系或接近關(guān)系,并以特定的數(shù)據(jù)結(jié)構(gòu)存儲(chǔ)在硬盤上。

s350,服務(wù)器將待處理文檔的索引更新到索引數(shù)據(jù)庫中。

索引數(shù)據(jù)庫中包含標(biāo)準(zhǔn)數(shù)據(jù)庫內(nèi)的全部文檔的索引,當(dāng)用戶上傳新的文檔時(shí),為新上傳的文檔創(chuàng)建的索引同樣需要更新到索引數(shù)據(jù)庫中。

s360,服務(wù)器獲取用戶輸入的查詢語句。

s370,根據(jù)查詢語句搜索索引表得到查詢結(jié)果并發(fā)送給客戶端。

本實(shí)施例提供的信息查詢方法,根據(jù)文檔的全部內(nèi)容建立索引得到索引數(shù)據(jù)庫,索引數(shù)據(jù)庫中包含文檔數(shù)據(jù)中的全部文檔的索引關(guān)系。用戶在輸入查詢語句后,可以在索引數(shù)據(jù)庫中進(jìn)行查詢,實(shí)現(xiàn)對(duì)全部文檔的全文檢索功能,從而方便用戶查詢相關(guān)標(biāo)準(zhǔn)內(nèi)容。

在本發(fā)明的另一些實(shí)施例中,對(duì)于標(biāo)準(zhǔn)數(shù)據(jù)庫內(nèi)的所有標(biāo)準(zhǔn),根據(jù)指定的統(tǒng)計(jì)策略和條件進(jìn)行統(tǒng)計(jì)分析,顯示統(tǒng)計(jì)結(jié)果。例如,可以統(tǒng)計(jì)某個(gè)人/單位參與起草的全部標(biāo)準(zhǔn)。

相應(yīng)于上述的信息查詢方法實(shí)施例,本發(fā)明還提供了信息查詢裝置實(shí)施例。

參見圖5,為本發(fā)明實(shí)施例提供的一種信息查詢裝置的結(jié)構(gòu)示意圖,該裝置應(yīng)用于服務(wù)器中,如圖5所示,該方法可以包括第一獲取模塊110、索引創(chuàng)建模塊120、第二獲取模塊130和返回模塊140。

第一獲取模塊110,用于接收上傳的待處理文檔存儲(chǔ)到標(biāo)準(zhǔn)數(shù)據(jù)庫中,并獲取所述待處理文檔對(duì)應(yīng)的可編輯文本。

索引創(chuàng)建模塊120,用于根據(jù)所述待處理文檔對(duì)應(yīng)的可編輯文本,為所述待處理文檔創(chuàng)建索引表,所述索引表包括文檔內(nèi)容、文檔名稱、當(dāng)前內(nèi)容所在的頁碼之間的對(duì)應(yīng)關(guān)系。

參見圖6,為本發(fā)明實(shí)施例一種索引創(chuàng)建模塊的框圖,如圖6所示,索引創(chuàng)建模塊120包括:分詞子模塊121、第一獲取子模塊122和建立子模塊123。

分詞子模塊121,用于根據(jù)分詞算法對(duì)所述待處理文檔的內(nèi)容進(jìn)行分詞得到分詞結(jié)果,并獲取所述分詞結(jié)果在所述待處理文檔中的使用頻率及詞語搭配方式;

第一獲取子模塊122,用于獲取所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置;

所述位置包括所述待處理文檔中單詞的位置,或者,所述待處理文檔中字符的位置。

建立子模塊123,用于建立所述分詞結(jié)果與所述分詞結(jié)果在所述待處理文檔中出現(xiàn)的位置之間的對(duì)應(yīng)關(guān)系,得到所述待處理文檔的索引表。

第二獲取模塊130,用于獲取輸入的查詢語句。

返回模塊140,用于根據(jù)所述查詢語句搜索所述索引表得到查詢結(jié)果,并返回所述查詢結(jié)果。

參見圖7,為本發(fā)明實(shí)施例一種返回模塊的框圖,如圖7所示,該返回模塊140包括:第二獲取子模塊141、擴(kuò)展子模塊142和查詢子模塊143。

第二獲取子模塊141,用于從所述查詢語句中獲取檢索關(guān)鍵詞。

擴(kuò)展子模塊142,用于根據(jù)關(guān)鍵詞擴(kuò)展算法,獲得與所述檢索關(guān)鍵詞的詞義相關(guān)聯(lián)的查詢?cè)~。

查詢子模塊143,用于根據(jù)所述檢索關(guān)鍵詞及所述查詢?cè)~,從所述索引表中查詢得到查詢結(jié)果。

本實(shí)施例提供的信息查詢裝置,接收用戶上傳的待處理文檔,用戶上傳的待處理文檔通常是不能直接編輯的格式,例如,pdf格式;因此,需要將對(duì)待處理文檔進(jìn)行文字識(shí)別,獲得待處理文檔的可編輯格式,例如,txt格式。然后,根據(jù)可編輯格式的待處理文檔的全部內(nèi)容創(chuàng)建索引,當(dāng)獲得用戶輸入的查詢語句后,根據(jù)該查詢語句搜索索引表得到查詢結(jié)果,并返回查詢結(jié)果。利用該裝置,用戶可以在客戶端輸入查詢語句,服務(wù)器直接查詢標(biāo)準(zhǔn)數(shù)據(jù)庫中存儲(chǔ)的文檔中包含該查詢語句的文檔及該查詢語句在文檔中的位置,并將搜索到的信息返回到客戶端的頁面以供用戶查看,實(shí)現(xiàn)了對(duì)標(biāo)準(zhǔn)文本的檢索及查閱功能。

參見圖8,為本發(fā)明實(shí)施例另一種信息查詢裝置的框圖,該裝置在圖5所示實(shí)施例的基礎(chǔ)上還包括統(tǒng)計(jì)模塊210。

統(tǒng)計(jì)模塊210,用于根據(jù)指定統(tǒng)計(jì)策略,對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫中的所有文檔進(jìn)行統(tǒng)計(jì)分析,得到統(tǒng)計(jì)結(jié)果。

統(tǒng)計(jì)模塊可以對(duì)標(biāo)準(zhǔn)數(shù)據(jù)庫內(nèi)的所有標(biāo)準(zhǔn),根據(jù)指定的統(tǒng)計(jì)策略和條件進(jìn)行統(tǒng)計(jì)分析,顯示統(tǒng)計(jì)結(jié)果。例如,可以統(tǒng)計(jì)某個(gè)人/單位參與起草的全部標(biāo)準(zhǔn)。

本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置或系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的裝置及系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。

通過以上的方法實(shí)施例的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等) 執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:只讀存儲(chǔ)器(rom)、隨機(jī)存取存儲(chǔ)器(ram)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。

本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。

需要說明的是,在本文中,諸如“第一”和“第二”等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上所述僅是本發(fā)明的具體實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
多伦县| 高碑店市| 连云港市| 石首市| 久治县| 边坝县| 云林县| 灯塔市| 海伦市| 潢川县| 镇赉县| 合江县| 新巴尔虎右旗| 夹江县| 大同县| 张家川| 四平市| 马山县| 延边| 桐梓县| 临猗县| 子洲县| 四平市| 双流县| 东港市| 平山县| 辽源市| 东丰县| 津南区| 吴旗县| 内丘县| 武乡县| 新源县| 承德市| 玛纳斯县| 剑河县| 波密县| 大理市| 东乌珠穆沁旗| 左贡县| 洪雅县|