專(zhuān)利名稱(chēng)::一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種檢索及檢索結(jié)果展現(xiàn)方法及系統(tǒng),尤其是涉及一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法及系統(tǒng)。
背景技術(shù):
:在現(xiàn)有檢索方法中,大多僅針對(duì)單一的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)或者二者的結(jié)合,尚未有對(duì)包括半結(jié)構(gòu)化數(shù)據(jù)三種類(lèi)型數(shù)據(jù)的統(tǒng)一檢索和展現(xiàn)方法。所謂結(jié)構(gòu)化數(shù)據(jù),通常是指數(shù)據(jù)庫(kù)中所管理的信息,包括生產(chǎn)、業(yè)務(wù)、交易等方面的記錄。非結(jié)構(gòu)化數(shù)據(jù)所涵蓋的信息非常廣泛,通常是以各種形式的多媒體內(nèi)容存在,如文書(shū)、合約、發(fā)票、書(shū)信等文本類(lèi)內(nèi)容,電子表格、簡(jiǎn)報(bào)檔案與電子郵件等二進(jìn)制文件,聲音、圖形、圖象、視頻等多媒體格式數(shù)據(jù)等。而半結(jié)構(gòu)化數(shù)據(jù)則是指以SGML、XML等置標(biāo)語(yǔ)言為載體形式的文本,通常表現(xiàn)為一種語(yǔ)義單元相互嵌套的層次關(guān)系,其區(qū)別于結(jié)構(gòu)化數(shù)據(jù)之處在于該類(lèi)數(shù)據(jù)是以文本形式存在,區(qū)別于非結(jié)構(gòu)化數(shù)據(jù)之處在于其以特定的標(biāo)記標(biāo)明數(shù)據(jù)中各節(jié)點(diǎn)的數(shù)值或內(nèi)容。基于置標(biāo)語(yǔ)言的自描述特性,半結(jié)構(gòu)化數(shù)據(jù)成為介于結(jié)構(gòu)化與非結(jié)構(gòu)化信息之間的一種數(shù)據(jù)類(lèi)型,可以借助計(jì)算機(jī)工具對(duì)其進(jìn)行構(gòu)建、解析和檢索,從而可以在一些智能化信息系統(tǒng)中得以應(yīng)用。中國(guó)專(zhuān)利申請(qǐng)(公開(kāi)號(hào)CN101477568,公開(kāi)日2009.7.8)公開(kāi)了一種結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)綜合檢索的方法。該方法通過(guò)對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行配置、解析和索引后存儲(chǔ)到數(shù)據(jù)庫(kù)中再以關(guān)鍵詞(而非全文)檢索方法展現(xiàn)結(jié)果。該方法無(wú)法針對(duì)半結(jié)構(gòu)化數(shù)據(jù)特點(diǎn)進(jìn)行相應(yīng)的處理,另外其對(duì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中再進(jìn)行檢索會(huì)造成額外的數(shù)據(jù)轉(zhuǎn)換時(shí)間開(kāi)銷(xiāo)而且也會(huì)帶來(lái)大量的數(shù)據(jù)存儲(chǔ)冗余,更嚴(yán)重的是該方法沒(méi)有運(yùn)用最適合非結(jié)構(gòu)化數(shù)據(jù)檢索的全文檢索方式,在檢索準(zhǔn)確度方面將無(wú)法滿(mǎn)足需要。如按關(guān)鍵詞方法檢索“中國(guó)”,可能會(huì)檢索出“…其中國(guó)民收入占比重…”、“大中國(guó)美電器”等,卻無(wú)法檢索出“中華人民共和國(guó)”這一“中國(guó)”的同義詞。中國(guó)專(zhuān)利申請(qǐng)(公開(kāi)號(hào):CN101341486,公開(kāi)日=2009.1.7)公開(kāi)了一種用于從非結(jié)構(gòu)化數(shù)據(jù)自動(dòng)生成多語(yǔ)言電子內(nèi)容的方法和系統(tǒng)。該方法及系統(tǒng)涉及到數(shù)據(jù)的展現(xiàn),它是從非結(jié)構(gòu)化數(shù)據(jù)中提取與一個(gè)或多個(gè)預(yù)選主題有關(guān)的信息,通過(guò)信息合并的結(jié)構(gòu)化處理再根據(jù)制定形式生成內(nèi)容。其缺陷是丟失了數(shù)據(jù)的原始展現(xiàn)形式。
發(fā)明內(nèi)容針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種基于數(shù)據(jù)庫(kù)、全文和XQuery相結(jié)合的聯(lián)邦檢索方法以及檢索結(jié)果中包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息的原生態(tài)集成展現(xiàn)方法。為解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法,包括以下步驟(1)輸入檢索詞;(2)并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與所述檢索詞相匹配的信息,將所有與所述檢索詞相匹配的信息組成檢索結(jié)果;(3)將所述檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)。如上所述的方法,步驟(2)中,在結(jié)構(gòu)化信息源中檢索采用標(biāo)準(zhǔn)SQL檢索方式,在半結(jié)構(gòu)化信息源中檢索采用XQuery/XPath檢索方式,在非結(jié)構(gòu)化信息源中檢索采用全文檢索方式。如上所述的方法,步驟(2)中還包括對(duì)檢索結(jié)果進(jìn)行消重、排序、分類(lèi)、聚合處理的操作。如上所述的方法,步驟(3)中將檢索結(jié)果集成展現(xiàn)的方法包括以下步驟①對(duì)檢索結(jié)果進(jìn)行分析,提取檢索結(jié)果中包含的路徑信息;②分析路徑信息,據(jù)此判斷信息源調(diào)用形式屬于下列哪種情況接口、URL、功能片斷或調(diào)用系統(tǒng);③根據(jù)信息源調(diào)用形式采取不同展現(xiàn)方式對(duì)于接口形式,運(yùn)行接口樁調(diào)用相應(yīng)接口;對(duì)于URL形式,直接轉(zhuǎn)到相應(yīng)URL;對(duì)于功能片斷,將該功能片斷引入容器并運(yùn)行;對(duì)于調(diào)用系統(tǒng)形式,直接運(yùn)行;④將結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源的原始信息以多窗口、多頁(yè)簽形式集成在一起統(tǒng)一展現(xiàn)。一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)系統(tǒng),包括用于輸入檢索詞的輸入裝置;用于并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與檢索詞相匹配信息,并將所有與檢索詞相匹配信息組成檢索結(jié)果的檢索裝置;以及用于將檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)的展現(xiàn)裝置。如上所述的系統(tǒng),還包括用于對(duì)檢索結(jié)果進(jìn)行消重處理的消重裝置,用于對(duì)檢索結(jié)果進(jìn)行排序處理的排序裝置,用于對(duì)檢索結(jié)果進(jìn)行分類(lèi)處理的分類(lèi)裝置,以及用于對(duì)檢索結(jié)果進(jìn)行聚合處理的聚合裝置。本發(fā)明的效果在于同現(xiàn)有檢索方式相比,本發(fā)明完全覆蓋各種異構(gòu)信息源的數(shù)據(jù)檢索,并針對(duì)異構(gòu)信息源各自特點(diǎn)采取最佳檢索技術(shù),檢索請(qǐng)求采用并行處理技術(shù),使得檢索過(guò)程性能好、效率高,檢索結(jié)果具備更高的查準(zhǔn)率和查全率。具體來(lái)講,對(duì)于結(jié)構(gòu)化信息源,本發(fā)明采用標(biāo)準(zhǔn)SQL檢索技術(shù),對(duì)于半結(jié)構(gòu)化信息源采用XQuery/XPath檢索方式,對(duì)于非結(jié)構(gòu)化信息源采用全文檢索方式,而檢索請(qǐng)求是同時(shí)發(fā)送到三種不同結(jié)構(gòu)信息源進(jìn)行并行處理并同步接收返回結(jié)果集。在檢索結(jié)果展現(xiàn)方面,本發(fā)明采用了更為周全的處理技術(shù),對(duì)檢索結(jié)果分別采取消重、排序、分類(lèi)和聚合處理,最后以最能體現(xiàn)信息源各自特點(diǎn)的原生態(tài)形式集成展現(xiàn)。而現(xiàn)有方法在信息展現(xiàn)前未采取上述技術(shù)處理,并且在展現(xiàn)時(shí)是以加工后的形式展示,失去了異構(gòu)信息源的特質(zhì)化布局和樣式,而這一點(diǎn)往往是用戶(hù)最關(guān)心的需求。圖1是具體實(shí)施方式中所述聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)系統(tǒng)的結(jié)構(gòu)框圖2是具體實(shí)施方式中所述聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法的主流程圖;圖3是具體實(shí)施方式中所述聯(lián)邦檢索結(jié)果集成展現(xiàn)方法的具體流程圖。具體實(shí)施例方式下面結(jié)合具體實(shí)施方式和附圖對(duì)本發(fā)明進(jìn)行詳細(xì)描述。圖1出示了本實(shí)施方式中所述聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)系統(tǒng)的結(jié)構(gòu)。如圖1所示,該系統(tǒng)包括輸入裝置11,與輸入裝置11連接的檢索裝置12,與檢索裝置12連接的結(jié)構(gòu)化信息源、半結(jié)構(gòu)化信息源、非結(jié)構(gòu)化信息源,以及消重裝置14、排序裝置15、分類(lèi)裝置16、聚合裝置17和展現(xiàn)裝置13。輸入裝置11,用于輸入檢索詞。檢索裝置12,用于并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與檢索詞相匹配信息,并將所有與檢索詞相匹配信息組成檢索結(jié)果。消重裝置14,用于對(duì)檢索結(jié)果進(jìn)行消重處理;所述消重處理是指在檢索結(jié)果中如果存在重復(fù)的信息,則只保留一條信息。排序裝置15,用于對(duì)檢索結(jié)果進(jìn)行排序處理;所述排序處理是指對(duì)檢索結(jié)果按指定關(guān)鍵信息項(xiàng)進(jìn)行升序或降序排列,以便按順序規(guī)則快速定位檢索結(jié)果。分類(lèi)裝置16,用于對(duì)檢索結(jié)果進(jìn)行分類(lèi)處理;所述分類(lèi)處理是指對(duì)檢索結(jié)果按一種或多種編目體系進(jìn)行歸類(lèi),便于檢索信息的后續(xù)加工利用。聚合裝置17,用于對(duì)檢索結(jié)果進(jìn)行聚合處理;所述聚合處理是指按檢索結(jié)果的內(nèi)在特征分組,形成一個(gè)要求組內(nèi)數(shù)據(jù)內(nèi)容相似性盡可能大,而組間相似度盡可能小的集合。展現(xiàn)裝置13,用于將檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)。圖2出示了采用圖1所示系統(tǒng)檢索和集成展現(xiàn)檢索結(jié)果的方法流程。如圖2所示,該方法包括以下步驟(1)在輸入裝置11中輸入檢索詞。檢索詞可以是一個(gè)單一詞,如“結(jié)構(gòu)化”;也可以是一個(gè)布爾表達(dá)式形式的組合詞或其他形式的組合詞,如“結(jié)構(gòu)化and半結(jié)構(gòu)化and非結(jié)構(gòu)化”、“結(jié)構(gòu)化or半結(jié)構(gòu)化or非結(jié)構(gòu)化”。(2)檢索裝置12并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與檢索詞相匹配的信息,將所有與檢索詞相匹配的信息組成檢索結(jié)果。在結(jié)構(gòu)化信息源中檢索采用標(biāo)準(zhǔn)SQL檢索方式,在半結(jié)構(gòu)化信息源中檢索采用XQuery/XPath檢索方式,在非結(jié)構(gòu)化信息源中檢索采用全文檢索方式。輸入裝置11將檢索請(qǐng)求同時(shí)發(fā)送至三種異構(gòu)信息源進(jìn)行并行處理。輸入裝置11發(fā)送到結(jié)構(gòu)化信息源的請(qǐng)求采用標(biāo)準(zhǔn)SQL規(guī)范,結(jié)構(gòu)化信息源處理裝置(通常是數(shù)據(jù)庫(kù)管理系統(tǒng)或數(shù)據(jù)庫(kù)查詢(xún)引擎)接收到檢索請(qǐng)求數(shù)據(jù)包后,將視具體情況對(duì)數(shù)據(jù)進(jìn)行預(yù)處理或直接處理。預(yù)處理主要是指加入特定數(shù)據(jù)庫(kù)擴(kuò)展的SQL語(yǔ)句或特定數(shù)據(jù)庫(kù)版本引入的增強(qiáng)功能,如Oracle中的Hint提示、內(nèi)存模式等,目的是提高檢索的性能和穩(wěn)定性。結(jié)構(gòu)化檢索是利用數(shù)據(jù)庫(kù)的關(guān)系模型原理,對(duì)數(shù)據(jù)庫(kù)字段建立索引,然后通過(guò)SQL腳本進(jìn)行檢索,數(shù)據(jù)庫(kù)對(duì)SQL進(jìn)行分析,形成查詢(xún)計(jì)劃,并根據(jù)已建立的索引情況使用相應(yīng)的索引表,從而達(dá)到高效率檢索的目的。SQL(StructuredQueryLanguage,結(jié)構(gòu)化查詢(xún)語(yǔ)言)是一種數(shù)據(jù)庫(kù)查詢(xún)和程序設(shè)計(jì)語(yǔ)言,用于存取數(shù)據(jù)以及查詢(xún)、更新和管理關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)。發(fā)源于二十世紀(jì)七十年代,歷經(jīng)SQL/86、SQL/89、SQL/92、SQL/99直至最新的SQL/2008,它具有如下特點(diǎn)綜合統(tǒng)一、高度非過(guò)程化、面向集合的操作方式、同一種語(yǔ)法結(jié)構(gòu)提供兩種使用方式、語(yǔ)言簡(jiǎn)捷易學(xué)易用。本實(shí)施方式中針對(duì)結(jié)構(gòu)化信息源的檢索請(qǐng)求包采取了SQL規(guī)范中的DML數(shù)據(jù)操縱語(yǔ)言,形如select<coll,col2,·…>from<tablel,table2,·…>whereTitlelike‘ψH%‘a(chǎn)ndprice<30。輸入裝置11發(fā)送到非結(jié)構(gòu)化信息源的請(qǐng)求采用全文檢索技術(shù),非結(jié)構(gòu)化信息源處理裝置(通常是全文檢索引擎)接收到檢索請(qǐng)求數(shù)據(jù)包后,自動(dòng)解析檢索條件并進(jìn)行語(yǔ)義分析,將檢索詞按詞庫(kù)拆分為分詞結(jié)構(gòu),提交單元檢索到預(yù)先創(chuàng)建好的全文檢索索引庫(kù),最后將檢索結(jié)果進(jìn)行過(guò)濾、集合和格式化處理后返回請(qǐng)求方。全文檢索方式是直接利用中文分詞和語(yǔ)義分析技術(shù),對(duì)外部非結(jié)構(gòu)化數(shù)據(jù)文件(本地或遠(yuǎn)程)創(chuàng)建全文索引,并利用檢索引擎從接口層面通過(guò)函數(shù)調(diào)用的方式提供檢索服務(wù)。利用全文檢索在大文本字段上的優(yōu)勢(shì),不但可以擺脫數(shù)據(jù)庫(kù)直接從文件系統(tǒng)中獲取所需信息,大大提高檢索的適應(yīng)性和性能,并且能夠提全文檢索引擎特定的檢索機(jī)制,如單字檢索、短語(yǔ)檢索、整句檢索、段落檢索、鄰接檢索、權(quán)重檢索、多域檢索、邏輯檢索、表達(dá)式檢索、同義詞檢索、反義詞檢索等。本實(shí)施方式中采用類(lèi)SQL的全文檢索請(qǐng)求包,形如selectTitle,F(xiàn)ileUrl,F(xiàn)requency,PosInFilefromIndexLibwhereContent(中國(guó))。輸入裝置11發(fā)送到半結(jié)構(gòu)化信息源的請(qǐng)求采用XQuery/XPath技術(shù),半結(jié)構(gòu)化信息源處理裝置(通常是XMLQuery查詢(xún)引擎)接收到檢索請(qǐng)求數(shù)據(jù)包后,自動(dòng)解析檢索條件,提交檢索到XML文檔或存儲(chǔ)庫(kù),最后將檢索結(jié)果返回請(qǐng)求方。本實(shí)施方式中針對(duì)半結(jié)構(gòu)化信息源的檢索請(qǐng)求包采取了W3C的XQuery/XPath規(guī)范,形如let$reportxml=document(‘report,xml‘)for$reportin$reportxml//author[ageIt30]orderby$author/namereturn$report/title/text()XPath和XQuery是由W3C國(guó)際組織推出的查詢(xún)語(yǔ)言,是面向XML數(shù)據(jù)的XMLQuery查詢(xún)模式描述語(yǔ)言,用戶(hù)可借助它來(lái)描述自己感興趣的模式,將用戶(hù)的模式交由實(shí)際的XML數(shù)據(jù)處理系統(tǒng)處理,返回與模式相匹配的結(jié)果。其主體特征是通過(guò)采用正則路徑表達(dá)式進(jìn)而獲取XML數(shù)據(jù)單元間的結(jié)構(gòu)關(guān)系和內(nèi)容。其中,XPath是實(shí)現(xiàn)XML數(shù)據(jù)遍歷的基本語(yǔ)言,是XQuery的基礎(chǔ),是XQuery完整而不可分割的一部分。XQuery是一種高端的、強(qiáng)類(lèi)型的函數(shù)語(yǔ)言,它借助XPath的特性可以處理更為復(fù)雜的記錄選擇條件的表達(dá)式、轉(zhuǎn)換結(jié)果集或者進(jìn)行遞歸查詢(xún)。XQuery代碼完全由表達(dá)式組成,沒(méi)有語(yǔ)句,所有的值都是序列,是查詢(xún)XML文檔或者大型XML存儲(chǔ)庫(kù)(r印ository)的最佳方案。將上述在三種不同結(jié)構(gòu)信息源中檢索出的與檢索詞相匹配的信息組成檢索結(jié)果。對(duì)于所述檢索結(jié)果,可以進(jìn)行預(yù)處理,如消重、排序、分類(lèi)和聚合等處理。所述消重處理是指在檢索結(jié)果中如果存在重復(fù)的信息,則只保留一條信息。所述排序處理是指對(duì)檢索結(jié)果按6指定關(guān)鍵信息項(xiàng)進(jìn)行升序或降序排列,以便按順序規(guī)則快速定位檢索結(jié)果。所述分類(lèi)處理是指對(duì)檢索結(jié)果按一種或多種編目體系進(jìn)行歸類(lèi),便于檢索信息的后續(xù)加工利用。所述聚合處理是指按檢索結(jié)果的內(nèi)在特征分組,形成一個(gè)要求組內(nèi)數(shù)據(jù)內(nèi)容相似性盡可能大,而組間相似度盡可能小的集合。(3)展現(xiàn)裝置13將檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)。展現(xiàn)裝置13通過(guò)調(diào)用數(shù)據(jù)所在系統(tǒng)接口或功能URL路徑等方式,將檢索結(jié)果以原生態(tài)形式集成展現(xiàn)。圖3出示了檢索結(jié)果集成展現(xiàn)的方法流程。檢索結(jié)果的展現(xiàn)隨信息來(lái)源的技術(shù)架構(gòu)、表現(xiàn)形式、接口方式的不同而不同,大致可分為以下幾種a.提供調(diào)用接口,接口通常是WebServiCe、API、RMI等形式,可以是與平臺(tái)、語(yǔ)言無(wú)關(guān),如WebService,也可以是與特定平臺(tái)、語(yǔ)言綁定,如JavaAPI、C++API。b.提供調(diào)用URL,URL以HTTPURL為主,更為廣泛的是與協(xié)議無(wú)關(guān)的URI。c.提供功能片斷,功能片斷可以是某應(yīng)用系統(tǒng)的一個(gè)功能模塊,通常是嵌入到容器或標(biāo)準(zhǔn)框架中,如Portlet。d.提供調(diào)用系統(tǒng),所述調(diào)用系統(tǒng)通常是經(jīng)過(guò)封裝、可獨(dú)立運(yùn)行的小型應(yīng)用系統(tǒng)。如圖3所示,具體的展現(xiàn)過(guò)程包括以下步驟①展現(xiàn)裝置13對(duì)經(jīng)過(guò)預(yù)處理的檢索結(jié)果進(jìn)行分析,提取其中包含的路徑信息。②展現(xiàn)裝置13分析路徑信息,據(jù)此判斷信息源調(diào)用形式屬于下列哪種情況接口、URL、功能片斷或調(diào)用系統(tǒng)。③展現(xiàn)裝置13根據(jù)信息源調(diào)用形式采取不同展現(xiàn)方式對(duì)于接口形式,運(yùn)行接口樁調(diào)用相應(yīng)接口;對(duì)于URL形式,直接跳轉(zhuǎn)或Forward到相應(yīng)URL;對(duì)于功能片斷,則將該片斷引入展現(xiàn)裝置13內(nèi)置的容器并運(yùn)行;對(duì)于調(diào)用系統(tǒng)形式,則直接運(yùn)行。④展現(xiàn)裝置13將各種異構(gòu)信息源的原始信息以多窗口(嵌套或?qū)盈B)、多頁(yè)簽(橫向或縱向)形式集成在一起統(tǒng)一展現(xiàn)。實(shí)施例(1)輸入檢索詞。本實(shí)施例中,檢索詞設(shè)為“公司”,分別從位于關(guān)系型數(shù)據(jù)庫(kù)Oracle、XBRL商業(yè)報(bào)告存儲(chǔ)庫(kù)和MicrosoftWord文檔庫(kù)中檢索。見(jiàn)下表(2)向關(guān)系型數(shù)據(jù)庫(kù)Oracle、XBRL商業(yè)報(bào)告存儲(chǔ)庫(kù)和MicrosoftWord文檔庫(kù)并行提交檢索請(qǐng)求,在三種信息源中檢索定位與檢索詞相匹配的信息,并將所有與檢索詞相匹配的信息組成檢索結(jié)果。提交檢索語(yǔ)句到關(guān)系型數(shù)據(jù)庫(kù)后,Oracle數(shù)據(jù)庫(kù)返回符合檢索條件的結(jié)果集,形如下表的檢索結(jié)果一提交檢索語(yǔ)句到XBRL商業(yè)報(bào)告存儲(chǔ)庫(kù)后,XMLQuery檢索引擎接收到檢索請(qǐng)求數(shù)據(jù)包后,自動(dòng)解析檢索條件,檢索到存儲(chǔ)庫(kù),最后將檢索結(jié)果返回請(qǐng)求方,形如下列的檢索結(jié)果~■<td>上證能源公司</tdXtd>2464527,202,500</td><td>建投能源公司</tdXtd>4,734,452,100</td>提交檢索語(yǔ)句到MicrosoftWord文檔全文索引庫(kù)后,全文檢索引擎自動(dòng)解析檢索條件并進(jìn)行語(yǔ)義分析,將檢索詞按詞庫(kù)拆分為分詞結(jié)構(gòu),提交單元檢索到預(yù)先創(chuàng)建好的全文檢索索引庫(kù),最后將檢索結(jié)果進(jìn)行過(guò)濾、集合和格式化處理后返回請(qǐng)求方。形如下列的檢索結(jié)果二上市公司年報(bào)10宗“最”滬深股市上市公司2009年年報(bào)截至4月30日已悉數(shù)出爐,財(cái)報(bào)數(shù)據(jù)形形色色,年報(bào)業(yè)績(jī)起起落落。每一張年報(bào)臉譜下,都映照出不同的心境和處境,......14家上市銀行去年共賺4348億截至今日,上市銀行出齊2009年年報(bào)。據(jù)資訊統(tǒng)計(jì)數(shù)據(jù)顯示,14家上市銀行共實(shí)現(xiàn)歸屬母公司股東的凈利潤(rùn)4348.33億元,同比增長(zhǎng)16.45%。......(3)對(duì)檢索結(jié)果進(jìn)行預(yù)處理。本系統(tǒng)提供消重裝置14、排序裝置15、分類(lèi)裝置16、聚合裝置17對(duì)聯(lián)邦檢索結(jié)果進(jìn)行預(yù)處理,即對(duì)聯(lián)邦檢索結(jié)果進(jìn)行集成展現(xiàn)前的處理。以檢索結(jié)果一為例消重檢索結(jié)果一中存在兩條重復(fù)數(shù)據(jù),ReportID=150&Title=股份公司年度工作計(jì)劃,經(jīng)過(guò)消重處理后合并為一條。排序按字典升序排列后的三條數(shù)據(jù)依次為,IteportID=150&Title=股份公司年度工作計(jì)劃、ReportID=101&Title=軟件公司2009年度財(cái)務(wù)報(bào)告、ReportID=110&Title=制造業(yè)公司一季度銷(xiāo)售完成情況。分類(lèi)根據(jù)系統(tǒng)預(yù)置分類(lèi)樹(shù),可將上述檢索結(jié)果分別歸到軟件業(yè)(ReportID=101&Title=軟件公司2009年度財(cái)務(wù)報(bào)告)、制造業(yè)(ReportID=110&Title=制造業(yè)公司一季度銷(xiāo)售完成情況)、未分類(lèi)OteportID=150&Title=股份公司年度工作計(jì)劃)。聚合針對(duì)前面分類(lèi)處理中存在的未能識(shí)別的分類(lèi)(IteportID=150&Title=股份公司年度工作計(jì)劃),聚合裝置17將重新計(jì)算樣本的相似度并按檢索結(jié)果的內(nèi)在特征對(duì)其進(jìn)行分組,形成新的分類(lèi)組——股份公司類(lèi)。最后將檢索結(jié)果OteportID=150&Title=股份公司年度工作計(jì)劃)聚類(lèi)成為股份公司類(lèi)。(4)將預(yù)處理后的檢索結(jié)果集成展現(xiàn)。展現(xiàn)裝置13對(duì)上述經(jīng)過(guò)預(yù)處理的檢索結(jié)果進(jìn)行分析,提取其中包含的URL路徑信息,并判斷信息源的調(diào)用形式,進(jìn)而采取不同的展現(xiàn)方式。本實(shí)施例中,檢索結(jié)果的集成展現(xiàn)形式如下表所示展現(xiàn)裝置13根據(jù)上述展現(xiàn)方法將各種異構(gòu)信息源的原始信息以多窗口(嵌套或?qū)盈B)、多頁(yè)簽(橫向或縱向)形式集成在一起統(tǒng)一展現(xiàn)。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其同等技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。權(quán)利要求一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法,包括以下步驟(1)輸入檢索詞;(2)并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與所述檢索詞相匹配的信息,將所有與所述檢索詞相匹配的信息組成檢索結(jié)果;(3)將所述檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)。2.如權(quán)利要求1所述的方法,其特征在于步驟(2)中,在結(jié)構(gòu)化信息源中檢索采用標(biāo)準(zhǔn)SQL檢索方式,在半結(jié)構(gòu)化信息源中檢索采用XQuery/XPath檢索方式,在非結(jié)構(gòu)化信息源中檢索采用全文檢索方式。3.如權(quán)利要求1所述的方法,其特征在于理的操作。4.如權(quán)利要求1所述的方法,其特征在于理的操作。5.如權(quán)利要求1所述的方法,其特征在于理的操作。6.如權(quán)利要求1所述的方法,其特征在于理的操作。7.如權(quán)利要求1至6之一所述的方法,其特征在于步驟(3)中將檢索結(jié)果集成展現(xiàn)的方法包括以下步驟①對(duì)檢索結(jié)果進(jìn)行分析,提取檢索結(jié)果中包含的路徑信息;②分析路徑信息,據(jù)此判斷信息源調(diào)用形式屬于下列哪種情況接口、URL、功能片斷或調(diào)用系統(tǒng);③根據(jù)信息源調(diào)用形式采取不同展現(xiàn)方式對(duì)于接口形式,運(yùn)行接口樁調(diào)用相應(yīng)接口;對(duì)于URL形式,直接轉(zhuǎn)到相應(yīng)URL;對(duì)于功能片斷,將該功能片斷引入容器并運(yùn)行;對(duì)于調(diào)用系統(tǒng)形式,直接運(yùn)行;④將結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源的檢索結(jié)果的原始信息集成在一起統(tǒng)一展現(xiàn)。8.如權(quán)利要求7所述的方法,其特征在于步驟④中所述檢索結(jié)果的原始信息以多窗口、多頁(yè)簽形式集成在一起統(tǒng)一展現(xiàn)。9.一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)系統(tǒng),包括用于輸入檢索詞的輸入裝置(11);用于并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與檢索詞相匹配信息,并將所有與檢索詞相匹配信息組成檢索結(jié)果的檢索裝置(12);以及用于將檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)的展現(xiàn)裝置(13)。10.如權(quán)利要求9所述的系統(tǒng),其特征在于所述系統(tǒng)還包括用于對(duì)檢索結(jié)果進(jìn)行消重處理的消重裝置(14),用于對(duì)檢索結(jié)果進(jìn)行排序處理的排序裝置(15),用于對(duì)檢索結(jié)果進(jìn)行分類(lèi)處理的分類(lèi)裝置(16),以及用于對(duì)檢索結(jié)果進(jìn)行聚合處理的聚合裝置(17)。步驟(2)中還包括對(duì)檢索結(jié)果進(jìn)行消重處步驟(2)中還包括對(duì)檢索結(jié)果進(jìn)行排序處步驟(2)中還包括對(duì)檢索結(jié)果進(jìn)行分類(lèi)處步驟(2)中還包括對(duì)檢索結(jié)果進(jìn)行聚合處全文摘要本發(fā)明公開(kāi)了一種檢索及檢索結(jié)果展現(xiàn)方法及系統(tǒng),尤其是公開(kāi)了一種聯(lián)邦檢索及檢索結(jié)果集成展現(xiàn)方法及系統(tǒng)?,F(xiàn)有技術(shù)中尚未有對(duì)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)三種類(lèi)型數(shù)據(jù)的統(tǒng)一檢索和原生態(tài)展現(xiàn)的方法和系統(tǒng)。本發(fā)明首先輸入檢索詞;然后并行向結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中發(fā)送檢索請(qǐng)求,根據(jù)檢索詞同時(shí)在結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息源中檢索定位與所述檢索詞相匹配的信息,將所有與所述檢索詞相匹配的信息組成檢索結(jié)果;再對(duì)檢索結(jié)果進(jìn)行消重、排序、分類(lèi)、聚合預(yù)處理;最后將所述經(jīng)過(guò)預(yù)處理的檢索結(jié)果以原生態(tài)的形式進(jìn)行集成展現(xiàn)。本發(fā)明適用于所有存在數(shù)據(jù)庫(kù)、XML文檔集和文本數(shù)據(jù)存儲(chǔ)和處理的信息系統(tǒng)。文檔編號(hào)G06F17/30GK101894143SQ201010211359公開(kāi)日2010年11月24日申請(qǐng)日期2010年6月28日優(yōu)先權(quán)日2010年6月28日發(fā)明者王仲申請(qǐng)人:北京用友政務(wù)軟件有限公司