欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種智能Web查詢接口系統(tǒng)及其方法

文檔序號:6460139閱讀:219來源:國知局

專利名稱::一種智能Web查詢接口系統(tǒng)及其方法
技術領域
:本發(fā)明涉及Web數(shù)據(jù)管理領域,特別是涉及一種智能Web查詢接口系纟充及方法。
背景技術
:隨著WorldWideWeb的不斷發(fā)展,Web上的在線翁:據(jù)庫越來越多,尤其是在網(wǎng)上購物、工作招聘、房屋租賃等領域。這些Web數(shù)據(jù)庫中存儲的信息與淺層蚋頁信息相比,專業(yè)性強,因而更具有價值;然而,因為它們并不是以靜態(tài)網(wǎng)頁的方式呈現(xiàn)在用戶面前的,因此不能有效地由傳統(tǒng)的搜索引擎(Google、Baidu等)通過靜態(tài)鏈接直接得到。一般的,網(wǎng)站將所有信息都存儲在后臺數(shù)據(jù)庫中,并向前端用戶提供可提交查詢的表單,稱為查詢接口。用戶可以通過在網(wǎng)站提供的查詢頁面上輸入查詢條件,向后臺服務器提交查詢,底層數(shù)據(jù)庫會將查詢結果以結果頁面的形式返回給用戶。而在這樣的查詢過程中,用戶每次只能向特定一個數(shù)據(jù)庫提交查詢,想要獲得更為全面的資源就只能向不同Web數(shù)據(jù)庫多次提交查詢,十分地不便。Web數(shù)據(jù)庫集成系統(tǒng)解決了此問題。它為用戶提供了一個全局的訪問入口,即復雜集成接口,復雜集成接口具有更強的查詢能力,可以通過它一次查詢訪問多個Web數(shù)據(jù)庫,并將得到的信息集成起來,從而為用戶提供最全面的信息來源。復雜集成接口集成了其相關領域Web數(shù)據(jù)庫查詢接口上的所有屬性和屬性值,支持的查詢語義豐富。但相對地,由于追求屬性及選項的全面性,使得查詢接口變得越來越復雜,不易使用。復雜集成接口的主要缺點是1.一個復雜集成接口只能局限于一個特定領域。目前的集成方法都是試圖集成單一領域中的查詢接口,不同的領域有不同的復雜集成接口,用戶無法通過一個統(tǒng)一的集成接口訪問到多個領域。2.復雜集成接口單一屬性上不支持值的"或"邏輯。用戶需要時,只能通過多次填寫復雜集成接口完成。3.復雜集成接口包含過多可填寫的屬性。接口上多達幾十種的屬性讓用戶很難快速定位到自己想要填寫的屬性,從用戶體驗的角度來說這是非常不好的設計。4.復雜集成接口上部分屬性的候選值過多。如在找工作領域,像職業(yè)類別、工作地區(qū)、行業(yè)類別等屬性的候選值往往上百。另一方面有時候選值的粒度不同,值的含義接近,界限模糊,使用戶選擇起來非常不便。由于以上缺點,用戶無法通過一個查詢接口對不同領域進行查找,因此目前的集成系統(tǒng),例如一個電子商務網(wǎng)站只能采用在不同領域使用各自的高級查詢接口,通過網(wǎng)站的購物目錄,用戶才可以鏈接到不同查詢接口網(wǎng)頁。然而一個用戶可能一次想要查詢多種產(chǎn)品,而這些產(chǎn)品往往不屬于一個領域,這種情況下,用戶不得不多次往返與商品目錄網(wǎng)頁與查詢接口網(wǎng)頁,并且對與不同的查詢接口都要經(jīng)歷一個適應的過程,造成極大的不便,降低用戶對網(wǎng)站的興趣。隨著網(wǎng)站規(guī)模的擴大,購物的種類越來越多,要求用戶遴選出需要的領域,再進入特定的復雜查詢接口提交查詢,是非常不便的。由此可見,目前的復雜集成接口的用戶友好度是需要研究和改善的。集成系統(tǒng)需要一種更加簡潔和便利的查詢方式,使得用戶不再需要花費額外的時間考慮查詢的領域或者熟悉一個冗長的表單。目前大多凄t網(wǎng)站都提供了兩種查詢方式,即快速查詢(quicksearch)與高級查詢(advancesearch),分別提供了關鍵字形式與結構化形式的查詢,兼顧了不同用戶的需求。然而,作為結構化查詢的極端,復雜集成接口由于過于龐大而造成了用戶的不便,急需一種不減弱集成系統(tǒng)查詢能力的簡化的模式。
發(fā)明內(nèi)容為了解決上述傳統(tǒng)問題,因此本發(fā)明的一個目的就是提出了一種智能Web查詢4妄口系統(tǒng)及其方法。在本發(fā)明的一個方面中,一種智能Web查詢,接口系統(tǒng)包括領域知識庫,用于存儲每個候選領域的領域模型;智能查詢接口,用戶在該智能查詢接口上填寫查詢條件單元并將用戶的每個查詢分解為一組查詢條件單元;領域匹配模塊,用于根據(jù)存儲在領域知識庫中的信息計算出用戶查詢與每個候選領域的匹配度,并選出最相關的領域提供給用戶參考;以及查詢轉換;漠塊,用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成^"口。在本發(fā)明的一個方面中,一種用在智能Web查詢接口系統(tǒng)上的方法,該智能Web查詢接口系統(tǒng)包括用于存儲每個候選領域模型的領域知識庫、智能Web查詢接口、領域匹配模塊、查詢轉換模塊,其特征在于,該方法包括步驟接口輸入步驟,用戶在智能Web查詢>|妄口上填寫查詢條件單元并將用戶的每個查詢分解為一組查詢條件單元;領域匹配步驟,用于根據(jù)存儲在領域知識庫中的信息計算出用戶查詢與每個候選領域的匹配度,并選出最相關的領域提供給用戶參考;以及查詢轉換步驟,用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。根據(jù)本發(fā)明的方面,其中查詢條件單元包含的是在同一屬性上的一個或多個條件值,每個查詢條件單元內(nèi)部都是"或"的關系。根據(jù)本發(fā)明的方面,其中領域匹配模塊進一步包括分解模塊,用于分解用戶查詢;一次過濾模塊,當用戶查詢包含領域信息時,利用CT中的詞匯對查詢進行一次過濾,預先去除與查詢毫不相干的那些領域;過濾領域模塊,當預先確定了用戶輸入的某個詞是一個特殊的屬性名稱時,系統(tǒng)將自動將這個詞尾隨的符合該屬性數(shù)據(jù)類型的詞看作用戶在這個屬性上的條件值,并將二者看作一個統(tǒng)一的整體;計算模塊,用于計算相似度;排序模塊,用于根據(jù)領域與查詢的匹配度而對所有集成系統(tǒng)中的候選領域進行由高至低的排序;返回模塊,用于返回其中匹配度最高的k個領域。根據(jù)本發(fā)明的方面,其中查詢轉換模塊進一步包括:計算匹配度模塊,用于初始化矩陣,計算每一個單元匹配的匹配度;分裂模塊,用于按數(shù)據(jù)類型分裂匹配度矩陣;行優(yōu)化模塊,用于進行行優(yōu)化;計算可信度模塊,用于計算候選查詢轉換解的可信度;排序模塊,用于對所計算的可信度按照由大至小的順序排序;獲得模塊,用于對排好序的每一個候選查詢轉換解,如果它的可信度大于預先設定的閱值e,則輸出并獲得TopK解。根據(jù)本發(fā)明的方面,其中分裂模塊將初始的匹配度矩陣按照數(shù)據(jù)類型分裂,具有相同數(shù)據(jù)類型的關鍵詞單元和屬性形成子矩陣,并在各個子矩陣上形成候選的單元匹配集合。根據(jù)本發(fā)明的方面,其中行優(yōu)化分為唯一值優(yōu)化和最優(yōu)值優(yōu)化。根據(jù)本發(fā)明的方面,其中唯一值優(yōu)化是如果匹配度矩陣中存在一行,只有一個大于0的匹配度值,那么這個單元所對應的匹配^皮確定,即最終的查詢轉換解中都應該包含這個匹配,并將這個單元所在的行從匹配度矩陣中移除,再重新掃描,如果還有符合行優(yōu)化條件的行,則再次確定相應的單元,并移除其所在的行列,直到不再出現(xiàn)滿足條件的行為止。根據(jù)本發(fā)明的方面,其中最優(yōu)值優(yōu)化是矩陣上如果每行都有多于一個大于零的匹配度值,那么考慮最優(yōu)值優(yōu)化,即在行中是否存在唯一的DM值為1的單元,因為DM值為l,表示在這個查詢條件單元在這個屬性的詞典中準確地出現(xiàn),那么這個查詢條件單元與這個屬性的匹配可以被確認為最佳匹配,那么它也可以被預先確定下來。結合隨后的附圖,從下面的詳細說明中可顯而易見的得出本發(fā)明的上述及其他目的、特征及優(yōu)點。在附圖中圖1給出了根據(jù)本發(fā)明的智能Web查詢接口系統(tǒng)的整體框架;圖2給出了根據(jù)本發(fā)明的領域模型建立過程;圖3給出了根據(jù)本發(fā)明的領城匹配模塊的方框圖;圖4給出了根據(jù)本發(fā)明的領域匹配流程圖;圖5給出了根據(jù)本發(fā)明的查詢轉換模塊的方框圖;圖6給出了根據(jù)本發(fā)明的查詢轉換流程圖;圖7給出了根據(jù)本發(fā)明的匹配度矩陣分裂示例;圖8給出了根據(jù)本發(fā)明的查詢轉換模塊中的行優(yōu)化模塊的流程圖。具體實施方式首先,根據(jù)圖1,對根據(jù)本發(fā)明的智能Web查詢接口系統(tǒng)的整體框架進行詳細的i兌明。智能Web查詢接口系統(tǒng)提供了高級查詢?nèi)蝿盏耐矄涡问?。用戶的查詢首先通過領域匹配模塊來預估用戶查詢的領域,之后查詢轉換模塊將其轉換成復雜接口上的可適應查詢,之后再向下分派到各個網(wǎng)站。系統(tǒng)的總體框架如圖1所示。智能Web查詢接口的工作集中在它的后臺處理模塊,實現(xiàn)自動的領域匹配和處理用戶查詢向復雜集成接口查詢轉換。首先,用戶在智能Web查詢接口1上填寫查詢并將用戶的每個查詢分解為一組查詢條件單元(一個查詢條件單元包含的是在同一屬性上的一個或多個條件值)。每個查詢條件單元內(nèi)部都是"或"的關系。在查詢轉換時,每個關鍵詞單元都被看作是同一個屬性上取的多個屬性值。解析器在該步驟中預先作一些清洗的工作,去除一些無關的"停止詞",并確定每個關鍵詞單元的數(shù)據(jù)類型。例如用戶查詢(H北京或天津,教育類,2000-3000},轉換為U廣{北京,天津},邏輯或;U2={教育};U3={2000,3000},邏輯范圍。之后,用戶的查詢被送往領域匹配模塊2,根據(jù)存儲在領域知識庫3中的信息(即每個候選領域D),計算出用戶查詢與每個候選領域D的匹配度,并選出最相關的領域提供給用戶參考。進行完領域匹配后,開始進入查詢轉換模塊4,經(jīng)過復雜的計算,建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。隨后對領域匹配模塊2和查詢轉換模塊4進行詳細的說明。接下來,對領域模型的建立過程進行詳細的描述。領域匹配的關鍵是建立領域信息的模型,模型的建立過程如圖2所示。首先由"收集器"從Web數(shù)據(jù)庫6中收集的各領域的查詢接口上損^又能突出代表該領域的重要屬性和特殊屬性值的一系列單詞,權值分派器8將這些單詞按照其代表能力的差別進行權值分配,最終將領域模型存儲在領域知識庫3中。定義l領域模型DM-cg^7;IT>,其中D:表示一個領域;CO(ctiIi=1,2,...}:是一組概念詞的集合,用來總體性地描述領域的概念,在本系統(tǒng)中,借助了Yahoo層次模型中各個概念層次的詞匯來擴充CC集合;此外,還借用了WordNet中同義詞,上位詞/下位詞作為補充。AT=UAeDLa(D,A;):是由這個領域內(nèi)各查詢接口所包含的屬性的屬性標簽組成的詞匯的集合。La(D,Ai)指在領域D中,與某個屬性Ai相關的所有標簽詞匯的集合。這個集合中的詞匯可以分為三類①集成接口上的標簽名;②各個Web數(shù)據(jù)庫的查詢接口上釆用的標簽名;③前面兩大類標簽名的同義詞和上位詞/下位詞。VT=UA6DVa(D,Ai):是由這個領域內(nèi)所包含的屬性的候選值單詞的集合。對于大部分的屬性,其屬性值是一個收斂的有限集合。Va(D,Ai),即領域?qū)傩灾导媳硎驹陬I域D中,屬性Ai的所有預定義的屬性值。依據(jù)屬性的不同數(shù)據(jù)類型,Va(D,Ai)基本可以分為兩大類進行討論文本型和非文本型。領域模型中的各個詞在區(qū)分一個領域和其他領域的能力上是不同的,因此我們需要設定一種權重,來反映不同詞匯在領域模型中的代表性。這里我們參考了這一
技術領域
中已有的線索有效性變量(cuevalidityvariance)簡稱CVV計算方法,定義如下公式(1)對于文本詞公式1:<formula>formulaseeoriginaldocumentpage10</formula>公式2:<formula>formulaseeoriginaldocumentpage10</formula>其中ifij為查詢接口出現(xiàn)頻率,代表某個詞tj,它在第i個領域Di中出現(xiàn)的頻率。公式3:<formula>formulaseeoriginaldocumentpage10</formula>其中ifip為詞tp在查詢接口上出現(xiàn)的頻率,tp它是領域Di中一個可見詞tj的同義詞或上4立/下4立詞。(2)對于范圍詞要計算范圍型的權重有兩個前提①只有具有相同數(shù)據(jù)單位的兩個范圍才可以做比較。②兩個范圍是一樣的,必須擁有相同的最大值和最小值。如果兩個范圍值并不完全相同,但卻又存在相交的局部,則采取了范圍進一步細分的機制,使得任意兩個范圍值或者相同,或者完全不相交。參考圖3,對根據(jù)本發(fā)明的領域匹配模塊的方框圖進行說明。該領域匹配模塊用于計算出用戶查詢與每個候選領域D的匹配度,并選出最相關的領域提供給用戶參考。如圖3所示,領域匹配模塊包括分解模塊,用于分解用戶查詢;一次過濾模塊,當用戶查詢包含領域信息時,利用CT中的詞匯對查詢進行一次過濾,預先去除與查詢亳不相干的那些領域;過濾領域模塊,當預先確定了用戶輸入的某個詞是一個特殊的屬性名稱時,系統(tǒng)將自動將這個詞尾隨的符合該屬性數(shù)據(jù)類型的詞看作用戶在這個屬性上的條件值,并將二者看作一個統(tǒng)一的整體;計算模塊,用于計算相似度;排序模塊,用于根據(jù)領域與查詢的匹配度而對所有集成系統(tǒng)中的候選領域進行由高至低的排序;返回模塊,用于返回其中匹配度最高的k個領域,其中k(預先定義的返回結果數(shù))。下面結合圖4,對領域匹配模塊的具體領域匹配流程進行的說明。對于用戶查詢Q-0ii,u2,…,uj,uHvi1,Vi2,…H十算一個用戶查詢Q和每個領域D之間的相關度如圖4所示。步驟l(Sl):分解用戶查詢采用分詞程序?qū)⒁粋€用戶查詢分解為若干的條件單元,即,用戶查詢Q={Ul,u2,…,Un),對于一個條件單元,它可能包含了多于一個的查詢條件值,即,Ui—Vi1,Vi2,...}。因此,Q與D的相關度就需要先計算每個條件單元ih與領域D的相關度。步驟2(S2):—次過濾當用戶查詢包含領域信息時,利用CT中的詞匯對查詢進行一次過濾,預先去除與查詢毫不相千的那些領域,從而縮小候選領域集合,減少匹配計算量。步驟3(S3):過濾領域當預先確定了用戶輸入的某個詞是一個特殊的屬性名稱時,系統(tǒng)將自動將這個詞尾隨的符合該屬性數(shù)據(jù)類型的詞看作用戶在這個屬性上的條件值,并將二者看作一個統(tǒng)一的整體。那么它的相關度計算就是max(sl,s2},其中sl表示屬性名稱的相似度值,而s2表示屬性值的相似度計算值。步驟4(S4):計算相似度先考慮v,是文本型值的情況。對于Ti中的每一個詞(Ti來表示領域Di的表示模型中所有詞匯的集合)tj,計算vj和tj的相似度。一般的,采用字符串相似度的比較公式公式4&mO,.,g=其中cw表示v,和tj中最長公共字串的長度。當ViX不是文本型屬性時,Sim(v。t》取決于兩個范圍vj和tj覆蓋的范圍,計算公式為以上兩種情況(ViX為文本類型和非文本類型),我們總是從Ti中選擇相似度最高的一個作為與vj最匹配的詞,記為t人記錄這個最大的相似度值maxJ57m(v;V;^=若存在不止一個滿足的C,那么選擇擁有最大的Weight(D,t"的那個作為最終的t人定義了Sim(Vix,tj)的基礎上,可以到處關^:詞單元Ui與領域D的相關度,記為Sim(Ui,D),公式6S/附(仏,D)=maxxW附(vf,。}詞單元與D的相關度的加權和。計算公式為公式75Jw(g,D卜玄Sm("f,D)噴eigfe(D,。公式5max(v;",其中cr為vZ和tj的公共范圍。步驟5(S5):排序并返回Topk領域?qū)τ谒屑上到y(tǒng)中的候選領域,我們才艮據(jù)領域與查詢的匹配度由高至低進行排序。步驟6(S6):返回Topk領域最后,返回其中匹配度最高的k個領域。在這里,k是一個可調(diào)整的變量,它與一個閾值a相關,當排序后的領域列表中,連續(xù)兩個候選領域匹配度的差值大于(7時,排在這兩個候選領域之后的領域?qū)⒉辉俦环祷亍?>式8如果(&>(Q,)-5V附(2,A+1))-(&'w(Q,",一)-&'附(^,A))>o"則k=i,即排在Di之后的領域?qū)⒈幌到y(tǒng)舍棄,不再返回給用戶。通過實驗數(shù)據(jù),將a定為0.2實驗效果最佳。關鍵詞查詢與復雜集成接口上的查詢最大的區(qū)別在于前者不確定關鍵詞相關的屬性是什么。查詢轉換的難點就是找到并構建關鍵詞單元與復雜接口上屬性的關聯(lián)。查詢轉換的問題是利用用戶提交的關鍵詞構造復雜接口上的一個或一組查詢??傮w來說這個過程可以分為這樣三個步驟首先,是對用戶提交的關鍵詞作一個預處理,將這些關鍵詞按照其針對的屬性不同,劃分成不同的條件單元;然后,建立各個關鍵詞單元和復雜接口上屬性的對應關系,當然由于用戶提交的關鍵詞語義可能存在一定的模糊性,對應關系可能并非只有一對一的情況,也有一對多,甚至還有某些關鍵詞可能在復雜接口上找不到與之匹配的屬性;若為每個關鍵詞單元選擇一個可能的匹配屬性,將它們組合起來,就可以得到一個查詢轉換的方案,稱為查詢轉換解。最后,由于不同的組合可以得到不同的查詢轉換解,需要在其中選擇總體上查詢語義最接近用戶本意的解并依據(jù)它生成最后的查詢。首先我們介紹一下計算模型。定義2M(u,A)稱為一個單元匹配,是指在一個查詢單元u和復雜接口上的一個屬性A之間建立的匹配。若u不匹配到任何屬性,則記為M(u,nil);定義3DoM(u,A)稱為單元匹配M(u,A〉的匹配度,用來衡量一個單元匹配的可信程度。表一是k個條件單元與m個屬性可以構成匹配度矩陣<表一匹配度矩陣<table>tableseeoriginaldocumentpage14</column></row><table>定義4查詢轉換解S,它可以產(chǎn)生一個填寫復雜接口上查詢的方案,由k個單元匹配的合取構成,其中k是條件單元的個數(shù);并且,不存在兩個單元匹配包含相同的關鍵詞單元或復雜集成接口上的同一屬性。一個查詢轉:l奐解可以記為M(u!,AxjAM(u2,Ax2)A...AM(uk,Axk)。其中,AXi表示Ui對應的屬性,可以為nil。并且(1)每個關^t詞單元v都有一個匹配,或者匹配到屬性A,或者匹配到nil;(2)不同關鍵詞單元對應不同的屬性。不存在某個屬性可以同時對應多個關鍵詞單元。定義5Confidence(S)為查詢轉換解的可信度,是衡量一個解的優(yōu)劣程度的值。它與單元的匹配度值密切相關。當枚舉所有的單元匹配的組合,得到全部的查詢轉換解,對每個解,都可以利用Confidence估算它的好壞。我們將所有的解按照其Confidence值由大至小排序,選擇值較理想的查詢轉換解為基礎生成最后的查詢。下面介紹一下DoM計算方法公式9<formula>formulaseeoriginaldocumentpage14</formula>a表示的是Vi與Aj的匹配無法確定,因此它的取值應該大于確定不匹配的情況時的取值O,而小于在詞典中發(fā)現(xiàn)匹配的情況的取值。實現(xiàn)中設定cc為0.3。最后,DoM(u,Aj)是對vi中包含的關^t詞的Sim值的總體評價;系統(tǒng)中采用它們的算術平均值公式<formula>formulaseeoriginaldocumentpage15</formula>若u不匹配任何屬性,那么(",)的值為0。接下來介紹一下Confidence計算方法首先定義權值w,它與相應的DoM所涉及的屬性相關,重要的屬性被賦予一個4交高的^又值。我們可以通過統(tǒng)計一個屬性在各個web數(shù)據(jù)庫查詢接口上出現(xiàn)的頻率來評價它的重要性,頻率越高的屬性,我們認為它越重要。一種可行的權值計算方法是w,-J^,n表示屬性的總個數(shù),》/*ifk是屬性Ak在當前領域的接口頻率值,即在當前領域各個web數(shù)據(jù)庫查詢接口上出現(xiàn)的總次數(shù)。那么Confidence計算公式為Zwy*DoM(v,.,4)公式11<formula>formulaseeoriginaldocumentpage15</formula>其中Wj是M(Vi,Aj)中屬性Aj的權值。參考圖5,對根據(jù)本發(fā)明的查詢轉換模塊的方框圖進行說明。該查詢轉換模塊用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。如圖5所示,查詢轉換模塊包括計算匹配度模塊,用于初始化矩陣,計算每一個單元匹配的匹配度;分裂模塊,用于按數(shù)據(jù)類型分裂匹配度矩陣;行優(yōu)化模塊,用于進行行優(yōu)化;計算可信度模塊,用于計算候選查詢轉換解的可信度;排序模塊,用于對所計算的可信度按照由大至小的順序排序;獲得模塊,用于對排好序每一個候選查詢轉換解,如果它的可信度大于預先設定的閾值6,則輸出并獲得TopK解。下面結合圖6,對查詢轉換模塊的具體查詢轉換流程進行詳細的說明。步驟l(SI):計算匹配度矩陣。初始化矩陣,計算每一個單元匹配的匹配度。步驟2(S2):按數(shù)據(jù)類型分裂匹配度矩陣。如圖7所示,將各個關鍵詞單元和屬性預先按照數(shù)據(jù)類型分組,實現(xiàn)搜索空間的縮小。做法就是,將初始的匹配度矩陣按照數(shù)據(jù)類型分裂。具有相同數(shù)據(jù)類型的關鍵詞單元和屬性形成子矩陣。并在各個子矩陣上形成候選的單元匹配集合,從而減少候選的查詢轉換解的數(shù)目。數(shù)目變lgra剛化—Zl顛中l(wèi)化/w<formula>formulaseeoriginaldocumentpage16</formula>步驟3(S3):行優(yōu)化。行優(yōu)化的基本的思想是由于生成查詢轉換解可以看作是在匹配度矩陣上對單元的選擇,如果可以預先確定一部分單元,那么候選的查詢轉換解數(shù)目就會大大減少。如圖8所示,行優(yōu)化分為兩種情況唯一值優(yōu)化如果匹配度矩陣中存在一行,只有一個大于O的匹配度值,那么這個單元所對應的匹配被確定,即最終的查詢轉換解中都應該包含這個匹配。并將這個單元所在的行從匹配度矩陣中移除。再重新掃描,如果還有符合行優(yōu)化條件的行,則再次確定相應的單元,并移除其所在的行列。直到不再出現(xiàn)滿足條件的行為止。最優(yōu)值優(yōu)化矩陣上如果每行都有多于一個大于零的匹配度值,那么考慮最優(yōu)值優(yōu)化。即在行中是否存在唯一的DM值為1的單元。因為DM值為1,表示在這個查詢條件單元在這個屬性的詞典中準確地出現(xiàn)。那么這個查詢條件單元與這個屬性的匹配可以;陂確:〖人為最佳匹配。那么它也可以被預先確定下來。步驟4(S4):計算查詢轉換解的可信度。計算候選查詢轉換解的可信度,并按照由大至小的順序排序。步驟5(S5):獲得TopK解。對排好序每一個候選查詢轉換解,如果它的可信,變《confidence)大于預先設定的閾值e,則輸出。獲得TopK解,其中K(預先定義的返回結果數(shù))。從上述描述可知,由于其形式簡單,信息量少,智能接口背后的邏輯處理部分處理較為復雜是整個系統(tǒng)的關鍵。處理部分主要解決兩個難題正確地將用戶的查詢匹配到它所要查詢的領域;建立用戶填寫關鍵詞和其相關屬性之間的對應關系。因此,本發(fā)明具有以下優(yōu)點1.接口界面簡單,具有獨立性智能接口只具有一個文本輸入框,非常簡單,使用時用戶不再需要為了瀏覽全部屬性而滾動網(wǎng)頁;無i侖底層在哪個領域上集成了新的Web數(shù)據(jù)庫,無論由此增加了怎樣的屬性及屬性候選值,頂層界面不需要做變更,減少了用戶對接口的學習過程。2.易用性強用戶的查詢不必受接口上屬性及屬性候選值在形式上的限制,能夠進行個性化的查詢。它能夠支持用戶輸入任意數(shù)據(jù)類型的屬性值,不僅可以是各類的文本1'直,還可以是凄史字,金、額,時間等。用戶可以在一個才匡中同時提交針對不同屬性的多個值作為查詢的約束條件。3.支持多領域查詢可以覆蓋多個領域。用戶不需要在從目錄頁面鏈接到指定的接口頁面,因為我們的系統(tǒng)能夠自動識別用戶的查詢意圖,將用戶的查詢匹配到最合適的領域上。在一個覆蓋了大量不同領域的電子商務網(wǎng)站中,自動實現(xiàn)領域匹配可以大大節(jié)省用戶的時間。從另一個角度來說,支持領域自動匹配的集成比原來的系統(tǒng)的集成度更高。4.提供對于非精確查詢的支持,查詢所能容納的邏輯更為靈活。不僅僅局限于"與"關系,還包含"或"關系。智能查詢4妄口與網(wǎng)站quicksearch^妄口的比專交外觀上,智能查詢接口與普通網(wǎng)站的quicksearch查詢^妄口十分相似,都是一個簡單的文本框。但在查詢能力上有很大差別。普通網(wǎng)站quicksearch只能對自身的數(shù)據(jù)庫內(nèi)容進行查詢,智能查詢接口背后集成了多領域的多個數(shù)據(jù)庫,體現(xiàn)了web數(shù)據(jù)庫集成系統(tǒng)的優(yōu)勢;另一方面,智能查詢接口支持混合數(shù)據(jù)類型的查詢條件;用戶可以提交的關鍵詞包括文本,數(shù)字,時間,金額等多種數(shù)據(jù)類型;此外,它允許更復雜的邏輯關系,靈活的查詢形式。整體上,智能查詢接'口屬于更高層次集成思想的一項技術創(chuàng)新,以豐富的信息和快速靈活的查詢?yōu)橛脩魩砀啾憷?。對于本領域的普通技術人員來說可顯而易見的得出其他優(yōu)點和修改。體說明及示例性實施例。因此,在不脫離由隨后權利要求及其等價體所定義的一般發(fā)明構思的精神和范圍的情況下,可對其做出各種修改。權利要求1、一種智能查詢接口系統(tǒng),包括領域知識庫,用于存儲每個候選領域;智能查詢接口,用戶在該智能查詢接口上填寫查詢條件單元并將用戶的每個查詢分解為一組查詢條件單元;領域匹配模塊,用于根據(jù)存儲在領域知識庫中的信息計算出用戶查詢與每個候選領域的匹配度,并選出最相關的領域提供給用戶參考;以及查詢轉換模塊,用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。2、根據(jù)權利要求1的智能查詢接口系統(tǒng),其中查詢條件單元包含的是在同一屬性上的一個或多個條件值,每個查詢條件單元內(nèi)部都是"或"的關系。3、根據(jù)權利要求1的智能查詢接口系統(tǒng),其中領域匹配模塊進一步包括分解模塊,用于分解用戶查詢;一次過濾模塊,當用戶查詢包含領域信息時,利用CT中的詞匯對查詢進行一次過濾,預先去除與查詢毫不相干的那些領域;過濾領域模塊,當預先確定了用戶輸入的某個詞是一個特殊的屬性名稱時,系統(tǒng)將自動將這個詞尾隨的符合該屬性數(shù)據(jù)類型的詞看作用戶在這個屬性上的條件值,并將二者看作一個統(tǒng)一的整體;計算模塊,用于計算相似度;排序模塊,用于根據(jù)領域與查詢的匹配度而對所有集成系統(tǒng)中的候選領域進行由高至低的排序;返回模塊,用于返回其中匹配度最高的k個領域。4、根據(jù)權利要求1的智能查詢接口系統(tǒng),其中查詢轉換模塊進一步包括計算匹配度模塊,用于初始化矩陣,計算每一個單元匹配的匹配度;分裂模塊,用于按數(shù)據(jù)類型分裂匹配度矩陣;行優(yōu)化模塊,用于進行行優(yōu)化;計算可信度模塊,用于計算候選查詢轉換解的可信度;排序;f莫塊,用于對所計算的可信度^^安照由大至小的順序排序;獲得模塊,用于對排好序的每一個候選查詢轉換解,如果它的可信度大于預先設定的閾值e,則輸出并獲得TopK解。5、根據(jù)權利要求1的智能查詢接口系統(tǒng),其中分裂模塊將初始的匹配度矩陣按照數(shù)據(jù)類型分裂,具有相同數(shù)據(jù)類型的關鍵詞單元和屬性形成子矩陣,并在各個子矩陣上形成候選的單元匹配集合。6、一種用在智能查詢接口系統(tǒng)上的方法,該智能查詢接口系統(tǒng)包括用于存儲每個候選領域的領域知識庫、智能查詢接口、領域匹配模塊、查詢轉換模塊,其特征在于,該方法包括步驟接口輸入步驟,用戶在智能查詢接口上填寫查詢條件單元并將用戶的每個查詢分解為一組查詢條件單元;領域匹配步驟,用于根據(jù)存儲在領域知識庫中的信息計算出用戶查詢與每個候選領域的匹配度,并選出最相關的領域提供給用戶參考;以及查詢轉換步驟,用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。7、根據(jù)權利要求6的方法,其中查詢條件單元包含的是在同一屬性上的一個或多個條件值,每個查詢條件單元內(nèi)部都是"或"的關系。8、根據(jù)權利要求6的方法,其中領域匹配步驟進一步包括分解步驟,用于分解用戶查詢;一次過濾步驟,當用戶查詢包含領域信息時,利用CT中的詞匯對查詢進行一次過濾,預先去除與查詢毫不相干的那些領域;過濾領域步驟,當預先確定了用戶輸入的某個詞是一個特殊的屬性名稱時,系統(tǒng)將自動將這個詞尾隨的符合該屬性數(shù)據(jù)類型的詞看作用戶在這個屬性上的條件值,并將二者看作一個統(tǒng)一的整體;計算步驟,用于計算相似度;排序步驟,用于根據(jù)領域與查詢的匹配度而對所有集成系統(tǒng)中的候選領域進行由高至低的排序;返回步驟,用于返回其中匹配度最高的k個領域。9、根據(jù)權利要求6的方法,其中查詢轉換步驟進一步包括計算匹配度步驟,用于初始化矩陣,計算每一個單元匹配的匹配度;分裂步驟,用于按數(shù)據(jù)類型分裂匹配度矩陣;行優(yōu)化步驟,用于進行行優(yōu)化;計算可信度步驟,用于計算候選查詢轉換解的可信度;排序步驟,用于對所計算的可信度按照由大至小的順序排序;獲得步驟,用于對排好序的每一個候選查詢轉換解,如果它的可信度大于預先設定的閾值6,則輸出并獲得TopK解。10、根據(jù)權利要求6的方法,其中分裂步驟將初始的匹配度矩陣按照數(shù)據(jù)類型分裂,具有相同數(shù)據(jù)類型的關鍵詞單元和屬性形成子矩陣,并在各個子矩陣上形成候選的單元匹配集合。全文摘要一種智能查詢接口系統(tǒng)及其方法,其中該系統(tǒng)包括領域知識庫,用于存儲每個候選領域的領域模型;智能查詢接口,用戶在該智能查詢接口上填寫查詢條件單元并將用戶的每個查詢分解為一組查詢條件單元;領域匹配模塊,用于根據(jù)存儲在領域知識庫中的信息計算出用戶查詢與每個候選領域的匹配度,并選出最相關的領域提供給用戶參考;以及查詢轉換模塊,用于建立用戶查詢條件單元與查詢接口屬性的對應關系,生成最后的查詢并送往相應領域的復雜集成接口。文檔編號G06F17/30GK101216853SQ20081005610公開日2008年7月9日申請日期2008年1月11日優(yōu)先權日2008年1月11日發(fā)明者孟小峰,忺李申請人:孟小峰
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
奉贤区| 浦县| 新巴尔虎右旗| 清涧县| 孙吴县| 阜新市| 禄丰县| 柳林县| 七台河市| 邳州市| 都兰县| 富顺县| 临武县| 冀州市| 连州市| 酉阳| 平塘县| 专栏| 威宁| 灵寿县| 牡丹江市| 浦县| 赣榆县| 海原县| 六安市| 乌兰浩特市| 泸水县| 方正县| 高碑店市| 霍城县| 五莲县| 孙吴县| 韶山市| 班玛县| 金溪县| 屯昌县| 阿鲁科尔沁旗| 江口县| 顺昌县| 饶阳县| 夹江县|