專(zhuān)利名稱(chēng):遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及遙感數(shù)據(jù)檢索領(lǐng)域,尤其涉及一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法及裝置能夠應(yīng)用于面向自然語(yǔ)言的遙感數(shù)據(jù)檢索系統(tǒng)。
背景技術(shù):
自然語(yǔ)言相對(duì)于受控語(yǔ)言,是未經(jīng)過(guò)加工和規(guī)范化處理的人類(lèi)語(yǔ)言。面向自然語(yǔ)言的查詢(xún)系統(tǒng)能夠允許用戶(hù)不受專(zhuān)業(yè)術(shù)語(yǔ)的約束,直接使用字、詞、句子甚至段落等自然語(yǔ)言表達(dá)提問(wèn),完成信息的查詢(xún)檢索。該查詢(xún)方式有利于非專(zhuān)業(yè)人員的信息檢索,為信息檢索系統(tǒng)更好地應(yīng)用普及提供了技術(shù)支持。目前,遙感數(shù)據(jù)查詢(xún)一般是系統(tǒng)提供一個(gè)圖形化的查詢(xún)界面,用戶(hù)根據(jù)需求在其上直接選擇如采集時(shí)間、經(jīng)緯度、衛(wèi)星名、傳感器名等查詢(xún)參數(shù),系統(tǒng)按照選定的參數(shù)進(jìn)行查詢(xún)。這種方法簡(jiǎn)單、直觀但也限制了用戶(hù)的需求。當(dāng)用戶(hù)的查詢(xún)需求界面選擇沒(méi)有或滿(mǎn)足不了時(shí),如查詢(xún)用于“土壤濕度分析”的遙感數(shù)據(jù),用戶(hù)只能先將該應(yīng)用需求轉(zhuǎn)換成為一系列的元數(shù)據(jù)信息,再在查詢(xún)界面進(jìn)行條件設(shè)置才能達(dá)到查詢(xún)目的,這就要求用戶(hù)具有遙感專(zhuān)業(yè)背景,還要對(duì)數(shù)據(jù)庫(kù)內(nèi)部結(jié)構(gòu)有一定的了解。為數(shù)據(jù)庫(kù)建立一個(gè)自然語(yǔ)言檢索的接口可以突破這些局限,使遙感數(shù)據(jù)為更多的非專(zhuān)業(yè)用戶(hù)所用,該接口將用戶(hù)輸入的自然查詢(xún)語(yǔ)句轉(zhuǎn)化成數(shù)據(jù)庫(kù)結(jié)構(gòu)化的查詢(xún)語(yǔ)言,其過(guò)程就包括將用戶(hù)的應(yīng)用需求轉(zhuǎn)換成元數(shù)據(jù)信息。然而,由于自然語(yǔ)言的復(fù)雜性,如何正確、充分的理解自然查詢(xún)語(yǔ)句是面向自然語(yǔ)言檢索系統(tǒng)亟待解決的重要問(wèn)題之一。特別是當(dāng)自然語(yǔ)言檢索系統(tǒng)應(yīng)用于某一專(zhuān)業(yè)領(lǐng)域時(shí),一般的自然語(yǔ)言處理技術(shù)并不能很好地挖掘、理解出與專(zhuān)業(yè)領(lǐng)域相關(guān)的用戶(hù)檢索需求。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法及裝置以進(jìn)一步為遙感數(shù)據(jù)檢索系統(tǒng)建立自然語(yǔ)言檢索接口。利用本發(fā)明對(duì)遙感數(shù)據(jù)的自然查詢(xún)語(yǔ)言進(jìn)行處理,可克服一般自然語(yǔ)言處理方法解析不足的缺點(diǎn),能有效地“理解”自然查詢(xún)語(yǔ)句并將其轉(zhuǎn)化為符合用戶(hù)意圖的查詢(xún)條件組,從而解決現(xiàn)有技術(shù)中存在的前述問(wèn)題。為了實(shí)現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,包括以下步驟:SI,切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞;S2,對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。優(yōu)選的,SI具體為對(duì)用戶(hù)查詢(xún)語(yǔ)句進(jìn)行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分,作為關(guān)鍵詞。優(yōu)選的,SI包括以下步驟:SI I,建立遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic ;S12,利用正則表達(dá)式從所述查詢(xún)語(yǔ)句中匹配提取得到待處理關(guān)鍵詞;
和/或利用ICTCLAS2012漢語(yǔ)分詞軟件和所述遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic從所述查詢(xún)語(yǔ)句中提取得到待處理關(guān)鍵詞。優(yōu)選的,所述利用正則表達(dá)式匹配提取得到的待處理關(guān)鍵詞包括:時(shí)間、經(jīng)緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語(yǔ)分詞軟件和所述遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic從所述查詢(xún)語(yǔ)句中提取得到的待處理關(guān)鍵詞包括:衛(wèi)星、傳感器、空間區(qū)域和應(yīng)用中的一種或幾種。優(yōu)選的,S12后還包括以下步驟:S13,把從所述查詢(xún)語(yǔ)句中提取出的所有關(guān)鍵詞表示為一 N元組:vKeyWord(ffl, W2,..., WN)其中W為關(guān)鍵詞KeyWordS14,把任何一個(gè)KeyWord都由五元組來(lái)描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語(yǔ)句中的詞序,SameFlag值為I或O,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對(duì)應(yīng)的遙感數(shù)據(jù)庫(kù)語(yǔ)義。優(yōu)選的,S2包括以下步驟:S21,建立遙感數(shù)據(jù)庫(kù)語(yǔ)義詞典DBDic ;利用本體編輯工具Prot6g6構(gòu)建遙感應(yīng)用本體知識(shí)庫(kù)RSAO ;S22,基于所述遙感數(shù)據(jù)庫(kù)語(yǔ)義詞典DBDic對(duì)SI中提取得到的所述關(guān)鍵詞進(jìn)行正規(guī)化和歸一化處理,得到所述關(guān)鍵詞的標(biāo)準(zhǔn)格式的遙感數(shù)據(jù)庫(kù)語(yǔ)義S23,根據(jù)所述遙感應(yīng)用本體知識(shí)庫(kù)RSAO中的事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對(duì)應(yīng)關(guān)系,獲得事件應(yīng)用類(lèi)關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息;S24,將得到的所述遙感數(shù)據(jù)庫(kù)語(yǔ)義和所述元數(shù)據(jù)信息置于所述KeyWord的WordDB屬性中;循環(huán)執(zhí)行S22-S24,直到處理完從所述查詢(xún)語(yǔ)句中提取出的所有關(guān)鍵詞,形成關(guān)鍵詞組。優(yōu)選的,S3包括以下步驟:S31,對(duì)所述關(guān)鍵詞組進(jìn)行組合條件判斷,將復(fù)雜查詢(xún)語(yǔ)句拆分為符合用戶(hù)查詢(xún)意圖的條件組;S32,對(duì)相鄰的所述條件組進(jìn)行正序比較和倒序比較,完善所述條件組。優(yōu)選的,所述組合條件是目標(biāo)關(guān)鍵詞與相鄰關(guān)鍵詞Attribute不同且在非相鄰的關(guān)鍵詞中存在與目標(biāo)關(guān)鍵詞Attribute相同的詞;所述組合條件判斷具體為迭代判斷關(guān)鍵詞組vKeyWord是否符合所述組合條件,如符合,則以目標(biāo)關(guān)鍵詞為界將vKeyWord劃分為多個(gè)條件組Wordlists (ffordlistI, Wordlist2,...),并將與目標(biāo)關(guān)鍵詞Attribute相同的關(guān)鍵詞的SameFlag標(biāo)記為I ;否則,判定源語(yǔ)句為簡(jiǎn)單句,系統(tǒng)將vKeyWord作為單一條件組ffordlist 返回。優(yōu)選的,所述正序比較和倒序比較具體為:對(duì)已生成的Wordlists中相鄰條件組進(jìn)行正序和倒序比較,以Wordlistl,Wordlist2標(biāo)識(shí):按照詞序,從前往后正序比較ffordlistl中SameFlag為I的關(guān)鍵詞之前的關(guān)鍵詞與Wordlist2關(guān)鍵詞的Attribute是否相同,全部不同時(shí)將目標(biāo)關(guān)鍵詞加入WordliSt2中;然后按照相同的方法從后往前倒序比較Wordlist2的關(guān)鍵詞與Wordlistl中SameFlag為I的關(guān)鍵詞之后的所有關(guān)鍵詞Attribute,從而完善 Wordlistl。一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理裝置,包括:關(guān)鍵詞提取模塊,用于切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞;語(yǔ)義挖掘模塊,用于對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;語(yǔ)義分析模塊,用于對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。本發(fā)明的有益效果是:利用本發(fā)明的方法或裝置對(duì)遙感數(shù)據(jù)的自然查詢(xún)語(yǔ)言進(jìn)行處理,可克服一般自然語(yǔ)言處理方法解析不足的缺點(diǎn),能有效地“理解”自然查詢(xún)語(yǔ)句并將其轉(zhuǎn)化為符合用戶(hù)意圖的查詢(xún)條件組。本發(fā)明根據(jù)遙感數(shù)據(jù)查詢(xún)特點(diǎn),從自然語(yǔ)言的詞法分析和語(yǔ)義分析層面上,提出一種適用于遙感數(shù)據(jù)檢索領(lǐng)域的自然語(yǔ)言處理方法,以充分理解用戶(hù)查詢(xún)語(yǔ)句。
圖1是本發(fā)明的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法的步驟流程示意圖;圖2是本發(fā)明的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法中關(guān)鍵詞語(yǔ)義分析的流程示意圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施方式
僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。如圖1所示本發(fā)明公開(kāi)了一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,包括以下步驟:SI,切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞;S2,對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。以下對(duì)具體步驟進(jìn)行詳述:遙感數(shù)據(jù)檢索自然語(yǔ)言處理方法是從自然查詢(xún)語(yǔ)句中篩選出能反映用戶(hù)查詢(xún)意圖的關(guān)鍵詞,并對(duì)關(guān)鍵詞進(jìn)行語(yǔ)義挖掘和語(yǔ)義分析,從而得到符合用戶(hù)意圖的查詢(xún)條件組。關(guān)鍵詞提取是對(duì)用戶(hù)查詢(xún)語(yǔ)句進(jìn)行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分。本發(fā)明采用規(guī)則與統(tǒng)計(jì)相結(jié)合的策略進(jìn)行分詞。規(guī)則體現(xiàn)在正則表達(dá)式的運(yùn)用,對(duì)于經(jīng)緯度、時(shí)間、比例尺等內(nèi)容不定,格式固定的詞,一般的基于統(tǒng)計(jì)的分詞算法很難將其正確分離出來(lái),正則匹配則根據(jù)其格式特點(diǎn)通過(guò)定義正則表達(dá)式將其匹配提取出來(lái)。其他如衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用、地點(diǎn)等沒(méi)有特定格式所循的關(guān)鍵詞,本發(fā)明利用基于統(tǒng)計(jì)的漢語(yǔ)分詞軟件ICTCLAS2012進(jìn)行處理[http://www.nlpir.org]。查詢(xún)語(yǔ)句中的通用詞匯如常見(jiàn)地名,借助ICTCLAS2012自帶的通用詞典即可分離,而遙感專(zhuān)業(yè)術(shù)語(yǔ)則需借助遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSdic進(jìn)行處理。該詞典用txt文件格式進(jìn)行描述,涵蓋了衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用等遙感領(lǐng)域詞匯。每個(gè)詞條還有相應(yīng)詞性標(biāo)注,與傳統(tǒng)的名詞、動(dòng)詞、形容詞等標(biāo)注不同,RSdic的詞性是根據(jù)詞的遙感數(shù)據(jù)庫(kù)語(yǔ)義來(lái)定義,衛(wèi)星、傳感器模式、圖像模式、時(shí)間、地點(diǎn)、事件應(yīng)用的詞性分別標(biāo)識(shí)為:rs_sate、rs_senp、rs_type、rs_time、rs—plac、rs_evet。從查詢(xún)語(yǔ)句提取出的所有關(guān)鍵詞形成一 N元組:vKeyWord (ffl, W2,..., WN)其中W為關(guān)鍵詞KeyWord,任一 KeyWord都由五元組來(lái)描述:Keyfford(Word, Attribute, No, SameFlag, WordDB)其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語(yǔ)句中的詞序,SameFlag值為I或O,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對(duì)應(yīng)的遙感數(shù)據(jù)庫(kù)語(yǔ)義。關(guān)鍵詞語(yǔ)義挖掘是為關(guān)鍵詞賦予數(shù)據(jù)庫(kù)語(yǔ)義,具體有兩個(gè)步驟:一是將關(guān)鍵詞正規(guī)化、歸一化處理成數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)形式;二是根據(jù)遙感應(yīng)用本體知識(shí)庫(kù)(RSAO)中事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對(duì)應(yīng)關(guān)系,獲得事件應(yīng)用類(lèi)關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息。本發(fā)明根據(jù)遙感語(yǔ)義詞典DBdic對(duì)空間區(qū)域、衛(wèi)星、傳感器模式、圖像模式、事件應(yīng)用關(guān)鍵詞進(jìn)行正規(guī)化、歸一化處理。該詞`典也用txt文件格式描述,主要記錄了關(guān)鍵詞及其在數(shù)據(jù)庫(kù)中的表示形式。正規(guī)化處理是根據(jù)DBdic將一些特殊的空間區(qū)域轉(zhuǎn)換成數(shù)據(jù)庫(kù)可識(shí)別的行政區(qū)域,如“東北三省”應(yīng)正規(guī)化表式為“遼寧,黑龍江,吉林”。歸一化處理則是將同義不同形的關(guān)鍵詞表示成唯一的數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)格式,如將“17、187、1&11(1犯丨7、1^11(15&七7”歸一表示為“LANDSAT-7”。對(duì)于表示形式復(fù)雜、多變的時(shí)間和經(jīng)緯度,語(yǔ)義挖掘需利用專(zhuān)門(mén)的解析程序進(jìn)行正規(guī)化處理,如將“08年5月到2010年3月”表達(dá)為數(shù)據(jù)庫(kù)標(biāo)準(zhǔn)形式“[2008-05-01,2010-03-31]”。事件應(yīng)用對(duì)應(yīng)遙感元數(shù)據(jù)信息的獲取需借助遙感應(yīng)用本體知識(shí)庫(kù)RSAO完成。RSAO由本體編輯工具Prot6g6構(gòu)建完成,以owl文件形式進(jìn)行存放。RSAO從語(yǔ)義和知識(shí)的層面上描述并組織了遙感元數(shù)據(jù)和事件應(yīng)用信息。借助本體的推理機(jī)機(jī)制,根據(jù)本體規(guī)則可自動(dòng)地將事件應(yīng)用與遙感元數(shù)據(jù)信息關(guān)聯(lián)起來(lái)。本發(fā)明通過(guò)讀取RSAO即可得到遙感事件應(yīng)用對(duì)應(yīng)的元數(shù)據(jù)信息。語(yǔ)義挖掘出的數(shù)據(jù)庫(kù)語(yǔ)義將存放在KeyWord的WordDB屬性中。關(guān)鍵詞語(yǔ)義分析是對(duì)提取出的關(guān)鍵詞詞組進(jìn)行組合分析,并生成符合用戶(hù)查詢(xún)意圖的條件組。如圖2所示,首先判斷查詢(xún)語(yǔ)句是否為復(fù)合句,即組合條件判斷,滿(mǎn)足條件則將復(fù)合句拆分成為多個(gè)條件組,然后結(jié)合關(guān)鍵詞間的語(yǔ)義關(guān)系對(duì)相鄰條件組進(jìn)行正序比較和倒序比較,從而完善條件組。組合條件判斷對(duì)于關(guān)鍵詞組vKeyWord (ffl, W2,..., WN),組合條件如下:①Wi的Attribute值與W1-1的Attribute值不同,i為I到N中的任一整數(shù);②(W1,…,W1-1)中存在Wj 的 Attribute 值與 Wi 的 Attribute 值相同,j 為 I到i_l中的任一整數(shù)當(dāng)①②都滿(mǎn)足時(shí),得到一新條件組Wordlis t (W1,..., Wi_l),同時(shí)標(biāo)記Wj的SameFlag值為I,迭代判斷可將vKeyWord初步拆分為多個(gè)條件組,記為Wordlistl,Wordlist2,...。當(dāng)①或②有任一不滿(mǎn)足時(shí),將vKeyWord作為單一條件組Wordlist返回。組合條件判斷后形成的條件組記為Wordlists (Wordlistl,..., WordlistM), M為不小于I的整數(shù)。條件組完善當(dāng)條件組Wordlist個(gè)數(shù)M >=2時(shí),記Wordlists中任意相鄰兩條件組為:ffordlistl (ffl,..., Wj-1,ffj, ffj+1,..., Wp)Wordlist2 (ffl,..., ffq)其中Wj的SameFlag值為1,p、q為I到N間的整數(shù),且P與q的和不大于N。I 正序比較:正序判斷 Wordlis tl 的(Wl,..., ffj-Ι)中 Ws 的 Attribute 值是否與Wordlist2的(W2,..., Wq)中關(guān)鍵詞的Attribute值相同,全都不同則將Ws添入Wordlist2oII倒序比較:倒序判斷Wordlist2的(Wq,..., W2)中Wt的Attribute值是否與Wordlistl的(Wj+1,..., Wp)中關(guān)鍵詞的Attribut值相同,全都不同則將Wt添入ffordlistlο其中s為I到j(luò)-Ι間的任意整數(shù),t為2到q間的任意整數(shù)。利用本發(fā)明的方法對(duì)自然查詢(xún)語(yǔ)句如“查詢(xún)2010年12月用于分析大興安嶺植被覆蓋率的遙感數(shù)據(jù)”進(jìn)行處理,可得到用關(guān)鍵詞的WordDB屬性描述的條件組:ffordlist ([2010-12-012010-12-31]、大興安嶺地區(qū)、SPOT-4、LANDSAT-5)該方法正確的提取出時(shí)間、地點(diǎn)、事件應(yīng)用等遙感專(zhuān)業(yè)詞匯,并將“植被覆蓋率”轉(zhuǎn)化為相應(yīng)的衛(wèi)星信息“SPOT-4、LANDSAT-5”,克服一般自然語(yǔ)言處理方法解析不足的缺點(diǎn),有效地“理解”自然查詢(xún)語(yǔ)句并將其轉(zhuǎn)化為符合用戶(hù)意圖的查詢(xún)條件組。本發(fā)明的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法還可以以裝置的形式體現(xiàn):一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理裝置,包括:關(guān)鍵詞提取模塊,用于在待處理查詢(xún)語(yǔ)句中提取關(guān)鍵詞;語(yǔ)義挖掘模塊,用于對(duì)提取出的所述關(guān)鍵詞進(jìn)行語(yǔ)義挖掘;語(yǔ)義分析模塊,用于對(duì)提取出的所述關(guān)鍵詞進(jìn)行語(yǔ)義分析。通過(guò)采用本發(fā)明公開(kāi)的上述技術(shù)方案,得到了如下有益的效果:利用本發(fā)明的方法或裝置對(duì)遙感數(shù)據(jù)的自然查詢(xún)語(yǔ)言進(jìn)行處理,可克服一般自然語(yǔ)言處理方法解析不足的缺點(diǎn),能有效地“理解”自然查詢(xún)語(yǔ)句并將其轉(zhuǎn)化為符合用戶(hù)意圖的查詢(xún)條件組。本發(fā)明根據(jù)遙感數(shù)據(jù)查詢(xún)特點(diǎn),從自然語(yǔ)言的詞法分析和語(yǔ)義分析層面上,提出一種適用于遙感數(shù)據(jù)檢索領(lǐng)域的自然語(yǔ)言處理方法,以充分理解用戶(hù)查詢(xún)語(yǔ)句。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,包括以下步驟: Si,切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞; S2,對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組; S3,對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,將所述條件組用作檢索遙感數(shù)據(jù)的條件。
2.根據(jù)權(quán)利要求1所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,SI具體為對(duì)用戶(hù)查詢(xún)語(yǔ)句進(jìn)行分詞和詞性標(biāo)注,并從切分出的詞中篩選出與遙感數(shù)據(jù)屬性有關(guān)的部分,作為關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,SI包括以下步驟: SI I,建立遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic ; S12,利用正則表達(dá)式從所述查詢(xún)語(yǔ)句中匹配提取得到待處理關(guān)鍵詞; 和/或 利用ICTCLAS2012漢語(yǔ)分詞軟件和所述遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic從所述查詢(xún)語(yǔ)句中提取得到待處理關(guān)鍵詞。
4.根據(jù)權(quán)利要求3所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,所述利用正則表達(dá)式匹配提取得到的待處理關(guān)鍵詞包括:時(shí)間、經(jīng)緯度和比例尺中的一種或幾種;所述利用ICTCLAS2012漢語(yǔ)分詞軟件和所述遙感專(zhuān)業(yè)術(shù)語(yǔ)詞典RSDic從所述查詢(xún)語(yǔ)句中提取得到的待處理關(guān)鍵詞包括:衛(wèi)星、傳感器、空間區(qū)域和應(yīng)用中的一種或幾種。
5.根據(jù)權(quán)利要求3所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,S12后還包括以下步驟: S13,把從所述查詢(xún)語(yǔ)句中提取出的所有關(guān)鍵詞表示為一 N元組: vKeyfford(ffl, W2,..., WN) 其中W為關(guān)鍵詞KeyWord S14,把任何一個(gè)KeyWord都由五元組來(lái)描述:Keyfford(Word, Attribute, No, SameFlag, WordDB) 其中Word是關(guān)鍵詞,Attribute是關(guān)鍵詞的詞性,No表示關(guān)鍵詞在源語(yǔ)句中的詞序,SameFlag值為I或0,表示上下文中是否存在跟Word詞性相同的詞,WordDB是Word對(duì)應(yīng)的遙感數(shù)據(jù)庫(kù)語(yǔ)義。
6.根據(jù)權(quán)利要求5所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,S2包括以下步驟: S21,建立遙感數(shù)據(jù)庫(kù)語(yǔ)義詞典DBDic ;利用本體編輯工具Prot6g6構(gòu)建遙感應(yīng)用本體知識(shí)庫(kù)RSAO ; S22,基于所述遙感數(shù)據(jù)庫(kù)語(yǔ)義詞典DBDic對(duì)SI中提取得到的所述關(guān)鍵詞進(jìn)行正規(guī)化和歸一化處理,得到所述關(guān)鍵詞的標(biāo)準(zhǔn)格式的遙感數(shù)據(jù)庫(kù)語(yǔ)義 S23,根據(jù)所述遙感應(yīng)用本體知識(shí)庫(kù)RSAO中的事件應(yīng)用信息與遙感數(shù)據(jù)元數(shù)據(jù)信息的對(duì)應(yīng)關(guān)系,獲得事件應(yīng)用類(lèi)關(guān)鍵詞相應(yīng)的元數(shù)據(jù)信息; S24,將得到的所述遙感數(shù)據(jù)庫(kù)語(yǔ)義和所述元數(shù)據(jù)信息置于所述KeyWord的WordDB屬性中;循環(huán)執(zhí)行S22-S24,直到處理完從所述查詢(xún)語(yǔ)句中提取出的所有關(guān)鍵詞,形成關(guān)鍵詞組。
7.根據(jù)權(quán)利要求6所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,S3包括以下步驟: S31,對(duì)所述關(guān)鍵詞組進(jìn)行組合條件判斷,將復(fù)雜查詢(xún)語(yǔ)句拆分為符合用戶(hù)查詢(xún)意圖的條件組; S32,對(duì)相鄰的所述條件組進(jìn)行正序比較和倒序比較,完善所述條件組。
8.根據(jù)權(quán)利要求7所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,所述組合條件是目標(biāo)關(guān)鍵詞與相鄰關(guān)鍵詞Attribute不同且在非相鄰的關(guān)鍵詞中存在與目標(biāo)關(guān)鍵詞Attribute相同的詞;所述組合條件判斷具體為迭代判斷關(guān)鍵詞組vKeyWord是否符合所述組合條件,如符合,則以目標(biāo)關(guān)鍵詞為界將vKeyWord劃分為多個(gè)條件組Wordlists (ffordlistI, Wordlist2,...),并將與目標(biāo)關(guān)鍵詞Attribute相同的關(guān)鍵詞的SameFlag標(biāo)記為I ;否則,判定源語(yǔ)句為簡(jiǎn)單句,將vKeyWord作為單一條件組Wordlist返回。
9.根據(jù)權(quán)利要求7所述的遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法,其特征在于,所述正序比較和倒序比較具體為:對(duì)已生成的Wordlists中相鄰條件組進(jìn)行正序和倒序比較,以ffordlistl, Wordlist2標(biāo)識(shí):按照詞序,從前往后正序比較Wordlistl中SameFlag為I的關(guān)鍵詞之前的關(guān)鍵詞與WordliSt2關(guān)鍵詞的Attribute是否相同,全部不同時(shí)將目標(biāo)關(guān)鍵詞加入Wordlist2中;然后按照相同的方法從后往前倒序比較Wordlist2的關(guān)鍵詞與ffordlistl中SameFlag為I的 關(guān)鍵詞之后的所有關(guān)鍵詞Attribute,從而完善Wordlistl。
10.一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理裝置,其特征在于,包括: 關(guān)鍵詞提取模塊,用于切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞; 語(yǔ)義挖掘模塊,用于對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組; 語(yǔ)義分析模塊,用于對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。
全文摘要
本發(fā)明公開(kāi)了一種遙感數(shù)據(jù)檢索自然語(yǔ)言的處理方法及裝置,該方法包括步驟S1,切分用戶(hù)的查詢(xún)語(yǔ)句,從中提取得到待處理關(guān)鍵詞;S2,對(duì)所述待處理關(guān)鍵詞進(jìn)行語(yǔ)義挖掘,得到標(biāo)準(zhǔn)格式的關(guān)鍵詞組;S3,對(duì)所述關(guān)鍵詞組進(jìn)行語(yǔ)義分析,得到條件組,以用作檢索遙感數(shù)據(jù)的條件。利用本發(fā)明對(duì)遙感數(shù)據(jù)的自然查詢(xún)語(yǔ)言進(jìn)行處理,可克服一般自然語(yǔ)言處理方法解析不足的缺點(diǎn),能有效地“理解”自然查詢(xún)語(yǔ)句并將其轉(zhuǎn)化為符合用戶(hù)意圖的查詢(xún)條件組,從而解決現(xiàn)有技術(shù)中存在的前述問(wèn)題。
文檔編號(hào)G06F17/27GK103092979SQ20131003723
公開(kāi)日2013年5月8日 申請(qǐng)日期2013年1月31日 優(yōu)先權(quán)日2013年1月31日
發(fā)明者楊進(jìn), 宣萱, 劉建波, 劉士彬, 梁龍彬, 戴芹, 馬彩虹, 張靜, 段建波, 李信鵬, 屈倩, 劉巍 申請(qǐng)人:中國(guó)科學(xué)院對(duì)地觀測(cè)與數(shù)字地球科學(xué)中心