專利名稱:一種地址匹配的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及地理信息數(shù)據(jù)處理領(lǐng)域,特別是涉及一種地址匹配的方法和系統(tǒng)。
背景技術(shù):
地理信息系統(tǒng)(GIS, Geographic Information System)是一種基于計(jì)算機(jī)的 工具,它可以對(duì)在地球上存在的東西和發(fā)生的事件進(jìn)行成圖和分析。GIS技術(shù) 把地圖這種獨(dú)特的視覺化效果和地理分析功能與一般的數(shù)據(jù)庫(kù)操作(例如查詢 和統(tǒng)計(jì)分析等)集成在一起。這種能力使GIS與其他信息系統(tǒng)相區(qū)別,從而使 其在廣泛的公眾和個(gè)人、企事業(yè)單位中解釋事件、預(yù)測(cè)結(jié)果、規(guī)劃戰(zhàn)略等中具 有實(shí)用價(jià)值。
地理信息系統(tǒng)技術(shù)的應(yīng)用已經(jīng)從專業(yè)領(lǐng)域走到社會(huì)生活和工作的方方面 面,從城市的規(guī)劃管理,到投遞員的投遞線路,凡是與地理位置相關(guān)的信息, 都可以利用地理信息系統(tǒng)技術(shù)來管理。沒有地圖,就無從談及地理信息系統(tǒng)。 由此,引申了這樣一個(gè)問題一一這些地圖從哪里來?我們通常說的地圖,是由 國(guó)家專業(yè)的職能部門來完成各種比例尺地圖的生產(chǎn)和制作,這些地圖表現(xiàn)了基 本的地理面貌一一山川河流的分布,城市道路、街區(qū)分布等等。但是, <義僅是 這樣地圖信息是遠(yuǎn)遠(yuǎn)不能適應(yīng)我們的需求,很多人文、經(jīng)濟(jì)信息都與地理位置 相關(guān),而這些信息是無法在基礎(chǔ)地圖中得到的。這些信息的原始載體都是地址 一一學(xué)校、醫(yī)院、各類工商企業(yè)、居住地址等等,這些地址信息都在相關(guān)的專 業(yè)部門管理,但這些載有地理位置的地址僅僅是文字描述,并沒有轉(zhuǎn)化成地理 空間位置,這些信息的空間地理位置圖該怎樣得到?傳統(tǒng)的方法,我們稱之為 "掃街",就是通過人工的方法,到實(shí)地去采集地址的坐標(biāo)(如利用手持GPS 定位儀等等),然后再將這些采集的坐標(biāo)點(diǎn)制作成圖。"掃街"的方法有很多弊 端,最明顯的就是生產(chǎn)周期長(zhǎng),人力資源成本高。而且,對(duì)于每個(gè)單位來說, 掃街采集地址位置還存在實(shí)施的難度,對(duì)于大數(shù)據(jù)量的點(diǎn)位分布圖,幾乎無法 滿足實(shí)際應(yīng)用的需要。
因此,迫切需要本領(lǐng)域技術(shù)人員解決的技術(shù)問題之一就是如何提出一種
地址匹配的解決方案,能夠由計(jì)算機(jī)自動(dòng)執(zhí)行,簡(jiǎn)單、方便地將文字性描述的 地理位置信息轉(zhuǎn)化成可以被GIS系統(tǒng)利用的地理坐標(biāo)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種地址匹配的方法和系統(tǒng),能夠非常
簡(jiǎn)單、方便將文字性描述的地理位置信息轉(zhuǎn)化成可以被GIS系統(tǒng)利用的地理坐標(biāo)。
為了解決上述問題,依據(jù)本發(fā)明的實(shí)施例,公開了一種地址匹配的方法, 包括接收原始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素 和門牌號(hào)的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信 息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;依據(jù)所述分詞結(jié)果 中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并 根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐 標(biāo)信息。
進(jìn)一步,當(dāng)分詞結(jié)果包括至少兩個(gè)地址要素時(shí),還包括判斷前后兩個(gè)地 址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予該分詞結(jié)果相應(yīng) 的第一匹配度。
進(jìn)一步,當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),該方法還包括獲取所述 分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù) 所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在預(yù)置的第 二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)4A詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情 況賦予該匹配結(jié)果相應(yīng)的第三匹配度。
進(jìn)一步,當(dāng)所述原始地址信息中還包括屬性信息時(shí),該方法還包括依據(jù) 該屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。
進(jìn)一步,該方法還包括計(jì)算每條匹配結(jié)果的綜合匹配度,并排序輸出。
依據(jù)本發(fā)明的另一實(shí)施例,還公開了一種地址匹配的方法,包括接收原 始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和地物名稱的 分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的地理坐標(biāo);獲取所 述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依
據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)4建詞,在預(yù)置的 第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配
情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。 優(yōu)選的,當(dāng)分詞結(jié)果包括至少兩個(gè)地址要素時(shí),該方法還包括判斷前后
兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予該分詞結(jié)
果相應(yīng)的第一匹配度。
優(yōu)選的,當(dāng)分詞結(jié)果還包括門牌號(hào)時(shí),該方法還包括依據(jù)所述分詞結(jié)果
中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并
根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐
標(biāo)信息。
優(yōu)選的,當(dāng)所述原始地址信息中還包括屬性信息時(shí),該方法還包括依據(jù) 該屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。
優(yōu)選的,該方法還包括計(jì)算每條匹配結(jié)果的綜合匹配度,并排序輸出。 依據(jù)本發(fā)明的另一實(shí)施例,還公開了一種地址匹配的方法,包括接收原 始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括至少兩個(gè)地址要素的分 詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得到; 所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;判斷所述分詞結(jié)果中前后兩個(gè)地 址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng) 的第一匹配度;如果所述分詞結(jié)果中還包括門牌號(hào),則依據(jù)所述分詞結(jié)果中的 地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并依據(jù) 匹配情況賦予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信 息;如果所述分詞結(jié)果中還包括地物名稱,則獲取所述分詞結(jié)果中最大匹配要 素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地理范圍,以 所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空 間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng) 的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;針對(duì)各匹配結(jié)果計(jì)算綜合匹 配度,排序輸出。
優(yōu)選的,當(dāng)所述原始地址信息中還包括屬性信息時(shí),還包括依據(jù)該屬性 信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。
相應(yīng)的,本發(fā)明還提供了一種地址匹配的系統(tǒng),包括接收器,用于接收 原始地址信息;地址分詞器,用于對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地
址要素和門牌號(hào)的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始
地址信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;門牌檢索器, 用于依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行4企 索,獲得匹配結(jié)果,并根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所 述匹配結(jié)果包括地理坐標(biāo)信息。
進(jìn)一步,當(dāng)分詞結(jié)果包括至少兩個(gè)地址要素時(shí),該系統(tǒng)還包括位于地址 分詞器中的判斷模塊,用于判斷前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān) 系,并根據(jù)判斷結(jié)果,賦予該分詞結(jié)果相應(yīng)的第一匹配度。
進(jìn)一 步,當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),該系統(tǒng)還包括空間搜索器, 所述空間搜索器進(jìn)一步包括獲取模塊,用于獲取所述分詞結(jié)果中最大匹配要 素的地理坐標(biāo);確定模塊,用于確定包含該地理坐標(biāo)的地理范圍;搜索模塊, 用于依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在 預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依 據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度。
進(jìn)一步,所述系統(tǒng)還可以包括過濾器,用于依據(jù)所述原始地址信息所包 括的屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。
進(jìn)一步,所述系統(tǒng)還可以包括匹配度計(jì)算器,用于計(jì)算每條匹配結(jié)果的 綜合匹配度;結(jié)果輸出器,用于將各匹配結(jié)果排序輸出。
依據(jù)本發(fā)明的其他實(shí)施例,還公開了一種地址匹配的系統(tǒng),包括
接收器,用于接收原始地址信息;
地址分詞器,用于對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和地 物名稱的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息 分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的地理坐標(biāo);
空間搜索器,所述空間搜索器進(jìn)一步包括獲取模塊,用于獲取所述分詞 結(jié)果中最大匹配要素的地理坐標(biāo);確定模塊,用于確定包含該地理坐標(biāo)的地理 范圍;搜索模塊,用于依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物 名稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲
得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)
果包括地理坐標(biāo)信息。
本發(fā)明還公開了一種地址匹配的系統(tǒng),包括 接收器,接收原始地址信息;
地址分詞器,對(duì)所述原始地址信息進(jìn)行分詞,獲得包括至少兩個(gè)地址要素 的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;
判斷器,用于判斷所述分詞結(jié)果中前后兩個(gè)地址要素是否符合預(yù)置的父子 級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng)的第一匹配度;
門牌檢索器,用于當(dāng)所述分詞結(jié)果中還包括門牌號(hào)時(shí),依據(jù)所述分詞結(jié)果 中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并 依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo) 4呂息5
空間搜索器,用于當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),獲取所述分詞結(jié)
果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定 的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)4定詞,在預(yù)置的第二凄史據(jù) 庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予 該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;
匹配度計(jì)算器,用于針對(duì)各匹配結(jié)果計(jì)算綜合匹配度;
結(jié)果輸出器,用于將各匹配結(jié)果排序輸出。
優(yōu)選的,所述系統(tǒng)還可以包括過濾器,用于依據(jù)所述原始地址信息所包 括的屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。 與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn)
本發(fā)明提供的基于地址分詞庫(kù)的地址匹配方法和系統(tǒng),可進(jìn)行各種地址信 息的匹配和編碼(在地理信息系統(tǒng),將給定的地址轉(zhuǎn)化成地理坐標(biāo)的過程也稱 之為編碼),提供了一種有效的基于程序自動(dòng)方式的地理數(shù)據(jù)采集方法,它將 極大的方便數(shù)據(jù)人員的采集工作,大規(guī)模的擴(kuò)充地理數(shù)據(jù)。它提供的地址匹配 服務(wù)也將為郵遞員投遞、114查詢、數(shù)據(jù)分析、客戶信息管理等很多應(yīng)用方面 提供基礎(chǔ)平臺(tái)。
其次,本發(fā)明建立的地址分詞庫(kù),其中包括有地址詞條和非地址詞條,以 及地址要素之間的父子級(jí)別關(guān)系,從而不僅能夠準(zhǔn)確、有效的拆分原始地理信 息,并且可以通過判斷前后兩個(gè)地址要素的父子級(jí)別關(guān)系,進(jìn)一步保證拆分的 準(zhǔn)確性。再者,本發(fā)明還^是供了進(jìn)一步的門牌號(hào)匹配、區(qū)域搜索、信息過濾等 輔助手段與地址分詞相結(jié)合,從而能夠保證釆用本發(fā)明地址匹配后獲得的地理 坐標(biāo)的準(zhǔn)確性。
圖1是本發(fā)明一種地址匹配的方法實(shí)施例1的步驟流程圖2是本發(fā)明一種地址匹配的方法實(shí)施例4的步驟流程圖; 圖3是本發(fā)明一種地址匹配的方法實(shí)施例5的步驟流程圖; 圖4是本發(fā)明 一種地址匹配的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖; 圖5是本發(fā)明另 一種地址匹配的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖; 圖6是本發(fā)明另 一種地址匹配的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
本發(fā)明可以應(yīng)用在4艮多場(chǎng)景下,例如,114查詢臺(tái)擁有非常多的企事業(yè)地 址信息,但是電話查詢的時(shí)候,只能提供文字地址信息,而用戶仍然無法知道 具體在哪里,或者怎么去。而采用本發(fā)明之后,可以將114查詢臺(tái)所擁有的所 有原始地址信息都由計(jì)算機(jī)批量、自動(dòng)的匹配得到相應(yīng)的地理坐標(biāo)信息,從而 更好的為用戶服務(wù),例如,將地理坐標(biāo)信息發(fā)送給用戶的導(dǎo)航終端,則就可以 幫助用戶方便的找到目的地。再例如,某個(gè)企業(yè)擁有非常多的企事業(yè)地址信息, 希望作進(jìn)一步的數(shù)據(jù)分析或者客戶信息管理時(shí),通過本發(fā)明就可以很方便的將 這些文字的地址信息轉(zhuǎn)換為相應(yīng)的空間地理位置。
本發(fā)明可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè)人計(jì)算 機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基 于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、 大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。
本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例 如程序模塊。 一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的 例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本 發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來 執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地 和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
參照?qǐng)D1,示出了本發(fā)明一種地址匹配的方法實(shí)施例1,所述地址匹配是 指將文字性的描述地址與其空間的地理位置坐標(biāo)建立起對(duì)應(yīng)關(guān)系的過程。該方
法實(shí)施例具體可以包括以下步驟
步驟IOI、接收原始地址信息;例如,從管理部門得到的多個(gè)原始地址信 息中的一條為"中關(guān)村軟件園5號(hào)樓"。
步驟102、對(duì)所述原始地址信息進(jìn)行分詞,得到的分詞結(jié)果包括地址要素 和門牌號(hào);所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素。例如,地址要素為"中關(guān)村 軟件園",門牌號(hào)為"5號(hào)樓"。
所述地址要素一般是指最小拆分的地址單元,例如,北京市、海淀區(qū)、海 龍大廈、國(guó)貿(mào)橋等具有較強(qiáng)地理屬性的詞條。所述地址分詞庫(kù)中的標(biāo)準(zhǔn)地址要 素需要根據(jù)需要進(jìn)行修改和完善。由于一個(gè)地址分詞庫(kù)中的標(biāo)準(zhǔn)地址要素不可 能十全十美,而且,原始地址信息由于來源復(fù)雜,也可能存在很多的不統(tǒng)一或 者不標(biāo)準(zhǔn)之處,所以在本實(shí)施例中,優(yōu)選的,將地址要素和門牌號(hào)結(jié)合進(jìn)行匹 配。
下面對(duì)中文分詞技術(shù)進(jìn)行簡(jiǎn)單介紹。
眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以 字為單位,句子中所有的字連起來才能描述一個(gè)意思。例如,英文句子Iama student,用中文則為"我是一個(gè)學(xué)生"。計(jì)算機(jī)可以很簡(jiǎn)單通過空格知道 student是一個(gè)單詞,但是不能很容易明白"學(xué)"、"生"兩個(gè)字合起來才表示 一個(gè)詞。^J巴中文的漢字序列切分成有意義的詞,就是中文分詞。例如,我是一 個(gè)學(xué)生,分詞的結(jié)果是我是 一個(gè)學(xué)生。下面介紹一些常用的分詞方法
1、 基于字符串匹配的分詞方法是指按照一定的策略將待分析的漢字串
與一個(gè)預(yù)置的機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹 配成功(識(shí)別出一個(gè)詞)。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初 分手段,還需通過利用各種其它的語言信息來進(jìn)一步提高切分的準(zhǔn)確率。
2、 基于特征掃描或標(biāo)志切分的分詞方法是指優(yōu)先在待分析字符串中識(shí) 別和切分出一些帶有明顯特征的詞,以這些詞作為斷點(diǎn),可將原字符串分為較 小的串再來進(jìn)機(jī)械分詞,從而減少匹配的錯(cuò)誤率;或者將分詞和詞類標(biāo)注結(jié)合 起來,利用豐富的詞類信息對(duì)分詞決策提供幫助,并且在標(biāo)注過程中又反過來 對(duì)分詞結(jié)果進(jìn)行檢驗(yàn)、調(diào)整,從而提高切分的準(zhǔn)確率。
3、 基于理解的分詞方法是指通過讓計(jì)算機(jī)模擬人對(duì)句子的理解,達(dá)到 識(shí)別詞的效果。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語義分析,利用句法 信息和語義信息來處理歧義現(xiàn)象。它通常包括三個(gè)部分分詞子系統(tǒng)、句法語 義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句 子等的句法和語義信息來對(duì)分詞歧義進(jìn)行判斷,即它模擬了人對(duì)句子的理解過 程。這種分詞方法需要使用大量的語言知識(shí)和信息。
4、 基于統(tǒng)計(jì)的分詞方法是指,中文信息中由于字與字相鄰共現(xiàn)的頻率 或概率能夠較好的反映成詞的可信度,所以可以對(duì)語料中相鄰共現(xiàn)的各個(gè)字的 組合的頻度進(jìn)行統(tǒng)計(jì),計(jì)算它們的互現(xiàn)信息,以及計(jì)算兩個(gè)漢字X、 Y的相鄰 共現(xiàn)概率。互現(xiàn)信息可以體現(xiàn)漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于 某一個(gè)閾值時(shí),便可認(rèn)為此字組可能構(gòu)成了一個(gè)詞。這種方法只需對(duì)語料中的 字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典。
對(duì)于本發(fā)明而言,由于地址要素詞條一般都比較特殊,因此,主要采用詞 典的方式進(jìn)行, 一般可以在所述的地址分詞庫(kù)中預(yù)置存儲(chǔ)多個(gè)標(biāo)準(zhǔn)地址要素。 例如,在地址分詞庫(kù)中預(yù)先存儲(chǔ)有一個(gè)標(biāo)準(zhǔn)地址要素一一 "中關(guān)村軟件園", 則根據(jù)二者的匹配關(guān)系,可以從原始地址信息"中關(guān)村軟件園5號(hào)樓"中識(shí)別 出一個(gè)地址要素"中關(guān)村軟件園"。
優(yōu)選的,地址分詞庫(kù)可以采用多個(gè)字段進(jìn)行存儲(chǔ),例如,包括標(biāo)準(zhǔn)地址要 素的名稱、地址級(jí)別、父地址所在位置序號(hào)、經(jīng)纟韋度信息、城市ID號(hào)、別名 地址位置序號(hào)等等。其中,地址級(jí)別可以用來確定該地址要素是區(qū)域(面)、道路(線)或者具體位置(點(diǎn));城市ID號(hào)和父地址所在位置序號(hào)可以用來判
定父子級(jí)別關(guān)系是否正確。
對(duì)于本發(fā)明中的門牌號(hào)識(shí)別,則可以采用基于特征掃描或標(biāo)志切分的分詞 方法,因?yàn)橐话愕亻T牌號(hào)表示方式比較固定,例如, 一般都是由阿拉伯?dāng)?shù)字加
中文"號(hào),,字構(gòu)成(如,5號(hào)樓),或者由特定中文字符+阿拉伯?dāng)?shù)字+中文 "號(hào)"字構(gòu)成(如,曱12號(hào))等。
總之,對(duì)于具體的分詞過程,本發(fā)明不需要加以限定,本領(lǐng)域技術(shù)人員可 以根據(jù)需要選用或者組合使用上述方法。
通過步驟102的分詞過程,可能針對(duì)原始地址信息得到一個(gè)或多個(gè)分詞結(jié) 果,從中選取符合預(yù)置條件的分詞結(jié)果進(jìn)行下一步驟即可。
步驟103、依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù) 庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并才艮據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二 匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。所述第一數(shù)據(jù)庫(kù)中可以存儲(chǔ)有與地 址分詞庫(kù)中相同的標(biāo)準(zhǔn)地址要素、地址要素的父地址名稱、以及該標(biāo)準(zhǔn)地址要 素所涉及的門牌、以及各門牌對(duì)應(yīng)的地理坐標(biāo)等(例如,經(jīng)煒度信息等等)。
整個(gè)檢索過程通過門牌索引和門牌數(shù)據(jù)來完成,門牌索引可以包含父級(jí)別 名稱、數(shù)字門牌號(hào)的起點(diǎn)、文字門牌號(hào)的起點(diǎn)、所有門牌號(hào)的結(jié)束點(diǎn)等等。門 牌數(shù)據(jù)包括經(jīng)過排序后的數(shù)字門牌和文字門牌,以及相應(yīng)的地理坐標(biāo)信息等。
具體;^索門牌號(hào)的時(shí)候,可以通過就近原則、二分查找等算法完成。
優(yōu)選的,將每條道路的門牌號(hào)分為數(shù)字門牌和文字門牌,例如,16號(hào)-數(shù)字門牌和曱10號(hào)-文字門牌,以滿足各種門牌號(hào)的需要;并可以將這些門 牌號(hào)按照內(nèi)碼進(jìn)行排序,提高檢索效率。
通過步驟103得到的匹配結(jié)果可能為一個(gè)(例如,準(zhǔn)確匹配),也可能為 多個(gè),例如,有多個(gè)分詞結(jié)果,則可能對(duì)應(yīng)多個(gè)匹配結(jié)果;或者,在第一數(shù)據(jù) 庫(kù)中完全匹配的門牌號(hào)不存在,但是同等相近的有多個(gè),則也會(huì)出現(xiàn)多個(gè)匹配 結(jié)果。
為了評(píng)價(jià)所得到的匹配結(jié)果是否準(zhǔn)確,則可以根據(jù)匹配結(jié)果,賦予各匹配 結(jié)果相應(yīng)的第二匹配度,通過匹配度來說明各個(gè)匹配結(jié)果的準(zhǔn)確程度。
匹配結(jié)果的匹配度,可以用來自動(dòng)的選擇哪些匹配結(jié)果應(yīng)該作為正確結(jié)果
存儲(chǔ)起來,例如,匹配度大于一定閾值的匹配結(jié)果可以直接入庫(kù)。對(duì)于匹配度 小于一定預(yù)置的匹配結(jié)果可以丟棄,也可以進(jìn)一步由人工審核、匹配。
本實(shí)施例通過預(yù)置的標(biāo)準(zhǔn)地址要素將所述的原始地址信息切分得到合適 的地址要素,并進(jìn)一步通過門牌號(hào)查詢得到合適的匹配結(jié)果,從而可以實(shí)現(xiàn)將 原始地址信息(文字信息)與其相應(yīng)的地理坐標(biāo)對(duì)應(yīng)起來。當(dāng)然,其對(duì)應(yīng)關(guān)系 可以通過文字列表的方式展示,或者也可以通過圖示的方式展示,本發(fā)明不需 要對(duì)匹配結(jié)果的展示方式加以限制。
在本發(fā)明的實(shí)施例2中,對(duì)實(shí)施例1作了進(jìn)一步的改進(jìn),為了增加分詞結(jié)
果的準(zhǔn)確度,進(jìn)而保證匹配結(jié)果的準(zhǔn)確,實(shí)施例2還包括以下步驟當(dāng)分詞結(jié) 果包括至少兩個(gè)地址要素時(shí),需要判斷前后兩個(gè)地址要素是否符合預(yù)置的父子 級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予該分詞結(jié)果相應(yīng)的第一匹配度。當(dāng)然,賦予 相應(yīng)的第 一 匹配度僅僅是本發(fā)明的優(yōu)選實(shí)現(xiàn)方式,在此還可以提供其他的實(shí)現(xiàn) 方式,例如,直接結(jié)束針對(duì)該分詞結(jié)果的流程,進(jìn)入對(duì)其他分詞結(jié)果的處理; 或者,提供多個(gè)經(jīng)過自動(dòng)修正的記錄,請(qǐng)用戶手動(dòng)選擇等等。
例如,對(duì)于"北京市海淀區(qū)中關(guān)村軟件園,,,通過分詞可以得到三個(gè)地址 要素"北京市"、"海淀區(qū),,和"中關(guān)村軟件園,,,其中,"北京市,,可以不用進(jìn) 行父子級(jí)別關(guān)系判斷,因?yàn)槠湟呀?jīng)是最大的父級(jí)別了;對(duì)于"海淀區(qū)",該地 址要素和其前面的地址要素"北京市"屬于正確的父子級(jí)別關(guān)系,可以賦予地 址要素"海淀區(qū)"較高的匹配參數(shù);對(duì)于"中關(guān)村軟件園",該地址要素和其 前面的地址要素"海淀區(qū)"也屬于正確的父子級(jí)別關(guān)系,故也可以賦予較高的 匹配參數(shù)。則分詞結(jié)果"北京市"、"海淀區(qū)"和"中關(guān)村軟件園,,的第一匹配 度就可以由上述"海淀區(qū)"的匹配參數(shù)和"中關(guān)村軟件園"的匹配參數(shù)計(jì)算得 到。分詞結(jié)果的匹配度可以反映該分詞結(jié)果的準(zhǔn)確程度,從而間接反映依據(jù)該 分詞結(jié)果得到的匹配結(jié)果的準(zhǔn)確度。
再例如待匹配地址是北京市海淀區(qū)亞運(yùn)村華堂商場(chǎng),則通過判斷父子 級(jí)別關(guān)系,發(fā)現(xiàn)地址要素"亞運(yùn)村,,與其上級(jí)地址要素"海淀區(qū),,不符合父子 級(jí)別關(guān)系,因?yàn)閷?shí)際中的"亞運(yùn)村"屬于"朝陽區(qū)",因此,可以賦予該分詞 結(jié)果較低的匹配度。
本發(fā)明所提供的實(shí)施例3可以在實(shí)施例2或者實(shí)施例1之上作進(jìn)一步的改 進(jìn),當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),實(shí)施例3還可以包括獲取所述分 詞結(jié)果中最大匹配要素(即最大程度上能夠正確匹配到的地址要素)的地理坐 標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地理范圍,以所述分詞結(jié) 果中包括的地物名稱為關(guān)4定詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞 的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配 度。所述匹配結(jié)果包括地理坐標(biāo)信息。
例如,對(duì)于分詞結(jié)果"北京市"、"海淀區(qū)"、"中關(guān)村軟件園,,和"漢王大 廈,,,由于"漢王大廈,,沒有作為標(biāo)準(zhǔn)地址要素存儲(chǔ)在地址分詞庫(kù)中,所以將 其作為地物名稱處理。由于前面三個(gè)地址要素都是完全匹配,并且均滿足父子 級(jí)別,所以取最大匹配要素為"中關(guān)村軟件園",然后通過另外的數(shù)據(jù)庫(kù)獲得 "中關(guān)村軟件園,,所對(duì)應(yīng)的地理坐標(biāo),或者也可以直接從地址分詞庫(kù)中獲得。 由于"中關(guān)村軟件園,,所對(duì)應(yīng)的地理坐標(biāo)本身就是一個(gè)區(qū)域,因此,可以直接 確定一個(gè)相同的地理范圍用于搜索,然后通過空間搜索技術(shù),在預(yù)置的第二數(shù) 據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果。
再例如,待匹配地址為北京市海淀區(qū)五道口華清商務(wù)會(huì)館。如果經(jīng)過地 址分詞以后,能夠識(shí)別到"五道口"這一級(jí),那么"五道口,,地址要素就是最 大匹配要素。剩下的匹配步驟,就是以該點(diǎn)為中心,到周邊查找"華清商務(wù)會(huì) 館"。
如果待匹配地址為北京市海淀區(qū)亞運(yùn)村華堂商場(chǎng),經(jīng)過地址分詞以后, 能夠識(shí)別到"海淀區(qū)"和"亞運(yùn)村",本來應(yīng)該將"亞運(yùn)村,,作為最大匹配要 素,但是由于"海淀區(qū)"和"亞運(yùn)村"之間的父子關(guān)系錯(cuò)誤,所以此時(shí),可以 通過預(yù)置規(guī)則的限定,將"海淀區(qū),,作為最大匹配要素,或者將"亞運(yùn)村"作 為最大匹配要素,或者同時(shí)以"海淀區(qū),,和"亞運(yùn)村,,分別對(duì)"華堂商場(chǎng),,進(jìn) 行空間搜索。
如果待匹配地址為北京市海淀區(qū)海亞村華堂商場(chǎng),經(jīng)過地址分詞以后, 由于"海亞村"無法正確匹配,所以將"海淀區(qū)"作為最大匹配要素,進(jìn)行空 間搜索。
空間搜索 一般可以通過建立空間索引的方式實(shí)現(xiàn),空間索引是指在存儲(chǔ)空
間數(shù)據(jù)時(shí)依據(jù)空間對(duì)象的位置和形狀或空間對(duì)象之間的某種空間關(guān)系,按一定 順序排列的一種數(shù)據(jù)結(jié)構(gòu),其中包含空間對(duì)象的概要信息如對(duì)象的標(biāo)識(shí)、外接 矩形及指向空間對(duì)象實(shí)體的指針等。目前GIS中常用的索引方式有格網(wǎng)索引, R樹索引、四叉樹索引等。通過空間索引的篩選作用,可以迅速排除大量與特 定空間操作無關(guān)的空間對(duì)象,從而提高空間操作的速度和效率。
以四叉樹索引為例,四叉樹索引的思想就是將所有要素的總范圍劃分為2 X 2的網(wǎng)格,分析每一個(gè)網(wǎng)格只要該網(wǎng)格內(nèi)的要素個(gè)數(shù)大于規(guī)定值就將該網(wǎng)格 進(jìn)一步分割,即樹的深度加l。四叉樹缺點(diǎn)是當(dāng)要素各圖形范圍大小差異很大 或要素空間分布不均勻是,四叉樹的分割層次可能很深,但是對(duì)于地圖而言恰 好是非常合適。
假設(shè)針對(duì)中國(guó)整個(gè)地圖建立的四叉樹索引,則頂層網(wǎng)格就是將中國(guó)這個(gè)大
區(qū)域均等劃分成一定數(shù)量的大網(wǎng)格(比如每個(gè)大網(wǎng)格可以是6個(gè)經(jīng)度,5個(gè)綽
度),四叉網(wǎng)格則是在每個(gè)大網(wǎng)格之下進(jìn)行的多極四叉細(xì)分。
例如,依據(jù)"中關(guān)村軟件園,,所對(duì)應(yīng)的地理坐標(biāo)區(qū)域,從四叉樹索引中獲 取所涉及的所有地物的存儲(chǔ)位置,然后依據(jù)關(guān)鍵詞(地物名稱,如前述的"漢 王大廈")在地物基礎(chǔ)數(shù)據(jù)庫(kù)中的相應(yīng)位置進(jìn)行搜索匹配。地物基礎(chǔ)數(shù)據(jù)庫(kù)是 用來存儲(chǔ)地物名稱及其各種屬性信息的。
再例如,對(duì)于分詞結(jié)果"北京市"、"海淀區(qū)"、"中關(guān)村軟件園"、"5號(hào)樓" 和"漢王大廈,,,則由于"5號(hào)樓"在門牌檢索中也是完全匹配的,所以"5 號(hào)樓"也可以作為最大匹配要素,獲取其相應(yīng)的地理坐標(biāo)之后,可以以該地理 坐標(biāo)為中心,500米為半徑,確定待檢索的地理范圍。需要說明的是,在一些 情況下,如果通過門牌檢索,得到了 "北京市"、"海淀區(qū)"、"中關(guān)村軟件園"、 "5號(hào)樓,,相應(yīng)的地理坐標(biāo)信息,則可以不進(jìn)行后面針對(duì)"漢王大廈,,的進(jìn)一 步空間搜索,因?yàn)榇蠖鄶?shù)情況下"5號(hào)樓,,和"漢王大廈,,是并列的描述同一 空間位置的詞條,故可以簡(jiǎn)化計(jì)算步驟。當(dāng)然,具體的門牌4企索和進(jìn)一步空間 檢索的關(guān)系,可以由本領(lǐng)域技術(shù)人員根據(jù)需要選擇使用即可,本發(fā)明不需要在 此加以限定。
進(jìn)一步,當(dāng)所述原始地址信息中還包括屬性信息時(shí),例如,還包括"電話
5920 x x x x,,,前述的實(shí)施例1、 2和3則都還可以包括獲取匹配結(jié)果對(duì)應(yīng) 的屬性信息(例如,從地物基礎(chǔ)數(shù)據(jù)庫(kù)獲取),然后依據(jù)關(guān)鍵詞"電話5920x x x x"對(duì)匹配結(jié)果進(jìn)行過濾,或者進(jìn)行匹配度的調(diào)整。當(dāng)然,對(duì)于實(shí)施例3, 則可以將該過濾步驟集成在關(guān)鍵詞搜索過程中一并完成。
優(yōu)選的,前述的各個(gè)實(shí)施例還可以包括計(jì)算每條匹配結(jié)果的綜合匹配度, 并排序輸出。因?yàn)楫?dāng)前述的多個(gè)實(shí)施例單獨(dú)實(shí)施或者組合實(shí)施的時(shí)候, 一條匹 配結(jié)果可能對(duì)應(yīng)有多個(gè)匹配度,因此,需要計(jì)算一綜合匹配度。
參照?qǐng)D2,示出了一種地址匹配的方法實(shí)施例4,具體可以包括 步驟401、接收原始地址信息;
步驟402、對(duì)所述原始地址信息進(jìn)行分詞,得到的分詞結(jié)果包括地址要素 和地物名稱;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的地理坐標(biāo);
步驟403、獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);
步驟404、確定包含該地理坐標(biāo)的地理范圍;
步驟405、依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為 關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配 結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括 地理坐標(biāo)信息。
本實(shí)施例與實(shí)施例1的主要區(qū)別在于,本實(shí)施例將地址要素分詞和空間搜 索結(jié)合起來,而實(shí)施例l是將地址要素分詞和門牌號(hào)搜索結(jié)合起來,二者都在 一定程度上可以提高地址匹配的準(zhǔn)確度。實(shí)施例1主要適用于原始地址信息包 括地址元素和門牌號(hào)的情況,而本實(shí)施例主要適用于原始地址信息包括地址元 素和其他地物名稱的情況。
對(duì)于經(jīng)過本實(shí)施例之后,已經(jīng)得到了符合預(yù)置條件的匹配結(jié)果時(shí),是否還 還需要進(jìn)行門牌號(hào)的檢索呢?實(shí)際上,本領(lǐng)域技術(shù)人員才艮據(jù)需要設(shè)定即可。例 如,對(duì)于分詞結(jié)果"北京市"、"海淀區(qū)"、"中關(guān)村軟件園"、"5號(hào)樓,,和"漢 王大廈",如果"漢王大廈"屬于地址分詞庫(kù)中的一個(gè)標(biāo)準(zhǔn)地址要素,則經(jīng)過 本實(shí)施例的匹配過程之后,可以得到"北京市海淀區(qū)中關(guān)村軟件園漢王大廈,,
較為準(zhǔn)確的地理坐標(biāo)信息。此時(shí),如果為了簡(jiǎn)化步驟、節(jié)約計(jì)算資源,則可以 不需要針對(duì)門牌號(hào)"5號(hào)樓,,的檢索步驟。然而,如果為了進(jìn)一步的精確搜索, 或者需要比較門牌搜索和空間搜索得到的匹配結(jié)果的匹配度,以期望獲得更準(zhǔn)
確的地理坐標(biāo)信息,則可以進(jìn)一步執(zhí)行針對(duì)門牌號(hào)"5號(hào)樓"的檢索步驟。
針對(duì)實(shí)施例1的改進(jìn)之處也可以應(yīng)用在本實(shí)施例中,例如,當(dāng)所述原始地
址信息中還包括屬性信息時(shí),還包括依據(jù)該屬性信息,對(duì)所得的匹配結(jié)果進(jìn) 行過濾?;蛘?,在結(jié)果輸出時(shí)還可以包括計(jì)算每條匹配結(jié)果的綜合匹配度, 并排序輸出。
前述的實(shí)施例2改進(jìn)之處對(duì)父子級(jí)別關(guān)系的判斷,也可以應(yīng)用在實(shí)施例 4上,為了節(jié)約篇幅,在此不再重復(fù)。
參照?qǐng)D3,示出了一種地址匹配的方法實(shí)施例5,具體可以包括 步驟501、接收原始地址信息;
步驟502、對(duì)所述原始地址信息進(jìn)行分詞,得到的分詞結(jié)果包括至少兩個(gè) 地址要素;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;
步驟503、判斷所述分詞結(jié)果中前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí) 別關(guān)系,并根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng)的第一匹配度;
步驟504、如果所述分詞結(jié)果中還包括門牌號(hào),則依據(jù)所述分詞結(jié)果中的 地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并依據(jù) 匹配情況賦予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信 息;
步驟505、如果所述分詞結(jié)果中還包括地物名稱,則獲取所述分詞結(jié)果中 最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地 理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中 進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹 配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息; 步驟506、針對(duì)各匹配結(jié)果計(jì)算綜合匹配度,排序輸出。 實(shí)施例5是本發(fā)明的一個(gè)優(yōu)選實(shí)施例,可以滿足大多數(shù)的地址匹配情況,
因?yàn)?一般情況下,原始地址信息由管理部門或者企業(yè)自行收集獲得,比較詳細(xì), 通常都會(huì)包括兩個(gè)或者兩個(gè)以上的地址元素。并且, 一般的原始地址信息都是 采用門牌號(hào)方式或者地物名稱方式的,所以應(yīng)用本實(shí)施例即可完成大多數(shù)的地 址匹配《壬務(wù)。
優(yōu)選的,當(dāng)所述原始地址信息中還包括屬性信息時(shí),實(shí)施例5還可以包括 依據(jù)該屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。
進(jìn)一步,如果經(jīng)過步驟504之后得到的匹配結(jié)果的綜合匹配度或者第二匹 配度能夠達(dá)到預(yù)定條件,則可以省略步驟505,直接排序輸出。
參照?qǐng)D4,示出了 一種地址匹配的系統(tǒng)實(shí)施例,具體可以包括 接收器601,用于接收原始地址信息;
地址分詞器602,用于對(duì)所述原始地址信息進(jìn)行分詞,得到的分詞結(jié)果包 括地址要素和門牌號(hào);所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)6021對(duì)所述原始 地址信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;
門牌檢索器603,用于依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置 的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并根據(jù)匹配結(jié)果,賦予各匹配結(jié)果 相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。
在本發(fā)明的另一實(shí)施例中,還可以包括位于地址分詞器中的判斷模塊, 用于判斷前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果, 賦予該分詞結(jié)果相應(yīng)的第一匹配度。當(dāng)?shù)谝黄ヅ涠鹊陀谝欢ㄩ熤禃r(shí),可以過濾 該分詞結(jié)果。
在本發(fā)明的另一實(shí)施例中,還包括空間搜索器,用于進(jìn)一步完成在一定空 間范圍內(nèi)的POI (Point of Interest,興趣點(diǎn))搜索。所述空間搜索器進(jìn)一步包 括獲取模塊,用于獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定模塊, 用于確定包含該地理坐標(biāo)的地理范圍;搜索模塊,用于依據(jù)所確定的地理范圍, 以所述分詞結(jié)果中包括的地物名稱為關(guān)4定詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理 空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相 應(yīng)的第三匹配度。
優(yōu)選的,前述的各個(gè)實(shí)施例還可以進(jìn)一步包括過濾器,用于依據(jù)所述原
始地址信息所包括的屬性信息,對(duì)所得的匹配結(jié)果進(jìn)行過濾。以及,匹配度計(jì) 算器,用于計(jì)算每條匹配結(jié)果的綜合匹配度;結(jié)果輸出器,用于將各匹配結(jié)果 排序輸出。
參照?qǐng)D5,示出了另一種地址匹配的系統(tǒng)實(shí)施例,具體可以包括 接收器701,用于接收原始地址信息;
地址分詞器702,用于對(duì)所述原始地址信息進(jìn)^f亍分詞,得到的分詞結(jié)果包 括地址要素和地物名稱;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)7021對(duì)所述原 始地址信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的 地理坐標(biāo);
空間搜索器703,所述空間搜索器進(jìn)一步包括
獲取模塊7031,用于獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo); 確定模塊7032,用于確定包含該地理坐標(biāo)的地理范圍; 搜索模塊7033,用于依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的 地物名稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜 索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述 匹配結(jié)果包括地理坐標(biāo)信息。
前述各實(shí)施例的改進(jìn)之處也可以應(yīng)用在本實(shí)施例中,在此不再贅述。 參照?qǐng)D6,示出了另一種地址匹配的系統(tǒng)實(shí)施例,具體可以包括 接收器801,接收原始地址信息;
地址分詞器802,對(duì)所述原始地址信息進(jìn)行分詞,得到的分詞結(jié)果包括至 少兩個(gè)地址要素;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)8021對(duì)所述原始地址 信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;
判斷器803,用于判斷所述分詞結(jié)果中前后兩個(gè)地址要素是否符合預(yù)置的 父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng)的第一匹配度;
門牌檢索器804,用于當(dāng)所述分詞結(jié)果中還包括門牌號(hào)時(shí),依據(jù)所述分詞 結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第 一 數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果, 并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐 標(biāo)信息;
空間搜索器805,用于當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),獲取所述分
詞結(jié)果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所 確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)^t詞,在預(yù)置的第二 數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況 賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;
過濾器806,用于依據(jù)所述原始地址信息所包括的屬性信息,對(duì)所得的匹 配結(jié)果進(jìn)行過濾;
匹配度計(jì)算器807,用于針對(duì)各匹配結(jié)果計(jì)算綜合匹配度;
結(jié)果輸出器808,用于將各匹配結(jié)果排序輸出。
在實(shí)際應(yīng)用的過程中,本實(shí)施例還可以包括地址匹配管理器,用于協(xié)調(diào)、 控制各個(gè)模塊;以及,參數(shù)解析器,用于對(duì)外部傳來的參數(shù)進(jìn)行解析,獲得所 需的原始地址信息。所述的外部參數(shù)中可能包括匹配結(jié)果的頁面顯示參數(shù)等其 他參數(shù)。比如start (起始頁),pagecap (每頁的條數(shù))等。
1 、終端發(fā)送匹配請(qǐng)求至服務(wù)端;
2、 服務(wù)端經(jīng)過apache的處理,記錄下查詢?nèi)罩荆?br>
3、 由參數(shù)解析器對(duì)接收的參數(shù)字符進(jìn)行解析,提取原始地址信息、地 物名稱、電話、匹配才莫式、分頁等信息;
4、 針對(duì)原始地址信息,利用地址分詞庫(kù)進(jìn)行分詞,得到分詞結(jié)果;
5、 如果分詞結(jié)果能夠滿足父子級(jí)別關(guān)系,則執(zhí)行下一步,否則,掃描 下一分詞結(jié)果;
6、 進(jìn)行門牌號(hào)檢索,如果門牌號(hào)匹配成功(例如,匹配度大于一定閾 值),則直接返回匹配結(jié)果,并計(jì)算相應(yīng)的匹配度;
7、 根據(jù)地址要素中的最大匹配要素確定其大致范圍,然后在該區(qū)域內(nèi) 進(jìn)行POI空間搜索,返回匹配結(jié)果,并計(jì)算相應(yīng)的匹配度;
8、 如果所接收的參數(shù)字符中還包括電話等屬性信息,則依據(jù)這些屬性 信息對(duì)匹配結(jié)果進(jìn)行過濾;
9、 獲取各匹配結(jié)果的經(jīng)綿度、匹配度信息,對(duì)匹配結(jié)果集,按照分頁 情況構(gòu)建XML字符串并返回終端。
其中的服務(wù)器可以釆用Apache HTTP服務(wù)器,該類服務(wù)器是一個(gè)模塊化
(或說積木式)的程序,管理員可以選擇一些模塊來增加服務(wù)器的某些功能。 這些模塊,可以在創(chuàng)建服務(wù)器程序時(shí)靜態(tài)地編譯到HTTP服務(wù)器的二進(jìn)制代碼
中,也可以編譯成一些獨(dú)立于服務(wù)器程序的Dynamic Shared Objects (DSO)文 件。其中,DSO文件可以在編譯服務(wù)器程序時(shí)創(chuàng)建,也可以在以后利用Apache 擴(kuò)展工具APXS來單獨(dú)創(chuàng)建。
總的來說,本發(fā)明將地址分詞、門牌搜索和/或空間搜索結(jié)合起來,提出 了一種簡(jiǎn)單易行的、準(zhǔn)確率較高的地址匹配方法。其次,本發(fā)明采用了全新的 地址分詞方案,不僅能夠準(zhǔn)確的分詞,而且能夠才艮據(jù)前后兩個(gè)地址要素的父子 級(jí)別關(guān)系,來判斷是否需要這樣拆分,提高地址分詞的準(zhǔn)確率。
本說明書中的各個(gè)實(shí)施例均釆用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的 都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即 可。對(duì)于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn) 單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
以上對(duì)本發(fā)明所提供的一種地址匹配的方法和系統(tǒng),進(jìn)行了詳細(xì)介紹,本
明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技 術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處, 綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1、一種地址匹配的方法,其特征在于,包括接收原始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和門牌號(hào)的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。
2、 如權(quán)利要求1所述的方法,其特征在于,當(dāng)分詞結(jié)果包括至少兩個(gè)地 址要素時(shí),還包括判斷前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果, 賦予該分詞結(jié)果相應(yīng)的第 一 匹配度。
3、 如權(quán)利要求1所述的方法,其特征在于,當(dāng)所述分詞結(jié)果中還包括地 物名稱時(shí),該方法還包括獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo); 確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在 預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依 據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度。
4、 一種地址匹配的方法,其特征在于,包括 接收原始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和地物名稱的分詞結(jié) 果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得到;所述 地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的地理坐標(biāo);獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在 預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依 據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信 臺(tái)
5、 如權(quán)利要求4所述的方法,其特征在于,當(dāng)分詞結(jié)果包括至少兩個(gè)地 址要素時(shí),該方法還包括判斷前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果, 賦予該分詞結(jié)果相應(yīng)的第 一 匹配度。
6、 如權(quán)利要求4所述的方法,其特征在于,當(dāng)分詞結(jié)果還包括門牌號(hào)時(shí), 該方法還包4舌依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢 索,獲得匹配結(jié)果,并根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所 述匹配結(jié)果包括地理坐標(biāo)信息。
7、 一種地址匹配的方法,其特征在于,包括 接收原始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括至少兩個(gè)地址要素的分詞結(jié)果; 所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得到;所述地址 分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;判斷所述分詞結(jié)果中前后兩個(gè)地址要素是否符合預(yù)置的父子級(jí)別關(guān)系,并 根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng)的第一匹配度;如果所述分詞結(jié)果中還包括門牌號(hào),則依據(jù)所述分詞結(jié)果中的地址要素和 門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行>險(xiǎn)索,獲得匹配結(jié)果,并依據(jù)匹配情況賦 予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;如果所述分詞結(jié)果中還包括地物名稱,則獲取所述分詞結(jié)果中最大匹配要 素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定的地理范圍,以 所述分詞結(jié)果中包括的地物名稱為關(guān)4定詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空 間和關(guān)4定詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng) 的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;針對(duì)各匹配結(jié)果計(jì)算綜合匹配度,排序輸出。
8、 一種地址匹配的系統(tǒng),其特征在于,包括 接收器,用于接收原始地址信息; 地址分詞器,用于對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和門 牌號(hào)的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;門牌檢索器,用于依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第 一數(shù)據(jù)庫(kù)中進(jìn)行;險(xiǎn)索,獲得匹配結(jié)果,并才艮據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng) 的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。
9、 如權(quán)利要求8所述的系統(tǒng),其特征在于,當(dāng)分詞結(jié)果包括至少兩個(gè)地 址要素時(shí),該系統(tǒng)還包括位于地址分詞器中的判斷模塊,用于判斷前后兩個(gè)地址要素是否符合預(yù)置 的父子級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予該分詞結(jié)果相應(yīng)的第一匹配度。
10、 如權(quán)利要求8所述的系統(tǒng),其特征在于,當(dāng)所述分詞結(jié)果中還包括地 物名稱時(shí),該系統(tǒng)還包括空間搜索器,所述空間搜索器進(jìn)一步包括獲取模塊,用于獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定模塊,用于確定包含該地理坐標(biāo)的地理范圍;搜索模塊,用于依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名 稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得 匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度。
11、 一種地址匹配的系統(tǒng),其特征在于,包括 接收器,用于接收原始地址信息;地址分詞器,用于對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和地 物名稱的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息 分詞得到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素及其相應(yīng)的地理坐標(biāo);空間搜索器,所述空間搜索器進(jìn)一步包括獲取模塊,用于獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定模塊,用于確定包含該地理坐標(biāo)的地理范圍;搜索模塊,用于依據(jù)所確定的地理范圍,以所述分詞結(jié)果中包括的地物名 稱為關(guān)4建詞,在預(yù)置的第二數(shù)據(jù)庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得 匹配結(jié)果,并依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果 包括地理坐標(biāo)信息。
12、 一種地址匹配的系統(tǒng),其特征在于,包括 接收器,接收原始地址信息;地址分詞器,對(duì)所述原始地址信息進(jìn)行分詞,獲得包括至少兩個(gè)地址要素 的分詞結(jié)果;所述地址要素依據(jù)預(yù)置的地址分詞庫(kù)對(duì)所述原始地址信息分詞得 到;所述地址分詞庫(kù)中存儲(chǔ)有多個(gè)標(biāo)準(zhǔn)地址要素;判斷器,用于判斷所述分詞結(jié)果中前后兩個(gè)地址要素是否符合預(yù)置的父子 級(jí)別關(guān)系,并根據(jù)判斷結(jié)果,賦予各分詞結(jié)果相應(yīng)的第一匹配度;門牌檢索器,用于當(dāng)所述分詞結(jié)果中還包括門牌號(hào)時(shí),依據(jù)所述分詞結(jié)果 中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并 依據(jù)匹配情況賦予該匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo) 化息;空間搜索器,用于當(dāng)所述分詞結(jié)果中還包括地物名稱時(shí),獲取所述分詞結(jié)果中最大匹配要素的地理坐標(biāo);確定包含該地理坐標(biāo)的地理范圍;依據(jù)所確定 的地理范圍,以所述分詞結(jié)果中包括的地物名稱為關(guān)鍵詞,在預(yù)置的第二數(shù)據(jù) 庫(kù)中進(jìn)行地理空間和關(guān)鍵詞的組合搜索,獲得匹配結(jié)果,并依據(jù)匹配情況賦予 該匹配結(jié)果相應(yīng)的第三匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息;匹配度計(jì)算器,用于針對(duì)各匹配結(jié)果計(jì)算綜合匹配度;結(jié)果輸出器,用于將各匹配結(jié)果排序輸出。
全文摘要
本發(fā)明提供了一種地址匹配的方法和系統(tǒng),所述方法可以包括接收原始地址信息;對(duì)所述原始地址信息進(jìn)行分詞,獲得包括地址要素和門牌號(hào)的分詞結(jié)果;依據(jù)所述分詞結(jié)果中的地址要素和門牌號(hào),在預(yù)置的第一數(shù)據(jù)庫(kù)中進(jìn)行檢索,獲得匹配結(jié)果,并根據(jù)匹配結(jié)果,賦予各匹配結(jié)果相應(yīng)的第二匹配度;所述匹配結(jié)果包括地理坐標(biāo)信息。本發(fā)明能夠非常簡(jiǎn)單、方便將文字性描述的地理位置信息轉(zhuǎn)化成可以被GIS系統(tǒng)利用的地理坐標(biāo),它將極大的方便數(shù)據(jù)人員的采集工作,大規(guī)模的擴(kuò)充地理數(shù)據(jù)。它提供的地址匹配服務(wù)也將為郵遞員投遞、114查詢、數(shù)據(jù)分析、客戶信息管理等很多應(yīng)用方面提供基礎(chǔ)平臺(tái)。
文檔編號(hào)G06F17/30GK101350012SQ200710119220
公開日2009年1月21日 申請(qǐng)日期2007年7月18日 優(yōu)先權(quán)日2007年7月18日
發(fā)明者茳 孫, 孫亞夫, 張高峰, 陳文斌 申請(qǐng)人:北京靈圖軟件技術(shù)有限公司