地名地址識別方法

文檔序號：9865490閱讀：6009來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

地名地址識別方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及計算機(jī)領(lǐng)域，特別設(shè)及一種地名地址識別方法。
【背景技術(shù)】
[0002] 在漢語中，詞是最小的能夠獨立活動的有意義的語言單位。中文分詞是按照特定的規(guī)范將漢語中連續(xù)的字序列切分為合理的詞序列的過程，它是中文信息處理的基礎(chǔ)。常用的分詞算法有機(jī)械分詞法和統(tǒng)計分詞法。按照匹配方向前者又分為正向最大匹配法、逆向最大匹配法和雙向最大匹配法。W上算法從不同側(cè)面(解決未登錄詞、歧義分析和分詞效率)優(yōu)化了中文分詞算法。
[0003] 地名地址分詞是中文分詞在地名地址中的應(yīng)用。它是將地名地址串拆分成若干地理要素的過程。地名地址分詞廣泛應(yīng)用于信息檢索、中文地理編碼和地址信息識別等多方面。一個地名地址分詞算法好不好，關(guān)鍵看該算法對詞典未登錄詞的識別能力。由于我國地址名稱多，詞典無法覆蓋全國地址名稱，因此算法對未登錄地址名稱的識別能力成為分詞算法的瓶頸，解決算法對未登錄地址名稱的識別問題成為分詞的首要問題。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實施例的目的是提供一種地名地址識別方法，W解決現(xiàn)有的地址識別方法識別能力低的問題。
[0005] 本發(fā)明實施例提出一種地名地址識別方法，包括：
[0006] 設(shè)置一地名詞典庫W及一地址要素庫，所述地名詞典庫中存儲多個地名，所述地址要素庫存儲多個地址要素；
[0007] 根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分，獲取匹配子串；
[000引將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配；
[0009] 將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對；
[0010] 將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。
[0011] 依照本發(fā)明較佳實施例所述的地名地址識別方法，
[0012] 所述地名地址識別方法還包括:設(shè)置一特殊符號詞典庫，所述特殊符號詞典庫中存儲多個特殊符號；
[0013] 所述根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分，獲取匹配子串的步驟之前包括:將待識別的未登錄地址與所述特殊符號詞典庫進(jìn)行匹配，去除待識別的未登錄地址中的特殊符號。
[0014] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分，獲取匹配子串的步驟中，采用正向最大匹配法對待識別的未登錄地址進(jìn)行分詞。
[0015] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述地名詞典庫中包括詞典正文、詞索引表W及首字散列表。
[0016] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述詞典正文包括常用漢語詞條、數(shù)字詞條和地名地址詞條。
[0017] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配的步驟之后包括：
[0018] 判斷匹配子串長度是否大于兩個字的字符長度，若否，則將匹配子串的終止位減去一個字的字符長度，并返回前一步驟與所述地名詞典庫中的地名進(jìn)行匹配。
[0019] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述判斷匹配子串長度是否大于兩個字的字符長度的步驟之后包括:若匹配子串長度大于兩個字的字符長度，則將匹配子串切分單個字。
[0020] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對的步驟包括：
[0021] 判斷匹配子串是否W地址要素結(jié)束詞為結(jié)尾；
[0022] 若判斷匹配子串是W地址要素結(jié)束詞為結(jié)尾，則判斷匹配子串是否等于地址要素結(jié)束詞；
[0023] 若匹配子串不是等于地址要素結(jié)束詞，則將當(dāng)下匹配子串確認(rèn)為地名地址。
[0024] 依照本發(fā)明較佳實施例所述的地名地址識別方法，所述判斷匹配子串是否等于地址要素結(jié)束詞的步驟之后包括：
[0025] 若匹配子串不是等于地址要素結(jié)束詞，則判斷當(dāng)下匹配子串是否為地名地址串的第一個詞，若是，則將當(dāng)下匹配子串確認(rèn)為地名地址。
[0026] 依照本發(fā)明較佳實施例所述的地名地址識別方法，將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址的步驟包括:將比對結(jié)果中的匹配子串中非完整的地址要素詞進(jìn)行合并。
[0027] 相對于現(xiàn)有技術(shù)，本發(fā)明的有益效果是:本發(fā)明引入地名地址要素的概念，通過檢查地名地址要素的完整性和處理不能識別的地址名稱，建立基于地址要素的未登錄地址名稱識別機(jī)制，進(jìn)一步改進(jìn)分詞算法，達(dá)到精確切分地名地址串的目的。
【附圖說明】
[0028] 圖1為本發(fā)明實施例的一種地名地址識別方法的流程圖；
[0029] 圖2為本發(fā)明實施例的另一種地名地址識別方法的流程圖。
【具體實施方式】
[0030] 有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點及功效，在W下配合參考圖式的較佳實施例詳細(xì)說明中將可清楚的呈現(xiàn)。通過【具體實施方式】的說明，當(dāng)可對本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得W更加深入且具體的了解，然而所附圖式僅是提供參考與說明之用，并非用來對本發(fā)明加 W限制。
[0031] 請參見圖1，其為本發(fā)明實施例的一種地名地址識別方法的流程圖，其包括W下步驟：
[0032] S11，設(shè)置一地名詞典庫W及一地址要素庫，所述地名詞典庫中存儲多個地名，所述地址要素庫存儲多個地址要素。
[0033] S12,根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分，獲取匹配子串。
[0034] S13,將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配。
[0035] S14,將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對。
[0036] S15,將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。
[0037] 詞典庫是機(jī)械分詞法的基礎(chǔ)，分詞詞典機(jī)制的優(yōu)劣直接影響到中文分詞的速度和效率。本發(fā)明可W采用基于整詞二分的分詞詞典結(jié)構(gòu)。該詞典結(jié)構(gòu)可W分為詞典正文、詞索引表和首字散列表Ξ級。詞典正文是W詞為單位的有序表，詞索引表是指向詞典正文中每個詞的指針表，首字散列表是每個詞的首字組成的有序表。通過首字散列表的哈希定位和詞索引表確定指定詞在詞典正文中的位置范圍，進(jìn)而在詞典正文中通過整詞二分進(jìn)行定位。
[0038] 詞典正文可W包括常用漢語詞條、數(shù)字詞條和地名地址詞條。常用漢語詞條收錄中文詞語，用于識別地址中的常用詞語。數(shù)字詞條收錄了漢字、羅馬數(shù)字、阿拉伯?dāng)?shù)字等。地名地址詞條包含省(直轄市）、省會(地級市）、區(qū)(縣、市)和特有地名路名。
[0039] 此外，本發(fā)明還可W單獨建立特殊符號詞典庫，用于解析地名地址中的符號。因為地址用法習(xí)慣的不同，在登記地名地址的過程中可能會出現(xiàn)用符號代替漢字或用符號劃分地理要素名稱的現(xiàn)象。如"城里大街342#"中的"#"，又如"哈爾濱市哈雙北路天然家園小區(qū)7 號樓8-1-2層"中的"一"。本發(fā)明可W依據(jù)國家代碼中屯、組織機(jī)構(gòu)地址數(shù)據(jù)，總結(jié)歸納特殊符號，在分詞前先解析去除特殊符號，W達(dá)到進(jìn)一步精確切分地名地址串的目的。
[0040] 本發(fā)明所述的地址要素是指在某一限定區(qū)域內(nèi)，可W指定某一具體范圍的地址。一個地址由一個或多個地址要素組成，每個地址要素為地址串中的一個相對獨立的部分。地址要素具有一定的規(guī)律性，一般W省、市、區(qū)、縣、鎮(zhèn)、社區(qū)等關(guān)鍵詞結(jié)尾。根據(jù)運個規(guī)律，可W判斷初分結(jié)果是否為完整地址要素，對完整地址要素不做處理，對相鄰非完整地址要素合并，從而達(dá)到識別未登錄地址名稱的目的。參考建設(shè)部《中華人民共和國行業(yè)標(biāo)準(zhǔn) (CJJ/T 106-2010 ·備案號J455-2010):城市市政綜合監(jiān)管信息系統(tǒng)技術(shù)規(guī)范》，可W將地址要素劃分為11個級別，級別從高到低，如表1所示。根據(jù)11級地址要素特點，總結(jié)出的地址要素，用于判斷地址要素完整性。
[0041]
[0042] 表 1
[0043] -般地名地址字符串中包含漢字、英文字母、數(shù)字和特殊符號，因此分詞前可W先去除特殊符號，再采用FMM算法(正向最大匹配法)分詞，在分詞同時標(biāo)注詞屬性，屬性記錄該詞是否為完整地址要素，最后根據(jù)屬性處理非完整地址要素。
[0044] 請參見圖2,其為本發(fā)明實施例的另一種地名地址識別方法，其包括W下步驟：
[0045] S201去除特殊符號，將地名地址串處理成包含漢字、字母和數(shù)字的字符串；S202確定初始切分長度和匹配子串內(nèi)容；S203匹配子串與詞典進(jìn)行匹配；S204判斷是否成功：成功，將結(jié)果劃分出來，初始切分點增加匹配子串的長度，執(zhí)行步驟S207;不成功，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：梁豐;王遵義;翁時鋒;
技術(shù)所有人：浙江萬里學(xué)院;
我是此專利的發(fā)明人

上一篇：多新聞之間相關(guān)性計算方法和裝置的制造方法
上一篇：有限狀態(tài)機(jī)的地址解析方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

地名地址識別方法