地名地址識別方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明設(shè)及計算機(jī)領(lǐng)域,特別設(shè)及一種地名地址識別方法。
【背景技術(shù)】
[0002] 在漢語中,詞是最小的能夠獨立活動的有意義的語言單位。中文分詞是按照特定 的規(guī)范將漢語中連續(xù)的字序列切分為合理的詞序列的過程,它是中文信息處理的基礎(chǔ)。常 用的分詞算法有機(jī)械分詞法和統(tǒng)計分詞法。按照匹配方向前者又分為正向最大匹配法、逆 向最大匹配法和雙向最大匹配法。W上算法從不同側(cè)面(解決未登錄詞、歧義分析和分詞效 率)優(yōu)化了中文分詞算法。
[0003] 地名地址分詞是中文分詞在地名地址中的應(yīng)用。它是將地名地址串拆分成若干地 理要素的過程。地名地址分詞廣泛應(yīng)用于信息檢索、中文地理編碼和地址信息識別等多方 面。一個地名地址分詞算法好不好,關(guān)鍵看該算法對詞典未登錄詞的識別能力。由于我國地 址名稱多,詞典無法覆蓋全國地址名稱,因此算法對未登錄地址名稱的識別能力成為分詞 算法的瓶頸,解決算法對未登錄地址名稱的識別問題成為分詞的首要問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例的目的是提供一種地名地址識別方法,W解決現(xiàn)有的地址識別方法 識別能力低的問題。
[0005] 本發(fā)明實施例提出一種地名地址識別方法,包括:
[0006] 設(shè)置一地名詞典庫W及一地址要素庫,所述地名詞典庫中存儲多個地名,所述地 址要素庫存儲多個地址要素;
[0007] 根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串;
[000引將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配;
[0009] 將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對;
[0010] 將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。
[0011] 依照本發(fā)明較佳實施例所述的地名地址識別方法,
[0012] 所述地名地址識別方法還包括:設(shè)置一特殊符號詞典庫,所述特殊符號詞典庫中 存儲多個特殊符號;
[0013] 所述根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串的步驟 之前包括:將待識別的未登錄地址與所述特殊符號詞典庫進(jìn)行匹配,去除待識別的未登錄 地址中的特殊符號。
[0014] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述根據(jù)預(yù)設(shè)的切分長度對待 識別的未登錄地址進(jìn)行切分,獲取匹配子串的步驟中,采用正向最大匹配法對待識別的未 登錄地址進(jìn)行分詞。
[0015] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述地名詞典庫中包括詞典正 文、詞索引表W及首字散列表。
[0016] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述詞典正文包括常用漢語詞 條、數(shù)字詞條和地名地址詞條。
[0017] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述將切分獲得的所述匹配子 串與所述地名詞典庫中的地名進(jìn)行匹配的步驟之后包括:
[0018] 判斷匹配子串長度是否大于兩個字的字符長度,若否,則將匹配子串的終止位減 去一個字的字符長度,并返回前一步驟與所述地名詞典庫中的地名進(jìn)行匹配。
[0019] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述判斷匹配子串長度是否大 于兩個字的字符長度的步驟之后包括:若匹配子串長度大于兩個字的字符長度,則將匹配 子串切分單個字。
[0020] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述將匹配成功的匹配子串與 所述地址要素庫中的地址要素進(jìn)行比對的步驟包括:
[0021] 判斷匹配子串是否W地址要素結(jié)束詞為結(jié)尾;
[0022] 若判斷匹配子串是W地址要素結(jié)束詞為結(jié)尾,則判斷匹配子串是否等于地址要素 結(jié)束詞;
[0023] 若匹配子串不是等于地址要素結(jié)束詞,則將當(dāng)下匹配子串確認(rèn)為地名地址。
[0024] 依照本發(fā)明較佳實施例所述的地名地址識別方法,所述判斷匹配子串是否等于地 址要素結(jié)束詞的步驟之后包括:
[0025] 若匹配子串不是等于地址要素結(jié)束詞,則判斷當(dāng)下匹配子串是否為地名地址串的 第一個詞,若是,則將當(dāng)下匹配子串確認(rèn)為地名地址。
[0026] 依照本發(fā)明較佳實施例所述的地名地址識別方法,將比對結(jié)果中存在一致地址要 素的匹配子串確定為識別出的地名地址的步驟包括:將比對結(jié)果中的匹配子串中非完整的 地址要素詞進(jìn)行合并。
[0027] 相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是:本發(fā)明引入地名地址要素的概念,通過檢 查地名地址要素的完整性和處理不能識別的地址名稱,建立基于地址要素的未登錄地址名 稱識別機(jī)制,進(jìn)一步改進(jìn)分詞算法,達(dá)到精確切分地名地址串的目的。
【附圖說明】
[0028] 圖1為本發(fā)明實施例的一種地名地址識別方法的流程圖;
[0029] 圖2為本發(fā)明實施例的另一種地名地址識別方法的流程圖。
【具體實施方式】
[0030] 有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點及功效,在W下配合參考圖式的較佳實 施例詳細(xì)說明中將可清楚的呈現(xiàn)。通過【具體實施方式】的說明,當(dāng)可對本發(fā)明為達(dá)成預(yù)定目 的所采取的技術(shù)手段及功效得W更加深入且具體的了解,然而所附圖式僅是提供參考與說 明之用,并非用來對本發(fā)明加 W限制。
[0031] 請參見圖1,其為本發(fā)明實施例的一種地名地址識別方法的流程圖,其包括W下步 驟:
[0032] S11,設(shè)置一地名詞典庫W及一地址要素庫,所述地名詞典庫中存儲多個地名,所 述地址要素庫存儲多個地址要素。
[0033] S12,根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串。
[0034] S13,將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配。
[0035] S14,將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對。
[0036] S15,將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。
[0037] 詞典庫是機(jī)械分詞法的基礎(chǔ),分詞詞典機(jī)制的優(yōu)劣直接影響到中文分詞的速度和 效率。本發(fā)明可W采用基于整詞二分的分詞詞典結(jié)構(gòu)。該詞典結(jié)構(gòu)可W分為詞典正文、詞索 引表和首字散列表Ξ級。詞典正文是W詞為單位的有序表,詞索引表是指向詞典正文中每 個詞的指針表,首字散列表是每個詞的首字組成的有序表。通過首字散列表的哈希定位和 詞索引表確定指定詞在詞典正文中的位置范圍,進(jìn)而在詞典正文中通過整詞二分進(jìn)行定 位。
[0038] 詞典正文可W包括常用漢語詞條、數(shù)字詞條和地名地址詞條。常用漢語詞條收錄 中文詞語,用于識別地址中的常用詞語。數(shù)字詞條收錄了漢字、羅馬數(shù)字、阿拉伯?dāng)?shù)字等。地 名地址詞條包含省(直轄市)、省會(地級市)、區(qū)(縣、市)和特有地名路名。
[0039] 此外,本發(fā)明還可W單獨建立特殊符號詞典庫,用于解析地名地址中的符號。因為 地址用法習(xí)慣的不同,在登記地名地址的過程中可能會出現(xiàn)用符號代替漢字或用符號劃分 地理要素名稱的現(xiàn)象。如"城里大街342#"中的"#",又如"哈爾濱市哈雙北路天然家園小區(qū)7 號樓8-1-2層"中的"一"。本發(fā)明可W依據(jù)國家代碼中屯、組織機(jī)構(gòu)地址數(shù)據(jù),總結(jié)歸納特 殊符號,在分詞前先解析去除特殊符號,W達(dá)到進(jìn)一步精確切分地名地址串的目的。
[0040] 本發(fā)明所述的地址要素是指在某一限定區(qū)域內(nèi),可W指定某一具體范圍的地址。 一個地址由一個或多個地址要素組成,每個地址要素為地址串中的一個相對獨立的部分。 地址要素具有一定的規(guī)律性,一般W省、市、區(qū)、縣、鎮(zhèn)、社區(qū)等關(guān)鍵詞結(jié)尾。根據(jù)運個規(guī)律, 可W判斷初分結(jié)果是否為完整地址要素,對完整地址要素不做處理,對相鄰非完整地址要 素合并,從而達(dá)到識別未登錄地址名稱的目的。參考建設(shè)部《中華人民共和國行業(yè)標(biāo)準(zhǔn) (CJJ/T 106-2010 ·備案號J455-2010):城市市政綜合監(jiān)管信息系統(tǒng)技術(shù)規(guī)范》,可W將地 址要素劃分為11個級別,級別從高到低,如表1所示。根據(jù)11級地址要素特點,總結(jié)出的地址 要素,用于判斷地址要素完整性。
[0041]
[0042] 表 1
[0043] -般地名地址字符串中包含漢字、英文字母、數(shù)字和特殊符號,因此分詞前可W先 去除特殊符號,再采用FMM算法(正向最大匹配法)分詞,在分詞同時標(biāo)注詞屬性,屬性記錄 該詞是否為完整地址要素,最后根據(jù)屬性處理非完整地址要素。
[0044] 請參見圖2,其為本發(fā)明實施例的另一種地名地址識別方法,其包括W下步驟:
[0045] S201去除特殊符號,將地名地址串處理成包含漢字、字母和數(shù)字的字符串;S202確 定初始切分長度和匹配子串內(nèi)容;S203匹配子串與詞典進(jìn)行匹配;S204判斷是否成功:成 功,將結(jié)果劃分出來,初始切分點增加匹配子串的長度,執(zhí)行步驟S207;不成功,