欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

地名地址識別方法_2

文檔序號:9865490閱讀:來源:國知局
執(zhí)行步驟 S205;S205判斷匹配子串長度是否大于2(等于2時匹配子串長度將為1,無需匹配直接切分 出單個字):不是,匹配子串終止位減1,執(zhí)行步驟S203;否則,執(zhí)行步驟S206; S206切分單個 字,初始切分點(diǎn)增加1;S207判斷匹配子串是否W地址要素結(jié)束詞為結(jié)尾:若不是,詞屬性賦 值false,執(zhí)行步驟S210;若是,執(zhí)行步驟S208;S208判斷匹配子串是否等于地址要素結(jié)束 詞:若是,執(zhí)行步驟S209;若不是,當(dāng)下詞屬性為true,執(zhí)行步驟S210;S209判斷當(dāng)下詞是否 為地名地址串的第1個詞:若是,當(dāng)下詞屬性為化ue;否則,前1個詞屬性改為false,當(dāng)下詞 屬性為true,執(zhí)行步驟S210;S210判斷切分位置是否超出地址串長度,不是,執(zhí)行步驟S202, 是,執(zhí)行步驟S211;S211檢查分詞結(jié)果屬性,合并非完整地址要素詞,分詞結(jié)束。
[0046] 其中步驟5207、5208、5209、5211識別未登錄地址名稱。首先根據(jù)"不是^地址要素 結(jié)束詞為結(jié)尾的詞一定不是完整地址要素"命題,初步確定非完整地址要素屬性。如"Ξ里 河",當(dāng)詞典未收錄該詞時分詞結(jié)果為"Ξ里/河","Ξ里"不是W地址要素結(jié)束詞為結(jié)尾,它 不是完整的地址要素,屬性為化Ise;其次,根據(jù)"等于地址要素結(jié)束詞的前一個詞不是完整 地址要素詞"命題,完全確定非完整地址要素屬性。如"民院路",分詞結(jié)果為"民/院/路", "院"和"路"都是W完整地址要素結(jié)束詞為結(jié)尾,且都等于地址要素結(jié)束詞,根據(jù)本規(guī)則, "院"不能作為完整地址要素結(jié)束詞,屬性也為化Ise。但當(dāng)運(yùn)種情況出現(xiàn)在地名地址串開頭 時,直接將當(dāng)下詞屬性確定為true,無需其他處理。如"廣場西街","廣場"等于地址要素結(jié) 束詞,但它出現(xiàn)在地名地址串的開始,屬性為true。經(jīng)過W上步驟,即可確定各分詞的屬性。 最后從左到右合并非完整地址要素詞,分詞結(jié)束。例如:"北京市百萬莊Ξ里河路九號",通 過詞典匹配分詞結(jié)果為"北京市/百萬/莊/Ξ里/河/路/九號"。在增加對未登錄地址名稱的 識別機(jī)制后,分詞結(jié)果為"北京市/百萬莊/Ξ里河路/九號"。分詞內(nèi)容與屬性標(biāo)注如表2所 /J、- 〇
[0047]
[004引 表2
[0049] 為解決對未登錄地址名稱的識別問題,本發(fā)明引入地名地址要素的概念。通過檢 查地名地址要素的完整性和處理不能識別的地址名稱,建立基于地址要素的未登錄地址名 稱識別機(jī)制,進(jìn)一步改進(jìn)中文分詞算法,達(dá)到精確切分地名地址串的目的。由于地名地址由 一串名詞組成,不存在中屯、語后置問題,因此本發(fā)明算法基于整詞二分分詞詞典,采用容易 實(shí)現(xiàn)的FMM算法,在此基礎(chǔ)上增加對未登錄地址名稱的識別機(jī)制,實(shí)現(xiàn)對地名地址串的切 分。
[0050] 本發(fā)明W國家代碼中屯、組織機(jī)構(gòu)數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù),選取全國地名地址數(shù)據(jù)1110 條,分為10條,100條,1000條3部分測試。測試環(huán)境為:Intel Core(TM)2 Duo CPU、4GB內(nèi)存 PC機(jī),Windows erver2003操作系統(tǒng),VisualSUidio2005和SQL Server2000數(shù)據(jù)庫。
[0051] 實(shí)驗(yàn)分別實(shí)現(xiàn)了 FMM算法和新算法。部分地名地址串分詞結(jié)果如表3所示。從分詞 結(jié)果來看,新算法在地名地址分詞精度方面有明顯提高。受詞典限制,F(xiàn)MM算法一般只能識 另IJ2級到3級地址要素,而新算法可W識別到10級甚至11級。另外,實(shí)驗(yàn)從分詞精度和分詞消 耗時間2個方面統(tǒng)計(jì)分析了巧巾分詞算法的性能。結(jié)果如表4所示。從分詞精度角度講,新算 法正確率在85 % W上,明顯高于FMM算法。
[00巧]表4
[0056] 本發(fā)明針對地名地址,提出基于地址要素識別機(jī)制的分詞算法。算法基于整詞二 分分詞詞典,采用正向最大分詞方法,增加對未登錄地址名稱的識別機(jī)制。本發(fā)明W國家代 碼中屯、組織機(jī)構(gòu)數(shù)據(jù)為實(shí)驗(yàn)數(shù)據(jù)做測試,從分詞精度和消耗時間2個方面對比新算法和FMM 算法性能。結(jié)果表明發(fā)明的方法分詞精度比FMM算法提高近一倍,特別在對未登錄名詞識別 方面優(yōu)勢突出。
[0057] 通過W上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可W清楚地了解到本發(fā)明實(shí)施例 可W通過硬件實(shí)現(xiàn),也可W借助軟件加必要的通用硬件平臺的方式來實(shí)現(xiàn)?;谶\(yùn)樣的理 解,本發(fā)明實(shí)施例的技術(shù)方案可軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可W存儲在一 個非易失性存儲介質(zhì)(可W是CD-ROM,U盤,移動硬盤等)中,包括若干指令用W使得一臺計(jì) 算機(jī)設(shè)備(可W是個人計(jì)算機(jī),服務(wù)器,或網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明實(shí)施例各個實(shí)施場景所 述的方法。
[0058] W上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對本發(fā)明作任何形式上的限制,雖 然本發(fā)明已W較佳實(shí)施例掲露如上,然而并非用W限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人 員,在不脫離本申請技術(shù)方案范圍內(nèi),當(dāng)可利用上述掲示的技術(shù)內(nèi)容作出些許更動或修飾 為等同變化的等效實(shí)施例,但凡是未脫離本申請技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對 W上實(shí)施例所作的任何簡單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種地名地址識別方法,其特征在于,包括: 設(shè)置一地名詞典庫以及一地址要素庫,所述地名詞典庫中存儲多個地名,所述地址要 素庫存儲多個地址要素; 根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串; 將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配; 將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對; 將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。2. 如權(quán)利要求1所述的地名地址識別方法,其特征在于, 所述地名地址識別方法還包括:設(shè)置一特殊符號詞典庫,所述特殊符號詞典庫中存儲 多個特殊符號; 所述根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串的步驟之前 包括:將待識別的未登錄地址與所述特殊符號詞典庫進(jìn)行匹配,去除待識別的未登錄地址 中的特殊符號。3. 如權(quán)利要求1所述的地名地址識別方法,其特征在于,所述根據(jù)預(yù)設(shè)的切分長度對待 識別的未登錄地址進(jìn)行切分,獲取匹配子串的步驟中,采用正向最大匹配法對待識別的未 登錄地址進(jìn)行分詞。4. 如權(quán)利要求1所述的地名地址識別方法,其特征在于,所述地名詞典庫中包括詞典正 文、詞索引表以及首字散列表。5. 如權(quán)利要求4所述的地名地址識別方法,其特征在于,所述詞典正文包括常用漢語詞 條、數(shù)字詞條和地名地址詞條。6. 如權(quán)利要求1所述的地名地址識別方法,其特征在于,所述將切分獲得的所述匹配子 串與所述地名詞典庫中的地名進(jìn)行匹配的步驟之后包括: 判斷匹配子串長度是否大于兩個字的字符長度,若否,則將匹配子串的終止位減去一 個字的字符長度,并返回前一步驟與所述地名詞典庫中的地名進(jìn)行匹配。7. 如權(quán)利要求6所述的地名地址識別方法,其特征在于,所述判斷匹配子串長度是否大 于兩個字的字符長度的步驟之后包括:若匹配子串長度大于兩個字的字符長度,則將匹配 子串切分單個字。8. 如權(quán)利要求1所述的地名地址識別方法,其特征在于,所述將匹配成功的匹配子串與 所述地址要素庫中的地址要素進(jìn)行比對的步驟包括: 判斷匹配子串是否以地址要素結(jié)束詞為結(jié)尾; 若判斷匹配子串是以地址要素結(jié)束詞為結(jié)尾,則判斷匹配子串是否等于地址要素結(jié)束 詞; 若匹配子串不是等于地址要素結(jié)束詞,則將當(dāng)下匹配子串確認(rèn)為地名地址。9. 如權(quán)利要求8所述的地名地址識別方法,其特征在于,所述判斷匹配子串是否等于地 址要素結(jié)束詞的步驟之后包括: 若匹配子串不是等于地址要素結(jié)束詞,則判斷當(dāng)下匹配子串是否為地名地址串的第一 個詞,若是,則將當(dāng)下匹配子串確認(rèn)為地名地址。10. 如權(quán)利要求1所述的地名地址識別方法,其特征在于,將比對結(jié)果中存在一致地址 要素的匹配子串確定為識別出的地名地址的步驟包括:將比對結(jié)果中的匹配子串中非完整 的地址要素詞進(jìn)行合并。
【專利摘要】本發(fā)明提出一種地名地址識別方法,包括:設(shè)置一地名詞典庫以及一地址要素庫,所述地名詞典庫中存儲多個地名,所述地址要素庫存儲多個地址要素;根據(jù)預(yù)設(shè)的切分長度對待識別的未登錄地址進(jìn)行切分,獲取匹配子串;將切分獲得的所述匹配子串與所述地名詞典庫中的地名進(jìn)行匹配;將匹配成功的匹配子串與所述地址要素庫中的地址要素進(jìn)行比對;將比對結(jié)果中存在一致地址要素的匹配子串確定為識別出的地名地址。本發(fā)明引入地名地址要素的概念,通過檢查地名地址要素的完整性和處理不能識別的地址名稱,建立基于地址要素的未登錄地址名稱識別機(jī)制,進(jìn)一步改進(jìn)分詞算法,達(dá)到精確切分地名地址串的目的。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105630765
【申請?zhí)枴緾N201510971470
【發(fā)明人】梁豐, 王遵義, 翁時鋒
【申請人】浙江萬里學(xué)院
【公開日】2016年6月1日
【申請日】2015年12月21日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
澎湖县| 西峡县| 莫力| 天祝| 洛浦县| 化德县| 灵武市| 襄城县| 霍邱县| 深州市| 万山特区| 拉孜县| 体育| 赤壁市| 秦安县| 灵璧县| 临桂县| 长寿区| 雷波县| 玉溪市| 贡嘎县| 通道| 二连浩特市| 花莲县| 吕梁市| 镇远县| 鸡东县| 友谊县| 桂东县| 宁陕县| 高雄市| 三门峡市| 耿马| 五原县| 梨树县| 高阳县| 淮安市| 汾阳市| 高台县| 泸定县| 富锦市|