欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法

文檔序號(hào):9471457閱讀:849來(lái)源:國(guó)知局
面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種地名地址提取與標(biāo)準(zhǔn)化方法,具體涉及一種面向互聯(lián)網(wǎng)、基于互聯(lián)網(wǎng)信息文本信息的特征、對(duì)地名地址信息進(jìn)行提取與標(biāo)準(zhǔn)化的方法,該方法能夠?yàn)榈乩韺?shí)體、互聯(lián)網(wǎng)事件等地理信息的空間定位提供技術(shù)基礎(chǔ)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)成為地理信息的最大聚集處,互聯(lián)網(wǎng)地理信息已經(jīng)進(jìn)入大數(shù)據(jù)時(shí)代,未來(lái)10年至少80%以上的人機(jī)交互文本數(shù)據(jù)涉及地理信息,互聯(lián)網(wǎng)將成為不斷更新的大型地理信息數(shù)據(jù)庫(kù),如何將這些地理信息挖掘出并利用到地理信息服務(wù)中是主要問(wèn)題。
[0003]地名地址數(shù)據(jù)是最常用的社會(huì)公共信息資源,與大眾的日常生活緊密相關(guān),同時(shí),地名地址信息也是政府基礎(chǔ)行政管理的基礎(chǔ)資源。將地名地址信息提取并標(biāo)準(zhǔn)化,使其轉(zhuǎn)化為地理信息服務(wù)的基礎(chǔ)成果,為大眾的生產(chǎn)生活提供支撐,已成為一項(xiàng)迫切的需要。
[0004]現(xiàn)有的地理位置信息挖掘算法主要是利用關(guān)鍵字匹配的方法,由于在互聯(lián)網(wǎng)環(huán)境下文本中的地名地址信息存在描述錯(cuò)誤、不準(zhǔn)確、同音字、不夠標(biāo)準(zhǔn)等問(wèn)題,所以基于關(guān)鍵字匹配的位置信息挖據(jù)算法準(zhǔn)確率較低,不足以滿足各行各業(yè)對(duì)地理信息的要求。

【發(fā)明內(nèi)容】

[0005]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種對(duì)地名地址信息進(jìn)行提取與標(biāo)準(zhǔn)化的方法,該方法能夠大大提升互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,從而為基于地名地址信息的地址匹配過(guò)程及地理實(shí)體、事件等相關(guān)地理信息的空間定位提供技術(shù)基礎(chǔ)。
[0006]為了實(shí)現(xiàn)上述目標(biāo),本發(fā)明采用如下的技術(shù)方案:
[0007]一種面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,包括以下步驟:
[0008]—、建立地名地址基礎(chǔ)資源庫(kù)、形成地名表達(dá)模型和結(jié)構(gòu)化地名詞典;
[0009]二、自動(dòng)解析及提取網(wǎng)頁(yè)信息;
[0010]三、切分文本信息,將文字描述的地名地址切分為結(jié)構(gòu)化的多個(gè)地址要素;
[0011]四、匹配識(shí)別地名地址信息;
[0012]五、基于認(rèn)知度提取地名地址信息;
[0013]六、標(biāo)準(zhǔn)化處理地名地址信息。
[0014]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟一中,
[0015]對(duì)標(biāo)注的基礎(chǔ)地名地址樣本數(shù)據(jù)進(jìn)行多級(jí)地址的關(guān)聯(lián)分析以及各級(jí)地址及其描述信息的結(jié)構(gòu)化處理,通過(guò)建立關(guān)系數(shù)據(jù)庫(kù)形成用于地名地址識(shí)別的基礎(chǔ)資源庫(kù)以及地名表達(dá)模型和結(jié)構(gòu)化地名詞典,
[0016]前述標(biāo)注的基礎(chǔ)地名地址樣本數(shù)據(jù)包括:地名數(shù)據(jù)、國(guó)家基礎(chǔ)地名數(shù)據(jù)和國(guó)家行政區(qū)劃數(shù)據(jù),
[0017]前述用于地名地址識(shí)別的基礎(chǔ)資源庫(kù)包括:規(guī)則庫(kù)、模型庫(kù)和關(guān)聯(lián)關(guān)系庫(kù)。
[0018]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟二中,
[0019]利用元搜索引擎技術(shù)進(jìn)行Web網(wǎng)頁(yè)的自動(dòng)收錄,并根據(jù)HTML結(jié)構(gòu)和解析規(guī)則進(jìn)行Web網(wǎng)頁(yè)的自動(dòng)解析和彳目息提取。
[0020]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟三中,
[0021]利用步驟一建立的地名地址基礎(chǔ)資源庫(kù),在中文自動(dòng)分詞詞典的基礎(chǔ)上進(jìn)行擴(kuò)充,對(duì)互聯(lián)網(wǎng)文本信息數(shù)據(jù)進(jìn)行切分,將文字描述的地名地址切分為結(jié)構(gòu)化的多個(gè)地址要素。
[0022]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟四中,
[0023]利用地名地址以關(guān)鍵詞結(jié)尾的規(guī)律,構(gòu)建地名地址識(shí)別規(guī)則和表達(dá)模型,對(duì)已切分的數(shù)據(jù)結(jié)果進(jìn)行文本環(huán)境下的地名地址識(shí)別匹配,前述地名地址識(shí)別匹配包括:基于篇幅的地名地址識(shí)別和匹配、基于局部的地名地址識(shí)別和匹配。
[0024]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟五中,
[0025]利用地名地址標(biāo)準(zhǔn)化表達(dá)方式和結(jié)構(gòu)化地名詞典進(jìn)行基于認(rèn)知度的地名地址提取,從而實(shí)現(xiàn)面向Web的中文地名地址自動(dòng)識(shí)別和提取,提取的地名地址信息包括:地標(biāo)信息、著名景點(diǎn)、商圈。
[0026]前述的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其特征在于,在步驟六中,
[0027]利用標(biāo)準(zhǔn)化地名地址模型,對(duì)提取的地名地址信息進(jìn)行標(biāo)準(zhǔn)化處理,最終輸出符合既定標(biāo)準(zhǔn)的地名地址結(jié)果。
[0028]本發(fā)明的有益之處在于:實(shí)現(xiàn)了互聯(lián)網(wǎng)網(wǎng)頁(yè)文本信息中文地名地址的自動(dòng)識(shí)別、提取與標(biāo)準(zhǔn)化,提升了互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,為基于地名地址信息的地址匹配過(guò)程及地理實(shí)體、事件等相關(guān)地理信息的空間定位提供了技術(shù)基礎(chǔ)。
【附圖說(shuō)明】
[0029]圖1是本發(fā)明的地名地址提取與標(biāo)準(zhǔn)化方法的流程圖;
[0030]圖2是地名地址數(shù)據(jù)模型關(guān)系圖;
[0031 ] 圖3是地址表達(dá)模型圖;
[0032]圖4是標(biāo)準(zhǔn)化地名地址模型圖。
【具體實(shí)施方式】
[0033]本發(fā)明針對(duì)互聯(lián)網(wǎng)網(wǎng)頁(yè)中地名地址的存在方式及結(jié)構(gòu)特征,利用地名地址的識(shí)別規(guī)則及動(dòng)態(tài)關(guān)系,以國(guó)家行政區(qū)劃信息、全國(guó)基礎(chǔ)地名地址庫(kù)為基礎(chǔ)進(jìn)行識(shí)別,研究多級(jí)地名地址表達(dá)模型與提取方法,再通過(guò)地名地址在文中的上下級(jí)語(yǔ)義關(guān)系,參考地名地址標(biāo)準(zhǔn)模型,實(shí)現(xiàn)互聯(lián)網(wǎng)網(wǎng)頁(yè)文本信息中文地名地址的自動(dòng)識(shí)別、提取與標(biāo)準(zhǔn)化,從而提升了互聯(lián)網(wǎng)地名地址信息提取及標(biāo)準(zhǔn)化的準(zhǔn)確性,為基于地名地址信息的地址匹配過(guò)程及地理實(shí)體、事件等相關(guān)地理信息的空間定位提供了技術(shù)基礎(chǔ)。
[0034]為了使本發(fā)明的技術(shù)方案更加清楚、易于理解,以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的介紹。
[0035]參照?qǐng)D1,本發(fā)明的面向互聯(lián)網(wǎng)的地名地址提取與標(biāo)準(zhǔn)化方法,其包括以下步驟:
[0036]步驟一:建立地名地址基礎(chǔ)資源庫(kù)、地名表達(dá)模型和結(jié)構(gòu)化地名詞典
[0037]對(duì)標(biāo)注的地名數(shù)據(jù)、國(guó)家基礎(chǔ)地名數(shù)據(jù)、國(guó)家行政區(qū)劃數(shù)據(jù)等基礎(chǔ)地名地址樣本數(shù)據(jù)進(jìn)行多級(jí)地址的關(guān)聯(lián)分析以及各級(jí)地址及其描述信息的結(jié)構(gòu)化處理,形成用于地名地址識(shí)別的規(guī)則庫(kù)、模型庫(kù)和關(guān)聯(lián)關(guān)系庫(kù)等基礎(chǔ)資源庫(kù)以及地名表達(dá)模型和結(jié)構(gòu)化地名詞典。
[0038]1、樣本訓(xùn)練
[0039]通過(guò)訓(xùn)練樣本庫(kù),建立地名地址信息的規(guī)則模型,同時(shí)抽取各級(jí)地名地址關(guān)聯(lián)關(guān)系,形成地名地址識(shí)別規(guī)則庫(kù)及動(dòng)態(tài)的地名關(guān)聯(lián)關(guān)系庫(kù)。
[0040]地名地址識(shí)別規(guī)則庫(kù):從真實(shí)文本語(yǔ)料庫(kù)抽取訓(xùn)練樣本,通過(guò)統(tǒng)計(jì)及分析得到統(tǒng)計(jì)結(jié)果以及針對(duì)地名地址信息特點(diǎn)總結(jié)出來(lái)的規(guī)則,形成地名地址識(shí)別規(guī)則庫(kù)。
[0041]動(dòng)態(tài)地名關(guān)聯(lián)關(guān)系庫(kù):從訓(xùn)練樣本庫(kù)中依據(jù)地名地址的概念決策方法,抽取地名地址的關(guān)系信息,參據(jù)如圖2所示的地名地址數(shù)據(jù)模型關(guān)系圖,形成動(dòng)態(tài)的地名關(guān)聯(lián)關(guān)系庫(kù)。
[0042]2、模型構(gòu)建
[0043]通過(guò)對(duì)國(guó)家基礎(chǔ)地名數(shù)據(jù)和國(guó)家行政區(qū)劃數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析和關(guān)系處理,形成地名表達(dá)模型和結(jié)構(gòu)化地名詞典。
[0044]地名表達(dá)模型:從地名地址提取的應(yīng)用需求出發(fā),設(shè)計(jì)一個(gè)地名類型本體模型,該模型表達(dá)了地名類型之間的繼承關(guān)系以及對(duì)空間關(guān)系的約束依據(jù)地址編碼規(guī)則,結(jié)合地名數(shù)據(jù)的實(shí)際情況及規(guī)律,建立地名表達(dá)模型,為地名匹配地名提取做參考。
[0045]結(jié)構(gòu)化地名詞典:地名詞典是一個(gè)具有地理意義的字典或名錄,是一定區(qū)域內(nèi)的地理要素及其相互聯(lián)系的數(shù)據(jù)集合,主要描述地名的名稱、要素類型、空間位置等重要參考信息,編制結(jié)構(gòu)化的地名詞典,為后續(xù)基于認(rèn)知顯著度的地名提取打下基礎(chǔ)。
[0046]步驟二:自動(dòng)解析及提取網(wǎng)頁(yè)信息
[0047]利用元搜索引擎技術(shù)進(jìn)行Web網(wǎng)頁(yè)的自動(dòng)收錄,并根據(jù)HTML結(jié)構(gòu)和解析規(guī)則進(jìn)行Web網(wǎng)頁(yè)的自
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
建水县| 双柏县| 麻城市| 马关县| 射洪县| 修文县| 平乐县| 襄樊市| 开封市| 芒康县| 永吉县| 广德县| 临清市| 瓮安县| 大厂| 武安市| 桃江县| 高要市| 涟源市| 舞钢市| 邢台市| 白玉县| 邢台市| 白玉县| 鞍山市| 亚东县| 靖江市| 商洛市| 辉南县| 光泽县| 斗六市| 都昌县| 登封市| 公安县| 宾川县| 海阳市| 吉隆县| 灵石县| 绥化市| 宝清县| 舞阳县|