地名地址提取方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及信息技術領域,具體而言,涉及地名地址提取方法及裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術與計算機技術的發(fā)展,海量互聯(lián)網(wǎng)信息已經(jīng)涉及到用戶的方方面 面,用戶可以從互聯(lián)網(wǎng)中獲取發(fā)生的新聞、報道、軍事、生活等信息,并且可以從網(wǎng)頁文本中 發(fā)現(xiàn)這些信息發(fā)生的時間、地點。隨著互聯(lián)網(wǎng)信息內(nèi)容的增加,越來越多的地名地址通過網(wǎng) 絡新聞等信息表現(xiàn)出來,這些互聯(lián)網(wǎng)新聞信息更新及時、數(shù)據(jù)量大、信息豐富,成為地名地 址表達的重要方式。同時,地理信息產(chǎn)業(yè)對地理信息數(shù)據(jù)的現(xiàn)勢性要求越來越高,海量網(wǎng)頁 文本中提取出的地名地址不僅可以豐富地理信息的內(nèi)容,還可以為政府關注各類事件的分 析、研究和決策提供支撐,逐步成為一種地理信息數(shù)據(jù)獲取的重要數(shù)據(jù)源。因此,如何從網(wǎng) 絡文本中獲取準確的地名地址數(shù)據(jù)提取成為了地理信息數(shù)據(jù)獲取與更新的重要且亟待解 決的問題。目前,傳統(tǒng)的地名地址提取方法主要是基于字典、統(tǒng)計、規(guī)則以及機器學習等方 法展開,這些方法對傳統(tǒng)地名地址庫的要求高,對于模糊地名地址或者未登錄的地名地址 識別難度大。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供地名地址提取方法及裝置,以改善從海量網(wǎng)頁文本中獲取 地名地址難度較大的問題。
[0004] 第一方面,本發(fā)明實施例提供了一種地名地址提取方法,包括:對目標文本分詞, 得到待匹配詞組;利用前后綴識別窗口中的前綴特征詞及后綴特征詞分別對所述待匹配詞 組的前綴及后綴進行文字匹配,并根據(jù)所述文字匹配的結果獲取候選地名地址;提取所述 候選地名地址中的篩選特征詞,依據(jù)所述篩選特征詞對所述候選地名地址進行過濾篩選。
[0005] 結合第一方面,本發(fā)明實施例提供了第一方面的第一種可能的實施方式,其中,所 述對目標文本分詞前還包括:采用網(wǎng)絡爬蟲技術,抓取目標網(wǎng)頁中的網(wǎng)頁文本,并將抓取的 所述網(wǎng)頁文本作為目標文本。
[0006] 結合第一方面,本發(fā)明實施例提供了第一方面的第二種可能的實施方式,其中,所 述方法還包括:對含有地名地址的語料文本庫中的地名地址文本數(shù)據(jù)分別進行前綴特征詞 及后綴特征詞的提取;利用提取的所述前綴特征詞及所述后綴特征詞組成所述前后綴識別 窗口。
[0007] 結合第一方面,本發(fā)明實施例提供了第一方面的第三種可能的實施方式,其中,所 述利用提取的所述前綴特征詞及所述后綴特征詞組成所述前后綴識別窗口,包括:對從所 述語料文本庫中提取的所述前綴特征詞及所述后綴特征詞進行頻率統(tǒng)計,并根據(jù)所述頻率 統(tǒng)計的結果對所述前后綴識別窗口中的前綴特征詞及后綴特征詞賦予權重;按照所述前綴 特征詞及所述后綴特征詞的權重大小,確定所述前后綴識別窗口中前綴特征詞及后綴特征 詞的匹配順序。
[0008] 結合第一方面,本發(fā)明實施例提供了第一方面的第四種可能的實施方式,其中,所 述利用前后綴識別窗口中的前綴特征詞及后綴特征詞分別對所述待匹配詞組的前綴及后 綴進行文字匹配,包括:按照所述前后綴識別窗口中確定出的前綴特征詞及后綴特征詞的 匹配順序對所述待匹配詞組的前綴及后綴進行文字匹配。
[0009] 結合第一方面,本發(fā)明實施例提供了第一方面的第五種可能的實施方式,其中,所 述利用前后綴識別窗口中的前綴特征詞及后綴特征詞分別對所述待匹配詞組的前綴及后 綴進行文字匹配,包括:利用前后綴識別窗口中的前綴特征詞對所述待匹配詞組的前綴進 行匹配;當所述前綴匹配一致后,利用所述前后綴識別窗口中的后綴特征詞對所述待匹配 詞組的后綴進行匹配。
[0010] 結合第一方面,本發(fā)明實施例提供了第一方面的第六種可能的實施方式,其中,所 述提取所述候選地名地址中的篩選特征詞,依據(jù)所述篩選特征詞對所述候選地名地址進行 過濾篩選,包括:當從所述候選地名地址中提取的所述篩選特征詞中至少包括行政區(qū)劃要 素、專有地名名詞、經(jīng)煒度信息及企事業(yè)單位特征詞中的一項時,確定所述候選地名地址為 符合地名地址規(guī)則的地名地址;當從所述候選地名地址中提取的所述篩選特征詞中同時包 括姓氏及人物描述時,或,同時包括人物代詞及人物描述時,剔除所述候選地名地址。
[0011] 第二方面,本發(fā)明實施例還提供了一種地名地址提取裝置,包括:分詞模塊,用于 對目標文本分詞,得到待匹配詞組;前后綴匹配模塊,用于利用前后綴識別窗口中的前綴特 征詞及后綴特征詞分別對所述待匹配詞組的前綴及后綴進行文字匹配,并根據(jù)所述文字匹 配的結果獲取候選地名地址;過濾篩選模塊,用于提取所述候選地名地址中的篩選特征詞, 依據(jù)所述篩選特征詞對所述候選地名地址進行過濾篩選。
[0012] 結合第二方面,本發(fā)明實施例提供了第二方面的第一種可能的實施方式,其中,上 述裝置還包括:文本抓取模塊,用于對目標文本分詞前,采用網(wǎng)絡爬蟲技術,抓取目標網(wǎng)頁 中的網(wǎng)頁文本,并將抓取的所述網(wǎng)頁文本作為目標文本。
[0013] 結合第二方面,本發(fā)明實施例提供了第二方面的第二種可能的實施方式,其中,上 述裝置還包括:特征詞提取模塊,用于對含有地名地址的語料文本庫中的地名地址文本數(shù) 據(jù)分別進行前綴特征詞及后綴特征詞的提?。蛔R別窗口組成模塊,用于利用提取的所述前 綴特征詞及所述后綴特征詞組成所述前后綴識別窗口。
[0014] 本發(fā)明實施例的地名地址提取方法及裝置中,對網(wǎng)頁中的目標文本進行分詞,將 目標文本劃分成獨立的詞語或者單詞,之后利用前后綴識別窗口對切分后的文本數(shù)據(jù)以此 匹配,得到候選地名地址,最后根據(jù)候選地名地址中的特征詞對候選地名地址進行過濾篩 選得到最終的地名地址,利用該方法能夠較為簡便地從海量網(wǎng)頁文本中提取地名地址,從 而改善現(xiàn)有技術中從海量網(wǎng)頁文本中提取地名地址較為困難的問題。
[0015] 為使本發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉較佳實施例,并配合 所附附圖,作詳細說明如下。
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實施例的技術方案,下面將對實施例中所需要使用的附 圖作簡單地介紹,應當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應被看作是對 范圍的限定,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這 些附圖獲得其他相關的附圖。
[0017] 圖1示出了本發(fā)明實施例中地名地址提取方法的一種流程圖;
[0018] 圖2示出了本發(fā)明實施例中前后綴識別窗口的一種結構示意圖;
[0019] 圖3示出了本發(fā)明實施例中地名地址提取方法的另一種流程圖;
[0020] 圖4不出了本發(fā)明實施例中如后綴識別窗口的另一種結構不意圖;
[0021] 圖5示出了本發(fā)明實施例中地名地址提取裝置的一種結構示意圖。
【具體實施方式】
[0022] 下面將結合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術方案進行清楚、完整 地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在 此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設計。因 此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的 范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領域技術人員在沒有做 出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0023] 為了實現(xiàn)對網(wǎng)頁中地名地址的提取,本發(fā)明實施例提供了一種地名地址提取方 法,如圖1所示,主要處理步驟包括:
[0024] 步驟SI1 :對目標文本分詞,得到待匹配詞組。
[0025] 本發(fā)明中,對目標文本分詞主要是對中文文本分詞,中文分詞是利用分詞算法對 中文網(wǎng)頁文本數(shù)據(jù)切分成獨立的詞語或者漢字,比英文分詞方法相對要復雜。本步驟在對 目標文本分詞時,采用比較成熟與流行的中文分詞算法,并對分詞的結果進行分析驗證,減 少中文分詞中出現(xiàn)的錯誤。
[0026] 步驟S12 :利用前后綴識別窗口中的前綴特征詞及后