一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法
【專利摘要】本發(fā)明提出了一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息的方法。所述方法包括:定義道路交通信息的數(shù)據(jù)結(jié)構(gòu)和道路交通信息描述特征詞類型;由少量人工制定的基礎(chǔ)提取模式擴(kuò)展得到提取模式庫(kù);對(duì)輸入的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本預(yù)處理后生成特征詞類型序列;根據(jù)特征詞類型序列的相似度獲取輸入文本的匹配提取模式;利用匹配提取模式從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中提取道路交通信息的定位信息元素和類型信息元素;利用正則表達(dá)式和判斷規(guī)則從輸入文本中提取時(shí)間信息元素;由定位信息元素、類型信息元素和時(shí)間信息元素組合得到道路交通信息。利用本發(fā)明,可以對(duì)采集自互聯(lián)網(wǎng)的非結(jié)構(gòu)化文本進(jìn)行實(shí)時(shí)處理,提取道路交通信息,豐富交通信息采集手段。
【專利說(shuō)明】一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及交通信息領(lǐng)域,特別是一種用于從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息的方法。
【背景技術(shù)】
[0002]城市中機(jī)動(dòng)車數(shù)量的不斷增加使城市道路交通問(wèn)題日益突出,公眾對(duì)實(shí)時(shí)道路交通信息的需求也更加迫切。道路交通信息主要包括道路交通流、道路路況、交通限制、交通管制、交通事件、交通天氣與路面環(huán)境信息等。現(xiàn)有的實(shí)時(shí)道路交通信息采集技術(shù),如固定傳感器技術(shù)(感應(yīng)線圈、視頻監(jiān)控和微波探測(cè)),安裝GPS和無(wú)線通訊設(shè)備的浮動(dòng)車技術(shù)、移動(dòng)通訊終端信令分析技術(shù)等在獲取實(shí)時(shí)交通流信息方面得到了廣泛應(yīng)用,但無(wú)法采集突發(fā)性交通事件、臨時(shí)交通管制、新增交通限制等道路交通信息。與此同時(shí),互聯(lián)網(wǎng)作為當(dāng)今社會(huì)一種便捷高效的信息載體,吸引了大量政府機(jī)構(gòu)、專業(yè)信息提供商和個(gè)人用戶在專業(yè)網(wǎng)站、論壇和微博客平臺(tái)發(fā)布實(shí)時(shí)道路交通信息。這些信息類型覆蓋豐富、時(shí)效性強(qiáng),其信息量也將隨著用戶數(shù)量的增長(zhǎng)而不斷增加,因此,互聯(lián)網(wǎng)蘊(yùn)含道路交通信息將成為獲取實(shí)時(shí)道路交通信息的重要數(shù)據(jù)來(lái)源,與其他交通信息采集技術(shù)形成互補(bǔ),在政府規(guī)劃決策、公眾出行服務(wù)方面發(fā)揮重要作用。
[0003]當(dāng)前部分互聯(lián)網(wǎng)蘊(yùn)含道路交通信息以非結(jié)構(gòu)化文本形式存在,這些非結(jié)構(gòu)化文本一般通過(guò)自然語(yǔ)言的形式對(duì)道路交通事件進(jìn)行描述。然而,現(xiàn)有道路交通信息系統(tǒng)只能處理以二維表形式表達(dá)的結(jié)構(gòu)化數(shù)據(jù),需要借助信息抽取技術(shù)從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中提取結(jié)構(gòu)化的道路交通信息?,F(xiàn)有信息抽取技術(shù)沒(méi)有考慮道路交通信息描述的特點(diǎn),無(wú)法從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中正確識(shí)別基于線性參照方法的道路定位描述信息,以及缺乏處理互聯(lián)網(wǎng)非結(jié)構(gòu)化文本描述中的道路交通信息元素隱含和省略現(xiàn)象的能力。
【發(fā)明內(nèi)容】
[0004]本發(fā)明技術(shù)解決問(wèn)題:克服現(xiàn)有技術(shù)不足,提供一種用于從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中提取道路交通信息的方法,能夠從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中識(shí)別基于線性參照方法的道路定位描述信息,并正確處理文本描述中出現(xiàn)的道路交通信息元素隱含和省略現(xiàn)象,可用于交通信息系統(tǒng)和服務(wù)平臺(tái),實(shí)現(xiàn)互聯(lián)網(wǎng)非結(jié)構(gòu)化文本蘊(yùn)含道路交通信息的自動(dòng)采集與處理。
[0005]本發(fā)明技術(shù)解決方案:一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法,對(duì)采集自互聯(lián)網(wǎng)相關(guān)網(wǎng)站的實(shí)時(shí)文本數(shù)據(jù)進(jìn)行處理,從中識(shí)別和提取道路交通信息應(yīng)包含的定位信息元素、類型信息元素和時(shí)間信息元素,為道路交通信息的融合與發(fā)布提供支持。具體步驟如下:
[0006]步驟1.定義道路交通信息的數(shù)據(jù)結(jié)構(gòu),便于以二維表的形式組織和管理道路交通信息,所述數(shù)據(jù)結(jié)構(gòu)由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時(shí)間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時(shí)間信息元素包含的元素屬性有交通事件開始時(shí)間和交通事件結(jié)束時(shí)間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環(huán)境信息;
[0007]步驟2.將在描述道路交通信息過(guò)程中起關(guān)鍵作用的詞匯作為特征詞,根據(jù)這些詞匯在互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中起到的語(yǔ)法作用,定義用于填充道路交通信息元素屬性的特征詞的類型,并按特征詞類型構(gòu)建交通專業(yè)詞庫(kù),所述特征詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特征詞類型中的詞匯;所述互聯(lián)網(wǎng)非結(jié)構(gòu)化文本是指網(wǎng)頁(yè)新聞、論壇帖子、博文日志、微博消息;
[0008]步驟3.基于步驟I定義的道路交通信息的數(shù)據(jù)結(jié)構(gòu)和步驟2定義的特征詞類型,結(jié)合互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中描述交通事件的語(yǔ)法結(jié)構(gòu)特征和句法結(jié)構(gòu)特征,人工制定基本提取模式,通過(guò)規(guī)則對(duì)基本提取模式進(jìn)行擴(kuò)展,得到提取模式庫(kù);所述提取模式包括特征詞類型序列和元素屬性序列兩個(gè)部分;所述特征詞類型序列是人們?cè)诨ヂ?lián)網(wǎng)非結(jié)構(gòu)化文本中描述交通事件時(shí)所用特征詞的類型的先后順序排列,提取模式中特征詞類型序列的功能是判斷互聯(lián)網(wǎng)非結(jié)構(gòu)化文本能否與該提取模式匹配;所述元素屬性序列與特征詞類型序列長(zhǎng)度相同,元素屬性序列中的序列項(xiàng)是特征詞類型序列中相同位置序列項(xiàng)在道路交通信息中對(duì)應(yīng)的元素屬性,元素屬性序列的功能是指導(dǎo)計(jì)算機(jī)將互聯(lián)網(wǎng)非結(jié)構(gòu)化文本出現(xiàn)的特征詞映射至道路交通信息對(duì)應(yīng)的元素屬性中;
[0009]步驟4.將采集的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本作為輸入文本,對(duì)輸入文本進(jìn)行預(yù)處理;所述預(yù)處理包括刪除輸入文本中的重復(fù)信息和對(duì)輸入文本作中文分詞,得到輸入文本的詞匯序列;
[0010]步驟5.利用步驟2的交通專業(yè)詞庫(kù)識(shí)別步驟4所得詞匯序列中出現(xiàn)的特征詞,并按照特征詞在輸入文本中的先后順序記錄特征詞的類型,生成輸入文本的特征詞類型序列,通過(guò)判斷道路交通信息元素屬性所需的特征詞類型是否完整對(duì)輸入文本進(jìn)行過(guò)濾;
[0011]步驟6.對(duì)輸入文本斷句,根據(jù)斷句得到的句子集合,將步驟5所得輸入文本的特征詞類型序列分割成與句子集合對(duì)應(yīng)的特征詞類型序列集合,利用動(dòng)態(tài)時(shí)間彎曲DTW(DynamicTime Warping, DTW)距離度量該特征詞類型序列集合中各特征詞類型序列與提取模式庫(kù)中各提取模式的特征詞類型序列的相似度,選擇相似度最高且小于給定閾值的提取模式作為該句子的匹配提取模式;
[0012]步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據(jù)該匹配提取模式的元素屬性序列將該句子中的特征詞填充至對(duì)應(yīng)的道路交通信息元素屬性,生成該句子對(duì)應(yīng)的道路交通信息;遍歷完成后,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補(bǔ)充規(guī)則對(duì)道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進(jìn)行填補(bǔ);最后,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合;
[0013]步驟8.根據(jù)互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中對(duì)時(shí)間的不同表達(dá)形式,人工制定提取年、月、日、時(shí)、分、秒時(shí)間要素?cái)?shù)值的正則表達(dá)式集合,結(jié)合判斷規(guī)則利用該正則表達(dá)式集合從輸入文本中提取時(shí)間要素?cái)?shù)值,將這些時(shí)間要素?cái)?shù)值組合成交通事件開始時(shí)間元素屬性和交通事件結(jié)束時(shí)間元素屬性,得到道路交通信息的時(shí)間信息元素;
[0014]步驟9.將步驟8提取的時(shí)間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
[0015]所述步驟6中,在利用DTW距離度量各句子的特征詞類型序列與提取模式庫(kù)中各提取模式的特征詞類型序列的相似度過(guò)程中實(shí)現(xiàn)為:
[0016]若Ci = tj,令(!(Ci, tj) = O ;
[0017]若Ci關(guān)t」,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ;
[0018]若Ci關(guān)tj,且tj為附屬定位詞、方向描述詞、介詞、一般詞,令(!(Ci, tj) = I ;
[0019]其中,Ci表示輸入文本句子的特征詞類型序列的第i個(gè)序列項(xiàng),表示提取模式中的特征詞類型序列的第j個(gè)序列項(xiàng),d(Ci, tj)表示Ci和&間的距離值。
[0020]所述步驟7中,對(duì)道路交通信息缺失的類型信息元素中交通事件類型屬性進(jìn)行填補(bǔ)的補(bǔ)充規(guī)則為:
[0021](I)當(dāng)前待處理道路交通信息對(duì)應(yīng)句子Si, j = i ;
[0022](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉(zhuǎn)到步驟(3);否則,轉(zhuǎn)到(6);
[0023](3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(5);
[0024](4)將句子Sj對(duì)應(yīng)的交通事件類型屬性賦予當(dāng)前待處理道路交通信息,補(bǔ)充過(guò)程結(jié)束;
[0025](5)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(6);否則,轉(zhuǎn)到步驟(2);
[0026](6)句子Sj與句子Si無(wú)關(guān),j = i,轉(zhuǎn)到步驟(7);
[0027](7)讀取句子S」(j = j+1),若句子S」存在,則轉(zhuǎn)到步驟(8);否則,補(bǔ)充過(guò)程結(jié)束;
[0028](8)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(9);
[0029](9)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),則句子S」與句子Si無(wú)關(guān),補(bǔ)充過(guò)程結(jié)束;否則,轉(zhuǎn)到步驟(7)。
[0030]所述步驟7中,對(duì)道路交通信息缺失的定位信息元素中中心線道路屬性進(jìn)行填補(bǔ)的補(bǔ)充規(guī)則為:
[0031](I)當(dāng)前待處理道路交通信息對(duì)應(yīng)句子Si, j = i ;
[0032](2)讀取句子Sj (j = j_l),若句子Sj存在,則轉(zhuǎn)到步驟(3);否則,補(bǔ)充過(guò)程結(jié)束;
[0033](3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),且含有中心線道路屬性,則轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(5);
[0034](4)將句子Sj對(duì)應(yīng)的道路交通信息的中心線道路屬性賦予當(dāng)前待處理道路交通信息,補(bǔ)充過(guò)程結(jié)束;
[0035](5)若句子S」有對(duì)應(yīng)的道路交通信息,且缺失中心線道路屬性,則轉(zhuǎn)到步驟(2);否貝U,補(bǔ)充過(guò)程結(jié)束 。
[0036]本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:在信息提取過(guò)程中充分考慮道路交通信息描述的特點(diǎn),提取方法能識(shí)別互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中基于線性參照的定位描述信息,并正確處理文本描述中出現(xiàn)的道路交通信息元素隱含和省略現(xiàn)象,實(shí)現(xiàn)從基于自然語(yǔ)言表達(dá)的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中提取道路交通信息。提取過(guò)程不需要大量人工干預(yù),便于計(jì)算機(jī)對(duì)實(shí)時(shí)采集的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本進(jìn)行自動(dòng)處理。
【專利附圖】
【附圖說(shuō)明】
[0037]圖1是本發(fā)明方法的流程圖;
[0038]圖2是道路交通信息缺失類型信息元素中交通事件類型屬性補(bǔ)充方法的流程圖;
[0039]圖3是道路交通信息缺失定位信息元素中中心線道路屬性補(bǔ)充方法的流程圖;
[0040]圖4是道路交通信息時(shí)間信息元素提取方法的流程圖。
【具體實(shí)施方式】
[0041]為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明實(shí)施例的方案,下面結(jié)合附圖和實(shí)施方式對(duì)本發(fā)明實(shí)施例作進(jìn)一步的詳細(xì)說(shuō)明。
[0042]如圖1所示,是本發(fā)明實(shí)施例一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法的流程圖,包括以下步驟:
[0043]步驟1.定義道路交通信息的數(shù)據(jù)結(jié)構(gòu),便于以二維表的形式組織和管理道路交通信息,該數(shù)據(jù)結(jié)構(gòu)由信息元素和信息元素的具體元素屬性組成,能夠用來(lái)表達(dá)的道路交通信息的類型有道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環(huán)境信息。具體內(nèi)容如下:
【權(quán)利要求】
1.一種從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法,其特征在于實(shí)現(xiàn)步驟如下:步驟1.定義道路交通信息的數(shù)據(jù)結(jié)構(gòu),便于以二維表的形式組織和管理道路交通信息,所述數(shù)據(jù)結(jié)構(gòu)由信息元素和信息元素的具體元素屬性組成,所述信息元素包括定位信息元素、類型信息元素和時(shí)間信息元素,所述定位信息元素包含的元素屬性有中心線道路、起始道路、終止道路、起始方向和終止方向,所述類型信息元素包含的元素屬性有交通事件類型,所述時(shí)間信息元素包含的元素屬性有交通事件開始時(shí)間和交通事件結(jié)束時(shí)間;所述道路交通信息包括道路路況信息、道路交通限制信息、道路交通管制信息、道路交通事故信息、道路環(huán)境信息; 步驟2.將在描述道路交通信息過(guò)程中起關(guān)鍵作用的詞匯作為特征詞,根據(jù)這些詞匯在互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中起到的語(yǔ)法作用,定義用于填充道路交通信息元素屬性的特征詞的類型,并按特征詞類型構(gòu)建交通專業(yè)詞庫(kù),所述特征詞類型具體包括道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞和一般詞;所述一般詞指不包含在道路名稱詞、附屬定位詞、方向描述詞、介詞、道路事件詞等特征詞類型中的詞匯;所述互聯(lián)網(wǎng)非結(jié)構(gòu)化文本是指網(wǎng)頁(yè)新聞、論壇帖子、博文日志、微博消息; 步驟3.基于步驟I定義的道路交通信息的數(shù)據(jù)結(jié)構(gòu)和步驟2定義的特征詞類型,結(jié)合互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中描述交通事件的語(yǔ)法結(jié)構(gòu)特征和句法結(jié)構(gòu)特征,人工制定基本提取模式,通過(guò)規(guī)則對(duì)基本提取模式進(jìn)行擴(kuò)展,得到提取模式庫(kù);所述提取模式包括特征詞類型序列和元素屬性序列兩個(gè)部分;所述特征詞類型序列是人們?cè)诨ヂ?lián)網(wǎng)非結(jié)構(gòu)化文本中描述交通事件時(shí)所用特征詞的類型的先后順序排列,提取模式中特征詞類型序列的功能是判斷互聯(lián)網(wǎng)非結(jié)構(gòu)化文本能否與該提取模式匹配;所述元素屬性序列與特征詞類型序列長(zhǎng)度相同,元素屬性序列中的序列項(xiàng)是特征詞類型序列中相同位置序列項(xiàng)在道路交通信息中對(duì)應(yīng)的元素屬性,元素屬性序列的功能是指導(dǎo)計(jì)算機(jī)將互聯(lián)網(wǎng)非結(jié)構(gòu)化文本出現(xiàn)的特征詞映射至道路交通信息對(duì)應(yīng)的元素屬性中; 步驟4.將采集的互聯(lián)網(wǎng)非結(jié)構(gòu)化文本作為輸入文本,對(duì)輸入文本進(jìn)行預(yù)處理;所述預(yù)處理包括刪除輸入文本中的重復(fù)信息和對(duì)輸入文本作中文分詞,得到輸入文本的詞匯序列; 步驟5.利用步驟2的交通專業(yè)詞庫(kù)識(shí)別步驟4所得詞匯序列中出現(xiàn)的特征詞,并按照特征詞在輸入文本中的先后順序記錄特征詞的類型,生成輸入文本的特征詞類型序列,通過(guò)判斷道路交通信息元素屬性所需的特征詞類型是否完整對(duì)輸入文本進(jìn)行過(guò)濾; 步驟6.對(duì)輸入文本斷句,根據(jù)斷句得到的句子集合,將步驟5所得輸入文本的特征詞類型序列分割成與句子集合對(duì)應(yīng)的特征詞類型序列集合,利用動(dòng)態(tài)時(shí)間彎曲DTW (DynamicTime Warping,DTff)距離度量該特征詞類型序列集合中各特征詞類型序列與提取模式庫(kù)中各提取模式的特征詞類型序列的相似度,選擇相似度最高且小于給定閾值的提取模式作為該句子的匹配提取模式; 步驟7.遍歷輸入文本的句子集合,若句子集合中的句子在步驟6取得匹配提取模式,則根據(jù)該匹配提取模式的元素屬性序列將該句子中的特征詞填充至對(duì)應(yīng)的道路交通信息元素屬性,生成該句子對(duì)應(yīng)的道路交通信息;遍歷完成后,判斷所得道路交通信息的定位信息元素中中心線道路屬性和類型信息元素中交通事件類型屬性是否完整,如果不完整,則利用補(bǔ)充規(guī)則對(duì)道路交通信息缺失的定位信息元素中中心線道路屬性或類型信息元素中交通事件類型屬性進(jìn)行填補(bǔ);最后,得到輸入文本已提取定位信息元素和類型信息元素的道路交通信息集合; 步驟8.根據(jù)互聯(lián)網(wǎng)非結(jié)構(gòu)化文本中對(duì)時(shí)間的不同表達(dá)形式,人工制定提取年、月、日、時(shí)、分、秒時(shí)間要素?cái)?shù)值的正則表達(dá)式集合,結(jié)合判斷規(guī)則利用該正則表達(dá)式集合從輸入文本中提取時(shí)間要素?cái)?shù)值,將這些時(shí)間要素?cái)?shù)值組合成交通事件開始時(shí)間元素屬性和交通事件結(jié)束時(shí)間元素屬性,得到道路交通信息的時(shí)間信息元素; 步驟9.將步驟8提取的時(shí)間信息元素填充至步驟7得到的道路交通信息集合各條道路交通信息中,得到道路交通信息元素完整的道路交通信息集合。
2.根據(jù)權(quán)利要求1所述的從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法,其特征在于:所述步驟6中,在利用DTW距離度量各句子的特征詞類型序列與提取模式庫(kù)中各提取模式的特征詞類型序列的相似度過(guò)程中實(shí)現(xiàn)為:
若 Ci = tj,令(!(Ci, tj) = O ; 若Ci關(guān)tj,且tj為道路名稱詞、道路事件詞,令d(Ci,tj) = 2 ; 若Ci關(guān)\_,且&為附屬定位詞、方向描述詞、介詞、一般詞,令d(Ci,tp = I ; 其中,Ci表示輸入文本句子的特征詞類型序列的第i個(gè)序列項(xiàng),表示提取模式中的特征詞類型序列的第j個(gè)序列項(xiàng),d(Ci, tj)表示Ci和&間的距離值。
3.根據(jù)權(quán)利要求1所述的從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法,其特征在于:所述步驟7中,對(duì)道路交通信息缺失的類型信息元素中交通事件類型屬性進(jìn)行填補(bǔ)的補(bǔ)充規(guī)則為: (O當(dāng)前待處理道路交通信息對(duì)應(yīng)句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉(zhuǎn)到步驟(3);否則,轉(zhuǎn)到(6); (3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(5); (4)將句子&對(duì)應(yīng)的交通事件類型屬性賦予當(dāng)前待處理道路交通信息,補(bǔ)充過(guò)程結(jié)束; (5)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(6);否則,轉(zhuǎn)到步驟(2); (6)句子Sj與句子Si無(wú)關(guān),j= i,轉(zhuǎn)到步驟(7); (7)讀取句子I(j = j+1),若句子I存在,則轉(zhuǎn)到步驟(8);否則,補(bǔ)充過(guò)程結(jié)束; (8)若句子S」特征詞類型序列滿足“定位信息元素類型信息元素”的序列結(jié)構(gòu),轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(9); (9)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),則句子Sj與句子Si無(wú)關(guān),補(bǔ)充過(guò)程結(jié)束;否則,轉(zhuǎn)到步驟(7)。
4.根據(jù)權(quán)利要求1所述的從互聯(lián)網(wǎng)非結(jié)構(gòu)化文本提取道路交通信息方法,其特征在于:所述步驟7中,對(duì)道路交通信息缺失的定位信息元素中中心線道路屬性進(jìn)行填補(bǔ)的補(bǔ)充規(guī)則為: (O當(dāng)前待處理道路交通信息對(duì)應(yīng)句子Si, j = i ; (2)讀取句子I(j = j_l),若句子I存在,則轉(zhuǎn)到步驟(3);否則,補(bǔ)充過(guò)程結(jié)束; (3)若句子S」特征詞類型序列滿足“類型信息元素定位信息元素”的序列結(jié)構(gòu),且含有中心線道路屬性,則轉(zhuǎn)到步驟(4);否則,轉(zhuǎn)到步驟(5); (4)將句子Sj對(duì)應(yīng)的道路交通信息的中心線道路屬性賦予當(dāng)前待處理道路交通信息,補(bǔ)充過(guò)程結(jié)束; (5)若句子S」有對(duì)應(yīng)的道路交通信息,且缺失中心線道路屬性,則轉(zhuǎn)到步驟(2);否則,補(bǔ)充過(guò)程 結(jié)束。
【文檔編號(hào)】G06F17/30GK103886080SQ201410115332
【公開日】2014年6月25日 申請(qǐng)日期:2014年3月25日 優(yōu)先權(quán)日:2014年3月25日
【發(fā)明者】陸鋒, 仇培元, 張恒才 申請(qǐng)人:中國(guó)科學(xué)院地理科學(xué)與資源研究所