本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種位置分類規(guī)則庫(kù)管理系統(tǒng)及其編碼方法。
背景技術(shù):
電信運(yùn)營(yíng)商通過分光獲得了客戶上網(wǎng)的原始位置信令數(shù)據(jù),位置信令數(shù)據(jù)中的基站位置id,經(jīng)過網(wǎng)元工參表轉(zhuǎn)換為基站gps經(jīng)緯度,這樣就產(chǎn)生了用戶連續(xù)時(shí)間段的位置軌跡經(jīng)緯度信息,對(duì)于千萬級(jí)別的用戶,每天產(chǎn)生的位置軌跡經(jīng)緯度信息數(shù)據(jù)量高達(dá)幾百億條。
如何將這些數(shù)據(jù)異常龐大位置軌跡經(jīng)緯度信息數(shù)值,不含任何內(nèi)容語(yǔ)義,紛繁復(fù)雜的gps數(shù)據(jù)翻譯并標(biāo)記為含有深度語(yǔ)義內(nèi)容的信息,現(xiàn)有技術(shù)只對(duì)需要分析的位置數(shù)據(jù)結(jié)果提出了要求,但對(duì)如何達(dá)成需要的位置語(yǔ)義數(shù)據(jù)結(jié)果有如下的缺點(diǎn):
1.沒有將基站離散位置經(jīng)緯度信息轉(zhuǎn)換為可做大規(guī)模數(shù)據(jù)挖掘的標(biāo)簽化信息的體系化的方法。
2.沒有對(duì)如何完成這樣的數(shù)據(jù)結(jié)果提供完整的解決方案,模型和算法。
3.當(dāng)前的解決方案,都得事先知道基站經(jīng)緯度,然后人工標(biāo)記基站的標(biāo)簽。
4.基站的增加擴(kuò)容和基站離網(wǎng)服務(wù),對(duì)數(shù)據(jù)結(jié)果的分析造成很大影響。
5.只能翻譯相對(duì)比較淺度的內(nèi)容,翻譯的結(jié)果不能復(fù)用;
6.只能對(duì)事先知道的基站的樣本數(shù)據(jù)做人工標(biāo)記;
7.不能快速發(fā)現(xiàn)基站源數(shù)據(jù)的增減照成的數(shù)量改變;
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)中的不足,提供一種位置分類規(guī)則庫(kù)管理系統(tǒng)及其編碼方法,對(duì)用戶訪問移動(dòng)互聯(lián)網(wǎng)的位置軌跡日志進(jìn)行大規(guī)模全視角的語(yǔ)義分析和翻譯,進(jìn)而形成移動(dòng)互聯(lián)網(wǎng)用戶的全息位置軌跡語(yǔ)義信息知識(shí)圖譜。
為實(shí)現(xiàn)上述目的,本發(fā)明公開了如下技術(shù)方案:
一種位置分類規(guī)則庫(kù)管理系統(tǒng)及其編碼方法,將位置分類規(guī)則庫(kù)的字典設(shè)定為20位的字典編碼體系,支持5級(jí)位置標(biāo)簽體系,省+地市+區(qū)縣+區(qū)域+路段,標(biāo)識(shí)一個(gè)特定地理位置的規(guī)則如下:
省+地市+區(qū)縣+區(qū)域類型+區(qū)域名稱+路段類型+路段名稱
例:貴州-遵義-桐梓-高速公路-蘭海高速(g75)-收費(fèi)站-松坎
編碼56320010000001200001:56-32-00-100-00001-200-001
20位為00000000000000000000代表未知的位置。
省+地市+區(qū)縣,行政區(qū)劃編碼按照國(guó)家行政區(qū)劃編碼6位處理;
區(qū)域類型編碼,用3位編碼,第一位為1,表示區(qū)域類型;
路段類型編碼,用3位編碼,第一位為2,表示路段;
其他的兩位,都是00-99,區(qū)域類型就是100-199,如100:國(guó)家高速;
路段類型就是200-299;
區(qū)域名稱編碼,為5位編碼,00000-99999,可編9萬9區(qū)域;
路段名稱編碼,為3位編碼,000-999,可編1千個(gè)路段;
這樣,行政區(qū)劃6位,區(qū)域類型3位,區(qū)域名稱5位,路段類型3位,路段名稱3位,可產(chǎn)生14位碼和20位碼兩種狀態(tài),14位碼到區(qū)域定義,20位碼到路段定義。
關(guān)于區(qū)域和路段定義規(guī)則的詳細(xì)說明如下:
區(qū)域分為塊狀區(qū)域(方形和多邊形,不能繼續(xù)細(xì)分路段)和帶狀區(qū)域(可細(xì)分路段,可跨地市和區(qū)縣設(shè)置位置規(guī)則);
塊狀區(qū)域,由方形或多邊形各凸點(diǎn)的坐標(biāo)經(jīng)緯度表示一個(gè)閉合區(qū)域;
帶狀區(qū)域由一組互相連接的圓(半徑1公里)來表述,帶狀區(qū)域細(xì)分的路段,可以是方形(兩個(gè)坐標(biāo))或圓形(圓心坐標(biāo)和半徑);
塊狀區(qū)域:省-地市-區(qū)縣-區(qū)域類型-區(qū)域名稱,14位編碼;
帶狀區(qū)域:省-地市-區(qū)縣-區(qū)域類型-區(qū)域名稱-路段類型-路段名稱,20位編碼;
一個(gè)區(qū)域和一個(gè)路段,都可以有多條位置規(guī)則;
塊狀區(qū)域位置規(guī)則樣例參考:貴州|520000|黔南522700|龍里|522730|自然風(fēng)景區(qū)|110|龍里大草原|0079|106.910763|26.373427|矩形|;
帶狀區(qū)域位置規(guī)則樣例參考:貴州|520000|畢節(jié)520500|七星關(guān)|520502|省道|120|s20|0002|區(qū)間|223|s20區(qū)間016|016|105.077645|27.217797|1000|;
城市網(wǎng)格位置規(guī)則:城市網(wǎng)格分為1x1平方公里或0.5x0.5平方公里兩類,同一個(gè)城市,可定義多個(gè)城市網(wǎng)格;
城市網(wǎng)格規(guī)則樣例參考:貴州|520000|銅仁520600|01667|01667|108.977941|27.479400000000002|108.987941|27.47042|;
本發(fā)明還公開一種位置分類規(guī)則庫(kù)管理系統(tǒng),應(yīng)用如上所述的編碼方法,包括:
位置分類規(guī)則庫(kù)可視化管理:用于對(duì)位置分類規(guī)則庫(kù)的增、刪、查、改,同時(shí)提供離線和在線地圖工具,從可視化地圖中提取并生成位置分類規(guī)則庫(kù)的可視化操作;
位置語(yǔ)義標(biāo)簽化系統(tǒng):提供將任意經(jīng)緯度數(shù)據(jù)按照位置分類規(guī)則庫(kù)標(biāo)注語(yǔ)義標(biāo)簽供后續(xù)位置數(shù)據(jù)標(biāo)簽大規(guī)模分析。
本發(fā)明具有以下有益效果:
1.位置數(shù)據(jù)解析的粒度比較深入,可以滿足不同場(chǎng)景下的面向各種位置業(yè)務(wù)支撐的需求;
2.將運(yùn)營(yíng)商的用戶位置日志數(shù)據(jù)通過翻譯成有業(yè)務(wù)含義和有潛在商業(yè)價(jià)值的用戶位置行為數(shù)據(jù);
3.基于位置業(yè)務(wù)數(shù)據(jù)的細(xì)分,把海量的大數(shù)據(jù)變?yōu)椴煌植空Z(yǔ)義小數(shù)據(jù);
4.提供了適用于機(jī)器大規(guī)模處理數(shù)據(jù)的模型;
5.解決的是運(yùn)營(yíng)商信令位置數(shù)據(jù)行業(yè)應(yīng)用之前預(yù)處理的最后一環(huán);
6.將人工處理的數(shù)據(jù)轉(zhuǎn)變成能夠人機(jī)交互處理的數(shù)據(jù);
7.經(jīng)過體系化位置規(guī)則處理和編碼后的數(shù)據(jù),將數(shù)值源數(shù)據(jù)變成了語(yǔ)義文本數(shù)據(jù),為后續(xù)分析極大的節(jié)省了之后的處理費(fèi)用;
8.通過位置分類規(guī)則庫(kù),將原始的基站位置數(shù)據(jù)與處理系統(tǒng)分離,解決了基站位置數(shù)據(jù)的安全脫敏問題,也為位置數(shù)據(jù)的開放數(shù)據(jù)貨幣化提供了一種解決方案。
對(duì)用戶訪問移動(dòng)互聯(lián)網(wǎng)的位置經(jīng)緯度日志進(jìn)行大規(guī)模全視角的語(yǔ)義分析和翻譯,進(jìn)而形成移動(dòng)互聯(lián)網(wǎng)用戶的全息位置軌跡語(yǔ)義信息知識(shí)圖譜,為后續(xù)的各種位置應(yīng)用分析及挖掘進(jìn)行支撐。
(四)附圖說明
圖1是本發(fā)明一種框架結(jié)構(gòu)示意圖。
(五)具體實(shí)施方式
一種位置分類規(guī)則庫(kù)管理系統(tǒng)及其編碼方法,將位置分類規(guī)則庫(kù)的字典設(shè)定為20位的字典編碼體系,支持5級(jí)位置標(biāo)簽體系,省+地市+區(qū)縣+區(qū)域+路段,標(biāo)識(shí)一個(gè)特定地理位置的規(guī)則如下:
省+地市+區(qū)縣+區(qū)域類型+區(qū)域名稱+路段類型+路段名稱
例:貴州-遵義-桐梓-高速公路-蘭海高速(g75)-收費(fèi)站-松坎
編碼56320010000001200001:56-32-00-100-00001-200-001
20位為00000000000000000000代表未知的位置。
省+地市+區(qū)縣,行政區(qū)劃編碼按照國(guó)家行政區(qū)劃編碼6位處理;
區(qū)域類型編碼,用3位編碼,第一位為1,表示區(qū)域類型;
路段類型編碼,用3位編碼,第一位為2,表示路段;
其他的兩位,都是00-99,區(qū)域類型就是100-199,如100:國(guó)家高速;
路段類型就是200-299;
區(qū)域名稱編碼,為5位編碼,00000-99999,可編9萬9區(qū)域;
路段名稱編碼,為3位編碼,000-999,可編1千個(gè)路段;
這樣,行政區(qū)劃6位,區(qū)域類型3位,區(qū)域名稱5位,路段類型3位,路段名稱3位,可產(chǎn)生14位碼和20位碼兩種狀態(tài),14位碼到區(qū)域定義,20位碼到路段定義;
關(guān)于區(qū)域和路段定義規(guī)則的詳細(xì)說明如下:
區(qū)域分為塊狀區(qū)域(方形和多邊形,不能繼續(xù)細(xì)分路段)和帶狀區(qū)域(可細(xì)分路段,可跨地市和區(qū)縣設(shè)置位置規(guī)則);
塊狀區(qū)域,由方形或多邊形各凸點(diǎn)的坐標(biāo)經(jīng)緯度表示一個(gè)閉合區(qū)域;
帶狀區(qū)域由一組互相連接的圓(半徑1公里)來表述,帶狀區(qū)域細(xì)分的路段,可以是方形(兩個(gè)坐標(biāo))或圓形(圓心坐標(biāo)和半徑);
塊狀區(qū)域:省-地市-區(qū)縣-區(qū)域類型-區(qū)域名稱,14位編碼;
帶狀區(qū)域:省-地市-區(qū)縣-區(qū)域類型-區(qū)域名稱-路段類型-路段名稱,20位編碼;
一個(gè)區(qū)域和一個(gè)路段,都可以有多條位置規(guī)則;
塊狀區(qū)域位置規(guī)則樣例參考:貴州|520000|黔南522700|龍里|522730|自然風(fēng)景區(qū)|110|龍里大草原|0079|106.910763|26.373427|矩形|;
帶狀區(qū)域位置規(guī)則樣例參考:貴州|520000|畢節(jié)520500|七星關(guān)|520502|省道|120|s20|0002|區(qū)間|223|s20區(qū)間016|016|105.077645|27.217797|1000|;
城市網(wǎng)格位置規(guī)則:城市網(wǎng)格分為1x1平方公里或0.5x0.5平方公里兩類,同一個(gè)城市,可定義多個(gè)城市網(wǎng)格;
城市網(wǎng)格規(guī)則樣例參考:貴州|520000|銅仁520600|01667|01667|108.977941|27.479400000000002|108.987941|27.47042|;
本發(fā)明還公開一種位置分類規(guī)則庫(kù)管理系統(tǒng),應(yīng)用如上所述的編碼方法,包括:
位置分類規(guī)則庫(kù)可視化管理:用于對(duì)位置分類規(guī)則庫(kù)的增、刪、查、改,同時(shí)提供離線和在線地圖工具,從可視化地圖中提取并生成位置分類規(guī)則庫(kù)的可視化操作;
位置語(yǔ)義標(biāo)簽化系統(tǒng):提供將任意經(jīng)緯度數(shù)據(jù)按照位置分類規(guī)則庫(kù)標(biāo)注語(yǔ)義標(biāo)簽供后續(xù)位置數(shù)據(jù)標(biāo)簽大規(guī)模分析。
本發(fā)明不局限于上述實(shí)施方式,任何人應(yīng)得知在本發(fā)明的啟示下做出的與本發(fā)明具有相同或相近的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍之內(nèi)。