本技術(shù)涉及數(shù)據(jù)處理,具體涉及基于多源異構(gòu)信息整理的城區(qū)模型數(shù)字化方法及系統(tǒng)。
背景技術(shù):
1、城區(qū)模型數(shù)字化是指將城市區(qū)域的實際信息和數(shù)據(jù)轉(zhuǎn)化為數(shù)字化模型的過程。將收集到的異構(gòu)數(shù)據(jù)進行整合和處理,以形成統(tǒng)一的數(shù)字化模型,這通常涉及到數(shù)據(jù)清洗、去噪等,在保證不同來源的數(shù)據(jù)能夠無縫結(jié)合的同時,提高數(shù)字化模型創(chuàng)建的精度。
2、在對多源異構(gòu)數(shù)據(jù)進行清洗去噪時,需要對收集的多源異構(gòu)數(shù)據(jù)進行異常值檢測,通?,F(xiàn)有的異常檢測算法在對數(shù)據(jù)進行異常檢測的過程中,未能考慮到不同采集點數(shù)據(jù)之間的相互影響,以及單個采集點采集的數(shù)據(jù)之間的時序關(guān)聯(lián)性,造成數(shù)據(jù)異常檢測的準確度較低,進而影響城區(qū)模型數(shù)字化的精度。
技術(shù)實現(xiàn)思路
1、為了解決上述技術(shù)問題,本技術(shù)的目的在于提供基于多源異構(gòu)信息整理的城區(qū)模型數(shù)字化方法及系統(tǒng),所采用的技術(shù)方案具體如下:
2、第一方面,本技術(shù)實施例提供了基于多源異構(gòu)信息整理的城區(qū)模型數(shù)字化方法,該方法包括以下步驟:
3、采集城區(qū)中各領(lǐng)域下各采集點的各時刻的各類型數(shù)據(jù);將各領(lǐng)域下各采集點的各時刻的所有類型數(shù)據(jù)組成各時刻的特征向量;
4、將各領(lǐng)域下各采集點當前時刻的所有歷史時刻下所述特征向量劃分為各聚類簇,基于各領(lǐng)域下各采集點的當前時刻特征向量在不同聚類簇中隸屬度的差異,確定各領(lǐng)域下各采集點當前時刻特征向量的初始異常值;分析各領(lǐng)域下各采集點的當前時刻及其所有歷史時刻的任意兩類型數(shù)據(jù)之間的相關(guān)性,基于各領(lǐng)域下任一采集點與其余各采集點的所述相關(guān)性的差異,以及所述任一采集點與其余各采集點的同類型數(shù)據(jù)之間的差異,確定各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻特征向量的參考可靠性;
5、將各領(lǐng)域下各采集點的當前時刻及其所有歷史時刻的各類型數(shù)據(jù)劃分為各數(shù)據(jù)簇,基于當前時刻的任一類型數(shù)據(jù)所在的數(shù)據(jù)簇與所述任一類型數(shù)據(jù)的剩余數(shù)據(jù)簇之間的差異,確定各領(lǐng)域下各采集點的當前時刻所述任一類型數(shù)據(jù)的異常程度;基于各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的異常程度,確定各領(lǐng)域下各采集點當前時刻特征向量的第一異常值;
6、基于各領(lǐng)域下所述任一采集點的所有所述參考可靠性,以及所述同類型數(shù)據(jù)之間的差異,確定各領(lǐng)域下各采集點當前時刻特征向量的第二異常值;結(jié)合所述第一異常值與所述第二異常值,對所述初始異常值進行修正,得到各領(lǐng)域下各采集點當前時刻特征向量的修正異常值,獲取各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的處理結(jié)果,并進行數(shù)字化。
7、在其中一種實施例中,所述初始異常值的確定過程為:
8、針對各采集點當前時刻的任一特征向量,統(tǒng)計所述任一特征向量在所述各聚類簇中的隸屬度,計算所述任一特征向量位于所在聚類簇與剩余各聚類簇的所述隸屬度的差值絕對值,將所述任一特征向量的所有所述差值絕對值的和值的歸一化值,作為所述任一特征向量的初始異常值。
9、在其中一種實施例中,所述參考可靠性的確定包括:
10、將各領(lǐng)域下各采集點的當前時刻及其所有歷史時刻各類型數(shù)據(jù)組成當前時刻的各數(shù)據(jù)序列,計算各領(lǐng)域下各采集點的當前時刻任意兩個所述數(shù)據(jù)序列的相關(guān)性,記為第一相關(guān)性,分析所述任一采集點與其余各采集點的所有所述第一相關(guān)性的差異,確定各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻特征向量的參數(shù)分布相似性;
11、計算各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻同類型的所述數(shù)據(jù)序列之間的相關(guān)性,記為第二相關(guān)性,將各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻所有所述第二相關(guān)性的和值的歸一化值,作為各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻特征向量的參數(shù)值相似性;
12、將所述參數(shù)分布相似性與所述參數(shù)值相似性的乘積,作為所述參考可靠性。
13、在其中一種實施例中,所述參數(shù)分布相似性的計算方式為:
14、;為采集點與采集點的當前時刻特征向量a的參數(shù)分布相似性,為采集點與采集點的類型數(shù)據(jù)、類型數(shù)據(jù)之間所述第一相關(guān)性的差值絕對值,為特征向量a包含的類型數(shù)量,exp()表示以自然常數(shù)為底數(shù)的指數(shù)函數(shù)。
15、在其中一種實施例中,所述異常程度的確定過程為:
16、將所述各數(shù)據(jù)簇內(nèi)在時序上相連的多個元素作為一個序列段,若各領(lǐng)域下各采集點當前時刻的所述任一類型數(shù)據(jù)位于所述序列段內(nèi),計算所述任一類型數(shù)據(jù)所在數(shù)據(jù)簇內(nèi)與其余各數(shù)據(jù)簇內(nèi)序列段的數(shù)量的差值絕對值,記為第一差值絕對值,計算所述任一類型數(shù)據(jù)的所有所述第一差值絕對值的和值,記為第一和值,計算所述任一類型數(shù)據(jù)所在的序列段與其余各序列段的度量距離,計算所述任一類型數(shù)據(jù)的所有所述度量距離的和值,記為第二和值;
17、將所述第一和值與所述第二和值的乘積,作為當前時刻所述任一類型數(shù)據(jù)的異常因子;
18、基于所述異常因子確定當前時刻所述任一類型數(shù)據(jù)的異常顯著性;
19、將所述異常因子與所述異常顯著性的乘積的歸一化值,作為所述異常程度,若所述任一類型數(shù)據(jù)未位于序列段內(nèi),則將所述異常程度設(shè)定為預(yù)設(shè)數(shù)值。
20、在其中一種實施例中,所述異常顯著性的計算方式為:
21、;為當前時刻所述任一類型數(shù)據(jù)的異常顯著性,為當前時刻所述任一類型數(shù)據(jù)所在序列段內(nèi)去除第o個數(shù)據(jù)前后計算得到的所述異常因子的差值絕對值,為當前時刻所述任一類型數(shù)據(jù)所在序列段內(nèi)去除所述任一類型數(shù)據(jù)前后計算得到的所述異常因子的差值絕對值,d為當前時刻所述任一類型數(shù)據(jù)所在序列段內(nèi)包含數(shù)據(jù)的個數(shù)。
22、在其中一種實施例中,所述第一異常值為各領(lǐng)域下各采集點當前時刻所有類型數(shù)據(jù)的所述異常程度的和值的歸一化值。
23、在其中一種實施例中,所述第二異常值的計算方式為:
24、;為采集點當前時刻特征向量a的第二異常值,為采集點與采集點的當前時刻特征向量a的參考可靠性,m為采集點的數(shù)量,為采集點與采集點的當前時刻h類型數(shù)據(jù)的差值絕對值,為特征向量a包含的類型數(shù)量,norm()為歸一化函數(shù)。
25、在其中一種實施例中,所述獲取各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的處理結(jié)果,包括:
26、計算所述第一異常值與所述第二異常值的均值,所述修正異常值為所述初始異常值與所述均值的乘積,若所述修正異常值大于等于預(yù)設(shè)異常閾值,則剔除當前時刻對應(yīng)的特征向量內(nèi)的所有類型數(shù)據(jù),否則,保留當前時刻對應(yīng)的特征向量內(nèi)的所有類型數(shù)據(jù)。
27、第二方面,本技術(shù)實施例還提供了基于多源異構(gòu)信息整理的城區(qū)模型數(shù)字化系統(tǒng),包括存儲器、處理器以及存儲在所述存儲器中并在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述計算機程序時實現(xiàn)上述任意一項所述方法的步驟。
28、本技術(shù)至少具有如下有益效果:
29、本技術(shù)通過采集城區(qū)中各領(lǐng)域下各采集點的各時刻的各類型數(shù)據(jù);將各領(lǐng)域下各采集點的各時刻的所有類型數(shù)據(jù)組成各時刻的特征向量;將各領(lǐng)域下各采集點當前時刻的所有歷史時刻下所述特征向量劃分為各聚類簇,基于各領(lǐng)域下各采集點的當前時刻特征向量在不同聚類簇中隸屬度的差異,確定各領(lǐng)域下各采集點當前時刻特征向量的初始異常值,以對各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的異常情況進行初始判斷;進一步,分析各領(lǐng)域下各采集點的當前時刻及其所有歷史時刻的任意兩類型數(shù)據(jù)之間的相關(guān)性,基于各領(lǐng)域下任一采集點與其余各采集點的所述相關(guān)性的差異,以及所述任一采集點與其余各采集點的同類型數(shù)據(jù)之間的差異,確定各領(lǐng)域下所述任一采集點與其余各采集點的當前時刻特征向量的參考可靠性,參考可靠性反映了各采集點與其他采集點之間采集數(shù)據(jù)的相關(guān)關(guān)系,提高了對各采集點采集數(shù)據(jù)進行異常判斷的可靠性;進一步,將各領(lǐng)域下各采集點的當前時刻及其所有歷史時刻的各類型數(shù)據(jù)劃分為各數(shù)據(jù)簇,基于當前時刻的任一類型數(shù)據(jù)所在的數(shù)據(jù)簇與所述任一類型數(shù)據(jù)的剩余數(shù)據(jù)簇之間的差異,確定各領(lǐng)域下各采集點的當前時刻所述任一類型數(shù)據(jù)的異常程度;基于各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的異常程度,確定各領(lǐng)域下各采集點當前時刻特征向量的第一異常值,第一異常值反映了各采集點各領(lǐng)域下各類型數(shù)據(jù)的當前時刻及其所有歷史時刻下所有數(shù)據(jù)之間的時序關(guān)聯(lián)性,從而提高了對各采集點采集數(shù)據(jù)進行異常判斷的準確性;最后,基于各領(lǐng)域下所述任一采集點的所有所述參考可靠性,以及所述同類型數(shù)據(jù)之間的差異,確定各領(lǐng)域下各采集點當前時刻特征向量的第二異常值;結(jié)合所述第一異常值與所述第二異常值,對所述初始異常值進行修正,得到各領(lǐng)域下各采集點當前時刻特征向量的修正異常值,修正異常值修正了初始異常值存在的誤差,提高了特征向量的異常值確定的精度,提高了對采集數(shù)據(jù)進行異常檢測的準確度,獲取各領(lǐng)域下各采集點的當前時刻所有類型數(shù)據(jù)的處理結(jié)果,并進行數(shù)字化,從而提高了城區(qū)模型數(shù)字化的精度。