本技術(shù)涉及車輛領(lǐng)域,并且更具體地,涉及車輛領(lǐng)域中的一種車聯(lián)網(wǎng)數(shù)據(jù)的處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、車聯(lián)網(wǎng)是以行駛中的車輛為信息感知對(duì)象,通過信息通信技術(shù),實(shí)現(xiàn)車與車、人、路、服務(wù)平臺(tái)之間的網(wǎng)絡(luò)連接,提升車輛整體的智能駕駛水平,為用戶提供安全、舒適、智能、高效的駕駛感受與交通服務(wù)。通過對(duì)車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,確定不同屬性特征之間的關(guān)聯(lián)度,能夠?yàn)橛脩籼峁└玫能囕v服務(wù)。
2、但是,現(xiàn)有技術(shù)中在使用聚類算法對(duì)車聯(lián)網(wǎng)進(jìn)行數(shù)據(jù)挖掘時(shí),對(duì)不同簇的邊界點(diǎn)識(shí)別不準(zhǔn)確以及無法確定車聯(lián)網(wǎng)中的關(guān)鍵屬性特征,導(dǎo)致聚類效果較差;因此,如何提高聚類算法的準(zhǔn)確性,從而實(shí)現(xiàn)對(duì)車聯(lián)網(wǎng)數(shù)據(jù)的挖掘是當(dāng)前需要解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)提供了一種車聯(lián)網(wǎng)數(shù)據(jù)的處理方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),該方法基于目標(biāo)權(quán)重與尺度參數(shù),確定樣本數(shù)據(jù)的目標(biāo)聚類中心,并對(duì)樣本數(shù)據(jù)進(jìn)行聚類處理,能夠提高聚類算法的準(zhǔn)確性,以確定車聯(lián)網(wǎng)數(shù)據(jù)中各屬性特征的關(guān)聯(lián)度。
2、第一方面,提供了一種車聯(lián)網(wǎng)數(shù)據(jù)的處理方法,該方法包括:
3、獲取車聯(lián)網(wǎng)的樣本數(shù)據(jù);
4、基于樣本數(shù)據(jù),確定樣本數(shù)據(jù)的屬性特征的目標(biāo)權(quán)重與樣本數(shù)據(jù)的尺度參數(shù);其中,目標(biāo)權(quán)重用于表示屬性特征對(duì)聚類結(jié)果的影響程度;尺度參數(shù)用于表示樣本數(shù)據(jù)之間的距離對(duì)聚類結(jié)果的影響程度;
5、基于目標(biāo)權(quán)重與尺度參數(shù),確定樣本數(shù)據(jù)的目標(biāo)聚類中心;
6、基于目標(biāo)聚類中心對(duì)樣本數(shù)據(jù)進(jìn)行聚類處理,得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果;其中,車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果用于表示車聯(lián)網(wǎng)數(shù)據(jù)中屬性特征的關(guān)聯(lián)度。
7、在本技術(shù)的實(shí)施例中,在獲取到車聯(lián)網(wǎng)的樣本數(shù)據(jù)后,根據(jù)樣本數(shù)據(jù)的屬性特征的目標(biāo)權(quán)重與樣本數(shù)據(jù)的尺度參數(shù),確定樣本數(shù)據(jù)的聚類中心;由于目標(biāo)權(quán)重用于表示樣本數(shù)據(jù)的各屬性特征對(duì)聚類結(jié)果的影響程度,不同屬性特征對(duì)聚類結(jié)果的影響程度不同,對(duì)應(yīng)的目標(biāo)權(quán)重不同。此外,由于不同的樣本數(shù)據(jù)對(duì)于距離的影響程度存在區(qū)別,即不同樣本數(shù)據(jù)對(duì)應(yīng)的尺度參數(shù)存在區(qū)別;在上述方案中,在確定樣本數(shù)據(jù)的聚類中心時(shí),能夠同時(shí)考慮到屬性特征的目標(biāo)權(quán)重與樣本數(shù)據(jù)的尺度參數(shù)兩個(gè)方面對(duì)聚類結(jié)果的影響,因此能夠確保得到較為準(zhǔn)確的聚類中心;在聚類中心更準(zhǔn)確的前提下,對(duì)樣本數(shù)據(jù)進(jìn)行聚類處理,能夠提高車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果的準(zhǔn)確性。
8、結(jié)合第一方面,在第一方面的某些實(shí)現(xiàn)方式中,基于目標(biāo)權(quán)重與尺度參數(shù),確定樣本數(shù)據(jù)的目標(biāo)聚類中心,包括:
9、基于目標(biāo)權(quán)重與尺度參數(shù),確定目標(biāo)局部密度排序;其中,目標(biāo)局部密度排序?yàn)闃颖緮?shù)據(jù)中各樣本數(shù)據(jù)的局部密度排序;
10、基于樣本數(shù)據(jù)與目標(biāo)樣本數(shù)據(jù)之間的目標(biāo)距離,確定目標(biāo)距離排序;其中,目標(biāo)樣本數(shù)據(jù)為樣本數(shù)據(jù)中局部密度大于各樣本數(shù)據(jù)的局部密度的數(shù)據(jù);目標(biāo)距離為各樣本數(shù)據(jù)與目標(biāo)樣本數(shù)據(jù)的距離中的最小距離;目標(biāo)距離排序?yàn)闃颖緮?shù)據(jù)中各樣本數(shù)據(jù)的最小距離排序;
11、基于目標(biāo)局部密度排序與目標(biāo)距離排序,確定目標(biāo)聚類中心。
12、在本技術(shù)的實(shí)施例中,基于目標(biāo)權(quán)重與尺度參數(shù),確定各樣本數(shù)據(jù)的局部密度;并對(duì)各樣本數(shù)據(jù)的局部密度進(jìn)行排序,得到目標(biāo)局部密度排序;確定樣本數(shù)據(jù)與目標(biāo)樣本數(shù)據(jù)之間的目標(biāo)距離,并對(duì)目標(biāo)距離進(jìn)行排序,得到目標(biāo)距離排序;由于局部密度用于表示各樣本數(shù)據(jù)鄰域內(nèi)的數(shù)據(jù)密度,即鄰近區(qū)域內(nèi)樣本數(shù)據(jù)的密集程度;而目標(biāo)距離用于表示樣本數(shù)據(jù)到其它局部密度更大的樣本數(shù)據(jù)之間的最小距離;因此,基于目標(biāo)局部密度排序與目標(biāo)距離排序,確定目標(biāo)聚類中心;使得得到的目標(biāo)聚類中心的局部密度較大,且距離局部密度更大的樣本數(shù)據(jù)的距離較遠(yuǎn);確保得到較為準(zhǔn)確目標(biāo)聚類中心。
13、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,基于目標(biāo)局部密度排序與目標(biāo)距離排序,確定目標(biāo)聚類中心,包括:
14、將位于目標(biāo)局部密度排序中的前n個(gè),且位于目標(biāo)距離排序的前n個(gè)的第一樣本數(shù)據(jù),確定為第一聚類中心;
15、若第一聚類中心的評(píng)估指標(biāo)大于預(yù)設(shè)閾值,將第一聚類中心確定為目標(biāo)聚類中心;其中,評(píng)估指標(biāo)用于表示第一聚類中心的聚類效果。
16、在本技術(shù)的實(shí)施例中,將位于目標(biāo)局部密度排序中的前n個(gè),且位于目標(biāo)距離排序中的前n個(gè)第一樣本數(shù)據(jù),確定為第一聚類中心;并通過第一聚類中心的評(píng)估指標(biāo)對(duì)第一聚類中心進(jìn)行評(píng)估;若第一聚類中心的評(píng)估指標(biāo)大于預(yù)設(shè)閾值,則將第一聚類中心確定為目標(biāo)聚類中心;由于是在評(píng)估指標(biāo)大于預(yù)設(shè)閾值時(shí),將第一聚類中心確定為目標(biāo)聚類中心;確保能夠?qū)垲愔行倪M(jìn)行評(píng)估;將聚類結(jié)果較好的第一聚類中心確定為目標(biāo)聚類中心;從而能夠得到較為準(zhǔn)確的聚類結(jié)果。
17、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,基于樣本數(shù)據(jù),確定樣本數(shù)據(jù)的屬性特征的目標(biāo)權(quán)重與樣本數(shù)據(jù)的尺度參數(shù),包括:
18、確定屬性特征相對(duì)于目標(biāo)均值的離散程度;其中,目標(biāo)均值為樣本數(shù)據(jù)中屬性特征的均值;
19、基于離散程度,確定屬性特征的目標(biāo)權(quán)重;
20、基于目標(biāo)權(quán)重,確定樣本數(shù)據(jù)的尺度參數(shù)。
21、在本技術(shù)的實(shí)施例中,基于屬性特征相對(duì)于目標(biāo)均值的離散程度,確定屬性特征的目標(biāo)權(quán)重;若屬性特征的離散程度較大,表示該屬性特征包含更多的信息,能夠表現(xiàn)出不同的樣本數(shù)據(jù)之間的差異;因此,對(duì)應(yīng)的目標(biāo)權(quán)重更大;并基于目標(biāo)權(quán)重,確定樣本數(shù)據(jù)的尺度參數(shù)。
22、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,基于目標(biāo)權(quán)重,確定樣本數(shù)據(jù)的尺度參數(shù),包括:
23、基于目標(biāo)權(quán)重,確定各樣本數(shù)據(jù)的第一距離與第二距離;其中,第一距離為各樣本數(shù)據(jù)與第二樣本數(shù)據(jù)的距離;第二距離為各樣本數(shù)據(jù)與候選數(shù)據(jù)集合中各候選數(shù)據(jù)的距離之和;候選數(shù)據(jù)集合包括第二樣本數(shù)據(jù)與第二樣本數(shù)據(jù)的鄰域內(nèi)的樣本數(shù)據(jù);
24、基于各樣本數(shù)據(jù)的第一距離與第二距離的比值,確定各樣本數(shù)據(jù)之間的尺度參數(shù)。
25、在本技術(shù)的實(shí)施例中,基于目標(biāo)權(quán)重,確定各樣本數(shù)據(jù)的第一距離與第二距離;即確定各樣本數(shù)據(jù)與第二樣本數(shù)據(jù)的距離,以及各樣本數(shù)據(jù)與第二樣本數(shù)據(jù)的候選數(shù)據(jù)集合之間的距離之和;由于候選數(shù)據(jù)集合包括第二樣本數(shù)據(jù)與第二樣本數(shù)據(jù)的鄰域內(nèi)的樣本數(shù)據(jù);因此,第二距離能夠反映各樣本數(shù)據(jù)與第二樣本數(shù)據(jù)鄰域內(nèi)各樣本數(shù)據(jù)的距離;即第二樣本數(shù)據(jù)的分布不同,第二樣本數(shù)據(jù)的鄰域內(nèi)的樣本數(shù)據(jù)不同,對(duì)應(yīng)的第二距離不同;基于第一距離與第二距離的比值,確定各樣本數(shù)據(jù)之間的尺度參數(shù),得到的尺度參數(shù)能夠反映兩個(gè)樣本數(shù)據(jù)之間的距離以及樣本數(shù)據(jù)與候選數(shù)據(jù)集合之間的距離。
26、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,基于目標(biāo)聚類中心對(duì)樣本數(shù)據(jù)進(jìn)行聚類處理,得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果,包括:
27、確定各樣本數(shù)據(jù)與目標(biāo)聚類中心的第三距離;
28、基于各樣本數(shù)據(jù)的第三距離與目標(biāo)聚類中心,得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果。
29、在本技術(shù)的實(shí)施例中,基于各樣本數(shù)據(jù)與目標(biāo)聚類中心的第三距離與目標(biāo)聚類中心,得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果;即遍歷各樣本數(shù)據(jù),并將各樣本數(shù)據(jù)與距離最近的目標(biāo)聚類中心劃分為同一簇?cái)?shù)據(jù),得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果。
30、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,在獲取車聯(lián)網(wǎng)的樣本數(shù)據(jù)之前,還包括:
31、獲取車聯(lián)網(wǎng)的初始數(shù)據(jù);
32、獲取車聯(lián)網(wǎng)的樣本數(shù)據(jù),包括:對(duì)初始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,得到樣本數(shù)據(jù);其中,數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、數(shù)據(jù)轉(zhuǎn)換與數(shù)據(jù)聚集中的至少一項(xiàng)。
33、在本技術(shù)的實(shí)施例中,在獲取完初始數(shù)據(jù)后,對(duì)初始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理;從而去除車聯(lián)網(wǎng)數(shù)據(jù)中的噪聲數(shù)據(jù)、減少數(shù)據(jù)維度,提高數(shù)據(jù)質(zhì)量,從而能夠更好地對(duì)樣本數(shù)據(jù)進(jìn)行聚類,發(fā)現(xiàn)車聯(lián)網(wǎng)數(shù)據(jù)之間的內(nèi)在關(guān)系,提高聚類分析的準(zhǔn)確性。
34、結(jié)合第一方面和上述實(shí)現(xiàn)方式,在第一方面的某些實(shí)現(xiàn)方式中,基于樣本數(shù)據(jù),確定樣本數(shù)據(jù)的屬性特征的目標(biāo)權(quán)重,包括:
35、基于目標(biāo)需求對(duì)樣本數(shù)據(jù)進(jìn)行特征提取,得到樣本數(shù)據(jù)的屬性特征;
36、基于樣本數(shù)據(jù)與屬性特征,確定屬性特征的目標(biāo)權(quán)重。
37、在本技術(shù)的實(shí)施例中,由于車聯(lián)網(wǎng)數(shù)據(jù)通常包含多種維度的特征;但是并非所有維度的特征都對(duì)聚類有實(shí)質(zhì)性的作用;若提取的特征過多,可能導(dǎo)致屬性特征的冗余,降低聚類的效率和準(zhǔn)確性;因此,基于目標(biāo)需求對(duì)預(yù)處理后的樣本數(shù)據(jù)進(jìn)行特征提取得到樣本數(shù)據(jù)的屬性特征,確保得到的屬性特征是與目標(biāo)需求的一致性,從而避免屬性特征冗余對(duì)聚類的效率與準(zhǔn)確性的影響。
38、第二方面,提供了一種車聯(lián)網(wǎng)數(shù)據(jù)的處理裝置,裝置包括:
39、獲取模塊,用于獲取車聯(lián)網(wǎng)的樣本數(shù)據(jù);
40、第一確定模塊,用于基于樣本數(shù)據(jù),確定樣本數(shù)據(jù)的屬性特征的目標(biāo)權(quán)重與樣本數(shù)據(jù)的尺度參數(shù);其中,目標(biāo)權(quán)重用于表示屬性特征對(duì)聚類結(jié)果的影響程度;尺度參數(shù)用于表示樣本數(shù)據(jù)之間的距離對(duì)聚類結(jié)果的影響程度;
41、第二確定模塊,用于基于目標(biāo)權(quán)重與尺度參數(shù),確定樣本數(shù)據(jù)的目標(biāo)聚類中心;
42、處理模塊,用于基于目標(biāo)聚類中心對(duì)樣本數(shù)據(jù)進(jìn)行聚類處理,得到車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果;其中,車聯(lián)網(wǎng)數(shù)據(jù)的聚類結(jié)果用于表示車聯(lián)網(wǎng)數(shù)據(jù)中屬性特征的關(guān)聯(lián)度。
43、第三方面,提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,該存儲(chǔ)器用于存儲(chǔ)可執(zhí)行程序代碼,該處理器用于從存儲(chǔ)器中調(diào)用并運(yùn)行該可執(zhí)行程序代碼,使得該電子設(shè)備執(zhí)行上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式中的方法。
44、第四方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括:計(jì)算機(jī)程序代碼,當(dāng)該計(jì)算機(jī)程序代碼在計(jì)算機(jī)上運(yùn)行時(shí),使得該計(jì)算機(jī)執(zhí)行上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式中的方法。
45、第五方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有指令,當(dāng)該指令在電子設(shè)備上運(yùn)行時(shí),使得該電子設(shè)備執(zhí)行上述第一方面或第一方面任意一種可能的實(shí)現(xiàn)方式中的方法。