一種確定聚類樣本差異的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種確定聚類樣本差異的方法及裝置。
【背景技術(shù)】
[0002] 目前,利用云計(jì)算、大數(shù)據(jù)等技術(shù)對(duì)用戶的終端類型、社交信息和消費(fèi)信息等數(shù)據(jù) 信息進(jìn)行數(shù)據(jù)處理分析,可以為運(yùn)營(yíng)商的運(yùn)營(yíng)提供參考和依據(jù)。聚類為一種數(shù)據(jù)處理方法, 即從一個(gè)樣本空間中,按照衡量準(zhǔn)則,將該樣本空間劃分為k個(gè)不相交的子集合,并使得子 集合內(nèi)樣本的差異最小及子集合間樣本的差異較大。為了衡量樣本的差異,現(xiàn)有技術(shù)中采 用幾何空間中的歐式距離、曼哈頓距離、夾角余弦和切比雪夫距離等來(lái)表示樣本的差異。例 如,樣本是η維空間中的一個(gè)點(diǎn),兩個(gè)樣本的差異可以用這兩者的距離來(lái)表示。示例的,如 圖1所示,二維樣本空間中用夾角余弦表征兩個(gè)樣本的差異。
[0003] 需要說(shuō)明的是,現(xiàn)有技術(shù)中采用幾何空間中的歐式距離、曼哈頓距離、夾角余弦和 切比雪夫距離等來(lái)表示樣本的差異均有一個(gè)共性,即數(shù)值性。樣本的差異通過(guò)距離來(lái)衡量, 并且在衡量差異時(shí)每一維有相同的權(quán)值,因此,樣本的每一維屬性均需要通過(guò)有意義的數(shù) 值來(lái)表示,并且每一維的權(quán)值要均等。
[0004] 但是,樣本的屬性還可以是顏色或性別等特征,即標(biāo)稱屬性樣本;或者,樣本的屬 性為軍階等樣本的值之間具有一定的順序,但是樣本的屬性值之間的差未知,即序數(shù)屬性 樣本。對(duì)于樣本的屬性值沒(méi)有特定的數(shù)值意義的樣本采用幾何空間中的歐式距離、曼哈頓 距離、夾角余弦和切比雪夫距離等來(lái)進(jìn)行運(yùn)算表示樣本的差異并無(wú)意義,因此,如何確定樣 本的屬性值之間的差異是一個(gè)亟待解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實(shí)施例提供一種確定聚類樣本差異的方法及裝置,能夠確定樣本的屬性 值之間的差異。
[0006] 為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
[0007] 第一方面,提供一種確定聚類樣本差異的方法,包括:
[0008] 將第一屬性樣本的屬性值映射為二進(jìn)制碼,所述第一屬性樣本包括多個(gè)屬性值;
[0009] 獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼;
[0010] 獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制碼之間的差異。
[0011] 第二方面,提供一種確定聚類樣本差異的裝置,包括:
[0012] 映射單元,用于將第一屬性樣本的屬性值映射為二進(jìn)制碼,所述第一屬性樣本包 括多個(gè)屬性值;
[0013] 獲取單元,用于獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼;
[0014] 所述獲取單元還用于獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn) 制碼之間的差異。
[0015] 本發(fā)明實(shí)施例提供一種確定聚類樣本差異的方法及裝置。首先,將第一屬性樣本 的屬性值映射為二進(jìn)制碼,所述第一屬性樣本包括多個(gè)屬性值;獲取第一屬性值的二進(jìn)制 碼和第二屬性值的二進(jìn)制碼;獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制 碼之間的差異。相對(duì)于現(xiàn)有技術(shù),通過(guò)距離來(lái)衡量樣本的差異,本發(fā)明通過(guò)將不同屬性的樣 本映射為二進(jìn)制碼,通過(guò)獲取二進(jìn)制碼之間的差異,反應(yīng)樣本間或樣本內(nèi)的差異。
【附圖說(shuō)明】
[0016] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0017] 圖1為現(xiàn)有技術(shù)提供一種二維樣本空間中用夾角余弦表征兩個(gè)樣本的差異的示 意圖;
[0018] 圖2為本發(fā)明實(shí)施例提供一種確定聚類樣本差異的方法流程圖;
[0019] 圖3為本發(fā)明實(shí)施例提供另一種確定聚類樣本差異的方法流程圖;
[0020] 圖4為本發(fā)明實(shí)施例提供一種二叉樹(shù)示意圖;
[0021] 圖5為本發(fā)明實(shí)施例提供又一種確定聚類樣本差異的方法流程圖;
[0022] 圖6為本發(fā)明實(shí)施例提供一種二叉樹(shù)示意圖;
[0023] 圖7為本發(fā)明實(shí)施例提供一種確定聚類樣本差異的裝置結(jié)構(gòu)示意圖;
[0024] 圖8為本發(fā)明實(shí)施例提供另一種確定聚類樣本差異的裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0026] 本發(fā)明實(shí)施例提供一種確定聚類樣本差異的方法,如圖2所示,包括:
[0027] 步驟101、將第一屬性樣本的屬性值映射為二進(jìn)制碼,所述第一屬性樣本包括多個(gè) 屬性值。
[0028] 步驟102、獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼。
[0029] 步驟103、獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制碼之間的 差異。
[0030] 這樣一來(lái),首先,將第一屬性樣本的屬性值映射為二進(jìn)制碼,所述第一屬性樣本包 括多個(gè)屬性值;獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼;獲取所述第一屬性 值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制碼之間的差異。相對(duì)于現(xiàn)有技術(shù),通過(guò)距離來(lái)衡 量樣本的差異,本發(fā)明通過(guò)將不同屬性的樣本映射為二進(jìn)制碼,通過(guò)獲取二進(jìn)制碼之間的 差異,反應(yīng)樣本間或樣本內(nèi)的差異。
[0031] 本發(fā)明實(shí)施例提供一種確定聚類樣本差異的方法,如圖3所示,包括:
[0032] 步驟201、獲取地址屬性樣本。
[0033] 步驟202、將地址屬性樣本的屬性值映射為s層2k樹(shù)。
[0034] 地址屬性可以分為國(guó)家、省市、區(qū)域和街道等。對(duì)于其中的每一層,如國(guó)家的屬 性值可以為美國(guó)、中國(guó)、日本等。如圖4所示,假設(shè)地址屬性A的第1層取4個(gè)屬性值,則 々=log,max(A:.) I為2,第1層的屬性值的二進(jìn)制碼為2位,例如00表示中國(guó),01表示美國(guó), 10表示日本,11表示韓國(guó)。第2層的每個(gè)屬性取2個(gè)屬性值,由于Iog2InpOi) =2,因 此,第2層的屬性值的二進(jìn)制碼為一個(gè)0, 1位和一個(gè)F位組成,例如OF表示陜西,IF表示 山西。需要說(shuō)明的是,當(dāng)所述第i層的屬性值可以由h位(h〈k)的二進(jìn)制碼完全表示時(shí),該 層屬性值對(duì)應(yīng)的k位二進(jìn)制碼為:1)前h位為屬性值對(duì)應(yīng)的h位二進(jìn)制碼;2)后k-h位由 F補(bǔ)齊。在上述例子中,對(duì)于第二層的屬性,由于屬性取值數(shù)為2,僅需1位即能表示所有的 取值。因此,h = 1。后k-h = 2-1 = 1位二進(jìn)制碼由F位補(bǔ)齊。
[0035] 步驟203、獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼。
[0036] 具體的,沿著樹(shù)根往下遍歷,找到屬性值所屬的層次L,該屬性值的二進(jìn)制碼為: 從根到該屬性值所屬位置經(jīng)過(guò)的路徑上所有節(jié)點(diǎn)的二進(jìn)制碼的連接。如圖4所示,中國(guó)陜 西屬性值的二進(jìn)制碼為000F。
[0037] 需要說(shuō)明的是,在實(shí)際的應(yīng)用中,如果標(biāo)稱屬性的概念分層太多,導(dǎo)致越往底層, 屬性值相同的樣本越少。例如,地址屬性分層為國(guó)家、省市、區(qū)縣、街道、小區(qū)和單元樓。由 于單元樓相同的樣本會(huì)比較少,比對(duì)所有概念層的取值意義不大。因而,若兩個(gè)屬性的二進(jìn) 制碼前綴相同位越多,則表示這兩個(gè)屬性的相似性越大,差異越小,相應(yīng)地,其二進(jìn)制碼對(duì) 應(yīng)的數(shù)值也越接近。
[0038] 步驟204、獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制碼之間的 差異。
[0039] 標(biāo)稱屬性的差異計(jì)算方法轉(zhuǎn)換為計(jì)算二進(jìn)制碼的匹配數(shù)。若標(biāo)稱屬性分別為 attrl和attr2,則這兩個(gè)樣本的標(biāo)稱屬性差異可以用公式(1)表示:
[0041] 其中,attrli表示attrl的二進(jìn)制編號(hào)中的第i位。
[0042] 示例的,中國(guó)陜西屬性值的二進(jìn)制碼為000F,中國(guó)山西屬性值的二進(jìn)制碼為 001F。F表示0或1,中國(guó)陜西屬性值的二進(jìn)制碼為0001或0000,中國(guó)山西屬性值的二進(jìn)制 碼為0011或0010。中國(guó)陜西屬性值0001與中國(guó)山西屬性值0011的差異為1/4。中國(guó)陜 西屬性值0001與中國(guó)山西屬性值0010的差異為1/2。中國(guó)陜西屬性值0000與中國(guó)山西屬 性值0011的差異為1/2。中國(guó)陜西屬性值0000與中國(guó)山西屬性值0010的差異為1/4。
[0043] 確定序數(shù)屬性樣本差異的方法與確定標(biāo)稱屬性樣本差異的方法相同。
[0044] 本發(fā)明實(shí)施例提供一種確定聚類樣本差異的方法,如圖5所示,包括:
[0045] 步驟301、獲取數(shù)值屬性樣本。
[0046] 步驟302、將數(shù)值屬性樣本的屬性值映射為s層二叉樹(shù)。
[0047] 所述s為大于等于1的整數(shù),其中,當(dāng)?shù)趇層的屬性值小于中值,所述屬性值記為 〇,當(dāng)?shù)趇層的屬性值大于中值,所述屬性值記為1,所述中值為第i層屬性值的最大屬性值 與最小屬性值之和的一半,i大于等于1且小于等于s。
[0048] 假設(shè)數(shù)值屬性A的取值范圍為[min,max]。首先,獲取[min,max]的中值midO = (lowi+highi)/2= (min+max)/2,將區(qū)間[min,max]劃分為相同大小的兩個(gè)區(qū)間[min,mid] 和[mid,max]。比較A與mid的值,如果A〈mid,則進(jìn)入左子樹(shù),此次迭代后得到的編號(hào)為0, 如果A>mid,進(jìn)入右子樹(shù),此次迭代后得到的編號(hào)為1。如果對(duì)于精度要求比較高,則可以多 次對(duì)子區(qū)間進(jìn)行劃分。對(duì)于第1層的左子樹(shù)區(qū)間[min,max]的中值midi = (lowi+highi)/2 =(lowl+mid0)/2,對(duì)于第 1 層的右子樹(shù)區(qū)間[min,max]的中值midi = (lowi+highi)/2 = (mid0+highl)/2,如果A〈midl,則進(jìn)入左子樹(shù),此次迭代后得到的編號(hào)為0,如果A>midl,進(jìn) 入右子樹(shù),此次迭代后得到的編號(hào)為1。同理,若定義的逼近迭代次數(shù)為k,則二叉樹(shù)的高度 為k。進(jìn)行第i次迭代時(shí),子區(qū)間為[lowi,highi]。則此時(shí)比較A與midi = (lowi+highi)/2 的值,若attKmidi,則attr此次迭代的編號(hào)為0,并進(jìn)入左子樹(shù)。否則,編號(hào)為1,進(jìn)入右子 樹(shù)。
[0049] 如圖6所示,數(shù)值屬性的二叉樹(shù)。
[0050] 步驟303、獲取第一屬性值的二進(jìn)制碼和第二屬性值的二進(jìn)制碼。
[0051] 具體的,沿著樹(shù)根往下遍歷,獲取屬性值的二進(jìn)制碼。例如獲取第2層左子樹(shù)的屬 性值的二進(jìn)制碼為〇〇。
[0052] 步驟304、獲取所述第一屬性值的二進(jìn)制碼和所述第二屬性值的二進(jìn)制碼之間的 差異。
[0053] 數(shù)值屬性的差異計(jì)算方法轉(zhuǎn)換為計(jì)算二進(jìn)制碼的匹配數(shù)。若標(biāo)稱屬性分別為 attrl和attr2,則這兩個(gè)樣本的標(biāo)稱屬性差異可以用公式(1)表示:
[0055] 其中,attrli表示attrl的二進(jìn)制編號(hào)中的第i