欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)方法

文檔序號(hào):10725171閱讀:933來(lái)源:國(guó)知局
一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)方法
【專(zhuān)利摘要】本發(fā)明涉及社交網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處理方法,該方法包括以下的步驟:1)對(duì)數(shù)據(jù)全集進(jìn)行搜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣次;2)對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k?means算法聚類(lèi),獲得一組聚類(lèi)中心,次取樣,共可獲得組聚類(lèi)中心;3)利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類(lèi)中心,并輸出;4)以步驟3)尋找到的最優(yōu)聚類(lèi)中心為初始聚類(lèi)中心,為輸入?yún)?shù)(),對(duì)數(shù)據(jù)全集執(zhí)行k?means算法;5)在產(chǎn)生的組聚類(lèi)中,合并距離最近的兩組,重新計(jì)算合并后的聚類(lèi)中心;直到聚類(lèi)數(shù)目減少到,停止合并;整個(gè)算法結(jié)束。該方法提高了消費(fèi)者數(shù)據(jù)聚類(lèi)過(guò)程的速率與穩(wěn)定性。
【專(zhuān)利說(shuō)明】
一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)數(shù)據(jù)處理領(lǐng)域,尤其涉及一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處 理方法。
【背景技術(shù)】
[0002] k-means算法作為最常用數(shù)據(jù)聚類(lèi)算法之一,其原理是預(yù)先設(shè)定好需要?jiǎng)澐诸?lèi)別 的個(gè)數(shù)ir作為輸入?yún)?shù),將數(shù)據(jù)集劃分為it個(gè)簇,根據(jù)每一個(gè)數(shù)據(jù)對(duì)象與每一個(gè)簇聚類(lèi)中心 的歐式距離來(lái)判定這個(gè)數(shù)據(jù)對(duì)象應(yīng)該歸并到哪一個(gè)簇中去。在同一簇內(nèi)數(shù)據(jù)對(duì)象彼此有較 高相似度,而不同簇之間的數(shù)據(jù)對(duì)象相似度較低。k-means算法的具體步驟是:首先依據(jù)輸 入?yún)?shù)i:,在數(shù)據(jù)集隨機(jī)選擇Jt個(gè)數(shù)據(jù)對(duì)象分別作為每個(gè)簇的聚類(lèi)中心,計(jì)算余下的每一個(gè) 數(shù)據(jù)對(duì)象到每個(gè)聚類(lèi)中心的歐式距離4,對(duì)所有4比較大小,將數(shù)據(jù)對(duì)象歸類(lèi)到最小t所對(duì) 應(yīng)的簇中去;然后重新計(jì)算每個(gè)簇的聚類(lèi)中心,再次計(jì)算每個(gè)數(shù)據(jù)對(duì)象到每個(gè)聚類(lèi)中心的 歐式距離4,依據(jù)4最小原則,對(duì)數(shù)據(jù)對(duì)象重新歸類(lèi)到對(duì)應(yīng)簇中去,反復(fù)進(jìn)行這一過(guò)程。最后 直到每個(gè)簇的聚類(lèi)中心不再變化或者變化很小為止,迭代計(jì)算結(jié)束,輸出最后的Jt個(gè)聚類(lèi) 簇,完成對(duì)數(shù)據(jù)集的聚類(lèi)。
[0003] 傳統(tǒng)k-means聚類(lèi)算法過(guò)程圖如圖1所示。
[0004] 傳統(tǒng)k-means聚類(lèi)算法的缺點(diǎn): 對(duì)初始聚類(lèi)中心極為敏感。由于k-means算法對(duì)初始聚類(lèi)中心的選擇是隨機(jī)選擇,如果 初始聚類(lèi)中心選擇不當(dāng),算法很容易陷入局部最優(yōu)解,而非全局最優(yōu)解。特別是當(dāng)數(shù)據(jù)集分 布不均勻時(shí),邊緣點(diǎn)、極值點(diǎn)有可能會(huì)被選為初始點(diǎn),造成迭代收斂速度緩慢,聚類(lèi)效果不 明顯等情況。

【發(fā)明內(nèi)容】

[0005] 為了解決現(xiàn)有技術(shù)中,消費(fèi)者數(shù)據(jù)處理效率緩慢,聚類(lèi)過(guò)程容易出現(xiàn)局部最優(yōu)狀 況從而導(dǎo)致失敗的問(wèn)題本發(fā)明提出了一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處理方法,該方法提 高了消費(fèi)者數(shù)據(jù)聚類(lèi)過(guò)程的速率與穩(wěn)定性。
[0006] 為了解決以上技術(shù)問(wèn)題,本發(fā)明通過(guò)以下技術(shù)方案實(shí)現(xiàn): 一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處理方法,該方法處理的信息為來(lái)自微信采集的消費(fèi) 者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操作記錄信息, 購(gòu)買(mǎi)行為信息和意見(jiàn)反饋信息,該方法包括以下的步驟: 1) 對(duì)數(shù)據(jù)全集S進(jìn)行搜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣J次; 2) 對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k-means算法聚類(lèi),獲得一組聚類(lèi)中心,J次取 樣,共可獲得/組聚類(lèi)中心; 3) 利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類(lèi)中心,并輸出; 4) 以步驟3)尋找到的最優(yōu)聚類(lèi)中心為初始聚類(lèi)中心,為輸入?yún)?shù)(JT>J·),對(duì)數(shù)據(jù)全 集執(zhí)行k-means算法; 5)在產(chǎn)生的JT組聚類(lèi)中,合并距離最近的兩組,重新計(jì)算合并后的聚類(lèi)中心;直到聚類(lèi) 數(shù)目減少到及,停止合并;整個(gè)算法結(jié)束。
[0007] 本發(fā)明由于采用了上述的技術(shù)方案,與現(xiàn)有技術(shù)相比本發(fā)明的優(yōu)點(diǎn)是: (1) 提高了消費(fèi)者數(shù)據(jù)聚類(lèi)過(guò)程的速率與穩(wěn)定性; (2) 由于聚類(lèi)過(guò)程中,數(shù)據(jù)子集為多個(gè)(大于3),能夠目前比較流行的分布式計(jì)算。
【附圖說(shuō)明】
[0008] 圖1為傳統(tǒng)k-means算法流程圖。
[0009] 圖2為本發(fā)明改進(jìn)后的k-means算法流程圖。
[0010] 圖3樣本仿真數(shù)據(jù)集D。
[0011] 圖4為兩種算法執(zhí)行結(jié)果圖。
【具體實(shí)施方式】
[0012] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明: 本發(fā)明設(shè)計(jì)適合大數(shù)據(jù)環(huán)境的改進(jìn)型k-means算法,算法流程圖如圖2所示。某一段時(shí) 間(一個(gè)月)的客戶(hù)數(shù)據(jù)按照利潤(rùn)貢獻(xiàn)值為屬性進(jìn)行聚類(lèi)。在每一類(lèi)客戶(hù)中共有#個(gè)數(shù)據(jù)對(duì) 象?%<%?,每一個(gè)數(shù)據(jù)對(duì)象具有Μ個(gè)價(jià)值屬性表示客戶(hù)數(shù)據(jù)集中的 第》個(gè)客戶(hù)的第*個(gè)屬性。
[0013] 對(duì)某一個(gè)時(shí)間期采集到的客戶(hù)數(shù)據(jù)集合D進(jìn)行聚類(lèi)的目的是得到根據(jù)客戶(hù)價(jià)值貢 獻(xiàn)度,獲得Ji個(gè)客戶(hù)聚類(lèi)集。
[0014] 算法基本步驟描述如下: $對(duì)數(shù)據(jù)集合0進(jìn)行J次取樣,每次均抽取相同客戶(hù)對(duì)象的數(shù)目,形成數(shù)據(jù)集合向量 ②設(shè)置聚類(lèi)個(gè)數(shù)JST,且JST>1,對(duì)II中每個(gè)抽樣集合;Dj,執(zhí)行k-means算法,獲取J組尤個(gè) _根據(jù)抽樣集合縳中每一個(gè)聚類(lèi)集中客戶(hù)數(shù)目巧,計(jì)算抽樣集合g中每 個(gè)聚類(lèi)的誤差平方和計(jì)算公式如下:
其中\(zhòng)指的是聚類(lèi)集值第η個(gè)客戶(hù)的第m個(gè)屬性值,&指的是此聚類(lèi)中心屬性I?的 值。
[0015] 瘍利用誤差平方和準(zhǔn)則函數(shù),計(jì)算抽樣集合的誤差平方和$,其計(jì)算公式如 下:
選擇$-最小值所對(duì)應(yīng)的那一組聚類(lèi)中心C1,作為初始聚類(lèi)中心輸出。
[0016] ·':!:以CT作為初始聚類(lèi)中心,JT為聚類(lèi)個(gè)數(shù),對(duì)數(shù)據(jù)集合D的全域執(zhí)行k-means算 法,獲得夏個(gè)聚類(lèi)
[0017] _在中分別計(jì)算每?jī)蓚€(gè)聚類(lèi)的距離(聚類(lèi)中心之間的歐式距離)& ,其計(jì)算公式如下:
其中,-指的是第?個(gè)聚類(lèi)的聚類(lèi)中心屬性?的值。選取最小的兩個(gè)聚類(lèi)合并,并重 新計(jì)算合并后的聚類(lèi)中心,直到聚類(lèi)集合中聚類(lèi)數(shù)目減少到【=及時(shí),停止合 并,輸出?個(gè)聚類(lèi)集合。整個(gè)改進(jìn)型k-means算法結(jié)束,獲得根據(jù)客戶(hù)價(jià)值貢獻(xiàn)度指標(biāo),對(duì)數(shù) 據(jù)集合D的聚類(lèi)。
[0018] 本發(fā)明將運(yùn)用計(jì)算機(jī)軟件進(jìn)行仿真實(shí)驗(yàn),對(duì)比傳統(tǒng)k-means算法與本文中改進(jìn)后 的k-means算法的聚類(lèi)效果。在本次仿真實(shí)驗(yàn)程序中采用Visual C++實(shí)現(xiàn),計(jì)算機(jī)硬件配置 為,CPU:Inter i5處理器2.5GHz;內(nèi)存:4GB。相關(guān)數(shù)據(jù)樣本參數(shù)設(shè)置如表1所示:
本次仿真實(shí)驗(yàn)的數(shù)據(jù)選取了如圖3所示的二維樣本仿真數(shù)據(jù)集ZJ,分別計(jì)算出圖4中四 個(gè)數(shù)據(jù)子集的均指矢量為(0.6509,0 ·9582)、(3 ·4821,1 · 1241)、(3.9587,3.0213)、 (1.7424,4.2508)。首先采用傳統(tǒng)k-means算法,對(duì)原始數(shù)據(jù)集Ζ)進(jìn)行聚類(lèi),共執(zhí)行30次傳統(tǒng) k-means算法。在每次執(zhí)行傳統(tǒng)k-means算法時(shí),打亂輸入數(shù)據(jù)的順序。同理,在對(duì)原始數(shù)據(jù) 集D執(zhí)行30次改進(jìn)后的k-means算法時(shí),也是打亂讀入數(shù)據(jù)的順序。這樣做的目的是為了檢 驗(yàn)算法的穩(wěn)定性。
[0019] 在對(duì)兩種算法的執(zhí)行結(jié)果中各選擇一組具有代表性的聚類(lèi)結(jié)果,如圖4(a)、(b)所 示,其中圖中紅色的小點(diǎn)表示每個(gè)聚類(lèi)中,聚類(lèi)中心的位置。使用傳統(tǒng)k-means算法的聚類(lèi) 結(jié)果中類(lèi)似圖4(a)共出現(xiàn)了 23次。圖4(a)所反映的情況是比較典型地陷入了局部最小的情 況。而在執(zhí)行本文中設(shè)計(jì)的改進(jìn)型k-means算法后都能穩(wěn)定得到類(lèi)似圖4(b)所示的聚類(lèi)結(jié) 果。
[0020] 接下來(lái)通過(guò)對(duì)聚類(lèi)結(jié)果中,30組聚類(lèi)中心的平均值與經(jīng)過(guò)計(jì)算產(chǎn)生的聚類(lèi)中心 對(duì)比分析,說(shuō)明兩種算法的優(yōu)劣,如表2所示:
通過(guò)表2中聚類(lèi)中心平均值之間的比較,可以明顯看出改進(jìn)型k-means算法得出的聚類(lèi) 中心值與經(jīng)過(guò)計(jì)算后產(chǎn)生的聚類(lèi)中心值更加接近。結(jié)合圖4(a)、(b),我們可以做進(jìn)一步分 析:由于原始數(shù)據(jù)分布不均勾,每個(gè)簇的形狀大小也不一致,傳統(tǒng)k-means算法隨機(jī)選擇初 始聚類(lèi)中心的做法,很容易選擇到邊緣數(shù)據(jù)點(diǎn)作為初始聚類(lèi)中心。一旦遇到這種情況,傳統(tǒng) k-means算法最后得出的聚類(lèi)中心極有可能陷入局部最優(yōu)解,圖4(a)反映的就是這類(lèi)現(xiàn)象 典型情況。改進(jìn)型k-means算法,對(duì)原始數(shù)據(jù)先進(jìn)行20次等值平均抽樣(每組抽樣樣本包含 250個(gè)元素),利用誤差平方和準(zhǔn)則函數(shù),在這20組抽樣樣本中優(yōu)選出最能反映數(shù)據(jù)全集D 形狀、密度特征的聚類(lèi)中心作為初始聚類(lèi)中心代入k-means算法中運(yùn)算,并設(shè)置初始聚類(lèi)數(shù) 目最后合并聚類(lèi)結(jié)果。這樣做既能使聚類(lèi)結(jié)果與讀入數(shù)據(jù)順序無(wú)關(guān),又能避免聚 類(lèi)被割裂形成局部?jī)?yōu)解的情況發(fā)生。
[0021] 本發(fā)明提出的面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)方法,穩(wěn)定性更強(qiáng),準(zhǔn)確度更高,特別適 合處理分布不均勻、數(shù)據(jù)量大的大數(shù)據(jù)源。
[0022] 以上所述僅為本發(fā)明的具體實(shí)施例,但本發(fā)明的技術(shù)特征并不局限于此,任何本 領(lǐng)域的技術(shù)人員在本發(fā)明的領(lǐng)域內(nèi),所作的變化或修飾皆涵蓋在本發(fā)明的專(zhuān)利范圍之中。
【主權(quán)項(xiàng)】
1. 一種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處理方法,其特征在于該方法處理的信息為來(lái)自微 信采集的消費(fèi)者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操 作記錄信息,購(gòu)買(mǎi)行為信息和意見(jiàn)反饋信息,該方法包括W下的步驟: 1) 對(duì)數(shù)據(jù)全集及進(jìn)行捜索,通過(guò)對(duì)數(shù)據(jù)全集隨機(jī)取樣J次; 2) 對(duì)每次隨機(jī)取樣后的樣本數(shù)據(jù)集進(jìn)行k-means算法聚類(lèi),獲得一組聚類(lèi)中屯、,J次取 樣,共可獲得/組聚類(lèi)中屯、; 3) 利用誤差平方和準(zhǔn)則函數(shù),尋找到最優(yōu)的一組聚類(lèi)中屯、,并輸出; 4. W步驟3)尋找到的最優(yōu)聚類(lèi)中屯、為初始聚類(lèi)中屯、,為輸入?yún)?shù)對(duì)數(shù)據(jù)全 集執(zhí)行k-means算法; 5) 在產(chǎn)生的組聚類(lèi)中,合并距離最近的兩組,重新計(jì)算合并后的聚類(lèi)中屯、;直到聚類(lèi) 數(shù)目減少到及,停止合并;整個(gè)算法結(jié)束。2. -種面向微信營(yíng)銷(xiāo)的消費(fèi)者聚類(lèi)處理方法,其特征在于該方法處理的信息為來(lái)自微 信采集的消費(fèi)者信息,包括:消費(fèi)者主動(dòng)填報(bào)的個(gè)人信息,消費(fèi)者關(guān)注微信公眾平臺(tái)后的操 作記錄信息,購(gòu)買(mǎi)行為信息和意見(jiàn)反饋信息;在每一類(lèi)客戶(hù)中共有W個(gè)數(shù)據(jù)對(duì)象 機(jī)A,·.、毎i,每一個(gè)數(shù)據(jù)對(duì)象具有Μ個(gè)價(jià)值屬性拍拓-.、如$,咕表示客戶(hù)數(shù)據(jù)集中的第 W個(gè)客戶(hù)的第"?個(gè)屬性;該方法包括W下的步驟: 宏對(duì)數(shù)據(jù)集合凸進(jìn)行J次取樣,每次均抽取相同客戶(hù)對(duì)象的數(shù)目,形成數(shù)據(jù)集合向量 凸[]{馬,Uj,…,jDj·}; 愛(ài)設(shè)置聚類(lèi)個(gè)數(shù),且油1,對(duì)B中每個(gè)抽樣集合巧,執(zhí)行k-means算法,獲取J組個(gè) 聚類(lèi)中屯、fc心·---· Cj.正I; 畫(huà)根據(jù)抽樣集合巧中每一個(gè)聚類(lèi)集中客戶(hù)數(shù)目巧,Jt二l·玄^取計(jì)算抽樣集合巧中每 個(gè)聚類(lèi)的誤差平方和巧-_?,計(jì)算公式如下:其中咕*指的是聚類(lèi)集值第η個(gè)客戶(hù)的第m個(gè)屬性值,指的是此聚類(lèi)中屯、?:-.*屬性m的 值; 至利用誤差平方和準(zhǔn)則函數(shù),計(jì)算抽樣集合巧J-的誤差平方和馬-,其計(jì)算公式如下:選擇Ej-最小值所對(duì)應(yīng)的那一組聚類(lèi)中屯、C·,作為初始聚類(lèi)中屯、輸出; 荀we'作為初始聚類(lèi)中屯、,為聚類(lèi)個(gè)數(shù),對(duì)數(shù)據(jù)集合曲的全域執(zhí)行k-means算法,獲得 個(gè)聚類(lèi)?巧,巧,…,巧 篡在{嗎,馬,…,eg中分別計(jì)算每?jī)蓚€(gè)聚類(lèi)的距離(聚類(lèi)中屯、之間的歐式距離)d胃,其 計(jì)算公式如下:其中,&指的是第?個(gè)聚類(lèi)的聚類(lèi)中屯、屬性m的值;選取dw最小的兩個(gè)聚類(lèi)合并,并重 新計(jì)算合并后的聚類(lèi)中屯、,直到聚類(lèi)集合灼,旬,.…,<y中聚類(lèi)數(shù)目減少到i::=及時(shí),停止合 并,輸出及個(gè)聚類(lèi)集合;整個(gè)改進(jìn)型k-means算法結(jié)束,獲得根據(jù)客戶(hù)價(jià)值貢獻(xiàn)度指標(biāo),對(duì)數(shù) 據(jù)集合B的聚類(lèi)。
【文檔編號(hào)】G06Q30/02GK106096052SQ201610497893
【公開(kāi)日】2016年11月9日
【申請(qǐng)日】2016年6月25日
【發(fā)明人】高揚(yáng)華, 陸海良, 單宇翔, 郁鋼
【申請(qǐng)人】浙江中煙工業(yè)有限責(zé)任公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
来安县| 曲周县| 牡丹江市| 台湾省| 监利县| 崇义县| 富蕴县| 洮南市| 肥东县| 临泉县| 淮北市| 区。| 庄浪县| 泊头市| 内乡县| 青冈县| 东方市| 应用必备| 东平县| 景泰县| 铜山县| 潼南县| 清苑县| 和平县| 确山县| 鄄城县| 芒康县| 德州市| 巴彦淖尔市| 石柱| 康定县| 佛山市| 平陆县| 田阳县| 宜春市| 新兴县| 上杭县| 昌邑市| 永顺县| 克什克腾旗| 上犹县|