本發(fā)明涉及信息處理,尤其涉及基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法。
背景技術(shù):
1、挖掘社交平臺(tái)中的關(guān)聯(lián)用戶,可以實(shí)現(xiàn)更準(zhǔn)確地內(nèi)容推薦。在現(xiàn)有技術(shù)中,往往將存在互動(dòng)的用戶看做是關(guān)聯(lián)用戶來(lái)進(jìn)行內(nèi)容推薦,即將用戶之間的連接都視為正關(guān)系來(lái)發(fā)現(xiàn)關(guān)聯(lián)用戶,進(jìn)行相似的內(nèi)容推薦。但是在社交平臺(tái)中,用戶可以對(duì)其他用戶表達(dá)積極或消極的評(píng)價(jià),現(xiàn)有技術(shù)中并沒(méi)有考慮不同類型的關(guān)系,導(dǎo)致發(fā)現(xiàn)的關(guān)聯(lián)用戶不準(zhǔn)確,例如對(duì)雖然互動(dòng)很多,但是實(shí)際互相觀點(diǎn)相反的兩個(gè)用戶發(fā)現(xiàn)為關(guān)聯(lián)用戶而對(duì)其進(jìn)行相似的內(nèi)容推薦。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,用以解決現(xiàn)有技術(shù)中查找的關(guān)聯(lián)用戶不準(zhǔn)確的缺陷,實(shí)現(xiàn)提高關(guān)聯(lián)用戶的準(zhǔn)確性。
2、本發(fā)明提供一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,包括:
3、基于待搜索社交數(shù)據(jù),生成初始符號(hào)圖,所述初始符號(hào)圖中的頂點(diǎn)對(duì)應(yīng)所述待搜索社交數(shù)據(jù)中的用戶,所述初始符號(hào)圖中的邊對(duì)應(yīng)所述用戶之間的關(guān)系,所述初始符號(hào)圖中的邊的符號(hào)反映所述用戶之間的關(guān)系類別;
4、對(duì)所述初始符號(hào)圖中的頂點(diǎn)進(jìn)行排序,得到排序結(jié)果,按照所述排序結(jié)果依次生成各個(gè)頂點(diǎn)對(duì)應(yīng)的總分支,所述總分支包括必選集和候選集,目標(biāo)頂點(diǎn)對(duì)應(yīng)的總分支中包括的所述必選集中包括所述目標(biāo)頂點(diǎn),所述目標(biāo)頂點(diǎn)對(duì)應(yīng)的總分支中包括的所述候選集中包括所述目標(biāo)頂點(diǎn)的關(guān)聯(lián)頂點(diǎn),所述目標(biāo)頂點(diǎn)的關(guān)聯(lián)頂點(diǎn)為在所述目標(biāo)頂點(diǎn)的鄰居頂點(diǎn)集中去除所述排序結(jié)果中在所述目標(biāo)頂點(diǎn)之前的頂點(diǎn)得到的;
5、對(duì)所述總分支進(jìn)行至少一次分支,得到目標(biāo)子分支,所述目標(biāo)子分支滿足預(yù)設(shè)條件,在每次分支時(shí),基于父分支的所述候選集和所述必選集的并集中頂點(diǎn)的第二符號(hào)鄰居數(shù)量確定樞點(diǎn),基于所述樞點(diǎn)生成子分支,所述預(yù)設(shè)條件為所述目標(biāo)子分支中的所述并集對(duì)應(yīng)的符號(hào)子圖中任意兩個(gè)頂點(diǎn)均互相連接且任意一個(gè)頂點(diǎn)的第一符號(hào)鄰居數(shù)量不小于,為預(yù)設(shè)值,為所述目標(biāo)子分支對(duì)應(yīng)的子圖中的頂點(diǎn)數(shù);
6、基于頂點(diǎn)數(shù)量最大的所述目標(biāo)子分支,確定所述待搜索社交數(shù)據(jù)中的目標(biāo)群體。
7、根據(jù)本發(fā)明提供的一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,所述基于父分支的所述候選集和所述必選集的并集中頂點(diǎn)的第二符號(hào)鄰居數(shù)量確定樞點(diǎn)之前,包括:
8、獲取所述并集中第一符號(hào)度數(shù)的上界和第二符號(hào)度數(shù)的上界、所述并集中候選頂點(diǎn)的第一符號(hào)度數(shù)和總度數(shù);
9、基于所述第一符號(hào)度數(shù)的上界、第二符號(hào)度數(shù)的上界、所述第一符號(hào)度數(shù)和所述總度數(shù)確定是否從所述候選集中刪除所述候選頂點(diǎn)。
10、根據(jù)本發(fā)明提供的一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,所述獲取所述并集中第一符號(hào)度數(shù)的上界和第二符號(hào)度數(shù)的上界,包括:
11、基于第一預(yù)設(shè)公式獲取所述第一符號(hào)度數(shù)的上界,基于第二預(yù)設(shè)公式獲取所述第二符號(hào)度數(shù)的上界;
12、所述第一預(yù)設(shè)公式為:,為所述第一符號(hào)度數(shù)的上界,s為所述必選集,c為所述候選集,表示所述并集中頂點(diǎn)的第一符號(hào)度數(shù);
13、所述第二預(yù)設(shè)公式為或,其中表示所述第二符號(hào)度數(shù)的上界,為對(duì)變量的處理函數(shù),表示中的頂點(diǎn)數(shù)量,。
14、根據(jù)本發(fā)明提供的一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,所述基于所述第一符號(hào)度數(shù)的上界、第二符號(hào)度數(shù)的上界、所述第一符號(hào)度數(shù)和所述總度數(shù)確定是否從所述候選集中刪除所述候選頂點(diǎn),包括:
15、當(dāng)所述候選頂點(diǎn)滿足第一條件、第二條件或第三條件時(shí),從所述候選集中刪除所述候選頂點(diǎn);
16、所述第一條件為:,,表示圖中頂點(diǎn)的第二符號(hào)度數(shù);
17、所述第二條件為:,其中,表示當(dāng)前存在的頂點(diǎn)數(shù)量最大的所述目標(biāo)子分支中的頂點(diǎn)數(shù);
18、所述第三條件為:,表示所述并集中頂點(diǎn)的總度數(shù)。
19、根據(jù)本發(fā)明提供的一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,所述基于父分支的所述候選集和所述必選集的并集中頂點(diǎn)的第二符號(hào)鄰居數(shù)量確定樞點(diǎn),包括:
20、基于所述并集確定目標(biāo)集,所述目標(biāo)集中包括所述并集中第二符號(hào)度數(shù)不小于所述第二符號(hào)度數(shù)的上界的頂點(diǎn);
21、對(duì)所述目標(biāo)集進(jìn)行過(guò)濾,得到過(guò)濾集,所述過(guò)濾集中包括所述目標(biāo)集中第二符號(hào)鄰居最多的頂點(diǎn);
22、在所述過(guò)濾集的頂點(diǎn)中選擇在所述并集中具有最多第二符號(hào)鄰居的點(diǎn)作為所述樞點(diǎn)。
23、根據(jù)本發(fā)明提供的一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,所述基于所述樞點(diǎn)生成子分支,包括:
24、當(dāng)所述樞點(diǎn)不屬于所述父分支的所述必選集時(shí),將所述樞點(diǎn)作為分支點(diǎn),當(dāng)所述樞點(diǎn)屬于所述父分支的所述必選集時(shí),將所述樞點(diǎn)在所述父分支的所述候選集中的一個(gè)第二符號(hào)鄰居作為所述分支點(diǎn);
25、在所述父分支的所述候選集中刪除所述分支點(diǎn),生成第一子分支的所述候選集,將所述父分支的所述必選集作為所述第一子分支的所述必選集;
26、將所述分支點(diǎn)加入至所述父分支的所述必選集中,得到第二子分支的所述必選集,將所述父分支的所述必選集中所述分支點(diǎn)的鄰居集合作為所述第二子分支的所述候選集。
27、本發(fā)明還提供一種基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)裝置,包括:
28、數(shù)據(jù)轉(zhuǎn)換模塊,用于基于待搜索社交數(shù)據(jù),生成初始符號(hào)圖,所述初始符號(hào)圖中的頂點(diǎn)對(duì)應(yīng)所述待搜索社交數(shù)據(jù)中的用戶,所述初始符號(hào)圖中的邊對(duì)應(yīng)所述用戶之間的關(guān)系,所述初始符號(hào)圖中的邊的符號(hào)反映所述用戶之間的關(guān)系類別;
29、總分支生成模塊,用于對(duì)所述初始符號(hào)圖中的頂點(diǎn)進(jìn)行排序,得到排序結(jié)果,按照所述排序結(jié)果依次生成各個(gè)頂點(diǎn)對(duì)應(yīng)的總分支,所述總分支包括必選集和候選集,目標(biāo)頂點(diǎn)對(duì)應(yīng)的總分支中包括的所述必選集中包括所述目標(biāo)頂點(diǎn),所述目標(biāo)頂點(diǎn)對(duì)應(yīng)的總分支中包括的所述候選集中包括所述目標(biāo)頂點(diǎn)的關(guān)聯(lián)頂點(diǎn),所述目標(biāo)頂點(diǎn)的關(guān)聯(lián)頂點(diǎn)為在所述目標(biāo)頂點(diǎn)的鄰居頂點(diǎn)集中去除所述排序結(jié)果中在所述目標(biāo)頂點(diǎn)之前的頂點(diǎn)得到的;
30、分支模塊,用于對(duì)所述總分支進(jìn)行至少一次分支,得到目標(biāo)子分支,所述目標(biāo)子分支滿足預(yù)設(shè)條件,在每次分支時(shí),基于父分支的所述候選集和所述必選集的并集中頂點(diǎn)的第二符號(hào)鄰居數(shù)量確定樞點(diǎn),基于所述樞點(diǎn)生成子分支,所述預(yù)設(shè)條件為所述目標(biāo)子分支中的所述并集對(duì)應(yīng)的符號(hào)子圖中任意兩個(gè)頂點(diǎn)均互相連接且任意一個(gè)頂點(diǎn)的第一符號(hào)鄰居數(shù)量不小于,為預(yù)設(shè)值,為所述目標(biāo)子分支對(duì)應(yīng)的子圖中的頂點(diǎn)數(shù);
31、目標(biāo)群體確定模塊,用于基于頂點(diǎn)數(shù)量最大的所述目標(biāo)子分支,確定所述待搜索社交數(shù)據(jù)中的目標(biāo)群體。
32、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種所述基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法。
33、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法。
34、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種所述基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法。
35、本發(fā)明提供的基于大型符號(hào)圖中搜索條件稠密子圖的群體發(fā)現(xiàn)方法,通過(guò)基于待搜索社交數(shù)據(jù)生成初始符號(hào)圖,在初始符號(hào)圖中頂點(diǎn)對(duì)應(yīng)待搜索社交數(shù)據(jù)中的用戶,初始符號(hào)圖中的邊對(duì)應(yīng)用戶之間的關(guān)系,初始符號(hào)圖中的邊的符號(hào)反映用戶之間的關(guān)系類別,對(duì)初始符號(hào)圖進(jìn)行處理,以找到滿足預(yù)設(shè)條件的最大子圖,預(yù)設(shè)條件為任意兩個(gè)頂點(diǎn)均互相連接且任意一個(gè)頂點(diǎn)的第一符號(hào)鄰居數(shù)量不小于,基于查找到的結(jié)果確定待搜索社交數(shù)據(jù)中的目標(biāo)群體,這樣,可以從大量的社交數(shù)據(jù)中查找到互相之間存在緊密關(guān)系,且關(guān)系類型一致的群體,從而提高基于該群體進(jìn)行內(nèi)容推薦的準(zhǔn)確性。