取的技術(shù)手段及 功效得W更加深入且具體的了解,然而所附圖示僅是提供參考與說(shuō)明之用,并非用來(lái)對(duì)本 發(fā)明加W限制。
【主權(quán)項(xiàng)】
1. 一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,包括: 從僵尸賬號(hào)樣本集和正常賬號(hào)樣本集中分別提取出層次化特征,基于提取出的所述層 次化特征分層次的建立各層分類器; 基于各層分類器對(duì)待預(yù)測(cè)賬號(hào)進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是否屬于僵尸賬號(hào)。2. 根據(jù)權(quán)利要求1所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,所述層次化特征, 包括以下四個(gè)層次的特征: 第一層的特征:賬號(hào)資料特征; 其余三層的特征分別是:微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征。3. 根據(jù)權(quán)利要求2所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,所述賬號(hào)資料特 征,包括: 用戶昵稱中字符與數(shù)字的長(zhǎng)度之和占用用戶昵稱總長(zhǎng)度的比例; 是否填寫(xiě)了家庭住址; 賬號(hào)發(fā)帖數(shù); 賬號(hào)粉絲數(shù); 賬號(hào)關(guān)注數(shù); 賬號(hào)關(guān)注數(shù)與粉絲數(shù)的比例; 所述微博內(nèi)容特征,包括: 賬號(hào)所發(fā)微博中含有統(tǒng)一資源定位器URL的微博的比例; 賬號(hào)所發(fā)微博中所含URL去重后的數(shù)量與賬號(hào)所發(fā)微博中所有URL數(shù)量的比值; 賬號(hào)所發(fā)微博中所含內(nèi)容關(guān)鍵詞去重后的數(shù)量與賬號(hào)所發(fā)微博中所有關(guān)鍵詞數(shù)量的 比值; 所述發(fā)帖時(shí)間特征,包括: 最后一次發(fā)帖與第一次發(fā)帖的時(shí)間跨度; 發(fā)帖時(shí)間分布情況; 所述發(fā)帖一致性特征,包括: 基于發(fā)帖時(shí)間間隔,構(gòu)建發(fā)帖時(shí)間間隔序列,按照如下公式計(jì)算發(fā)帖時(shí)間間隔序列的 波動(dòng)性s :其中,Xi表示第i個(gè)帖子和第i-Ι個(gè)帖子之間的發(fā)帖時(shí)間間隔,i為變量,以秒為單位, n-1是所有帖子數(shù)減一,f表示發(fā)帖時(shí)間間隔平均值。4. 根據(jù)權(quán)利要求2所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,所述基于提取出 的所述層次化特征分層次的建立各層分類器,包括: 步驟Al,在賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第一層分類器; 步驟A2,在微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征中任選其一、以及賬號(hào) 資料特征的基礎(chǔ)上利用分類模型算法建立第二層分類器; 步驟A3,在剩余的兩項(xiàng)層次化特征之一、以及步驟Al~A2中已經(jīng)使用的層次化特征的 基礎(chǔ)上利用分類模型算法建立第三層分類器; 步驟A4,在最后一項(xiàng)層次化特征、以及步驟Al~A3中已經(jīng)使用的層次化特征的基礎(chǔ)上 利用分類模型算法建立第四層分類器。5. 根據(jù)權(quán)利要求4所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,所述分類模型算 法,包括:C4. 5決策樹(shù)算法、支持向量機(jī)SVM算法或者貝葉斯分類算法。6. 根據(jù)權(quán)利要求4所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,其特征在于,在第一層~第四 層分類器分別對(duì)應(yīng)于:賬號(hào)資料特征;賬號(hào)資料特征和微博內(nèi)容特征;賬號(hào)資料特征、微博 內(nèi)容特征和發(fā)帖時(shí)間特征;賬號(hào)資料特征、微博內(nèi)容特征、發(fā)帖時(shí)間特征和發(fā)帖行為一致性 特征的情況下: 所述基于各層分類器對(duì)待預(yù)測(cè)賬號(hào)進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是否屬于僵尸賬 號(hào),包括: 步驟B1,將待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征輸入第一層分類器進(jìn)行處理,如果分類結(jié)果為 僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則執(zhí)行步驟B2 ; 步驟B2,將待預(yù)測(cè)賬號(hào)的微博內(nèi)容特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征一起,輸 入第二層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬 號(hào),則執(zhí)行步驟B3; 步驟B3,將待預(yù)測(cè)賬號(hào)的發(fā)帖時(shí)間特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征和微博內(nèi) 容特征一起,輸入第三層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如果分 類結(jié)果為正常賬號(hào),則執(zhí)行步驟B4 ; 步驟M,將待預(yù)測(cè)賬號(hào)的發(fā)帖行為一致性特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征、微 博內(nèi)容特征和發(fā)帖時(shí)間特征一起,輸入第四層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào), 則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則判定為正常賬號(hào),流程結(jié)束。7. -種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)裝置,其特征在于,包括: 訓(xùn)練模塊,用于從僵尸賬號(hào)樣本集和正常賬號(hào)樣本集中分別提取出層次化特征,基于 提取出的所述層次化特征分層次的建立各層分類器; 檢測(cè)模塊,用于基于各層分類器對(duì)待預(yù)測(cè)賬號(hào)進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是否屬 于僵尸賬號(hào)。8. 根據(jù)權(quán)利要求7所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)裝置,其特征在于,所述層次化特征, 包括以下四個(gè)層次的特征: 第一層的特征:賬號(hào)資料特征; 其余層的特征分別是:微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征。9. 根據(jù)權(quán)利要求8所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)裝置,其特征在于,所述訓(xùn)練模塊,具 體用于執(zhí)行以下流程: 步驟Al,在賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第一層分類器; 步驟A2,在微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征中任選其一、以及賬號(hào) 資料特征的基礎(chǔ)上利用分類模型算法建立第二層分類器; 步驟A3,在剩余的兩項(xiàng)層次化特征之一、以及步驟Al~A2中已經(jīng)使用的層次化特征的 基礎(chǔ)上利用分類模型算法建立第三層分類器; 步驟A4,在最后一項(xiàng)層次化特征、以及步驟Al~A3中已經(jīng)使用的層次化特征的基礎(chǔ)上 利用分類模型算法建立第四層分類器。10.根據(jù)權(quán)利要求9所述的社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)裝置,其特征在于,在第一層~第四 層分類器分別對(duì)應(yīng)于:賬號(hào)資料特征;賬號(hào)資料特征和微博內(nèi)容特征;賬號(hào)資料特征、微博 內(nèi)容特征和發(fā)帖時(shí)間特征;賬號(hào)資料特征、微博內(nèi)容特征、發(fā)帖時(shí)間特征和發(fā)帖行為一致性 特征的情況下:所述檢測(cè)模塊,具體用于執(zhí)行以下流程: 步驟B1,將待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征輸入第一層分類器進(jìn)行處理,如果分類結(jié)果為 僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則執(zhí)行步驟B2 ; 步驟B2,將待預(yù)測(cè)賬號(hào)的微博內(nèi)容特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征一起,輸 入第二層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬 號(hào),則執(zhí)行步驟B3; 步驟B3,將待預(yù)測(cè)賬號(hào)的發(fā)帖時(shí)間特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征和微博內(nèi) 容特征一起,輸入第三層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如果分 類結(jié)果為正常賬號(hào),則執(zhí)行步驟B4 ; 步驟M,將待預(yù)測(cè)賬號(hào)的發(fā)帖行為一致性特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征、微 博內(nèi)容特征和發(fā)帖時(shí)間特征一起,輸入第四層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào), 則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則判定為正常賬號(hào),流程結(jié)束。
【專利摘要】本發(fā)明提出了一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法及裝置,采用層次化啟發(fā)式方法進(jìn)行僵尸賬號(hào)檢測(cè),利用賬號(hào)資料特征、微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征,按照計(jì)算時(shí)間代價(jià)逐步判別,一旦判別成功就停止計(jì)算,否則就繼續(xù)下一層次特征的計(jì)算,考慮到大部分僵尸賬號(hào)的生成和維護(hù)依靠自動(dòng)化程序進(jìn)行,成本低,可以通過(guò)較低代價(jià)的判別方法檢測(cè),所以本發(fā)明的所述方法可以大幅提高檢出效率,另一方面,本方法使用了賬號(hào)資料、微博內(nèi)容和行為特征等多維度特征,能夠提高僵尸賬號(hào)的檢出率和準(zhǔn)確率。
【IPC分類】H04L12/26, H04L29/06, G06F17/30
【公開(kāi)號(hào)】CN104901847
【申請(qǐng)?zhí)枴緾N201510278739
【發(fā)明人】劉瑋, 王麗宏, 張同虎
【申請(qǐng)人】國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)與信息安全管理中心
【公開(kāi)日】2015年9月9日
【申請(qǐng)日】2015年5月27日