欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法及裝置的制造方法

文檔序號(hào):8925106閱讀:752來(lái)源:國(guó)知局
一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)社交技術(shù)領(lǐng)域,尤其設(shè)及一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法及裝 置。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)W其內(nèi)容簡(jiǎn)潔、交互便捷和快速傳播等特點(diǎn),迅速發(fā)展成為人們表達(dá)觀 點(diǎn)、抒發(fā)情緒、傳遞信息的重要社會(huì)媒體。W新浪微博、Twitter、化cebook為代表的社交網(wǎng) 絡(luò)在大量社會(huì)事件的發(fā)酵和爆發(fā)過(guò)程中都起到了重要的推動(dòng)作用,所W社交網(wǎng)絡(luò)是當(dāng)前輿 情分析必不可少的數(shù)據(jù)來(lái)源之一。社交網(wǎng)絡(luò)作為輿情傳播平臺(tái)的同時(shí)也是網(wǎng)絡(luò)營(yíng)銷的重要 手段,其中蘊(yùn)藏著巨大的經(jīng)濟(jì)價(jià)值,于是僵尸賬號(hào)應(yīng)運(yùn)而生,僵尸賬號(hào)是指申請(qǐng)了帳號(hào)但是 基本不登錄的帳號(hào)或者利用使用構(gòu)造虛假內(nèi)容的方式達(dá)到傳播某一特定內(nèi)容的目的。前 者通過(guò)低廉的注冊(cè)成本自動(dòng)注冊(cè)大量賬號(hào),用戶可W通過(guò)購(gòu)買的方式短期內(nèi)增加大量粉絲 量,一定程度上擴(kuò)大自己的影響力。后者通過(guò)僵尸賬號(hào)發(fā)布大量?jī)?nèi)容重復(fù)或含有特定營(yíng)銷 目標(biāo)的鏈接W達(dá)到提高曝光率的目的,增加被點(diǎn)擊概率。隨著社交網(wǎng)絡(luò)平臺(tái)對(duì)僵尸賬號(hào)檢 測(cè)力度的加大,僵尸賬號(hào)運(yùn)營(yíng)方也使用了多種逃避檢測(cè)的方法,W提高僵尸賬號(hào)的存活時(shí) 間。例如通過(guò)增加發(fā)帖數(shù)和登錄次數(shù)逃避基于活躍度的檢測(cè),通過(guò)滲雜無(wú)關(guān)文本內(nèi)容降低 營(yíng)銷關(guān)鍵詞頻率逃避基于重復(fù)率的檢測(cè)等。如何高效、準(zhǔn)確地檢測(cè)出僵尸賬號(hào)對(duì)提高社交 網(wǎng)絡(luò)數(shù)據(jù)分析具有重要意義。
[0003] 現(xiàn)有方法多基于關(guān)注圖模型或交互圖模型,根據(jù)交互性特征對(duì)僵尸賬號(hào)進(jìn)行檢 巧。,其檢出率、檢出效率和準(zhǔn)確率較低。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的技術(shù)問(wèn)題是,提供一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法及裝置,提高 檢測(cè)僵尸賬戶的檢出率和準(zhǔn)確率。
[0005] 本發(fā)明采用的技術(shù)方案是,所述社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)方法,包括:
[0006] 從僵尸賬號(hào)樣本集和正常賬號(hào)樣本集中分別提取出層次化特征,基于提取出的所 述層次化特征分層次的建立各層分類器;
[0007] 基于各層分類器對(duì)待預(yù)測(cè)賬號(hào)進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是否屬于僵尸賬 號(hào)。
[0008] 進(jìn)一步的,所述層次化特征,包括W下四個(gè)層次的特征:
[0009] 第一層的特征:賬號(hào)資料特征;
[0010] 其余層的特征分別是;微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征。
[0011] 進(jìn)一步的,所述賬號(hào)資料特征,包括:
[0012] 用戶昵稱中字符與數(shù)字的長(zhǎng)度之和占用用戶昵稱總長(zhǎng)度的比例;
[0013] 是否填寫了家庭住址;
[0014] 賬號(hào)發(fā)帖數(shù);
[0015] 賬號(hào)粉絲數(shù);
[0016] 賬號(hào)關(guān)注數(shù);
[0017] 賬號(hào)關(guān)注數(shù)與粉絲數(shù)的比例;
[0018] 所述微博內(nèi)容特征,包括;
[0019] 賬號(hào)所發(fā)微博中含有冊(cè)LOJniformResoureLocator,統(tǒng)一資源定位器)的微博的 比例;
[0020] 賬號(hào)所發(fā)微博中所含U化去重后的數(shù)量與賬號(hào)所發(fā)微博中所有U化數(shù)量的比值;
[0021] 賬號(hào)所發(fā)微博中所含內(nèi)容關(guān)鍵詞去重后的數(shù)量與賬號(hào)所發(fā)微博中所有關(guān)鍵詞數(shù) 量的比值;
[0022] 所述發(fā)帖時(shí)間特征,包括:
[0023] 最后一次發(fā)帖與第一次發(fā)帖的時(shí)間跨度;
[0024] 發(fā)帖時(shí)間分布情況;
[00巧]所述發(fā)帖一致性特征,包括:
[0026] 基于發(fā)帖時(shí)間間隔,構(gòu)建發(fā)帖時(shí)間間隔序列,按照如下公式計(jì)算發(fā)帖時(shí)間間隔序 列的波動(dòng)性S;
[0027]
[002引其中,X康示第i個(gè)帖子和第i-1個(gè)帖子之間的發(fā)帖時(shí)間間隔,i為變量,W秒為 單位,n-1是所有帖子數(shù)減一,X表示發(fā)帖時(shí)間間隔平均值。
[0029] 進(jìn)一步的,所述基于提取出的所述層次化特征分層次的建立各層分類器,包括:
[0030] 步驟A1,在賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第一層分類器;
[0031] 步驟A2,在微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征中任選其一、W及 賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第二層分類器;
[0032] 步驟A3,在剩余的兩項(xiàng)層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化特 征的基礎(chǔ)上利用分類模型算法建立第=層分類器;
[0033] 步驟A4,在最后一項(xiàng)層次化特征、W及步驟A1~A3中已經(jīng)使用的層次化特征的基 礎(chǔ)上利用分類模型算法建立第四層分類器。
[0034] 進(jìn)一步的,所述分類模型算法,包括;C4. 5決策樹算法、SVM(SuppcxrtVector Machine,支持向量機(jī))算法或者貝葉斯分類算法。
[0035] 進(jìn)一步的,在第一層~第四層分類器分別對(duì)應(yīng)于;賬號(hào)資料特征;賬號(hào)資料特征 和微博內(nèi)容特征;賬號(hào)資料特征、微博內(nèi)容特征和發(fā)帖時(shí)間特征;賬號(hào)資料特征、微博內(nèi)容 特征、發(fā)帖時(shí)間特征和發(fā)帖行為一致性特征的情況下;所述基于各層分類器對(duì)待預(yù)測(cè)賬號(hào) 進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是否屬于僵尸賬號(hào),包括:
[0036] 步驟B1,將待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征輸入第一層分類器進(jìn)行處理,如果分類結(jié) 果為僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則執(zhí)行步驟B2 ;
[0037] 步驟B2,將待預(yù)測(cè)賬號(hào)的微博內(nèi)容特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征一起, 輸入第二層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常 賬號(hào),則執(zhí)行步驟B3;
[0038] 步驟B3,將待預(yù)測(cè)賬號(hào)的發(fā)帖時(shí)間特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特征和微 博內(nèi)容特征一起,輸入第S層分類器進(jìn)行處理,如果分類結(jié)果為僵尸賬號(hào),則流程結(jié)束,如 果分類結(jié)果為正常賬號(hào),則執(zhí)行步驟B4 ;
[0039] 步驟B4,將待預(yù)測(cè)賬號(hào)的發(fā)帖行為一致性特征、連同該待預(yù)測(cè)賬號(hào)的賬號(hào)資料特 征、微博內(nèi)容特征和發(fā)帖時(shí)間特征一起,輸入第四層分類器進(jìn)行處理,如果分類結(jié)果為僵尸 賬號(hào),則流程結(jié)束,如果分類結(jié)果為正常賬號(hào),則判定為正常賬號(hào),流程結(jié)束。
[0040] 本發(fā)明還提供一種社交網(wǎng)絡(luò)僵尸賬號(hào)檢測(cè)裝置,包括:
[0041] 訓(xùn)練模塊,用于從僵尸賬號(hào)樣本集和正常賬號(hào)樣本集中分別提取出層次化特征, 基于提取出的所述層次化特征分層次的建立各層分類器;
[0042] 檢測(cè)模塊,用于基于各層分類器對(duì)待預(yù)測(cè)賬號(hào)進(jìn)行檢測(cè),判斷所述待預(yù)測(cè)賬號(hào)是 否屬于僵尸賬號(hào)。
[0043] 進(jìn)一步的,所述層次化特征,包括W下四個(gè)層次的特征:
[0044] 第一層的特征:賬號(hào)資料特征;
[0045] 其余層的特征分別是;微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征。
[0046] 進(jìn)一步的,所述訓(xùn)練模塊,具體用于執(zhí)行W下流程:
[0047] 步驟A1,在賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第一層分類器;
[0048] 步驟A2,在微博內(nèi)容特征、發(fā)帖時(shí)間特征、發(fā)帖行為一致性特征中任選其一、W及 賬號(hào)資料特征的基礎(chǔ)上利用分類模型算法建立第二層分類器;
[0049] 步驟A3,在剩余的兩項(xiàng)層次化特征之一、W及步驟A1~A2中已經(jīng)使用的層次化
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
巴马| 若羌县| 延吉市| 金昌市| 通海县| 抚松县| 南阳市| 盐津县| 吉木萨尔县| 紫阳县| 曲松县| 冕宁县| 凭祥市| 祁东县| 宿州市| 丽水市| 屏东县| 北票市| 清镇市| 雷波县| 郑州市| 隆子县| 扎鲁特旗| 阜康市| 忻城县| 富蕴县| 广丰县| 甘洛县| 海伦市| 盐亭县| 黄梅县| 上栗县| 河津市| 宽甸| 桦甸市| 高邑县| 太仆寺旗| 巍山| 灯塔市| 清苑县| 张家港市|