基于水軍檢測(cè)模型構(gòu)建方法和系統(tǒng)及水軍檢測(cè)方法
【專利摘要】本發(fā)明涉及水軍檢測(cè)模型構(gòu)建方法,包括步驟:對(duì)一組樣本數(shù)據(jù)進(jìn)行任務(wù)分割得到多個(gè)任務(wù),平均特征抽取得到多個(gè)任務(wù)的訓(xùn)練樣本集;多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣;設(shè)定一個(gè)閾值δ,判斷特征權(quán)重矩陣中的一個(gè)列向量中的最大值是否大于閾值δ,如是,下一步;否則,放棄所述列向量,執(zhí)行步驟5;將所述列向量添加到共享特征項(xiàng)集合中;判斷特征權(quán)重矩陣中是否存在未與閾值δ進(jìn)行比較的列向量,如是,執(zhí)行步驟3;否則,下一步;輸入新的訓(xùn)練數(shù)據(jù)集;計(jì)算得到線性分類值;設(shè)置水軍閾值,使線性分類值大于水軍閾值時(shí)判定其為水軍。本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測(cè)模型,實(shí)現(xiàn)了方便快捷的識(shí)別出水軍用戶。
【專利說明】基于水軍檢測(cè)模型構(gòu)建方法和系統(tǒng)及水軍檢測(cè)方法【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及水軍檢測(cè)方法,尤其涉及一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法和系統(tǒng)及水軍檢測(cè)方法,屬于網(wǎng)絡(luò)安全領(lǐng)域。
【背景技術(shù)】
[0002]隨著社交網(wǎng)絡(luò)的普及,論壇已經(jīng)成為最熱門的上網(wǎng)應(yīng)用之一。但網(wǎng)絡(luò)論壇的開放性質(zhì)決定了很難對(duì)論壇中的信息進(jìn)行絕對(duì)嚴(yán)格的監(jiān)管,這就導(dǎo)致論壇中出現(xiàn)了一批以獲利為目的,蓄意散播某些言論的網(wǎng)絡(luò)水軍。從“7.23”動(dòng)車事故天價(jià)賠償事件到秦火火事件,網(wǎng)絡(luò)水軍對(duì)網(wǎng)絡(luò)環(huán)境甚至社會(huì)秩序造成很嚴(yán)重的影響,可見,對(duì)網(wǎng)絡(luò)水軍的識(shí)別和監(jiān)管,已經(jīng)迫在眉睫。
[0003]傳統(tǒng)的水軍檢測(cè)的機(jī)器學(xué)習(xí)的方法是建立一個(gè)統(tǒng)一的模型,采用的單一任務(wù)學(xué)習(xí)的方法,對(duì)于每一個(gè)任務(wù)都采用獨(dú)立訓(xùn)練的模式。這種學(xué)習(xí)方式存在幾方面的弊端:其一,訓(xùn)練集合中的樣本只反映單個(gè)任務(wù)的信息,學(xué)習(xí)的結(jié)果往往受到特定任務(wù)的限制。例如,現(xiàn)在新浪微博對(duì)于水軍的判斷的標(biāo)準(zhǔn)和論壇的標(biāo)準(zhǔn)是不一樣的,通過新浪微博的規(guī)則學(xué)習(xí)出來的水軍判定模型,應(yīng)用至其他論壇可能導(dǎo)致將正常用戶誤判為水軍用戶。其二,當(dāng)訓(xùn)練集合中的樣本量較少時(shí),導(dǎo)致單一任務(wù)學(xué)習(xí)構(gòu)造的模型存在一定的信息特征丟失。而傳統(tǒng)方法通過過采樣技術(shù)生成的新樣本試圖解決這一問題,但生成的新樣本仍不能保證和原來樣本的特征屬性完全一致。
【發(fā)明內(nèi)容】
[0004]本發(fā)明將多任務(wù)學(xué)習(xí)應(yīng)用與水軍檢測(cè)問題中,以單一任務(wù)為標(biāo)準(zhǔn),能夠提取出各個(gè)任務(wù)學(xué)習(xí)過程中的共享用戶特征信息,提高水軍檢測(cè)的精度。多任務(wù)學(xué)習(xí)和傳統(tǒng)的單任務(wù)學(xué)習(xí)不同,它試圖通過共享不同任務(wù)之間的信息構(gòu)建一個(gè)聯(lián)合的學(xué)習(xí)模型。一方面,訓(xùn)練集合中的樣本均反映了單個(gè)任務(wù)的信息,訓(xùn)練集合中的樣本存在一定的差異性,可以根據(jù)差異度建立多個(gè)學(xué)習(xí)任務(wù),差異度相似的作為同一個(gè)任務(wù),將這些任務(wù)同時(shí)學(xué)習(xí),學(xué)習(xí)的過程中通過共享不同任務(wù)之間的信息,從而達(dá)到更好的學(xué)習(xí)效果;另一方面,對(duì)于特定數(shù)據(jù)樣本較少的情況,通過融合其他相關(guān)任務(wù)的數(shù)據(jù)學(xué)習(xí),從而對(duì)原始數(shù)據(jù)的信息進(jìn)行補(bǔ)償學(xué)習(xí),避免信息特征丟失的情況。實(shí)際應(yīng)用中也證明了通過使用相關(guān)任務(wù)的數(shù)據(jù)確實(shí)能夠提高預(yù)測(cè)的精度。
[0005]本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法。
[0006]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種水軍檢測(cè)模型構(gòu)建方法,包括如下步驟:
[0007]步驟1:對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集;
[0008]步驟2:對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣;
[0009]步驟3:設(shè)定一個(gè)閾值δ,判斷所述特征權(quán)重矩陣中的一個(gè)列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ;
[0010]步驟4:將所述列向量添加到共享特征項(xiàng)集合中;
[0011]步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進(jìn)行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6;
[0012]步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將在集合中排列位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合;
[0013]步驟7:對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(Perceptron LearningAlgorithm)計(jì)算得到特征系數(shù),通過計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;
[0014]步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
[0015]本發(fā)明的有益效果是:本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測(cè)模型,實(shí)現(xiàn)了方便快捷的識(shí)別出水軍用戶。
[0016]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0017]進(jìn)一步,還包括水軍檢測(cè)模型測(cè)試過程,所述水軍檢測(cè)模型測(cè)試過程包括以下步驟:
[0018]步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量;
[0019]步驟10:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成水軍用戶低維的特征向量;
[0020]步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到水軍用戶的線性分類值;
[0021]步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ;
[0022]步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量;
[0023]步驟14:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成用戶低維的特征向量;
[0024]步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到正常用戶的線性分類值;
[0025]步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ;
[0026]步驟17:完成對(duì)水軍檢測(cè)模型的測(cè)試,結(jié)束。
[0027]進(jìn)一步,所述步驟2中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。[0028]進(jìn)一步,所述步驟I中的多個(gè)任務(wù)大小相同。
[0029]本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng)。
[0030]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng),包括:任務(wù)分割抽取模塊、特征選擇模塊、閾值設(shè)定模塊、匹配模塊、線性分類值計(jì)算模塊和水軍模型模塊;
[0031]所述任務(wù)分割抽取模塊對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集;
[0032]所述特征選擇模塊對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣;
[0033]所述閾值設(shè)定模塊用于設(shè)定一個(gè)閾值δ,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值I如果是,將所述列向量添加到共享特征項(xiàng)集合中;否則,放棄所述列向量;
[0034]所述匹配模塊用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合;
[0035]所述線性分類值計(jì)算模塊對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(PerceptronLearning Algorithm)計(jì)算得到特征系數(shù),計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到線性分類值;
[0036]所述水軍模型模塊用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
[0037]本發(fā)明的有益效果是:本發(fā)明利用多任務(wù)學(xué)習(xí)的方法建立水軍檢測(cè)模型,實(shí)現(xiàn)了方便快捷的識(shí)別出水軍用戶。
[0038]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0039]進(jìn)一步,還包括特征提取模塊;
[0040]所述特征提取模塊用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊;
[0041]所述匹配模塊將特征向量與匹配模塊中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計(jì)算模塊;
[0042]所述線性分類值計(jì)算模塊結(jié)合用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊;
[0043]所述水軍模型模塊判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
[0044]進(jìn)一步,所述特征選擇模塊中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。
[0045]本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)方法。[0046]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種水軍檢測(cè)方法,具體包括以下步驟:
[0047]步驟1:接收被測(cè)用戶集合,采集被測(cè)用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到被測(cè)特征向量;
[0048]步驟2:將被測(cè)特征向量與匹配模塊中共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成被測(cè)用戶低維的特征向量;
[0049]步驟3:結(jié)合被測(cè)用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到被測(cè)用戶的線性分類值;
[0050]步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測(cè)用戶為水軍;否則,判定被測(cè)用戶為正常用戶;
[0051]步驟5:結(jié)束水軍判斷過程。
【專利附圖】
【附圖說明】
[0052]圖1為本發(fā)明所述一種水軍檢測(cè)模型構(gòu)建方法流程圖;
[0053]圖2為本發(fā)明所述所述水軍檢測(cè)模型測(cè)試流程圖;
[0054]圖3為本發(fā)明所述一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng)結(jié)構(gòu)圖;
[0055]圖4為本發(fā)明所述一種水軍檢測(cè)流程圖;
[0056]圖5為矩陣的〈I范數(shù)〉和〈1,2>范數(shù);
[0057]圖6為本發(fā)明所述的多任務(wù)特征水軍檢測(cè)架構(gòu)圖。
[0058]附圖中,各標(biāo)號(hào)所代表的部件列表如下:
[0059]1、任務(wù)分割抽取模塊,2、特征選擇模塊,3、閾值設(shè)定模塊,4、匹配模塊,5、線性分類值計(jì)算模塊,6、水軍模型模塊,7、特征提取模塊。
【具體實(shí)施方式】
[0060]以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。
[0061]如圖1所示,一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法,包括如下步驟:
[0062]步驟1:對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集;
[0063]步驟2:對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)
重矩陣;
[0064]步驟3:設(shè)定一個(gè)閾值δ,判斷所述特征權(quán)重矩陣中的一個(gè)列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ;
[0065]步驟4:將所述列向量添加到共享特征項(xiàng)集合中;
[0066]步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進(jìn)行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6;
[0067]步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將在集合中排列位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合;[0068]步驟7:對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(Perceptron LearningAlgorithm)計(jì)算得到特征系數(shù),通過計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;
[0069]步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
[0070]如圖2所示,還包括水軍檢測(cè)模型測(cè)試過程,所述水軍檢測(cè)模型測(cè)試過程包括以下步驟:
[0071]步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量;
[0072]步驟10:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成水軍用戶低維的特征向量;
[0073]步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到水軍用戶的線性分類值;
[0074]步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ;
[0075]步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量;
[0076]步驟14:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成正常用戶低維的特征向量;
[0077]步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到正常用戶的線性分類值;
[0078]步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ;
[0079]步驟17:完成對(duì)水軍檢測(cè)模型的測(cè)試,結(jié)束。
[0080]所述步驟2中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。
[0081]所述步驟I中的多個(gè)任務(wù)大小相同。
[0082]如圖3所示,一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng),包括:任務(wù)分割抽取模塊1、特征選擇模塊2、閾值設(shè)定模塊3、匹配模塊4、線性分類值計(jì)算模塊5和水軍模型模塊6 ;
[0083]所述任務(wù)分割抽取模塊I對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集;
[0084]所述特征選擇模塊2對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣;
[0085]所述閾值設(shè)定模塊3用于設(shè)定一個(gè)閾值δ,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值δ,如果是,將所述列向量添加到共享特征項(xiàng)集合中;否則,放棄所述列向量;
[0086]所述匹配模塊4用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合;
[0087]所述線性分類值計(jì)算模塊5對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(Perceptron Learning Algorithm)計(jì)算得到特征系數(shù),計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到線性分類值;
[0088]所述水軍模型模塊6用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
[0089]還包括特征提取模塊7 ;
[0090]所述特征提取模塊7用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊4 ;
[0091]所述匹配模塊4將特征向量與匹配模塊中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計(jì)算模塊5 ;
[0092]所述線性分類值計(jì)算模塊5結(jié)合用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊6 ;
[0093]所述水軍模型模塊6判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
[0094]所述特征選擇模塊2中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。
[0095]如圖4所示,一種水軍檢測(cè)方法,具體包括以下步驟:
[0096]步驟1:接收被測(cè)用戶集合,采集被測(cè)用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到被測(cè)特征向量;
[0097]步驟2:將被測(cè)特征向量與匹配模塊中共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成被測(cè)用戶低維的特征向量;
[0098]步驟3:結(jié)合被測(cè)用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到被測(cè)用戶的線性分類值;
[0099]步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測(cè)用戶為水軍;否則,判定被測(cè)用戶為正常用戶;
[0100]步驟5:結(jié)束水軍判斷過程。
[0101]用戶屬性特征表示
[0102]“網(wǎng)絡(luò)水軍”的檢測(cè)過程,本質(zhì)是根據(jù)相關(guān)用戶信息進(jìn)行用戶分類的過程,因此,在算法執(zhí)行前需要將用戶描述信息轉(zhuǎn)化為某種數(shù)學(xué)形式進(jìn)行表示??陀^上,一個(gè)網(wǎng)絡(luò)論壇用戶包含很多描述信息,比如用戶注冊(cè)時(shí)間、歷次登陸時(shí)間、用戶名、密碼、登陸IP、瀏覽歷史記錄、發(fā)帖歷史記錄、回帖歷史記錄、論壇好友記錄、粉絲記錄、關(guān)注用戶記錄等。本專利中,我們選取其中比較有代表性的信息作為參考,對(duì)用戶進(jìn)行分類,并據(jù)此提出用戶信息多屬性描述框架,框架結(jié)構(gòu)如表I所示。
【權(quán)利要求】
1.一種水軍檢測(cè)模型構(gòu)建方法,其特征在于,包括如下步驟: 步驟1:對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集; 步驟2:對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣; 步驟3:設(shè)定一個(gè)閾值δ,判斷所述特征權(quán)重矩陣中的一個(gè)列向量中的最大值是否大于閾值δ,如果是,執(zhí)行步驟4 ;否則,放棄所述列向量,執(zhí)行步驟5 ; 步驟4:將所述 列向量添加到共享特征項(xiàng)集合中; 步驟5:判斷特征權(quán)重矩陣中是否存在未與閾值δ進(jìn)行比較的列向量,如果是,執(zhí)行步驟3;否則,執(zhí)行步驟6; 步驟6:輸入新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將在集合中排列位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合;步驟7:對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(Perceptron Learning Algorithm)計(jì)算得到特征系數(shù),通過計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到標(biāo)準(zhǔn)線性分類值;步驟8:根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建,結(jié)束。
2.根據(jù)權(quán)利要求1所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法,其特征在于,還包括水軍檢測(cè)模型測(cè)試過程,所述水軍檢測(cè)模型測(cè)試過程包括以下步驟: 步驟9:給定一組已知是水軍的水軍用戶集合,采集水軍用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量; 步驟10:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成水軍用戶低維的特征向量; 步驟11:結(jié)合水軍用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到水軍用戶的線性分類值; 步驟12:判斷線性分類值是否大于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)減小并重新設(shè)置,返回執(zhí)行步驟9 ; 步驟13:給定一組已知不是水軍的正常用戶集合,采集正常用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量; 步驟14:將特征向量與步驟4中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成用戶低維的特征向量; 步驟15:結(jié)合正常用戶低維的特征向量與步驟7中的特征系數(shù)計(jì)算得到正常用戶的線性分類值; 步驟16:判斷線性分類值是否小于水軍閾值,如果是,執(zhí)行下一步,否則,將水軍閾值適當(dāng)增大并重新設(shè)置,返回執(zhí)行步驟9 ; 步驟17:完成對(duì)水軍檢測(cè)模型的測(cè)試,結(jié)束。
3.根據(jù)權(quán)利要求1或2所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法,其特征在于,所述步驟2中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。
4.根據(jù)權(quán)利要求3所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建方法,其特征在于,所述步驟I中的多個(gè)任務(wù)大小相同。
5.一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng),其特征在于,包括:任務(wù)分割抽取模塊、特征選擇模塊、閾值設(shè)定模塊、匹配模塊、線性分類值計(jì)算模塊和水軍模型模塊; 所述任務(wù)分割抽取模塊對(duì)一組給定的向量化的樣本數(shù)據(jù)先進(jìn)行任務(wù)分割,得到對(duì)應(yīng)的多個(gè)任務(wù),對(duì)多個(gè)任務(wù)進(jìn)行平均特征抽取,得到多個(gè)任務(wù)的訓(xùn)練樣本集; 所述特征選擇模塊對(duì)多個(gè)任務(wù)的訓(xùn)練樣本集進(jìn)行多任務(wù)特征選擇,得到多個(gè)任務(wù)的特征權(quán)重矩陣; 所述閾值設(shè)定模塊用于設(shè)定一個(gè)閾值S,判斷所述特征權(quán)重矩陣中的所有列向量中的最大值是否大于閾值I如果是,將所述列向量添加到共享特征項(xiàng)集合中;否則,放棄所述列向量; 所述匹配模塊用于接收新的已知水軍特性的向量化的訓(xùn)練數(shù)據(jù)集,將訓(xùn)練數(shù)據(jù)集與共享特征項(xiàng)集合進(jìn)行匹配,將在集合中排列位置匹配的特征項(xiàng)集合在一起,得到新共享特征項(xiàng)集合; 所述線性分類值計(jì)算模塊對(duì)新共享特征項(xiàng)集合通過感知器學(xué)習(xí)算法(PerceptronLearning Algorithm)計(jì)算得到特征系數(shù),計(jì)算共享特征項(xiàng)集合與特征系數(shù)的乘積得到線性分類值; 所述水軍模型模塊用于根據(jù)標(biāo)準(zhǔn)線性分類值的大小設(shè)置水軍閾值,使被測(cè)線性分類值大于水軍閾值時(shí)判定其數(shù)據(jù)來源于水軍,完成水軍判斷模型的構(gòu)建。
6.根據(jù)權(quán)利要求5所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng),其特征在于,還包括特征提取模塊; 所述特征提取模塊用于接收給定一組已知水軍特性的用戶集合,采集用戶集合中所有用戶的包括用戶行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到特征向量,并將特征向量發(fā)送到匹配模塊; 所述匹配模塊將特征向量與匹配模塊中得到的共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成用戶低維的特征向量并發(fā)送到線性分類值計(jì)算模塊; 所述線性分類值計(jì)算模塊結(jié)合用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到用戶的線性分類值,并將線性分類值發(fā)送到水軍模型模塊; 所述水軍模型模塊判斷線性分類值與水軍閾值相比較,如果水軍用戶的線性分類值大于水軍閾值,則無需調(diào)整水軍閾值;如果水軍用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)減小并重新設(shè)置;如果正常用戶的線性分類值小于水軍閾值,則無需調(diào)整水軍閾值;如果正常用戶的線性分類值小于水軍閾值,將水軍閾值適當(dāng)增大并重新設(shè)置。
7.根據(jù)權(quán)利要求5或6所述的一種基于多任務(wù)學(xué)習(xí)的水軍檢測(cè)模型構(gòu)建系統(tǒng),其特征在于,所述特征選擇模塊中采用求解正則化最小二乘法回歸實(shí)現(xiàn)多任務(wù)特征選擇。
8.一種水軍檢測(cè)方法,其特征在于,具體包括以下步驟: 步驟1:接收被測(cè)用戶集合,采集被測(cè)用戶集合中所有用戶的行為特征和內(nèi)容特征的原始數(shù)據(jù),并對(duì)每個(gè)維度的原始數(shù)據(jù)進(jìn)行量化表示得到被測(cè)特征向量; 步驟2:將被測(cè)特征向量與匹配模塊中共享特征項(xiàng)集合進(jìn)行匹配,將位置匹配的特征項(xiàng)集合在一起,構(gòu)成被測(cè)用戶低維的特征向量;步驟3:結(jié)合被測(cè)用戶低維的特征向量與線性分類值計(jì)算模塊中的特征系數(shù)計(jì)算得到被測(cè)用戶的線性分類值; 步驟4:判斷線性分類值是否大于水軍閾值,如果是,判定被測(cè)用戶為水軍;否則,判定被測(cè)用戶為正常用戶; 步驟5:結(jié) 束水軍判斷過程。
【文檔編號(hào)】G06K9/66GK103955714SQ201410146467
【公開日】2014年7月30日 申請(qǐng)日期:2014年4月9日 優(yōu)先權(quán)日:2014年4月9日
【發(fā)明者】李倩, 牛溫佳, 管洋洋, 黃超, 孫衛(wèi)強(qiáng), 李丹, 胡玥, 郭莉 申請(qǐng)人:中國(guó)科學(xué)院信息工程研究所