本發(fā)明涉及網(wǎng)絡技術領域,具體涉及一種機器型論壇水軍的識別方法及裝置。
背景技術:
過濾掉互聯(lián)網(wǎng)各大論壇中的虛假評論是一個非常重要且復雜的問題。不同的產(chǎn)品論壇定位于服務不同的受眾群體,但最終都離不開方便用戶交流和為企業(yè)提供了解真實用戶反饋信息的目的。同時,論壇也具有不易被察覺的產(chǎn)品營銷推廣功能和攻擊競品的惡意宣傳功能。目前,由論壇水軍產(chǎn)生的大量虛假評論是用戶參考論壇相關信息和企業(yè)獲取真實用戶反饋的最大障礙。
其中機器型水軍主要負責論壇的回帖任務,通過有引導目的的提問或有明顯產(chǎn)品傾向的回復內(nèi)容潛移默化中引導用戶的認知,且不易被識別。
技術實現(xiàn)要素:
針對現(xiàn)有技術的不足,本發(fā)明提供了一種機器型論壇水軍的識別方法及裝置,解決了機器型水軍不易被快速識別的問題。
為實現(xiàn)以上目的,本發(fā)明通過以下技術方案予以實現(xiàn):
根據(jù)本發(fā)明的第一方面提供一種機器型論壇水軍的識別方法,包括:
步驟a、獲取論壇內(nèi)所有用戶行為特征的原始數(shù)據(jù),基于用戶的交互回應數(shù)據(jù)將符合過濾條件之外的用戶作為識別群體,其中,所述交互回應數(shù)據(jù)為用戶回復已有的回復貼的回復數(shù)據(jù);
步驟b、計算所述識別群體中任意用戶在同一分鐘內(nèi)的發(fā)帖頻次,記錄所述識別群體中發(fā)帖頻次大于第一預設閾值的用戶;
步驟c、基于所述識別群體挖掘出在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶;
步驟d、將發(fā)帖頻次大于第一預設閾值的用戶及在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶記為機器型水軍。
進一步地,所述步驟a包括:
從所述原始數(shù)據(jù)中獲取用戶的交互回應數(shù)據(jù),篩選出交互回應數(shù)據(jù)的個數(shù)大于5的用戶id;
將所述交互回應數(shù)據(jù)的個數(shù)大于5的用戶id從原始數(shù)據(jù)中分離出后的剩余用戶id作為識別群體。
進一步地,所述步驟b包括:
獲取所述識別群體中所有用戶id及關聯(lián)所述用戶id的發(fā)帖時間,基于所述發(fā)帖時間計算在同一分鐘內(nèi)發(fā)帖次數(shù)大于30的用戶id;
記錄所述用戶id,將所述用戶id存儲為機器型水軍用戶。
進一步地,所述步驟c包括:
獲取識別群體在一時間段內(nèi)的歷史數(shù)據(jù),基于所述歷史數(shù)據(jù)篩選出在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
進一步地,所述步驟c還包括:
基于所述歷史數(shù)據(jù)篩通過頻繁項集挖掘算法篩選在同一分鐘內(nèi)多次出現(xiàn)用戶id組;
獲取所述用戶id群組中在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
根據(jù)本發(fā)明的第二方面提供一種機器型論壇水軍的識別裝置,包括:
獲取模塊,用于獲取論壇內(nèi)所有用戶行為特征的原始數(shù)據(jù),基于用戶的交互回應數(shù)據(jù)將符合過濾條件之外的用戶作為識別群體,其中,所述交互回應數(shù)據(jù)為用戶回復已有的回復貼的回復數(shù)據(jù);
計算模塊,用于計算所述識別群體中任意用戶在同一分鐘內(nèi)的發(fā)帖頻次,記錄所述識別群體中發(fā)帖頻次大于第一預設閾值的用戶;
標記模塊,用于基于所述識別群體挖掘出在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶;
識別模塊,用于將發(fā)帖頻次大于第一預設閾值的用戶及在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶記為機器型水軍。
進一步地,所述獲取模塊包括:
第一獲取子單元,用于從所述原始數(shù)據(jù)中獲取用戶的交互回應數(shù)據(jù),篩選出交互回應數(shù)據(jù)的個數(shù)大于5的用戶id;
第二獲取子單元,用于將所述交互回應數(shù)據(jù)的個數(shù)大于5的用戶id從原始數(shù)據(jù)中分離出后的剩余用戶id作為識別群體。
進一步地,所述計算模塊包括:
計算子單元,用于獲取所述識別群體中所有用戶id及關聯(lián)所述用戶id的發(fā)帖時間,基于所述發(fā)帖時間計算在同一分鐘內(nèi)發(fā)帖次數(shù)大于30的用戶id;
記錄單元,用于記錄所述用戶id,將所述用戶id存儲為機器型水軍用戶。
進一步地,所述標記模塊包括:
標記子單元,用于獲取識別群體在一時間段內(nèi)的歷史數(shù)據(jù),基于所述歷史數(shù)據(jù)篩選出在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
進一步地,所述標記模塊還包括:
挖掘單元,用于基于所述歷史數(shù)據(jù)通過頻繁項集挖掘算法篩選在同一分鐘內(nèi)多次出現(xiàn)用戶id組;獲取所述用戶id群組中在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
本發(fā)明實施例提供了一種機器型論壇水軍的識別方法及裝置。具備以下有益效果:
通過對論壇用戶的篩選可以減少對數(shù)據(jù)的處理,從而可以快速的識別機器型水軍;且識別過程中獲取的數(shù)據(jù)泛化性好,適于各種論壇使用。同時可以對水軍用戶進行標記,便于控制虛假信息的傳播,從而可以更好的維護論壇信息的真實性和穩(wěn)定性。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1本發(fā)明一實施例中機器型論壇水軍的識別方法的流程圖。
圖2本發(fā)明另一實施例中機器型論壇水軍的識別方法的流程圖。
圖3是本發(fā)明一實施例中機器型論壇水軍的識別裝置的模塊框圖。
具體實施方式
為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1本發(fā)明一實施例中機器型論壇水軍的識別方法的流程圖。如圖1所示,所述機器型論壇水軍的識別方法包括以下步驟:
步驟110、獲取論壇內(nèi)所有用戶行為特征的原始數(shù)據(jù),基于用戶的交互回應數(shù)據(jù)將符合過濾條件之外的用戶作為識別群體,其中,所述交互回應數(shù)據(jù)為用戶回復已有的回復貼的回復數(shù)據(jù)。
在該步驟中,所述行為特征包括用戶主動開貼、回復已有的回復貼、回復主題帖、回帖內(nèi)容等,而所述原始數(shù)據(jù)則包含與所述行為特征關聯(lián)的數(shù)據(jù),包括但不限于用戶的id、用戶id回復帖子及開貼的時間、次數(shù)等。其中用戶回復已有的回復貼為多數(shù)正常用戶id的正常行為特征,而作為機器型水軍用戶為了防止暴露并不會主動與其他用戶交流,而是盡可能的默默回帖引導趨勢,則很少主動回復,因而可以將用戶回復已有的回復貼的回復數(shù)據(jù)作為交互數(shù)據(jù),基于交互數(shù)據(jù)對所述原始數(shù)據(jù)進行篩選,以減少數(shù)據(jù)的處理,從而提高識別速度。
在本實施例中,可以設置過濾條件對原始數(shù)據(jù)進行篩選,從而排除一部分用戶及與該用戶的行為特征數(shù)據(jù)(如回帖信息等),將剩余的用戶及其數(shù)據(jù)進行識別。例如,設置用戶交互數(shù)據(jù)的個數(shù)作為過濾條件,將用戶交互次數(shù)篩選可作為識別群體的用戶。
步驟120、計算所述識別群體中任意用戶在同一分鐘內(nèi)的發(fā)帖頻次,記錄所述識別群體中發(fā)帖頻次大于第一預設閾值的用戶。
由于機器型用戶操作回帖的速度遠高于正常用戶,因而可基于此作為識別機器型用戶的依據(jù)。在該步驟中可基于上述步驟中獲取的識別群體進行機器型用戶的定位。例如,機器型用戶可以在同一分鐘內(nèi)發(fā)帖數(shù)量超過30個,平均至少2秒鐘就能回一次貼,而正常用戶兩秒鐘內(nèi)很難寫完一次回帖內(nèi)容,再算上提交回帖、網(wǎng)絡延遲、頁面返回等時間,在一分鐘內(nèi)寫完30個回帖內(nèi)容更是不可能。因此可獲取原始數(shù)據(jù)中用戶id及其回帖時間,若某用戶id多個回帖均在某一分鐘內(nèi),且回帖頻次高于正常用戶,則可將該用戶id標記為機器型水軍。由上可知,基于該步驟可以定位出論壇內(nèi)的部分機器型水軍用戶id。
步驟130、基于所述識別群體挖掘出在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶。
相關技術中,研究發(fā)現(xiàn)論壇里的機器型水軍為了躲避監(jiān)測,普遍會頻繁更換回帖內(nèi)容并且在不同帖子間流竄。而一個賬戶在同一分鐘內(nèi)連續(xù)回帖或連續(xù)使用相同回復內(nèi)容的情況已經(jīng)很少出現(xiàn)。但不同水軍分組同時發(fā)帖已經(jīng)成為目前機器型水軍最為普遍的出現(xiàn)方式。由于不同數(shù)量的機器型水軍是由不同的回帖機控制,機器型水軍經(jīng)常選擇短時間內(nèi)輪流出現(xiàn)以躲避監(jiān)測。這些機器型水軍出現(xiàn)的時間毫無規(guī)律,但相互同時出現(xiàn)的頻次卻有著強相關性。
所述在同一分鐘內(nèi)出現(xiàn)的頻次為表示有某些用戶id經(jīng)常在同一分鐘內(nèi)發(fā)帖。如:用戶id1、用戶id2、用戶id3同時在2017年7月23日16時10分、13分、15分、40分、42分、50分回過帖子,表示則三個用戶id同時出現(xiàn)了6次,而這些數(shù)據(jù)均可在已有歷史記錄中獲取。
基于上述,該步驟可在上述步驟102步驟之后再進一步識別所述用戶識別群體中的機器型水軍用戶。例如取一定時間段的用戶行為特征的歷史數(shù)據(jù)(已發(fā)生數(shù)據(jù)),并基于該歷史數(shù)據(jù)判斷是否有多個用戶id在同一分鐘內(nèi)進行發(fā)帖,若存在多個用戶id在同一分鐘內(nèi)進行回帖操作,且這種數(shù)據(jù)出現(xiàn)的次數(shù)大于預設的第二預設閾值,則這些用戶id將可能是受同一回帖機控制,則認為該部分用戶id為機器型水軍用戶。距離而言,若用戶1、用戶2、用戶3在2017年7月20日19點30分的一分鐘內(nèi)都在一個論壇內(nèi)進行回帖操作,則記三位用戶同時在一分鐘內(nèi)出現(xiàn)一次;若三位用戶在2017年7月21日20點30分又同時進行回帖操作,則記為在一分鐘內(nèi)出現(xiàn)兩次,以此類推在所選取的歷史數(shù)據(jù)時間段內(nèi)計算用戶的出現(xiàn)頻次,然后根據(jù)出現(xiàn)頻次多少判定用戶id是否正常。最終若在一定時間段內(nèi)三位用戶同時出現(xiàn)8次大于第二預設閾值則認為三位用戶是機器型水軍用戶。
步驟140、將發(fā)帖頻次大于第一預設閾值的用戶及在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶記為機器型水軍。
由上述實施例可知,本發(fā)明通過對論壇用戶的篩選可以減少對數(shù)據(jù)的處理,從而可以快速的識別機器型水軍;且識別過程中獲取的數(shù)據(jù)泛化性好,適于各種論壇使用。同時可以對水軍用戶進行標記,便于控制虛假信息的傳播,從而可以更好的維護論壇信息的真實性和穩(wěn)定性。相比于目前各類水軍識別方法繁瑣復雜,只能針對部分特定論壇,本發(fā)明所需數(shù)據(jù)在所有論壇均可獲取,適于所有論壇有助于快速識別機器型水軍。
下面通過具體實施例對本發(fā)明作進一步地說明。所述機器型論壇水軍的識別方法包括以下步驟:
步驟210、從所述原始數(shù)據(jù)中獲取用戶的交互回應數(shù)據(jù),篩選出交互回應數(shù)據(jù)的個數(shù)大于5的用戶id;
步驟220、將所述交互回應數(shù)據(jù)的個數(shù)大于5的用戶id從原始數(shù)據(jù)中分離出后的剩余用戶id作為識別群體。
例如,在論壇中,針對前面已有回復內(nèi)容進行回帖的叫做回復前樓,由上述實施例可知機器型用戶規(guī)律的默默回帖引導趨勢而不會去主動回復前樓發(fā)表觀點或?qū)η皹莾?nèi)容進行回復。因而可根據(jù)交互回應數(shù)據(jù)(回復前樓)的出現(xiàn)次數(shù)大于5的篩選條件將論壇中所有用戶進行篩選,得出正常用戶,而將剩余部分作為機器型用戶的識別群體,這樣可減少數(shù)據(jù)的處理量。
步驟230、獲取所述識別群體中所有用戶id及關聯(lián)所述用戶id的發(fā)帖時間,基于所述發(fā)帖時間計算在同一分鐘內(nèi)發(fā)帖次數(shù)大于30的用戶id;
步驟240、記錄所述用戶id,將所述用戶id存儲為機器型水軍用戶。
在本實施例中,選取論壇中2016年7月到2017年7月這一年時間段內(nèi)的識別群體的原始數(shù)據(jù),過濾出所有用戶id和所述用戶id的所有發(fā)帖時間。然后統(tǒng)計所有用戶id在它已有記錄里的某一分鐘內(nèi)的發(fā)帖數(shù)量。一部分水軍會在某一分鐘內(nèi)大量發(fā)帖,只要某個用戶id出現(xiàn)過這種情況,并且有過在一分鐘內(nèi)發(fā)帖數(shù)量超過30次情況,則認為是機器型水軍。例如,統(tǒng)計某個用戶id在2016年7月19日8點12分發(fā)帖的頻次大于30則該用戶id可能為機器型水軍用戶,將該用戶id標記為機器型水軍用戶并予以存儲保存;若用戶在一分鐘內(nèi)發(fā)帖的頻次不大于30秒則該用戶可能為正常用戶。
步驟250、獲取識別群體在一時間段內(nèi)的歷史數(shù)據(jù),基于所述歷史數(shù)據(jù)篩選出在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
在本實施例中,如取某個論壇以年為單位、或月為單位的所有發(fā)帖數(shù)據(jù),從中過濾出所有用戶id及所述帖子的發(fā)帖時間。通過這一年的歷史數(shù)據(jù),整理各發(fā)帖時間,通過頻繁項集挖掘算法可找出經(jīng)常在同一分鐘內(nèi)發(fā)帖的用戶id,如果這些賬號同時出現(xiàn)的次數(shù)超過5次,則認為這些id是機器型水軍用戶進行標記,若出現(xiàn)的頻次小于5則這些用戶id不是機器型水軍用戶。例如,如取某個論壇從2016年7月到2017年7月的年單位上述識別群體的所有發(fā)帖數(shù)據(jù),如果有50個用id在2016年7月20日19點30分的一分鐘內(nèi)都在一個論壇內(nèi)進行回帖操作,而在該次回帖操作后的時間段內(nèi)又同時在一分鐘內(nèi)發(fā)帖多次,計算該50個用戶id在一年內(nèi)同時出現(xiàn)的頻次是否大于5,若大于則記該50個用戶id為機器型水軍用戶。進一步地,可對該50個用戶出現(xiàn)的規(guī)律進行統(tǒng)計,例如統(tǒng)計該50個用戶id出現(xiàn)的時間間隔,根據(jù)所述時間間隔是否相等獲得回帖機控制規(guī)律,若有規(guī)律可尋則該50個用戶id可能是受同一回帖機控制,例如該50個用戶id同一分鐘內(nèi)頻繁交互出現(xiàn),間隔時間常為有規(guī)律的2秒、3秒、4秒等。
步驟260、將發(fā)帖頻次大于第一預設閾值的用戶及在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶記為機器型水軍。
本發(fā)明還提供一種對應上述方法的機器型論壇水軍的識別裝置,如圖3所示,該裝置包括:
獲取模塊31,用于獲取論壇內(nèi)所有用戶行為特征的原始數(shù)據(jù),基于用戶的交互回應數(shù)據(jù)將符合過濾條件之外的用戶作為識別群體,其中,所述交互回應數(shù)據(jù)為用戶回復已有的回復貼的回復數(shù)據(jù);
計算模塊32,用于計算所述識別群體中任意用戶在同一分鐘內(nèi)的發(fā)帖頻次,記錄所述識別群體中發(fā)帖頻次大于第一預設閾值的用戶;
標記模塊33,用于基于所述識別群體挖掘出在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶;
識別模塊34,用于將發(fā)帖頻次大于第一預設閾值的用戶及在同一分鐘內(nèi)出現(xiàn)的頻次大于第二預設閾值的用戶記為機器型水軍。
進一步地,所述獲取模塊31包括:
第一獲取子單元,用于從所述原始數(shù)據(jù)中獲取用戶的交互回應數(shù)據(jù),篩選出交互回應數(shù)據(jù)的個數(shù)大于5的用戶id;
第二獲取子單元,用于將所述交互回應數(shù)據(jù)的個數(shù)大于5的用戶id從原始數(shù)據(jù)中分離出后的剩余用戶id作為識別群體。
進一步地,所述計算模塊32包括:
計算子單元,用于獲取所述識別群體中所有用戶id及關聯(lián)所述用戶id的發(fā)帖時間,基于所述發(fā)帖時間計算在同一分鐘內(nèi)發(fā)帖次數(shù)大于30的用戶id;
記錄單元,用于記錄所述用戶id,將所述用戶id存儲為機器型水軍用戶。
進一步地,標記子單元,用于獲取識別群體在一時間段內(nèi)的歷史數(shù)據(jù),基于所述歷史數(shù)據(jù)篩選出在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
進一步地,所述標記模塊33還包括:
挖掘單元,用于基于所述歷史數(shù)據(jù)篩通過頻繁項集挖掘算法篩選在同一分鐘內(nèi)多次出現(xiàn)用戶id組;獲取所述用戶id群組中在同一分鐘內(nèi)出現(xiàn)的頻次大于5的多個用戶id。
對于裝置實施例而言,由于其基本對應于方法實施例,所以相關之處參見方法實施例的部分說明即可。
以上實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質(zhì)脫離本發(fā)明各實施例技術方案的精神和范圍。