本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)檢測領(lǐng)域,特別是涉及一種刷量工具檢測方法和裝置。
背景技術(shù):
移動終端(以手機(jī)為例)上的應(yīng)用是指通過手機(jī)通信終端接入或辦理相關(guān)應(yīng)用型功能的軟件,應(yīng)用渠道就是指所有可以獲取手機(jī)應(yīng)用安裝包和用戶信息的平臺,主要包括ios渠道(如APP Store)和Android渠道(如手機(jī)助手)兩大類。每一個(gè)用戶在注冊或登錄了手機(jī)應(yīng)用的賬號后,手機(jī)應(yīng)用的供應(yīng)商都要給應(yīng)用渠道支付一定的推廣費(fèi)用。目前,一些應(yīng)用渠道為了騙取推廣費(fèi)用,就會利用刷量工具來進(jìn)行作弊。刷量工具指安裝到手機(jī)上可以在同一部手機(jī)上生成多個(gè)虛假新用戶的應(yīng)用,這類應(yīng)用可以隨機(jī)或基于已有用戶數(shù)據(jù)文件生成手機(jī)設(shè)備號IMEI(International Mobile Equipment Identity,國際移動設(shè)備身份碼)、IMSI(International Mobile Subscriber Identification Number,國際移動用戶識別號碼)、MAC地址、屏幕分辨率、機(jī)型、SIM卡號、手機(jī)號、運(yùn)營商編號或名稱、手機(jī)操作系統(tǒng)(OS)版本等各種參數(shù)。其中,IMEI是由15位數(shù)字組成的"電子串號",每個(gè)手機(jī)在組裝完成后都將被賦予一個(gè)全球唯一的一組號碼,這個(gè)號碼從生產(chǎn)到交付使用都將被制造生產(chǎn)的廠商所記錄,每個(gè)不同的IMEI代表一個(gè)新的用戶;IMSI是儲存在SIM卡中用于區(qū)別移動用戶的標(biāo)志,可用于區(qū)別移動用戶的有效信息。為了防止這種作弊事件的發(fā)生,很有必要檢測應(yīng)用渠道是否使用了刷量工具。
傳統(tǒng)的檢測方法主要有兩種:第一種檢測方法是檢測當(dāng)前應(yīng)用渠道下硬件屬性的分布是否正常。比如,若當(dāng)前應(yīng)用渠道下用戶的手機(jī)機(jī)型(手機(jī)所屬的廠家及型號,如samsung_GN708T)分布情況與正常情況下用戶的手機(jī)機(jī)型分布情況有很大差異,則當(dāng)前應(yīng)用渠道可能使用了刷量工具,或者如果當(dāng)前應(yīng)用渠道下用戶的手機(jī)OS版本(如android 4.0.1)分布情況與正常情況下用戶的手機(jī)OS版本分布情況有很大差異,則當(dāng)前應(yīng)用渠道可能使用了刷量工具,針對其他 硬件屬性的分布異常檢測類似。第二種檢測方法是檢測應(yīng)用渠道的留存率(登錄用戶數(shù)/新用戶數(shù)*100%)是否正常,因?yàn)樗⒘抗ぞ呱傻男掠脩艨赡懿粫俅蔚卿?,使得其留存率出現(xiàn)異常。
然而,好的刷量工具生成的虛假新用戶所對應(yīng)的硬件屬性與正常情況下的硬件屬性在分布上是一致,這使得第一種檢測方法具有一定的局限性;而留存率更多地作為評價(jià)手機(jī)應(yīng)用質(zhì)量的指標(biāo),留存率越高代表手機(jī)應(yīng)用越好,這使得第二種檢測方法得到的檢測結(jié)果不夠準(zhǔn)確。
技術(shù)實(shí)現(xiàn)要素:
基于此,有必要針對傳統(tǒng)檢測方法具有局限性和檢測結(jié)果不準(zhǔn)確的技術(shù)問題,提供一種刷量工具檢測方法和裝置。
一種刷量工具檢測方法,所述方法包括:
獲取應(yīng)用信息,所述應(yīng)用信息包括應(yīng)用的渠道標(biāo)識;
獲取安裝所述應(yīng)用的用戶信息,所述用戶信息包括用戶的應(yīng)用安裝列表;
采用SimHash算法計(jì)算所述應(yīng)用安裝列表的SimHash值;
根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì);
根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
一種刷量工具檢測裝置,所述裝置包括:
第一獲取模塊,用于獲取應(yīng)用信息,所述應(yīng)用信息包括應(yīng)用的渠道標(biāo)識;
第二獲取模塊,用于獲取安裝所述應(yīng)用的用戶信息,所述用戶信息包括用戶的應(yīng)用安裝列表;
計(jì)算模塊,用于采用SimHash算法計(jì)算所述應(yīng)用安裝列表的SimHash值;
聚類統(tǒng)計(jì)模塊,用于根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì);
檢測模塊,用于根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
上述刷量工具檢測方法和裝置,考慮到刷量工具可以在一個(gè)移動終端上生成多個(gè)虛假新用戶,但這個(gè)移動終端上安裝的都是同樣的應(yīng)用,因此通過采用SimHash算法計(jì)算所述應(yīng)用安裝列表的SimHash值,并根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì),這樣可以找到具有相同應(yīng)用安裝列表的用戶集合以獲得應(yīng)用渠道作弊更為直接的證據(jù),根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測應(yīng)用渠道是否使用了刷量工具,這樣不會受一些好的刷量工具因硬件屬性的分布情況與正常情況下的一致性所帶來的局限性,刷量工具的使用會直接導(dǎo)致很多用戶的應(yīng)用安裝列表相同,因此,應(yīng)用安裝列表的相似性比留存率更能準(zhǔn)確地反應(yīng)出應(yīng)用渠道是否使用了刷量工具。
附圖說明
圖1為一個(gè)實(shí)施例中刷量工具檢測系統(tǒng)的應(yīng)用環(huán)境圖;
圖2為一個(gè)實(shí)施例中服務(wù)器的結(jié)構(gòu)示意圖;
圖3為一個(gè)實(shí)施例中刷量工具檢測方法的流程示意圖;
圖4為一個(gè)實(shí)施例中采用SimHash算法計(jì)算應(yīng)用安裝列表的SimHash值的方法流程示意圖;
圖5為一個(gè)實(shí)施例中根據(jù)SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì)的方法流程示意圖;
圖6為一個(gè)實(shí)施例中根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具的方法流程示意圖;
圖7為一個(gè)具體應(yīng)用場景中手機(jī)與服務(wù)器的交互示意圖;
圖8為一個(gè)實(shí)施例中刷量工具檢測裝置的結(jié)構(gòu)框圖;
圖9為一個(gè)實(shí)施例中計(jì)算模塊的結(jié)構(gòu)框圖;
圖10為一個(gè)實(shí)施例中聚類統(tǒng)計(jì)模塊的結(jié)構(gòu)框圖;
圖11為一個(gè)實(shí)施例中檢測模塊的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí) 施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
如圖1所示,在一個(gè)實(shí)施例中,提供了一種刷量工具檢測系統(tǒng),包括多個(gè)移動終端102、服務(wù)器104。其中,移動終端102上運(yùn)行有應(yīng)用程序,至少提供應(yīng)用信息和用戶信息的發(fā)送功能,所述應(yīng)用信息包括應(yīng)用的渠道標(biāo)識,所述用戶信息包括用戶的應(yīng)用安裝列表。正常情況下,每個(gè)移動終端102對應(yīng)唯一的用戶。服務(wù)器104用于接收所述移動終端102發(fā)送的應(yīng)用信息和用戶信息,并檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
在一個(gè)實(shí)施例中,上述圖1中的服務(wù)器104的內(nèi)部結(jié)構(gòu)圖如圖2所示。服務(wù)器104包括通過系統(tǒng)總線連接的處理器、內(nèi)存、存儲介質(zhì)、網(wǎng)絡(luò)接口和輸出設(shè)備。其中,該服務(wù)器的存儲介質(zhì)存儲有操作系統(tǒng)和一種刷量工具檢測裝置,該刷量工具檢測裝置用于實(shí)現(xiàn)一種刷量工具檢測方法。該服務(wù)器的處理器被配置為執(zhí)行一種刷量工具檢測方法。該輸出設(shè)備包括顯示屏。
如圖3所示,在一個(gè)實(shí)施例中,提供了一種刷量工具檢測方法,本實(shí)施例以該方法應(yīng)用于上述圖2中的服務(wù)器來舉例說明。
該刷量工具檢測方法具體包括如下步驟:
步驟S302:獲取應(yīng)用信息,所述應(yīng)用信息包括應(yīng)用的渠道標(biāo)識。
具體地,渠道標(biāo)識是指定的為用戶提供應(yīng)用安裝包的應(yīng)用渠道的唯一標(biāo)識。用戶通過某個(gè)應(yīng)用渠道下載的應(yīng)用安裝包中都會自帶有相應(yīng)的渠道標(biāo)識。渠道標(biāo)識可以是包括數(shù)字、字母和標(biāo)點(diǎn)符號中的至少一種的字符的字符串。步驟S302可以在步驟304之前或之后執(zhí)行。
步驟S304:獲取安裝所述應(yīng)用的用戶信息,所述用戶信息包括用戶的應(yīng)用安裝列表。
具體地,應(yīng)用安裝列表是指移動終端的用戶安裝的APP名稱的集合。移動終端可以直接向服務(wù)器發(fā)送用戶信息,所述用戶信息包括APP安裝列表,服務(wù)器也可以使用第三方工具獲得用戶對應(yīng)的移動終端的軟硬件屬性。
舉例說明,如果移動終端對應(yīng)的A用戶通過第三方電子市場這么一個(gè)應(yīng)用渠道下載了一個(gè)網(wǎng)絡(luò)聊天工具的應(yīng)用安裝包,那么這個(gè)應(yīng)用安裝包中會自帶有 渠道標(biāo)識。當(dāng)移動終端給服務(wù)器上報(bào)數(shù)據(jù)時(shí),服務(wù)器可以獲取到網(wǎng)絡(luò)聊天工具的渠道標(biāo)識,同時(shí)可以獲取到A用戶的應(yīng)用安裝列表。
步驟S306:采用SimHash算法計(jì)算所述應(yīng)用安裝列表的SimHash值。
Simhash算法是一種降維技術(shù),它可以將高維向量映射到一維的指紋,常用于網(wǎng)頁去重。Simhash算法的輸入是一個(gè)向量,輸出是一個(gè)f位的指紋。其中,f為一個(gè)特定的數(shù)值,如32、64或128。在本實(shí)施例中,Simhash算法輸入的向量是一個(gè)應(yīng)用安裝列表的特征集合,每一個(gè)特征都可以設(shè)置一個(gè)權(quán)重。
步驟S308:根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì)。
每一個(gè)用戶的應(yīng)用安裝列表經(jīng)步驟S306計(jì)算后都會得到一個(gè)SimHash值。具有相同SimHash值的應(yīng)用安裝列表為相同或相似。
步驟S310:根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
聚類統(tǒng)計(jì)結(jié)果可以直接反應(yīng)出用戶的應(yīng)用安裝列表的相同或相似的情況。比如,根據(jù)所述聚類統(tǒng)計(jì)結(jié)果得知有大量的用戶的應(yīng)用安裝列表都是相同的,很明顯這樣是使用了刷量工具。
請參照圖4,為一個(gè)實(shí)施例中采用SimHash算法計(jì)算應(yīng)用安裝列表的SimHash值的方法流程示意圖。
具體地,采用SimHash算法計(jì)算應(yīng)用安裝列表的SimHash值具體包括以下步驟:
步驟S402:將所述應(yīng)用安裝列表按應(yīng)用屬性進(jìn)行排序。
應(yīng)用屬性可以是應(yīng)用名稱,也可以是應(yīng)用的安裝時(shí)間等。在本實(shí)施例中,所述應(yīng)用安裝列表是按應(yīng)用名稱進(jìn)行排序。具體地,首先比較應(yīng)用名稱的首字母,并按首字母順序進(jìn)行排序,如果應(yīng)用名稱的首字母都是一樣的,那么就比較應(yīng)用名稱的第二個(gè)字母進(jìn)行排序,以此類推。
舉例說明,假設(shè)一個(gè)用戶的應(yīng)用安裝列表為:Bab、Bcc、Ddd、Aaa,那么,經(jīng)過步驟S402后的應(yīng)用安裝列表變?yōu)椋篈aa、Bab、Bcc、Ddd。
步驟S404:以相鄰兩個(gè)應(yīng)用名稱組成的字符串作為一個(gè)特征構(gòu)造特征集合。
有些應(yīng)用名稱會非常高頻地出現(xiàn)在不同用戶的應(yīng)用安裝列表中,如果分別 將每個(gè)單獨(dú)的應(yīng)用名稱作為一個(gè)特征串,這樣,這些高頻的應(yīng)用名稱在不同用戶的應(yīng)用安裝列表中同時(shí)出現(xiàn)的概率很高。在本實(shí)施例中,以相鄰兩個(gè)應(yīng)用名稱作為一個(gè)特征串,可以有效地降低一些高頻的應(yīng)用名稱對SimHash算法計(jì)算結(jié)果的影響。
舉例說明,假設(shè)一個(gè)用戶的應(yīng)用安裝列表經(jīng)步驟S402排序后為:Aaa、Bab、Bcc、Dac、Ddb、Ddc,那么,經(jīng)過步驟S404后形成的字符串為:Aaa Bab、Bab Bcc、BccDac、DacDdb、DdbDdc。
假設(shè)Aaa這個(gè)應(yīng)用名稱是一個(gè)很高頻的應(yīng)用名稱,如果分別將每個(gè)單獨(dú)的應(yīng)用名稱作為一個(gè)特征串,這樣Aaa在不同用戶的應(yīng)用安裝列表中同時(shí)出現(xiàn)的概率較高。在本實(shí)施例中,以相鄰兩個(gè)應(yīng)用名稱作為一個(gè)特征串,即使Aaa可能在很多用戶的應(yīng)用安裝列表中都有出現(xiàn),但不同用戶的應(yīng)用安裝列表中同時(shí)出現(xiàn)Aaa和Bab的概率就會低很多,這樣可以有效地降低一些高頻的應(yīng)用名稱對SimHash算法計(jì)算結(jié)果的影響。
步驟S406:采用SimHash算法計(jì)算所述特征集合的SimHash值。
Simhash算法具體如下:
(1)將一個(gè)f維的向量V初始化為0,f位的二進(jìn)制數(shù)S初始化為0;
(2)對每一個(gè)特征產(chǎn)生一個(gè)f位的指紋b,如果b的第i位為1,則V的第i個(gè)元素加上該特征的權(quán)重;否則,V的第i個(gè)元素減去該特征的權(quán)重,其中,i為1~f之間的數(shù)。
(3)如果V的第i個(gè)元素大于0,則S的第i位為1,否則為0;
(4)輸出指紋S。
在本實(shí)施例中,f取64,因?yàn)槊總€(gè)特征的重要性都是一樣的,所以每個(gè)特征的權(quán)重設(shè)為1。輸出的指紋S就是一個(gè)SimHash值。
下面通過一段代碼示例來說明SimHash算法計(jì)算的過程:
請參照圖5,為一個(gè)實(shí)施例中根據(jù)SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì)的方法流程示意圖。
具體地,根據(jù)SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì)包括以下步驟:
步驟S502:將具有相同SimHash值的用戶聚類到一個(gè)簇中。
聚類是指將物理或抽象對象的集合分成由類似的對象組成的多個(gè)類的過程。由聚類所生成的簇是一組數(shù)據(jù)對象的集合,同一個(gè)簇中的對象彼此相似,與其他簇中的對象相異。
步驟S504:統(tǒng)計(jì)所述簇的不同屬性值。
簇的屬性包括相似用戶數(shù)量、相似用戶比例、最大簇用戶數(shù)量、最大簇用戶比例、Top5簇用戶數(shù)量以及Top5簇用戶比例。其中,相似用戶數(shù)量為用戶數(shù)量大等于用戶閾值的簇中的用戶數(shù)量總和,如果有很多用戶的安裝列表相似,則說明應(yīng)用渠道可能使用了刷量工具;相似用戶比例為相似用戶數(shù)量與新用戶總數(shù)量的比值,如果有相當(dāng)比例的用戶的安裝列表相似,則說明應(yīng)用渠道可能使用了刷量工具;最大簇用戶數(shù)量為用戶數(shù)量最多的簇中的用戶數(shù)量,如果最大簇的用戶數(shù)量很多,則表明這個(gè)簇中用戶的安裝列表都很相似,則說明應(yīng)用渠道可能使用了刷量工具;最大簇用戶比例為最大簇用戶數(shù)量與新用戶總數(shù)量的比值,如果最大簇的用戶數(shù)量新用戶總數(shù)量的比例很高,則說明應(yīng)用渠道可能使用了刷量工具;Top5簇用戶數(shù)量為用戶數(shù)量最多的5個(gè)簇中的用戶數(shù)量總和,如果Top5簇用戶數(shù)量很大,表明這些用戶的安裝列表存在相似情況,則應(yīng)用渠道可能使用了刷量工具;Top5簇用戶比例為Top5簇的用戶數(shù)量與新用戶總數(shù)量的比值,如果Top5簇用戶比例很高,則應(yīng)用渠道可能使用了刷量工具。所述簇的屬性及屬性值的計(jì)算具體如表1所示。
表1 簇屬性列表
新用戶是指在當(dāng)天通過應(yīng)用渠道下載并安裝應(yīng)用的用戶。為了節(jié)約數(shù)據(jù)、減少數(shù)據(jù)的計(jì)算量,本實(shí)施例只針對新用戶進(jìn)行刷量工具檢測,即本實(shí)施例中提到的用戶均為新用戶。
舉例說明,設(shè)新用戶總數(shù)量為55、用戶閾值為15,假如根據(jù)SimHash值將渠道中的用戶聚類到A、B、C、D、E、F六個(gè)簇中,其中A簇中有10個(gè)用戶,B簇中有15個(gè)用戶,C簇中有20個(gè)用戶、D簇中有2個(gè)用戶、E簇中有5個(gè)用戶、F簇中有3個(gè)用戶。
那么相似用戶數(shù)量的屬性值就等于B簇中用戶與C簇中用戶數(shù)量的累加數(shù),即35;相似用戶比例的屬性值等于35/55;最大簇用戶數(shù)量的屬性值為20個(gè);最大簇用戶比例的屬性值為20/55;Top5簇用戶數(shù)量的屬性值為A、B、C、E、F五個(gè)簇中用戶數(shù)量的累加數(shù),即10+15+20+5+3=53;Top5簇用戶比例的屬性值為53/55。
請參照圖6,為一個(gè)實(shí)施例中根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具的方法流程示意圖。
根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道是否使用了刷量工具具體包括以下步驟:
步驟S602:將所述簇的不同屬性值與相應(yīng)的屬性閾值進(jìn)行比較。
如上述,本實(shí)施例中統(tǒng)計(jì)了相似用戶數(shù)量、相似用戶的比例、最大簇的用戶數(shù)量、最大簇的用戶比例、Top5簇的用戶數(shù)量以及Top5簇的用戶比例六個(gè)屬性。這六個(gè)屬性中每個(gè)屬性都有一個(gè)對應(yīng)用的屬性閾值。屬性閾值的定義一般基于該屬性的分布,比如大多數(shù)渠道下安裝列表相似用戶的比例不高于5%,而有少量渠道下安裝列表相似用戶的比例達(dá)到25~50%甚至更高,而這是極其不正常的情況。在本實(shí)施例中,安裝列表相似用戶的比例對應(yīng)的屬性閾值設(shè)置為0.25。
在本實(shí)施例中,需要將所述簇的六個(gè)屬性值依次與他們的屬性閾值進(jìn)行比較。
步驟S604:根據(jù)所述比較結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
具體地,檢測所述簇的不同屬性值中是否至少有一個(gè)屬性值大于等于其相應(yīng)的屬性閾值,若是,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具:
如果相似用戶數(shù)量的屬性值大等于其相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具;如果相似用戶比例的屬性值大等于其相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具;如果最大簇用戶數(shù)量的屬性值大等于其相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具;如果最大簇的用戶比例的屬性值大等于其相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具;如果Top5簇用戶數(shù)量的屬性值大等于其相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具;如果Top5簇的用戶比例的屬性值大等于相應(yīng)的閾值,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用了刷量工具。
可以理解,在其他實(shí)施例中,還可以對比較順序進(jìn)行調(diào)整。進(jìn)一步地,在其他實(shí)施例中,可以不需要將所述簇的六個(gè)屬性值全部都與他們的屬性閾值比較一遍,而是只要檢測到有一個(gè)屬性值大于等于其對應(yīng)的屬性閾值就可以停止下一個(gè)屬性值的比較了。
上述刷量工具檢測方法,考慮到刷量工具可以在一個(gè)移動終端上生成多個(gè)虛假新用戶,但這個(gè)移動終端上安裝的都是同樣的應(yīng)用,因此通過采用SimHash 算法計(jì)算所述應(yīng)用安裝列表的SimHash值,并根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì),這樣可以找到具有相同應(yīng)用安裝列表的用戶集合以獲得應(yīng)用渠道作弊更為直接的證據(jù),根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測應(yīng)用渠道是否使用了刷量工具,這樣不會受一些好的刷量工具因硬件屬性的分布情況與正常情況下的一致性所帶來的局限性,刷量工具的使用會直接導(dǎo)致很多用戶的應(yīng)用安裝列表相同,因此,應(yīng)用安裝列表的相似性比留存率更能準(zhǔn)確地反應(yīng)出應(yīng)用渠道是否使用了刷量工具。
下面通過具體應(yīng)用場景來說明上述刷量工具檢測方法的原理,該應(yīng)用場景以手機(jī)作為移動終端、第三方電子市場作為具體的應(yīng)用渠道為例進(jìn)行說明。
請參照圖7,一個(gè)具體應(yīng)用場景中手機(jī)與服務(wù)器的交互示意圖。當(dāng)天,總共有三部手機(jī)(702、704、706)對應(yīng)的用戶通過第三方電子市場下載并安裝了同一個(gè)導(dǎo)航應(yīng)用,服務(wù)器708可以獲取到這個(gè)導(dǎo)航應(yīng)用的渠道標(biāo)識(對應(yīng)第三方電子市場)和這三個(gè)用戶的應(yīng)用安裝列表。正常情況下,每部手機(jī)都對應(yīng)唯一一個(gè)用戶。
假設(shè)第三方電子市場為了從這個(gè)導(dǎo)航應(yīng)用的供應(yīng)商處騙取推廣費(fèi)用,通過刷量工具在手機(jī)706上生成了15個(gè)虛假用戶,這使得服務(wù)器708總共獲取了18個(gè)用戶的應(yīng)用安裝列表。有16個(gè)用戶對應(yīng)同一部手機(jī)706,因此這16個(gè)用戶的應(yīng)用安裝列表是相同的。
服務(wù)器708會獲取這18個(gè)新用戶的應(yīng)用安裝列表。經(jīng)采用SimHash算法計(jì)算出這18個(gè)用戶的應(yīng)用安裝列表的SimHash值,并根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì),使具有相同simhash值的用戶同處于一個(gè)簇中。這18個(gè)新用戶中會有16個(gè)用戶的應(yīng)用安裝列表的SimHash值相同,那么這18個(gè)新用戶就會被分別聚類到三個(gè)簇中。假設(shè)一個(gè)簇的用戶數(shù)量一般不會超過3,即不應(yīng)該有3個(gè)以上的用戶的應(yīng)用安裝列表相同或相似,則表示具有16個(gè)用戶的這個(gè)簇是有問題的,最后的檢測結(jié)果為該渠道標(biāo)識對應(yīng)的應(yīng)用渠道(第三方電子市場)使用了刷量工具。
如圖8所示,在一個(gè)實(shí)施例中,提供了一種刷量工具檢測裝置800,具有實(shí)現(xiàn)上述各個(gè)實(shí)施例的刷量工具檢測方法的功能。該刷量工具檢測裝置800包括第一獲取模塊802、第二獲取模塊804、計(jì)算模塊806、聚類統(tǒng)計(jì)模塊808以及檢測模塊810。
第一獲取模塊802用于獲取應(yīng)用信息,所述應(yīng)用信息包括應(yīng)用的渠道標(biāo)識。
第二獲取模塊804用于獲取安裝所述應(yīng)用的用戶信息,所述用戶信息包括用戶的應(yīng)用安裝列表。
計(jì)算模塊806用于采用SimHash算法計(jì)算所述應(yīng)用安裝列表的SimHash值。
聚類統(tǒng)計(jì)模塊808用于根據(jù)所述SimHash值對用戶進(jìn)行聚類統(tǒng)計(jì)。
檢測模塊810用于根據(jù)所述聚類統(tǒng)計(jì)結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
如圖9所示,在一個(gè)實(shí)施例中,提供了一種計(jì)算模塊900。該計(jì)算模塊900包括排序單元902、構(gòu)造單元904以及計(jì)算單元906。
排序單元902用于將所述應(yīng)用安裝列表按應(yīng)用屬性進(jìn)行排序。
構(gòu)造單元904用于以相鄰兩個(gè)應(yīng)用名稱組成的字符串作為一個(gè)特征構(gòu)造特征集合。
計(jì)算單元906用于采用SimHash算法計(jì)算所述特征集合的SimHash值。
如圖10所示,在一個(gè)實(shí)施例中,提供了一種聚類統(tǒng)計(jì)模塊1000。該聚類統(tǒng)計(jì)模塊1000包括聚類單元1002和統(tǒng)計(jì)單元1004。
聚類單元1002用于將具有相同SimHash值的用戶聚類到一個(gè)簇中。
統(tǒng)計(jì)單元1004用于統(tǒng)計(jì)所述簇的不同屬性值。
如圖11所示,在一個(gè)實(shí)施例中,提供了一種檢測模塊1100。該檢測模塊1100包括比較單元1102和檢測單元1104。
比較單元1102用于將所述簇的不同屬性值與相應(yīng)的屬性閾值進(jìn)行比較。
檢測單元1104用于根據(jù)比較結(jié)果檢測所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道是否使用了刷量工具。
具體地,檢測單元1104用于檢測所述簇的不同屬性值中是否至少有一個(gè)屬性值大于等于其相應(yīng)的屬性閾值,若是,則所述渠道標(biāo)識對應(yīng)的應(yīng)用渠道使用 了刷量工具。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)等非易失性存儲介質(zhì),或隨機(jī)存儲記憶體(Random Access Memory,RAM)等。
以上所述實(shí)施例的各技術(shù)特征可以進(jìn)行任意的組合,為使描述簡潔,未對上述實(shí)施例中的各個(gè)技術(shù)特征所有可能的組合都進(jìn)行描述,然而,只要這些技術(shù)特征的組合不存在矛盾,都應(yīng)當(dāng)認(rèn)為是本說明書記載的范圍。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。