惡意賬戶識(shí)別方法及裝置的制造方法
【專(zhuān)利摘要】本申請(qǐng)?zhí)峁┮环N惡意賬戶識(shí)別方法及裝置。方法包括:根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵;根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理;根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶。本申請(qǐng)基于對(duì)待識(shí)別賬戶的聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,而不是單獨(dú)識(shí)別每個(gè)賬戶,有利于提高惡意賬戶的識(shí)別效率。
【專(zhuān)利說(shuō)明】
惡意賬戶識(shí)別方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種惡意賬戶識(shí)別方法及裝置。
【【背景技術(shù)】】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,各種應(yīng)用系統(tǒng)越來(lái)越多,例如電子商務(wù)系統(tǒng)。用戶作為應(yīng)用系統(tǒng)的使用者,一般需要注冊(cè)賬戶,例如電子郵箱(email),賬戶可以作為用戶的虛擬身份標(biāo)識(shí)信息,用戶通過(guò)賬戶可以登錄應(yīng)用系統(tǒng),以使用應(yīng)用系統(tǒng)提供的資源或開(kāi)展相關(guān)活動(dòng)等。
[0003]在實(shí)際應(yīng)用中,一些惡意用戶會(huì)大批量注冊(cè)賬戶,以便于盜取應(yīng)用系統(tǒng)所提供的資源。以電子商務(wù)系統(tǒng)為例,惡意用戶可以通過(guò)大批量注冊(cè)的電子郵箱登錄電子商務(wù)系統(tǒng),從而多次領(lǐng)取電子商務(wù)系統(tǒng)提供的紅包。對(duì)應(yīng)用系統(tǒng)來(lái)說(shuō),需要識(shí)別出惡意賬戶。
[0004]現(xiàn)有技術(shù)一般是設(shè)定惡意賬戶的模式(pattern),審核人員逐一獲取所注冊(cè)的賬戶,將獲取的賬戶與惡意賬戶的模式進(jìn)行比對(duì),以判斷該賬戶是否屬于惡意賬戶。這種方式效率較低。
【
【發(fā)明內(nèi)容】
】
[0005]本申請(qǐng)的多個(gè)方面提供一種惡意賬戶識(shí)別方法及裝置,用以提高識(shí)別惡意賬戶的效率。
[0006]本申請(qǐng)的一方面,提供一種惡意賬戶識(shí)別方法,包括:
[0007]根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵;
[0008]根據(jù)所述待識(shí)別賬戶的條件熵,對(duì)所述待識(shí)別賬戶進(jìn)行聚類(lèi)處理;
[0009]根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶。
[0010]本申請(qǐng)的另一方面,提供一種惡意賬戶識(shí)別裝置,包括:
[0011]獲得模塊,用于根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵;
[0012]聚類(lèi)模塊,用于根據(jù)所述待識(shí)別賬戶的條件熵,對(duì)所述待識(shí)別賬戶進(jìn)行聚類(lèi)處理;
[0013]識(shí)別模塊,用于根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶。
[0014]在本申請(qǐng)中,根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵,根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi),將具有共性的賬戶聚為一類(lèi),再根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,而不用單獨(dú)去識(shí)別每個(gè)賬戶,降低了識(shí)別數(shù)據(jù)量,有利于提高惡意賬戶的識(shí)別效率。
【【附圖說(shuō)明】】
[0015]為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本申請(qǐng)的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0016]圖1為本申請(qǐng)一實(shí)施例提供的惡意賬戶識(shí)別方法的流程示意圖;
[0017]圖2為本申請(qǐng)一實(shí)施例提供的惡意賬戶識(shí)別裝置的結(jié)構(gòu)示意圖;
[0018]圖3為本申請(qǐng)另一實(shí)施例提供的惡意賬戶識(shí)別裝置的結(jié)構(gòu)示意圖。
【【具體實(shí)施方式】】
[0019]為使本申請(qǐng)實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請(qǐng)保護(hù)的范圍。
[0020]圖1為本申請(qǐng)一實(shí)施例提供的惡意賬戶識(shí)別方法的流程示意圖。如圖1所示,該方法包括:
[0021]101、根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵。
[0022]102、根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理。
[0023]103、根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶。
[0024]本實(shí)施例提供一種惡意賬戶識(shí)別方法,可由惡意賬戶識(shí)別裝置來(lái)執(zhí)行。惡意賬戶識(shí)別裝置可以是任何需要進(jìn)行惡意賬戶識(shí)別的設(shè)備,例如可以是應(yīng)用服務(wù)端或應(yīng)用客戶端等。
[0025]在進(jìn)行惡意賬戶識(shí)別時(shí),惡意賬戶識(shí)別裝置首先獲取待識(shí)別賬戶。待識(shí)別賬戶可以包括尚未被識(shí)別為合法賬戶的已注冊(cè)賬戶,還可以包括新注冊(cè)賬戶。例如,惡意賬戶識(shí)別裝置可以在指定時(shí)間,獲取指定時(shí)間間隔內(nèi)新注冊(cè)的至少一個(gè)賬戶作為待識(shí)別賬戶。更為具體的,惡意賬戶識(shí)別裝置可以周期性的獲取在本周期內(nèi)新注冊(cè)的至少一個(gè)賬戶作為待識(shí)別賬戶。所述周期可以是一天、兩天、一周或更長(zhǎng)時(shí)間。
[0026]值得說(shuō)明的是,本實(shí)施例中的賬戶可以是用于登錄的各種賬戶,例如可以是但不限于電子郵箱。本實(shí)施例中的賬戶一般具有前綴和后綴兩部分。對(duì)電子郵箱來(lái)說(shuō),電子郵箱的前綴是@之前的部分,其余部分作為電子郵箱的后綴。
[0027]考慮到惡意賬戶一般都有一些明顯的規(guī)律,例如賬戶名稱有明顯的規(guī)律性,例如,有固定的前綴和完全一樣的后綴;以數(shù)字或字母作為序列自增;包括具有表征意義的固定字符,等等。以電子郵箱為例,惡意用戶在注冊(cè)時(shí)有可能注冊(cè)以下一些電子郵箱,
abcdl23il63.com, abcd234il63.com,......, abcd456il63.com 等。由此可見(jiàn),惡意賬戶一般具有相同或相近的信息,是比較相近的。因此,可以利用惡意賬戶之間相似的特點(diǎn)來(lái)識(shí)別惡意賬戶。
[0028]基于上述,本實(shí)施例對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理,以將具有相同或相似特點(diǎn)的賬戶聚為一類(lèi),進(jìn)而對(duì)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,而不用單獨(dú)對(duì)每個(gè)賬戶進(jìn)行識(shí)別,有利于提尚識(shí)別惡意賬戶的效率。
[0029]進(jìn)一步,考慮到同期注冊(cè)的賬戶數(shù)量較大,并且賬戶前綴一般包括多個(gè)字符,若直接對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi),需要處理的信息量較大,處理起來(lái)會(huì)比較復(fù)雜,速度也會(huì)較慢。針對(duì)該問(wèn)題,本實(shí)施例并不直接對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi),而是根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵;根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理。
[0030]其中,若兩個(gè)待識(shí)別賬戶的條件熵越相近,意味著這兩個(gè)待識(shí)別賬戶越相似。由于條件熵是一個(gè)具體數(shù)值,本實(shí)施例通過(guò)用條件熵替代待識(shí)別賬戶的前綴,相當(dāng)于用一個(gè)數(shù)值替代一串字符,極大的降低聚類(lèi)需要處理的信息量,降低了聚類(lèi)復(fù)雜度,提高了聚類(lèi)速度。
[0031 ] 在一可選實(shí)施方式中,上述根據(jù)出現(xiàn)在待識(shí)別賬戶中的前綴中的字符,獲得待識(shí)別賬戶的條件熵的一種實(shí)施方式包括:
[0032]確定出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符;
[0033]統(tǒng)計(jì)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率,并統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率;
[0034]根據(jù)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率和每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率,獲得待識(shí)別賬戶的條件熵。
[0035]目前,大部分賬戶的前綴使用的字符包括” a”?” z”、”0”?”9”以及”.”(點(diǎn))、”_ “(連字符)、”_”(下劃線)等字符,偶爾也會(huì)出現(xiàn)一些賬戶的前綴使用特殊字符,例如漢字、片假名等。為便于描述,將大部分賬戶的前綴使用到的字符稱為常規(guī)字符,例如上述” a”?” z”、” O”?” 9”以及”.”(點(diǎn))、”-“(連字符)、” (下劃線)等字符。相應(yīng)的,將較少賬戶的前綴偶爾使用的特殊字符稱為異常字符,例如漢字、片假名等。由于惡意賬戶一般會(huì)由機(jī)器批量注冊(cè),使用常規(guī)字符更容易實(shí)現(xiàn),異常字符在待識(shí)別賬戶的相似性上發(fā)揮的作用比較小,所以本實(shí)施方式僅考慮出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符,以便于提高處理效率。
[0036]例如,可以確定出現(xiàn)在待識(shí)別賬戶的前綴中的字符,過(guò)濾掉字符中的異常字符,從而獲得出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符。
[0037]舉例說(shuō)明,假設(shè)待識(shí)別賬戶包括:abcdl23il63.com、abcd234il63.com、
abcd345il63.com、......,相應(yīng)的賬戶前綴為:abcdl23、abcd345、abcd456、.......其中,
出現(xiàn)在這些待識(shí)別賬戶的前綴中的常規(guī)字符包括:a、b、c、d、l、2、3、4、5、6、……。
[0038]具體的,統(tǒng)計(jì)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率具體為:對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)該常規(guī)字符出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù);獲得該常規(guī)字符出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù)與待識(shí)別賬戶的前綴包括的字符總個(gè)數(shù)的比值,作為該常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率。以上述舉例為例,對(duì)常規(guī)字符a來(lái)說(shuō),假設(shè)其在待識(shí)別賬戶的前綴中出現(xiàn)了 100次,假設(shè)上述待識(shí)別賬戶的前綴包括的字符總個(gè)數(shù)為1000,則常規(guī)字符a的生成概率為100/1000 = 0.1 ;同理,按照該方法統(tǒng)計(jì)其他常規(guī)字符的生成概率。
[0039]可選的,上述統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率具體為:對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)該常規(guī)字符作為其他常規(guī)字符的前一字符且與其他常規(guī)字符相鄰出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù),作為該常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率。以上述舉例為例,對(duì)于常規(guī)字符a來(lái)說(shuō),假設(shè)統(tǒng)計(jì)出a作為b的前一字符且與b相鄰出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù)為5,其中,這5次包括在abcdl23中出現(xiàn)的I次,在abcd345中出現(xiàn)的I次,在abcd456中出現(xiàn)的I次,……;假設(shè)統(tǒng)計(jì)出a作為c的前一字符且與c相鄰出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù)為O ;等等。另外,對(duì)常規(guī)字符b來(lái)說(shuō),假設(shè)統(tǒng)計(jì)出b作為c的前一字符且與c相鄰出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù)為3,這3次包括在abcdl23中出現(xiàn)的I次,在abcd345中出現(xiàn)的I次,在abcd456中出現(xiàn)的I次。同理,按照該方法統(tǒng)計(jì)其他常規(guī)字符的轉(zhuǎn)移概率。
[0040]值得說(shuō)明的是,上述轉(zhuǎn)移概率的輸出實(shí)際上是一矩陣,矩陣維度由出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符的個(gè)數(shù)決定,若出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符為” a”?” z,,、”0”?” 9”以及”.”、,,-‘‘、共39個(gè)字符,則該矩陣是一個(gè)39*39的矩陣。其中,該矩陣的行對(duì)應(yīng)的39個(gè)字符作為前一字符,該矩陣的列對(duì)應(yīng)的39個(gè)字符作為相鄰的下一個(gè)字符,則該矩陣的第I行第2列的數(shù)值表示字符a到字符b的轉(zhuǎn)移概率。
[0041]在獲得每個(gè)常規(guī)字符對(duì)應(yīng)的生成概率和到其他常規(guī)字符的轉(zhuǎn)移概率之后,對(duì)每個(gè)待識(shí)別賬戶,從每個(gè)常規(guī)字符對(duì)應(yīng)的生成概率中確定該待識(shí)別賬戶的前綴的首字符對(duì)應(yīng)的生成概率,并從每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率中確定該待識(shí)別賬戶的前綴中每個(gè)字符到其相鄰的下一字符的轉(zhuǎn)移概率,將首字符對(duì)應(yīng)的生成概率和該待識(shí)別賬戶的前綴中每個(gè)字符到其相鄰的下一字符的轉(zhuǎn)移概率依次相加,獲得該待識(shí)別賬戶的條件熵。將待識(shí)別賬戶的條件熵記為CondEnt,則以待識(shí)別賬戶為abcdl23@163.com為例,則該待識(shí)別賬戶的條件熵如下:
[0042]CondEnt = Ent ( “a”)+Cond Ent ( “b” |” a”)+Cond Ent ( “c” |,,b,,)+CondEnt ( “d” |”c”)+Cond Ent ( “I” |”d”)+Cond Ent ( “2” |” I”)+Cond Ent ( “3” |”2”)
[0043]上述公式中,Ent ( “a”)表示首字符a對(duì)應(yīng)的生成概率;Cond Ent ( “b”| ”a”)表示a 到 b 的轉(zhuǎn)移概率;Cond Ent ( “c,,|,,b”)表示 b 到 c 的轉(zhuǎn)移 giallo ;Cond Ent ( “d,,|,,c”)表示c到d的轉(zhuǎn)移概率;Cond Ent (“I”I ”d”)表示d到I的轉(zhuǎn)移概率;Cond Ent (“2”| ”1”)表示I到2的轉(zhuǎn)移概率;Cond Ent ( “3” | ”2”)表示2到3的轉(zhuǎn)移概率。
[0044]舉例說(shuō)明,在上述例子中,abcdl232163.com、abcd234il63.com、abcd345il63.com.......等這類(lèi)相似賬戶會(huì)被聚類(lèi)到同一個(gè)聚類(lèi)結(jié)果中,這樣用戶可以直接根據(jù)該聚類(lèi)結(jié)果找到這些相似賬戶,并且可以根據(jù)聚類(lèi)結(jié)果中賬戶具有的共性來(lái)進(jìn)行惡意賬戶識(shí)別,而不用單獨(dú)對(duì)每個(gè)賬戶進(jìn)行識(shí)別,有利于提高惡意賬戶識(shí)別效率。
[0045]在一可選實(shí)施方式中,為了提高聚類(lèi)結(jié)果中賬戶的相似度,進(jìn)而提高惡意賬戶的識(shí)別精度,可以采用迭代方式進(jìn)行多次聚類(lèi),這樣每個(gè)聚類(lèi)結(jié)果中的賬戶都是高度相似的,則基于該聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,可以降低誤判率,提高識(shí)別精度。
[0046]在具體實(shí)現(xiàn)上,可以設(shè)置最大迭代次數(shù)作為迭代結(jié)束條件。則在根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶之前,可以判斷當(dāng)前迭代次數(shù)是否達(dá)到預(yù)設(shè)的最大迭代次數(shù);若判斷結(jié)果為否,則獲取當(dāng)前聚類(lèi)結(jié)果中的賬戶作為待識(shí)別賬戶,然后繼續(xù)執(zhí)行根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵及根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理的操作,從而實(shí)現(xiàn)聚類(lèi)的迭代;若判斷結(jié)果為是,則根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶。
[0047]例如,假設(shè)當(dāng)前聚類(lèi)處理,獲得兩個(gè)聚類(lèi)結(jié)果,每個(gè)聚類(lèi)結(jié)果包括待識(shí)別賬戶中的部分賬戶。若當(dāng)前迭代次數(shù)尚未達(dá)到最大迭代次數(shù),則可以將當(dāng)前每個(gè)聚類(lèi)結(jié)果中的賬戶再次作為待識(shí)別賬戶,繼續(xù)進(jìn)行聚類(lèi)處理,每個(gè)聚類(lèi)結(jié)果中的賬戶又會(huì)聚類(lèi)出兩個(gè)聚類(lèi)結(jié)果,這樣聚類(lèi)結(jié)果就由原來(lái)兩個(gè)聚類(lèi)結(jié)果變成四個(gè)聚類(lèi)結(jié)果,依次執(zhí)行下去,直到達(dá)到最大迭代次數(shù)為止,會(huì)獲得多個(gè)聚類(lèi)結(jié)果。
[0048]值得說(shuō)明的,本申請(qǐng)并不限定所使用的聚類(lèi)算法,例如可以是但不限于:kmeans算法。采用kmeans算法對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)的主要原理是:將待識(shí)別賬戶的條件熵進(jìn)行排序,例如可以是從大到小排序,也可以是從小到大排序,然后將排序結(jié)果中的前半部分條件熵對(duì)應(yīng)的待識(shí)別賬戶聚為一類(lèi),將排序結(jié)果中后半部分條件熵對(duì)應(yīng)的待識(shí)別賬戶聚為一類(lèi),從而得到兩個(gè)聚類(lèi)結(jié)果。
[0049]在獲得聚類(lèi)結(jié)果后,可以根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶。其中,根據(jù)應(yīng)用場(chǎng)景的不同,根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別的實(shí)現(xiàn)方式也會(huì)有所不同,本實(shí)施例對(duì)此不做限定。
[0050]例如,可以統(tǒng)計(jì)出聚類(lèi)結(jié)果中賬戶共有的賬戶特征,將該賬戶特征與預(yù)設(shè)的惡意賬戶的模式進(jìn)行比較,根據(jù)賬戶特征與惡意賬戶的模式的匹配度,確定該聚類(lèi)結(jié)果中的賬戶是否屬于惡意賬戶。
[0051]又例如,可以同時(shí)統(tǒng)計(jì)聚類(lèi)結(jié)果中賬戶共有的賬戶特征和包括的賬戶數(shù)量,根據(jù)賬戶特征和賬戶數(shù)量來(lái)確定該聚類(lèi)結(jié)果中的賬戶是否屬于惡意賬戶。例如,當(dāng)賬戶數(shù)量大于相應(yīng)的預(yù)設(shè)門(mén)限,且賬戶特征與惡意賬戶的模式的匹配度大于相應(yīng)的預(yù)設(shè)門(mén)限時(shí),認(rèn)為該聚類(lèi)結(jié)果中的賬戶屬于惡意賬戶。
[0052]綜上可見(jiàn),本申請(qǐng)根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵,根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi),將具有共性的賬戶聚為一類(lèi),再根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,而不用單獨(dú)去識(shí)別每個(gè)賬戶,降低了識(shí)別數(shù)據(jù)量,有利于提尚惡意賬戶的識(shí)別效率。
[0053]需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請(qǐng)并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本申請(qǐng),某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本申請(qǐng)所必須的。
[0054]在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
[0055]圖2為本申請(qǐng)一實(shí)施例提供的惡意賬戶識(shí)別裝置的結(jié)構(gòu)示意圖。如圖2所示,該裝置包括:獲得模塊21、聚類(lèi)模塊22和識(shí)別模塊23。
[0056]獲得模塊21,用于根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵。
[0057]聚類(lèi)模塊22,用于根據(jù)獲得模塊21獲得的待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi)處理。
[0058]識(shí)別模塊23,用于根據(jù)聚類(lèi)模塊22的聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶。
[0059]在一可選實(shí)施方式中,獲得模塊21具體用于:
[0060]確定出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符;
[0061]統(tǒng)計(jì)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率,并統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率;
[0062]根據(jù)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率和每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率,獲得待識(shí)別賬戶的條件熵。
[0063]進(jìn)一步,獲得模塊21在確定出現(xiàn)在待識(shí)別賬戶的前綴中的常規(guī)字符時(shí),具體用于:
[0064]確定出現(xiàn)在待識(shí)別賬戶的前綴中的字符;
[0065]過(guò)濾掉字符中的異常字符,以獲得字符中的常規(guī)字符。
[0066]進(jìn)一步,獲得模塊21在統(tǒng)計(jì)每個(gè)常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率時(shí),具體用于:
[0067]對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)常規(guī)字符出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù),獲得常規(guī)字符出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù)與待識(shí)別賬戶的前綴包括的字符總個(gè)數(shù)的比值,作為常規(guī)字符在待識(shí)別賬戶的前綴中的生成概率。
[0068]進(jìn)一步,獲得模塊21在統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率時(shí),具體用于:
[0069]對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)常規(guī)字符作為其他常規(guī)字符的前一字符且與其他常規(guī)字符相鄰出現(xiàn)在待識(shí)別賬戶的前綴中的次數(shù),作為常規(guī)字符到其他每個(gè)常規(guī)字符的轉(zhuǎn)移概率。
[0070]在一可選實(shí)施方式中,如圖3所示,該惡意賬戶識(shí)別裝置還包括:判斷模塊24。
[0071]判斷模塊24,用于在識(shí)別模塊23執(zhí)行識(shí)別操作之前,判斷當(dāng)前迭代次數(shù)是否達(dá)到預(yù)設(shè)的最大迭代次數(shù),若判斷結(jié)果為否,則獲取當(dāng)前每個(gè)聚類(lèi)結(jié)果中的賬戶作為待識(shí)別賬戶,并觸發(fā)獲得模塊21和聚類(lèi)模塊22繼續(xù)執(zhí)行相應(yīng)操作;若判斷結(jié)果為是,則觸發(fā)識(shí)別模塊23執(zhí)行根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定待識(shí)別賬戶中的惡意賬戶的操作。
[0072]本實(shí)施例提供的惡意賬戶識(shí)別裝置,可以根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得待識(shí)別賬戶的條件熵,根據(jù)待識(shí)別賬戶的條件熵,對(duì)待識(shí)別賬戶進(jìn)行聚類(lèi),將具有共性的賬戶聚為一類(lèi),再根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,而不用單獨(dú)去識(shí)別每個(gè)賬戶,降低了識(shí)別數(shù)據(jù)量,有利于提高惡意賬戶的識(shí)別效率。
[0073]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。
[0074]在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0075]所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。
[0076]另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0077]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或處理器(processor)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0078]最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本申請(qǐng)的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本申請(qǐng)進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本申請(qǐng)各實(shí)施例技術(shù)方案的精神和范圍。
【主權(quán)項(xiàng)】
1.一種惡意賬戶識(shí)別方法,其特征在于,包括: 根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵; 根據(jù)所述待識(shí)別賬戶的條件熵,對(duì)所述待識(shí)別賬戶進(jìn)行聚類(lèi)處理; 根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵,包括: 確定出現(xiàn)在所述待識(shí)別賬戶的前綴中的常規(guī)字符; 統(tǒng)計(jì)每個(gè)常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率,并統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率; 根據(jù)所述每個(gè)常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率和所述每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率,獲得所述待識(shí)別賬戶的條件熵。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定出現(xiàn)在所述待識(shí)別賬戶的前綴中的常規(guī)字符,包括: 確定出現(xiàn)在所述待識(shí)別賬戶的前綴中的字符; 過(guò)濾掉所述字符中的異常字符,以獲得所述字符中的常規(guī)字符。4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述統(tǒng)計(jì)每個(gè)常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率,包括: 對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)所述常規(guī)字符出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù),獲得所述常規(guī)字符出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù)與所述待識(shí)別賬戶的前綴包括的字符總個(gè)數(shù)的比值,作為所述常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率。5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率,包括: 對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)所述常規(guī)字符作為其他常規(guī)字符的前一字符且與所述其他常規(guī)字符相鄰出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù),作為所述常規(guī)字符到其他每個(gè)常規(guī)字符的轉(zhuǎn)移概率。6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其特征在于,所述根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶之前,還包括: 判斷當(dāng)前迭代次數(shù)是否達(dá)到預(yù)設(shè)的最大迭代次數(shù); 若判斷結(jié)果為否,則獲取當(dāng)前聚類(lèi)結(jié)果中的賬戶作為所述待識(shí)別賬戶,并返回重新執(zhí)行根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵,根據(jù)所述待識(shí)別賬戶的條件熵,對(duì)所述待識(shí)別賬戶進(jìn)行聚類(lèi)處理的操作; 若判斷結(jié)果為是,則執(zhí)行根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶的操作。7.—種惡意賬戶識(shí)別裝置,其特征在于,包括: 獲得模塊,用于根據(jù)出現(xiàn)在待識(shí)別賬戶的前綴中的字符,獲得所述待識(shí)別賬戶的條件熵; 聚類(lèi)模塊,用于根據(jù)所述待識(shí)別賬戶的條件熵,對(duì)所述待識(shí)別賬戶進(jìn)行聚類(lèi)處理; 識(shí)別模塊,用于根據(jù)聚類(lèi)結(jié)果進(jìn)行惡意賬戶識(shí)別,以確定所述待識(shí)別賬戶中的惡意賬戶。8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述獲得模塊具體用于: 確定出現(xiàn)在所述待識(shí)別賬戶的前綴中的常規(guī)字符; 統(tǒng)計(jì)每個(gè)常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率,并統(tǒng)計(jì)每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率; 根據(jù)所述每個(gè)常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率和所述每個(gè)常規(guī)字符到其他常規(guī)字符的轉(zhuǎn)移概率,獲得所述待識(shí)別賬戶的條件熵。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲得模塊進(jìn)一步具體用于: 確定出現(xiàn)在所述待識(shí)別賬戶的前綴中的字符; 過(guò)濾掉所述字符中的異常字符,以獲得所述字符中的常規(guī)字符。10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲得模塊進(jìn)一步具體用于: 對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)所述常規(guī)字符出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù),獲得所述常規(guī)字符出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù)與所述待識(shí)別賬戶的前綴包括的字符總個(gè)數(shù)的比值,作為所述常規(guī)字符在所述待識(shí)別賬戶的前綴中的生成概率。11.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲得模塊進(jìn)一步具體用于: 對(duì)每個(gè)常規(guī)字符,統(tǒng)計(jì)所述常規(guī)字符作為其他常規(guī)字符的前一字符且與所述其他常規(guī)字符相鄰出現(xiàn)在所述待識(shí)別賬戶的前綴中的次數(shù),作為所述常規(guī)字符到其他每個(gè)常規(guī)字符的轉(zhuǎn)移概率。12.根據(jù)權(quán)利要求7-11任一項(xiàng)所述的裝置,其特征在于,還包括: 判斷模塊,用于判斷當(dāng)前迭代次數(shù)是否達(dá)到預(yù)設(shè)的最大迭代次數(shù),若判斷結(jié)果為否,則當(dāng)前聚類(lèi)結(jié)果中的賬戶作為所述待識(shí)別賬戶,并觸發(fā)所述獲得模塊和所述聚類(lèi)模塊執(zhí)行相應(yīng)操作;若判斷結(jié)果為是,則觸發(fā)所述識(shí)別模塊執(zhí)行相應(yīng)操作。
【文檔編號(hào)】H04L29/06GK105991620SQ201510097766
【公開(kāi)日】2016年10月5日
【申請(qǐng)日】2015年3月5日
【發(fā)明人】顧思源
【申請(qǐng)人】阿里巴巴集團(tuán)控股有限公司