一種識(shí)別批量注冊(cè)行為的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及通信技術(shù)領(lǐng)域,尤其涉及一種識(shí)別批量注冊(cè)行為的方法及裝置。
【背景技術(shù)】
[0002] 隨著通信技術(shù)和計(jì)算機(jī)技術(shù)的快速發(fā)展,Internet應(yīng)用日益廣泛,人們?cè)诰W(wǎng)站注 冊(cè)一個(gè)賬戶就可以通過(guò)Internet發(fā)布數(shù)字作品、各種重要信息、進(jìn)行網(wǎng)絡(luò)貿(mào)易和通訊等。 大多網(wǎng)站注冊(cè)時(shí)要求填寫注冊(cè)人的姓與名以及電子郵箱地址?,F(xiàn)實(shí)中經(jīng)常會(huì)出現(xiàn)批量注冊(cè) 行為,這種批量注冊(cè)往往伴隨著對(duì)計(jì)算機(jī)系統(tǒng)進(jìn)行侵犯的行為。因此,如何識(shí)別批量注冊(cè)行 為從而更好的解決計(jì)算機(jī)系統(tǒng)安全問(wèn)題是一個(gè)亟待解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0003] 本申請(qǐng)實(shí)施例的目的是提供一種識(shí)別批量注冊(cè)行為的方法及裝置,以減少惡意的 批量注冊(cè)行為的危害。
[0004] 為實(shí)現(xiàn)上述目的,本申請(qǐng)實(shí)施例提供一種識(shí)別批量注冊(cè)行為的方法,該方法包 括:
[0005] 選取預(yù)設(shè)數(shù)量的待識(shí)別注冊(cè)信息,所述注冊(cè)信息包含注冊(cè)用戶的姓、名及注冊(cè)電 子郵箱的地址;
[0006] 獲取所述注冊(cè)信息中電子郵箱地址的用戶名字符串,并按照預(yù)定規(guī)則獲取所述注 冊(cè)信息中對(duì)應(yīng)姓的第一擴(kuò)展信息和對(duì)應(yīng)名的第二擴(kuò)展信息;
[0007] 查找注冊(cè)用戶第一擴(kuò)展信息和第二擴(kuò)展信息在所述電子郵箱地址的用戶名字符 串中第一次出現(xiàn)的位置,得到第一擴(kuò)展信息位置和第二擴(kuò)展信息位置;
[0008] 根據(jù)所述第一擴(kuò)展信息在所述電子郵箱地址的用戶名字符串中的位置和所述第 二擴(kuò)展信息在所述電子郵箱地址的用戶名字符串中的位置將所述電子郵箱地址的用戶名 字符串進(jìn)行劃分,采用向量描述所述劃分后的各個(gè)部分的特征,并以所述向量對(duì)所述電子 郵箱地址的用戶名字符串進(jìn)行分類;
[0009] 統(tǒng)計(jì)每個(gè)向量占所有向量的比例,當(dāng)某個(gè)向量占所有向量的比例大于等于第一閾 值時(shí),判斷該向量中所有注冊(cè)信息中包含批量注冊(cè)的注冊(cè)信息。
[0010] 本申請(qǐng)另一方面還提供一種識(shí)別批量注冊(cè)行為的裝置,該裝置包括:
[0011] 預(yù)設(shè)單元,用于根據(jù)包含注冊(cè)用戶的姓、名及注冊(cè)電子郵箱的地址的注冊(cè)信息,獲 取所述注冊(cè)信息中電子郵箱地址的用戶名字符串以及注冊(cè)用戶第一擴(kuò)展信息和第二擴(kuò)展 信息;
[0012] 獲取信息單元,用于獲取所述注冊(cè)信息中電子郵箱地址的用戶名字符串,并按照 預(yù)定規(guī)則獲取所述注冊(cè)信息中對(duì)應(yīng)姓的第一擴(kuò)展信息和對(duì)應(yīng)名的第二擴(kuò)展信息;
[0013] 查找單元,用于查找注冊(cè)用戶第一擴(kuò)展信息和第二擴(kuò)展信息在所述電子郵箱地址 的用戶名字符串中第一次出現(xiàn)的位置,得到第一擴(kuò)展信息位置和所第二擴(kuò)展信息位置;
[0014] 分類單元,用于根據(jù)所述第一擴(kuò)展信息在所述電子郵箱地址的用戶名字符串中的 位置和所述第二擴(kuò)展信息在所述電子郵箱地址的用戶名字符串中的位置將所述電子郵箱 地址的用戶名字符串進(jìn)行劃分,采用向量描述所述劃分后的各個(gè)部分的特征,并以所述向 量對(duì)所述電子郵箱地址的用戶名字符串進(jìn)行分類;
[0015] 統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)向量占所有向量的比例,當(dāng)某個(gè)向量占所有向量的比例 大于等于第一閾值時(shí),就可以判斷該向量中所有注冊(cè)信息中包含批量注冊(cè)的注冊(cè)信息。
[0016] 由以上本申請(qǐng)實(shí)施例提供的技術(shù)方案可見,本申請(qǐng)實(shí)施例通過(guò)注冊(cè)用戶的姓和名 對(duì)電子郵箱地址的用戶名字符串進(jìn)行劃分,并采用向量描述劃分后的各個(gè)部分的特征,并 以向量對(duì)電子郵箱地址的用戶名字符串進(jìn)行分類,統(tǒng)計(jì)每個(gè)向量占所有向量的比例,當(dāng)某 個(gè)向量占所有向量的比例大于等于第一閾值時(shí),就可以判斷該向量中所有注冊(cè)信息中包含 批量注冊(cè)的注冊(cè)信息,為進(jìn)一步精確識(shí)別批量注冊(cè)提供了依據(jù)。
【附圖說(shuō)明】
[0017] 為了更清楚地說(shuō)明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提 下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018] 圖1是本申請(qǐng)實(shí)施例提供的一種識(shí)別批量注冊(cè)行為的方法流程示意圖;
[0019] 圖2是本申請(qǐng)實(shí)施例提供的一種識(shí)別批量注冊(cè)行為的裝置的示意圖。
【具體實(shí)施方式】
[0020] 為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí) 施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施 例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通 技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù) 的范圍。
[0021] 以下以具體的例子詳細(xì)說(shuō)明本申請(qǐng)實(shí)施例的具體實(shí)現(xiàn)。
[0022] 本申請(qǐng)實(shí)施例提供一種識(shí)別批量注冊(cè)行為的方法,如圖1所示,該方法包括:
[0023] 步驟S101 :選取預(yù)設(shè)數(shù)量的待識(shí)別注冊(cè)信息,該注冊(cè)信息包含注冊(cè)用戶的姓、名 及注冊(cè)電子郵箱的地址。
[0024] 在實(shí)際中,在某個(gè)網(wǎng)站進(jìn)行注冊(cè)時(shí)一般會(huì)需要填寫注冊(cè)用戶的姓、名以及電子郵 箱地址。姓與名可以為中文漢字的姓與名,也可以為英文的姓與名。
[0025] 步驟S102 :獲取注冊(cè)信息中電子郵箱地址的用戶名字符串,并按照預(yù)定規(guī)則獲取 注冊(cè)信息中對(duì)應(yīng)姓的第一擴(kuò)展信息和對(duì)應(yīng)名的第二擴(kuò)展信息。
[0026] 預(yù)定規(guī)則包括根據(jù)注冊(cè)用戶的姓與名獲取中文漢字對(duì)應(yīng)的拼音全拼,以及拼音首 字母。當(dāng)姓或名字段包括不止一個(gè)漢字時(shí),預(yù)定規(guī)則包括順序排列的每個(gè)中文漢字的拼音 全拼,以及順序排列的每個(gè)中文漢字拼音首字母。
[0027] 預(yù)定規(guī)則包括根據(jù)注冊(cè)用戶的姓與名英文單詞對(duì)應(yīng)的全拼,以及首字母。當(dāng)姓或 名字段包括不止一個(gè)英文單詞時(shí),預(yù)定規(guī)則包括順序排列的每個(gè)英文單詞的全拼,以及順 序排列的每個(gè)英文單詞首字母。
[0028] 也即,第一擴(kuò)展信息包括姓的全拼和姓的首字母,第二擴(kuò)展信息包括名的全拼和 名的首字母。
[0029] 比如姓為:歐陽(yáng),姓的全拼為ouyang,姓的首字母為oy。第二擴(kuò)展信息是指名的全 拼和名的首字母,當(dāng)名由兩個(gè)及兩個(gè)以上的漢字或英文組成時(shí),為全部名的全拼或全部名 的首字母,比如名為:向陽(yáng),名的全拼為xiangyang,名的首字母為xy。
[0030] 步驟S103 :查找注冊(cè)用戶的第一擴(kuò)展信息和第二擴(kuò)展信息在上述電子郵箱地址 的用戶名字符串中第一次出現(xiàn)的位置,得到第一擴(kuò)展信息位置和第二擴(kuò)展信息位置。
[0031] 在實(shí)際中,查找第一擴(kuò)展信息時(shí),先查找姓的全拼,當(dāng)無(wú)法查找到姓的全拼時(shí),再 查找姓的首字母;查找第二擴(kuò)展信息時(shí),先查找名的全拼,當(dāng)無(wú)法查找到名的全拼時(shí),再查 找名的首字母。
[0032] 在實(shí)際中,查找注冊(cè)用戶第一擴(kuò)展信息和第二擴(kuò)展信息在所述電子郵箱地址的用 戶名字符串中第一次出現(xiàn)的位置包括:判斷所述注冊(cè)信息的注冊(cè)用戶第一擴(kuò)展信息和第二 擴(kuò)展信息是否存在包含關(guān)系,具體是判斷姓的全拼和名的全拼是否存在包含關(guān)系。
[0033] 當(dāng)姓的全拼和名的全拼不存在包含關(guān)系時(shí),第一擴(kuò)展信息在所述電子郵箱地址的 用戶名字符串中的位置是電子郵箱地址的用戶名字符串從左往右第一次查找到第一擴(kuò)展 信息的位置;第二擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置是電子郵箱地址的用 戶名字符串從左往右第一次查找到第二擴(kuò)展信息的位置。
[0034] 例如:電子郵箱地址的用戶名字符串為"231 ikimsi#p",用戶的姓為李,名為 四,此時(shí)第一擴(kuò)展信息包括"li"或"1",第二擴(kuò)展信息包括"si"或"s"。則字符串 "231ikimsip#"中從左往右依次查找時(shí),第一次查找到的字符串"li"認(rèn)定為第一擴(kuò)展信息, 也即字符"3"和字符"k"之間的字符串"li"為第一擴(kuò)展信息,該字符串"li"所在位置為 第一擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置;字符串"231ikimsi#p"中從左往 右依次查找時(shí),第一次查找到的字符串"si"為第二擴(kuò)展信息,也即字符"m"和字符"#"之 間的字符串"si"為第二擴(kuò)展信息,該字符串"si"所在位置為第二擴(kuò)展信息在電子郵箱地 址的用戶名字符串中的位置。
[0035] 當(dāng)姓的全拼和名的全拼存在包含關(guān)系,且姓的全拼與名的全拼一致時(shí),確定優(yōu)先 查找信息,優(yōu)先查找信息為第一擴(kuò)展信息或第二擴(kuò)展信息,當(dāng)?shù)谝粩U(kuò)展信息為優(yōu)先查找信 息時(shí),第二擴(kuò)展信息為第二查找信息;當(dāng)?shù)诙U(kuò)展信息為優(yōu)先查找信息時(shí),第一擴(kuò)展信息為 第二查找信息;電子郵箱地址的用戶名字符串從左往右第一次查找優(yōu)先查找信息的位置; 從第一次查找到優(yōu)先查找信息的位置往后第一次查找到第二查找信息的位置。
[0036] 例如:電子郵箱地址的用戶名字符串為"231ikimli#p",用戶的姓為李,名為力, 此時(shí)姓和第二擴(kuò)展信息一致,均包括" 1 i "或" 1 "。
[0037] 如果第一擴(kuò)展信息為優(yōu)先查找信息,第二擴(kuò)展信息為第二查找信息,則字符串 " 231 ikiml i#p "中從左往右依次查找時(shí),第一次查找到的字符串" 1 i "認(rèn)定為第一擴(kuò)展信息, 也即字符"3"和字符"k"之間的字符串"li"為第一擴(kuò)展信息,該字符"3"和字符"k"之間 的字符串"li"所在位置為第一擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置,從第一 擴(kuò)展信息字符串"li"開始往后依次查找,第一次查找到的字符串"li"認(rèn)定為第二擴(kuò)展信 息,也即字符"m"和字符之間的字符串"li"為第二擴(kuò)展信息,該字符"m"和字符 之間的字符串"li"所在位置為第二擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置。
[0038] 如果名為優(yōu)先查找信息,字符串" 231 ikiml i#p "中從左往右依次查找時(shí),第一次查 找到的字符串"li"認(rèn)定為第二擴(kuò)展信息,也即字符"3"和字符"k"之間的字符串"li"為 第二擴(kuò)展信息,該字符"3"和字符"k"之間的字符串"li"所在位置為第二擴(kuò)展信息在電子 郵箱地址的用戶名字符串中的位置,從第二擴(kuò)展信息字符串"li"開始往后依次查找第一次 查找到的字符串"li"認(rèn)定為第一擴(kuò)展信息,也即字符"m"和字符之間的字符串"li" 為第一擴(kuò)展信息,該字符"m"和字符之間的字符串"li"所在位置為第一擴(kuò)展信息在電 子郵箱地址的用戶名字符串中的位置。
[0039] 當(dāng)姓的全拼和名的全拼存在包含關(guān)系,且姓的全拼的字符串長(zhǎng)度大于名的全拼的 字符串長(zhǎng)度;第一擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置是電子郵箱地址的用 戶名字符串從左往右第一次查找到第一擴(kuò)展信息的位置;第二擴(kuò)展信息在電子郵箱地址的 用戶名字符串中的位置是去除第一擴(kuò)展信息后,電子郵箱地址的用戶名字符串從左往右第 一次查找到第二擴(kuò)展信息的位置。
[0040] 例如:電子郵箱地址的用戶名字符串為"231 ikimlin#p",用戶的姓為林,名為麗, 此時(shí)第一擴(kuò)展信息包括" lin"或" 1 ",第二擴(kuò)展信息包括" li "或" 1 ",也即姓的全拼和名的 全拼之間存在包含關(guān)系,且姓的全拼的字符串長(zhǎng)度大于名的全拼的字符串長(zhǎng)度。則先查找 第一擴(kuò)展信息所在位置,再查找第二擴(kuò)展信息所在位置,字符串"231ikimlin#p"中從左往 右依次查找時(shí)第一次查找到字符串"lin"認(rèn)定為第一擴(kuò)展信息,也即字符"m"和字符 之間的字符串"lin"為第一擴(kuò)展信息,該字符"m"和字符之間的字符串"lin"所在位 置為第一擴(kuò)展信息在電子郵箱地址的用戶名字符串中的位置,再?gòu)淖址?2