基于sns環(huán)境的非正常行為過濾方法及裝置制造方法
【專利摘要】本申請(qǐng)公開了一種基于SNS環(huán)境中的非正常行為過濾方法及裝置。在SNS環(huán)境中,服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體接收對(duì)象的信息數(shù)據(jù),分別確定用于表征行為特征的行為參數(shù)值,行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值,以及用于表征信息本體的接收對(duì)象分布的發(fā)散度,并根據(jù)上述行為參數(shù)值、關(guān)系占比值、以及發(fā)散度確定行為主體是否執(zhí)行了非正常行為,從而徹底地甄別SNS環(huán)境系統(tǒng)中執(zhí)行非正常行為的行為主體,并對(duì)非正常行為進(jìn)行過濾。
【專利說明】基于SNS環(huán)境的非正常行為過濾方法及裝置
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及一種基于SNS環(huán)境系統(tǒng)的非正常行為過濾方法及裝置。
【背景技術(shù)】
[0002]SNS (Social Networking Services),即社會(huì)性網(wǎng)絡(luò)服務(wù),用戶終端可以利用該服務(wù)建立一個(gè)關(guān)系網(wǎng)。以微博這個(gè)弱SNS關(guān)系環(huán)境為例,用戶終端利用SNS建立關(guān)系網(wǎng)的方式簡單來說就是,用戶終端A作為一個(gè)行為主體可以通過加關(guān)注,加粉絲,發(fā)私信或發(fā)評(píng)論與其他用戶終端產(chǎn)生關(guān)系,關(guān)系類型可以包括單向關(guān)注、雙向關(guān)注、單向粉絲和無任何關(guān)系等。其中,與用戶終端A的關(guān)系類型為單向關(guān)注、雙向關(guān)注和單向粉絲的其他用戶終端構(gòu)成了用戶終端A的關(guān)系網(wǎng),而與用戶終端A為無任何關(guān)系的用戶終端不在用戶終端A的關(guān)系網(wǎng)內(nèi)。
[0003]在SNS環(huán)境(即可以為用戶提供SNS的環(huán)境,一般是指基于SNS服務(wù)器所構(gòu)建的一個(gè)可以允許用戶享受SNS的環(huán)境,比如基于微博服務(wù)器所構(gòu)建的允許用戶發(fā)微博的SNS環(huán)境等)中,用戶終端除了可以實(shí)現(xiàn)通過執(zhí)行一系列的行為,例如加關(guān)注,加粉絲,建立自己的關(guān)系網(wǎng)外,還可以實(shí)現(xiàn)通過發(fā)私信、發(fā)評(píng)論與關(guān)系網(wǎng)內(nèi)和關(guān)系網(wǎng)外的用戶終端進(jìn)行信息互動(dòng)。通常情況下,SNS服務(wù)器可以記錄每個(gè)用戶終端,即每個(gè)行為主體產(chǎn)生的信息數(shù)據(jù),行為數(shù)據(jù)和關(guān)系類型數(shù)據(jù)。其中,信息數(shù)據(jù)包括行為主體發(fā)出的信息主體以及各信息主體對(duì)應(yīng)的接收對(duì)象的信息;行為數(shù)據(jù)包括SNS環(huán)境中的行為主體所執(zhí)行的無信息主體的行為的信息(例如加關(guān)注,加好友)和行為作用對(duì)象的信息;關(guān)系類型數(shù)據(jù)包括行為主體與信息主體接收對(duì)象的關(guān)系類型,以及行為主體與行為作用對(duì)象的關(guān)系類型。
[0004]在SNS盛起的同時(shí),也產(chǎn)生了一些用戶通過SNS進(jìn)行非正常行為信息傳播,或執(zhí)行非正常行為的情況,例如垃圾郵件、垃圾短信、垃圾消息等。由于基于SNS所建立的關(guān)系網(wǎng)的網(wǎng)狀結(jié)構(gòu)特點(diǎn),在加快用戶信息流動(dòng)的同時(shí),也使非正常行為信息傳播更快速,非正常行為影響更廣泛。
[0005]一般來講,非正常行為信息可以包括:(I)、未經(jīng)用戶同意,任何以推銷產(chǎn)品、月艮務(wù)、地產(chǎn)等為目的的廣告,或者以提供投資機(jī)會(huì)或者交易機(jī)會(huì)為目的的商業(yè)信息;(2)、各種虛假、不實(shí)的信息;(3)頻繁的未經(jīng)請(qǐng)求的單方面信息,例如頻繁發(fā)送的微博私信。而非正常行為則是指SNS環(huán)境系統(tǒng)中非正常的用戶交互行為,比如頻繁的加關(guān)注,加好友等。
[0006]傳統(tǒng)的非正常行為鑒別技術(shù)一般都是通過對(duì)信息數(shù)據(jù)的信息本體進(jìn)行分析,從而確定該信息數(shù)據(jù)是否為非正常行為信息,進(jìn)一步確定該信息數(shù)據(jù)對(duì)應(yīng)的行為主體是否為非正常行為用戶。但發(fā)送非正常行為信息的行為主體可以通過不斷地修改信息的文本內(nèi)容來實(shí)現(xiàn)逃避信息被識(shí)別為非正常行為信息,從而逃脫自身被識(shí)別為非正常行為用戶??梢?,傳統(tǒng)的非正常行為鑒別技術(shù)存在較大漏洞,使得傳統(tǒng)的非正常行為鑒別技術(shù)不能徹底甄別SNS環(huán)境系統(tǒng)中的非正常行為,從而不能徹底實(shí)現(xiàn)對(duì)該些非正常行為的過濾處理。
【發(fā)明內(nèi)容】
[0007]本申請(qǐng)實(shí)施例提供一種基于SNS環(huán)境的非正常行為過濾方法及裝置,用以過濾SNS環(huán)境中的非正常行為。
[0008]本申請(qǐng)實(shí)施例采用以下技術(shù)方案:
[0009]一種基于SNS環(huán)境的非正常行為過濾方法,包括以下步驟:
[0010]服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體的接收對(duì)象的信息;
[0011]根據(jù)所述信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度;
[0012]根據(jù)所述信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值;
[0013]根據(jù)所述行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值;
[0014]根據(jù)所述關(guān)系占比值、所述發(fā)散度以及所述行為參數(shù)值,確定所述行為主體是否執(zhí)行了非正常行為;
[0015]在確定所述行為主體執(zhí)行了非正常行為時(shí),對(duì)與所述行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
[0016]本申請(qǐng)實(shí)施例還提供一種基于SNS環(huán)境的非正常行為過濾裝置,包括:
[0017]數(shù)據(jù)獲得單元,用于獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體的接收對(duì)象的信息;
[0018]發(fā)散度確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度;
[0019]關(guān)系占比確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值;
[0020]行為參數(shù)確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值;
[0021]非正常行為確定單元,用于根據(jù)所述關(guān)系占比確定單元確定的關(guān)系占比值、所述發(fā)散度確定單元確定的發(fā)散度以及所述行為參數(shù)確定單元確定的行為參數(shù)值,確定所述行為主體是否執(zhí)行了非正常行為;
[0022]非正常行為過濾單元,用于在所述非正常行為過濾單元確定行為主體執(zhí)行了非正常行為時(shí),對(duì)與所述行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
[0023]本申請(qǐng)實(shí)施例的有益效果如下:
[0024]本申請(qǐng)實(shí)施例提供了一種基于SNS環(huán)境的非正常行為過濾方法,在SNS環(huán)境中通過獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體接收對(duì)象的信息數(shù)據(jù),分別確定用于表征行為特征的行為參數(shù)值,行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值以及用于表征信息本體的接收對(duì)象分布的發(fā)散度,并根據(jù)上述行為參數(shù)值、關(guān)系占比值以及發(fā)散度確定行為主體是否執(zhí)行了非正常行為,從而比較徹底地甄別SNS環(huán)境系統(tǒng)中執(zhí)行非正常行為的非正常行為用戶,并實(shí)現(xiàn)對(duì)該些非正常行為用戶執(zhí)行的非正常行為的過濾處理。【專利附圖】
【附圖說明】
[0025]圖1為本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾方法流程圖;
[0026]圖2為本申請(qǐng)實(shí)施例提供的一種確定接收對(duì)象分布發(fā)散度的方法流程圖;
[0027]圖3為本申請(qǐng)實(shí)施例提供的依據(jù)接收對(duì)象分布發(fā)散度判斷非正常行為用戶的事例示意圖;
[0028]圖4為本申請(qǐng)實(shí)施例提供的一種確定關(guān)系占比值的方法流程圖;
[0029]圖5為本申請(qǐng)實(shí)施例提供的依據(jù)關(guān)系占比值判斷非正常行為用戶的事例示意圖;
[0030]圖6為本申請(qǐng)實(shí)施例提供的又一種基于SNS環(huán)境的非正常行為過濾方法流程圖。
【具體實(shí)施方式】
[0031]為甄別SNS環(huán)境系統(tǒng)中的非正常行為,本申請(qǐng)實(shí)施例提供了一種基于SNS環(huán)境的非正常行為過濾方法。在SNS環(huán)境中,服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體接收對(duì)象的信息數(shù)據(jù),通過行為數(shù)據(jù)確定用于表征行為特征的行為參數(shù)值,根據(jù)信息本體的接收對(duì)象的信息和關(guān)系類型數(shù)據(jù)確定行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值,以及根據(jù)信息本體的接收對(duì)象的信息確定用于表征信息本體的接收對(duì)象分布的發(fā)散度,并根據(jù)上述行為參數(shù)值、關(guān)系占比值、以及發(fā)散度確定行為主體是否執(zhí)行了非正常行為,從而達(dá)到對(duì)非正常行為進(jìn)行過濾的目的。
[0032]以下結(jié)合說明書附圖對(duì)本申請(qǐng)的實(shí)施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的實(shí)施例僅用于說明和解釋本申請(qǐng),并不用于限制本申請(qǐng)。并且在不沖突的情況下,本說明中的實(shí)施例及實(shí)施列中的特征可以互相結(jié)合。
[0033]實(shí)施例1
[0034]基于上述基本思想,本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾方法流程圖如圖1所示,具體包括以下步驟:
[0035]步驟11、服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù),其中,信息數(shù)據(jù)至少包含信息本體的接收對(duì)象信息。
[0036]具體地,可根據(jù)數(shù)據(jù)量的大小,確定服務(wù)器配置,對(duì)于海量的數(shù)據(jù),可采用分布式處理平臺(tái)的服務(wù)器進(jìn)行數(shù)據(jù)處理。
[0037]步驟12、根據(jù)行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值。
[0038]該行為參數(shù)值具體可包括以下行參數(shù)中的至少一種:行為在指定時(shí)間單位內(nèi)發(fā)生的頻率;以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值;以及行為發(fā)生的總次數(shù)。
[0039]上述指定時(shí)間單位可以視實(shí)際情況而得,通常將指定時(shí)間單位確定為天,下面以微博中的“加關(guān)注”的行為具體說明各個(gè)行為參數(shù)值的意義。
[0040]假設(shè)行為主體X第一天加了 5個(gè)關(guān)注,第二天加了 10個(gè)關(guān)注,第三天加了 2個(gè)關(guān)注,第四天沒有加關(guān)注,第五天加了 I個(gè)關(guān)注。則行為在指定時(shí)間單位內(nèi)發(fā)生的頻率,即行為主體加關(guān)注這個(gè)行為每天發(fā)生的頻率分別為5,10,2,0,I ;這里獲得的行為每天發(fā)生的頻率不是在這5天內(nèi)行為發(fā)生的平均值,而是指準(zhǔn)確對(duì)應(yīng)于每個(gè)指定時(shí)間單位,行為主體所執(zhí)行的行為頻率。[0041]以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值為3,因?yàn)樵撔袨橹黧w連續(xù)三天執(zhí)行了 “加關(guān)注”的行為。行為發(fā)生的總次數(shù)為18次,即5+10+2+1=18。
[0042]步驟13、根據(jù)信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度。其中,所述“發(fā)散度”可以理解為表示行為主體所發(fā)送的信息本體的接收對(duì)象的分布狀況的參數(shù)。正常情況下,行為主體所發(fā)送的信息本體的接收對(duì)象一般為分布在該行為主體的關(guān)系網(wǎng)內(nèi)的部分用戶終端。該些用戶終端在該關(guān)系網(wǎng)內(nèi)的分布可能不會(huì)非常均勻,這種分布的不均勻性就可以體現(xiàn)信息本體的接收對(duì)象的分布狀況,即體現(xiàn)了上述“發(fā)散度”,“發(fā)散度”可以采用多種方式計(jì)算,只要能體現(xiàn)出所發(fā)送的信息本體的接收對(duì)象的分布狀況即可。
[0043]本申請(qǐng)實(shí)施例中,優(yōu)選地,可以采用圖2所示的方法確定該發(fā)散度:
[0044]步驟131、根據(jù)信息本體的接收對(duì)象的信息確定所述行為主體所發(fā)送的所有信息本體的個(gè)數(shù);
[0045]比如,通常信息本體的接收對(duì)象信息可以被記錄為:A接收X發(fā)出的評(píng)論2條,B接收X發(fā)出的評(píng)論3條,C接收X發(fā)出的評(píng)論I條,D接收X發(fā)出的評(píng)論5條。此場景下,X為行為主體,A、B、C、D為信息本體的接收對(duì)象。這樣根據(jù)信息本體的接收對(duì)象信息可以確定出行為主體所發(fā)送的信息本體的個(gè)數(shù)。假設(shè)X在一段時(shí)間內(nèi)只對(duì)A、B、C、D發(fā)表了評(píng)論,則行為主體M在這段時(shí)間內(nèi)所發(fā)送的信息本體的個(gè)數(shù)為11條。另外,在服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄信息數(shù)據(jù)的前提下,也可以根據(jù)信息數(shù)據(jù)直接確定信息本體的個(gè)數(shù)。
[0046]假設(shè)根據(jù)信息本體 確定該行為主體發(fā)送的所有信息組成集合為:
[0047]C={C1, C2, C3 …Cn}
[0048]若該信息主體集合中信息主體的個(gè)數(shù)由card(C)表示,則有card(C) =n。
[0049]步驟132、根據(jù)獲得的所述信息本體的接收對(duì)象的信息,確定所述所有信息本體所對(duì)應(yīng)的互不相同的接收對(duì)象的個(gè)數(shù);
[0050]對(duì)應(yīng)于上述信息本體集合,由信息本體的接收對(duì)象形成的信息本體接收對(duì)象的集合為:
[0051]M= {Ml, M2, M3…Mn}
[0052]其中,Ml, M2, M3…Mn中可能存在重復(fù)的情況,即對(duì)應(yīng)于不同的信息本體可能有相同的信息本體接收對(duì)象,例如行為主體X給信息本體接收對(duì)象A發(fā)過Cl, C2, C3信息,則Ml, M2, M3應(yīng)該是相同的。
[0053]將信息本體接收對(duì)象組成的集合M中重復(fù)的元素去掉,形成了去重后的信息本體接收對(duì)象做成的集合DM:
[0054]DM= {DM1, DM2, DM3—DMij
[0055]其中DM集合中的各個(gè)元素各不相同,且DM集合中的互不相同的接收對(duì)象的個(gè)數(shù)用 card(DM)表不,即 card (DM) =i。
[0056]同樣針對(duì)上述例子,可以確定信息本體對(duì)應(yīng)的接受對(duì)象的個(gè)數(shù)為4個(gè)。
[0057]步驟133、基于確定的信息本體的個(gè)數(shù)和接收對(duì)象的個(gè)數(shù),按照下述公式確定信息本體的接收對(duì)象分布的發(fā)散度:
[0058]接收對(duì)象分布的發(fā)散度=(接收對(duì)象的個(gè)數(shù)*信息本體的個(gè)數(shù)-1)/信息本體的個(gè)數(shù)*信息本體的個(gè)數(shù)。
[0059]即根據(jù)信息主體集合中信息主體的個(gè)數(shù)card (C)以及card (DM),確定信息本體的接收對(duì)象分布的發(fā)散度Kl可由公式[I]可得。
[0060]Kl= (card (DM) *card (C) -1) / (card (C) *card (C))[I]
[0061]Kl的值越高,即信息本體的接收對(duì)象分布越發(fā)散,行為主體發(fā)送非正常行為信息的可能性就越高。例如如圖3所示,現(xiàn)有一個(gè)行為主體X經(jīng)常給不同的用戶終端發(fā)送評(píng)論,并且其每次評(píng)論都分別針對(duì)不同的用戶終端,假設(shè)該行為主體X—共發(fā)布了 200條評(píng)論,這200條評(píng)論分別針對(duì)不用的用戶終端,則該行為主體X的接收對(duì)象分布的發(fā)散度Kl接近于1,則依據(jù)接收對(duì)象分布的發(fā)散度分析該行為主體是有問題的,極有可能為非正常行為用戶。
[0062]對(duì)應(yīng)于上述例子,接收對(duì)象分布的發(fā)散度為(4*11-1)/11*11=0.355。
[0063]可選的,還可以采用下述方式確定信息本體的接收對(duì)象分布的該發(fā)散度:
[0064]接收對(duì)象分布的發(fā)散度=接收對(duì)象的個(gè)數(shù)/信息本體的個(gè)數(shù)
[0065]對(duì)應(yīng)于上述例子,接收對(duì)象分布的發(fā)散度為4/11=0.37。
[0066]步驟14、根據(jù)信息本體的接收對(duì)象的信息和關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值。
[0067]優(yōu)選地,可以采用圖4所示的方法確定該關(guān)系占比值:
[0068]步驟141、根據(jù)信息本體的接收對(duì)象的信息和關(guān)系類型數(shù)據(jù),確定每個(gè)信息本體對(duì)應(yīng)的關(guān)系類型;
[0069]以微博為例,關(guān)系類型可以包括行為主體的單向粉絲、與行為主體雙向關(guān)注、與行為主體單向關(guān)注和與行為主體毫無關(guān)系。其中,“與行為主體毫無關(guān)系”屬于關(guān)系網(wǎng)外關(guān)系類型,“行為主體的單向粉絲”、“與行為主體雙向關(guān)注、”“與行為主體單向關(guān)注”屬于與行為主體有一定關(guān)系的關(guān)系網(wǎng)內(nèi)的關(guān)系類型。上述關(guān)系類型都屬于關(guān)系類型數(shù)據(jù)。
[0070]步驟142、根據(jù)所述行為主體所發(fā)送的信息本體的總個(gè)數(shù),分別確定每個(gè)關(guān)系類型所對(duì)應(yīng)的信息本體的個(gè)數(shù)在所述總個(gè)數(shù)中的個(gè)數(shù)占比;
[0071]信息息本體的總個(gè)數(shù)可以根據(jù)信息本體的接收對(duì)象的信息來確定,也可以根據(jù)信息本體直接確定。根據(jù)信息本體的接收對(duì)象的信息來確定信息本體的個(gè)數(shù)已在步驟13中舉例說明,這里不再贅述。假設(shè)根據(jù)信息本體確定該行為主體發(fā)送的所有信息本體組成集合為:
[0072]C={C1, C2, C3 …Cn}
[0073]若該信息主體集合中信息主體的個(gè)數(shù)由card(C)表示,則有card(C) =n。
[0074]對(duì)應(yīng)于上述信息本體集合,由信息本體的接收對(duì)象形成的信息本體接收對(duì)象的集合為:
[0075]M= {Ml, M2, M3…Mn}
[0076]根據(jù)確定 的關(guān)系類型將M劃分為P個(gè)子集,RMl,RM2-RMp,每個(gè)子集代表一個(gè)關(guān)系類型,并且每個(gè)子集中包含的接收對(duì)象可以是重復(fù)的。仍然以微博為例,假設(shè)RMl為與行為主體的關(guān)系類型為單向關(guān)注的接收對(duì)象組成的集合,card(RMl)表示該子集中包含的接收對(duì)象的個(gè)數(shù),假設(shè)存在:
[0077]RMl= {Ml, Ml, Ml, M2, M2, M3, M5}[0078]則card (RMl) =7。
[0079]那么,各關(guān)系類型所對(duì)應(yīng)的信息本體的個(gè)數(shù)在所述總個(gè)數(shù)中的個(gè)數(shù)占比由公式
[2]可得:
[0080]K2p=card (RMp) / card (C)[2]
[0081]步驟143、將確定的個(gè)數(shù)占比分別確定為相應(yīng)的關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比。
[0082]利用關(guān)系占比確定行為主體是否為非正常行為用戶時(shí),通常需要將“與行為主體毫無關(guān)系”這個(gè)關(guān)系網(wǎng)外關(guān)系類型的關(guān)系占比與“與行為主體有一定關(guān)系”(例如單向關(guān)注、雙向關(guān)注、單向粉絲等)的關(guān)系網(wǎng)內(nèi)的關(guān)系類型的關(guān)系占比進(jìn)行比較。例如圖5所示,該行為主體雙向關(guān)注這個(gè)關(guān)系類型對(duì)應(yīng)的關(guān)系占比為1/8,單向關(guān)注這個(gè)關(guān)系類型對(duì)應(yīng)的關(guān)系占比為1/16,單向粉絲這個(gè)關(guān)系類型對(duì)應(yīng)的關(guān)系占比為1/16,而與行為主體毫無關(guān)系這個(gè)關(guān)系類型對(duì)應(yīng)的關(guān)系占比為5/8,可見,該行為主體在關(guān)系網(wǎng)外關(guān)系類型對(duì)應(yīng)的關(guān)系占比大于各關(guān)系網(wǎng)內(nèi)的關(guān)系類型對(duì)應(yīng)的關(guān)系占比。而預(yù)期正常情況下行為主體在關(guān)系網(wǎng)外關(guān)系類型對(duì)應(yīng)的關(guān)系占比應(yīng)該會(huì)小于各關(guān)系網(wǎng)內(nèi)的關(guān)系類型對(duì)應(yīng)的關(guān)系占比,因此上述例子中的行為主體有可能是非正常行為用戶。并且關(guān)系網(wǎng)外的關(guān)系類型對(duì)應(yīng)的關(guān)系占比越大,說明該行為主體在其關(guān)系網(wǎng)外的互動(dòng)行為越活躍,該行為主體越有可能為非正常行為用戶。
[0083]步驟15、根據(jù)關(guān)系占比、發(fā)散度以及行為參數(shù)值,判斷所述行為主體是否執(zhí)行了非正常行為。
[0084]針對(duì)關(guān)系占比、發(fā)散度以及行為參數(shù)值,可分別為其設(shè)置一個(gè)比較閾值和判斷標(biāo)準(zhǔn),例如,可以依據(jù)歷史數(shù)據(jù)訓(xùn)練而獲得該些比較閾值和判斷標(biāo)準(zhǔn)。通過分別對(duì)應(yīng)比較確定出的上述三個(gè)參數(shù)與相應(yīng)的比較閾值,就可以確定行為主體是否執(zhí)行了非正常行為。
[0085]舉例而言,假設(shè)對(duì)與行為主體毫無關(guān)系這個(gè)關(guān)系類型的關(guān)系占比設(shè)定一個(gè)關(guān)系占比比較閾值kl,對(duì)發(fā)散度設(shè)定發(fā)散度比較閾值為k2,對(duì)行為參數(shù)值中的行為在指定時(shí)間單位內(nèi)發(fā)生的頻率值設(shè)定一個(gè)頻率比較閾值為k3,如果通過上述步驟14確定的與行為主體毫無關(guān)系的這個(gè)關(guān)系類型的關(guān)系占比大于kl,同時(shí)通過上述步驟13確定的發(fā)散度大于k2,步驟12確定的行為參數(shù)值中的行為在指定時(shí)間單位內(nèi)發(fā)生的頻率值大于k3,則可以判斷該行為主體執(zhí)行了非正常行為??蛇x的,如果通過上述步驟14確定的與行為主體毫無關(guān)系的這個(gè)關(guān)系類型的關(guān)系占比大于kl,步驟12確定的行為參數(shù)值中的行為在指定時(shí)間單位內(nèi)發(fā)生的頻率值大于k3,但是步驟13確定的發(fā)散度小于k2,也可以判斷該行為主體執(zhí)行了非正常行為。
[0086]步驟16、在確定該行為主體執(zhí)行了非正常行為時(shí),對(duì)與該行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
[0087]舉例而言,服務(wù)器可以拒絕接收該行為主體執(zhí)行非正常行為而產(chǎn)生的相關(guān)指令,也可以接收該行為主體執(zhí)行的非正常行為相關(guān)的指令,但不對(duì)該些指令做響應(yīng)處理,并向該行為主體發(fā)送警告回復(fù)等。
[0088]綜上所述,本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾方法,服務(wù)器通過獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體接收對(duì)象的信息數(shù)據(jù),分別確定用于表征行為特征的行為參數(shù)值,行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值以及用于表征信息本體的接收對(duì)象分布的發(fā)散度,并根據(jù)上述行為參數(shù)值、關(guān)系占比值以及發(fā)散度確定行為主體是否執(zhí)行了非正常行為,從而達(dá)到對(duì)非正常行為進(jìn)行過濾的目的。
[0089]實(shí)施例2
[0090]下面結(jié)合分布式處理平臺(tái),具體介紹本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾方法。該方法的方法流程圖如圖6所示。
[0091]步驟61、分布式處理平臺(tái)的服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息本體以及包含信息本體的接收對(duì)象的消息。
[0092]具體地,分布式處理平臺(tái)通常會(huì)讀取SNS服務(wù)器一段時(shí)間記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù),例如最近30天或者180天,以確保每個(gè)行為主體不會(huì)因?yàn)橐粋€(gè)歷史行為導(dǎo)致其始終被確認(rèn)為非正常行為用戶,尤其針對(duì)其之后沒有執(zhí)行非正常行為或發(fā)送非正常行為信息的用戶。例如,一個(gè)用戶在一個(gè)月前進(jìn)行了大量的廣告信息的傳播,則該用戶會(huì)被定位為非正常行為用戶,但之后其一直保持正常的用戶行為,那么分布式處理平臺(tái)通過讀取其之后I個(gè)月的行為數(shù)據(jù),關(guān)系類型數(shù)據(jù)以及信息數(shù)據(jù)并進(jìn)行相關(guān)分析計(jì)算,就不會(huì)一直認(rèn)定為該用戶非正常行為用戶。但是一旦該用戶再次執(zhí)行非正常行為或者發(fā)送非正常行為信息,就會(huì)再次被定位為非正常行為用戶。
[0093]分布式處理平臺(tái)的服務(wù)器可以以行為主體為單位依次讀取SNS服務(wù)器一段時(shí)間記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù),也可以同時(shí)讀取所有行為主體混合的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù)。若為后者,在進(jìn)行以下步驟之前,分布式處理平臺(tái)還要將獲得的混合的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù)按行為主體進(jìn)行數(shù)據(jù)合并分類,從而獲得SNS服務(wù)器記錄的針對(duì)每個(gè)行為主體的在一段時(shí)間內(nèi)的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和信息數(shù)據(jù)。
[0094]步驟62、根據(jù)信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度。
[0095]該步驟的實(shí)現(xiàn)方式可以類似于實(shí)施I中的步驟13的實(shí)現(xiàn)方式,這里不再贅述。
[0096]步驟63、根據(jù)信息本體的接收對(duì)象的信息和關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值。
[0097]該步驟的實(shí)現(xiàn)方式可以類似于實(shí)施I中的步驟14的實(shí)現(xiàn)方式,這里不再贅述。
[0098]步驟64、根據(jù)行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值。
[0099]該步驟的實(shí)現(xiàn)方式可以類似于實(shí)施I中的步驟12的實(shí)現(xiàn)方式,這里不再贅述。
[0100]步驟65、將獲得的信息本體進(jìn)行文本過濾,具體包括刪除信息本體中的指定信息內(nèi)容,生成不包括指定信息內(nèi)容的過濾后的信息本體。
[0101]舉例而言,指定信息內(nèi)容可以為:行為主體名稱、時(shí)間和標(biāo)點(diǎn)符號(hào)等。由于該些指定信息內(nèi)容為后續(xù)確定信息內(nèi)容的重復(fù)率的幫助不大,并且像標(biāo)點(diǎn)符號(hào)這種信息內(nèi)容會(huì)在信息本體中頻繁出現(xiàn),為后續(xù)重復(fù)率的計(jì)算帶來干擾,因此,在計(jì)算信息內(nèi)容的重復(fù)率前將信息本體中包含的指定信息內(nèi)容刪除,以便后續(xù)進(jìn)行信息內(nèi)容重復(fù)率的計(jì)算。
[0102]步驟66、將過濾后的信息本體中相同的信息內(nèi)容對(duì)應(yīng)的信息本體進(jìn)行合并,分別確定生成的所有過濾后的信息本體所包含的每種信息內(nèi)容在所有過濾后的信息本體所包含的所有信息內(nèi)容中的重復(fù)率。
[0103]舉例而言,行為主體X發(fā)送了 100條評(píng)論,經(jīng)過濾處理后這100條評(píng)論中有95條為:
[0104]“某某商品效果真好,快登錄某某網(wǎng)址搶購吧”;
[0105]其他五條分別為“加油”;“真逗”;“您好”;“您好”;“您好”。
[0106]則信息本體“某某商品效果真好,快登錄某某網(wǎng)址搶購吧”在所有過濾后的信息本體所包含的所有信息內(nèi)容中的重復(fù)率為95%,信息本體“真逗”的重復(fù)率為1%,信息本體“加油”的重復(fù)率為1%,信息本體“您好”的重復(fù)率為3%。
[0107]步驟67、根據(jù)接收對(duì)象的發(fā)散度、關(guān)系占比、各行為參數(shù)值以及信息內(nèi)容的重復(fù)率與各自對(duì)應(yīng)閾值的關(guān)系,判斷該行為主體是否執(zhí)行了非正常行為,發(fā)送了非正常行為信息從而確定該行為主體是否為非正常行為用戶。
[0108]在實(shí)際運(yùn)用中,針對(duì)接收對(duì)象分布的發(fā)散度,通常會(huì)設(shè)定有一個(gè)發(fā)散度比較閾值,當(dāng)接收對(duì)象分布的發(fā)散度大于該閾值時(shí),該行為主體就被列入非正常行為用戶的考察范圍內(nèi)。
[0109]針對(duì)關(guān)系占比,通常會(huì)為與行為主體毫無關(guān)系這個(gè)關(guān)系類型的關(guān)系占比設(shè)定一個(gè)關(guān)系占比比較閾值,當(dāng)與行為主體毫無關(guān)系這個(gè)關(guān)系類型的關(guān)系占比超過關(guān)系占比比較閾值時(shí),該行為主體就被列入非正常行為用戶的考察范圍內(nèi)。
[0110]針對(duì)信息內(nèi)容的重復(fù)率,通常會(huì)設(shè)定一個(gè)重復(fù)率比較閾值,當(dāng)某一信息內(nèi)容的重復(fù)率超過了該重復(fù)率比較閾值,則該行為主體有可能發(fā)送了非正常行為信息,則該行為主體就被列入非正常行為用戶的考察范圍內(nèi)。根據(jù)上述例子可見該行為主體發(fā)送的信息本體中,有95%信息本體是同一種內(nèi)容。正常情況下行為主體發(fā)送的信息本體的重復(fù)率不會(huì)這么高,一般只有廣告宣傳用戶才會(huì)將同一內(nèi)容的信息本體重復(fù)發(fā)送很多次,因此可以初步判斷該行為主體可能在傳播非正常行為信息。
[0111]可以根據(jù)上述三個(gè)條件中的一個(gè)或者兩個(gè)或者三個(gè)來進(jìn)一步確定行為主體是否為非正常行為用戶,該判斷標(biāo)準(zhǔn)可根據(jù)實(shí)際情況靈活確定。
[0112]針對(duì)各行為參數(shù),當(dāng)行為發(fā)生的總次數(shù)大于設(shè)定的第一閾值,或者行為在指定時(shí)間單位內(nèi)發(fā)生的頻率大于設(shè)定的第二閾值,或者行為在指定時(shí)間單位內(nèi)發(fā)生的頻率與以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值的組合超過了第三閾值,則可以確定該行為主體執(zhí)行了非正常行為,該行為主體被確定為非正常行為用戶。
[0113]上述發(fā)散度比較閾值、關(guān)系占比比較閾值、重復(fù)率比較閾值以及第一閾值、第二閾值、第三閾值,是各不相同的,它們都可以通過對(duì)歷史數(shù)據(jù)的處理獲得也可以人工確定。例如,對(duì)于可以接收廣告信息的SNS環(huán)境中,可以只將執(zhí)行了非正常行為的行為用戶確定為非正常行為用戶;再如對(duì)于對(duì)信息傳播質(zhì)量要求很高的SNS環(huán)境中,可以將執(zhí)行了非正常行為或發(fā)送了非正常行為信息的行為主體都確定為非正常行為用戶。
[0114]步驟68、對(duì)非正常行為用戶所發(fā)送的非正常行為信息和/或執(zhí)行的非正常行為進(jìn)行過濾處理。
[0115]舉例而言,可以只對(duì)非正常行為用戶發(fā)送的非正常行為信息和執(zhí)行的非正常信息進(jìn)行過濾,也可以禁止該用戶在一段時(shí)間內(nèi)發(fā)送的所有信息和執(zhí)行的所述行為。對(duì)只發(fā)送了非正常行為信息的非正常行為用戶,可以只過濾其發(fā)送的非常行為信息,例如可以攔截該行為主體在一段時(shí)間內(nèi)發(fā)送的任何信息,或者將該行為主體發(fā)送的此類非正常行為信息進(jìn)行刪除并對(duì)行為主體發(fā)出警告等;對(duì)于只執(zhí)行了非正常行為的非正常行為用戶,可以只過濾其執(zhí)行非正常行為所對(duì)應(yīng)的指令,而不處理該用戶發(fā)送的信息。
[0116]綜上所述,分布式處理平臺(tái)的服務(wù)器獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體和信息本體接收對(duì)象的信息數(shù)據(jù),分別確定用于表征行為特征的行為參數(shù)值,行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值、用于表征信息本體的接收對(duì)象分布的發(fā)散度以及信息內(nèi)容的重復(fù)率,并根據(jù)上述行為參數(shù)值、關(guān)系占比值、發(fā)散度以及重復(fù)率確定行為主體是否執(zhí)行了非正常行為,制造了非正常行為信息,徹底甄別SNS環(huán)境系統(tǒng)中制造非正常行為信息和執(zhí)行非正常行為的非正常行為用戶,從而實(shí)現(xiàn)對(duì)非正常行為用戶執(zhí)行的非正常行為和/或發(fā)送的非正常行為信息的過濾處理。
[0117]針對(duì)本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾方法,本申請(qǐng)實(shí)施例還提供了一種基于SNS環(huán)境的非正常行為過濾裝置。該裝置具體包括:
[0118]數(shù)據(jù)獲得單元,用于獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體的接收對(duì)象的信息。
[0119]發(fā)散度確定單元,用于根據(jù)數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度。
[0120]關(guān)系占比確定單元,用于根據(jù)數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值。
[0121]行為參數(shù)確定單元,用于根據(jù)數(shù)據(jù)獲得單元獲得的行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值。
[0122]非正常行為確定單元,用于根據(jù)所述關(guān)系占比確定單元確定的關(guān)系占比值、發(fā)散度確定單元確定的發(fā)散度以及所述行為參數(shù)確定單元確定的行為參數(shù)值,確定所述行為主體是否執(zhí)行了非正常行為。
[0123]非正常行為過濾單元,用于在所述非正常行為過濾單元確定行為主體執(zhí)行了非正常行為時(shí),對(duì)與所述行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
[0124]其中,發(fā)散度確定單元具體包括:
[0125]信息本體數(shù)量確定子單元,用于確定行為主體所發(fā)送的所有信息本體的個(gè)數(shù);
[0126]接收對(duì)象數(shù)量確定子單元,用根據(jù)數(shù)據(jù)獲得單元獲得的所述信息本體的接收對(duì)象的信息,確定所有信息本體所對(duì)應(yīng)的互不相同的接收對(duì)象的個(gè)數(shù);
[0127]發(fā)散度子單元,用于根據(jù)信息本體數(shù)量確定子單元確定的信息本體的個(gè)數(shù)和接收對(duì)象數(shù)量確定子單元確定的接收對(duì)象的個(gè)數(shù),確定信息本體的接收對(duì)象分布的發(fā)散度。
[0128]關(guān)系占比確定單元具體包括:
[0129]關(guān)系類型確定子單元,用于根據(jù)數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),確定每個(gè)信息本體對(duì)應(yīng)的關(guān)系類型;
[0130]個(gè)數(shù)占比確定子單元,用于根據(jù)行為主體所發(fā)送的信息本體的總個(gè)數(shù),分別確定每個(gè)關(guān)系類型確定子單元確定的關(guān)系類型所對(duì)應(yīng)的信息本體的個(gè)數(shù)在所述總個(gè)數(shù)中的個(gè)數(shù)占比;
[0131]關(guān)系占比確定子單元,用于將個(gè)數(shù)占比確定子單元確定的個(gè)數(shù)占比分別確定為相應(yīng)的關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比。[0132]所述行為參數(shù)確定單元確定的用于表征行為特征的行為參數(shù)值具體包括:
[0133]行為在指定時(shí)間單位內(nèi)發(fā)生的頻率;
[0134]以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值;
[0135]以及行為發(fā)生的總次數(shù)。
[0136]當(dāng)數(shù)據(jù)獲得單元還用于獲得SNS服務(wù)器針對(duì)所述行為主體所記錄的所述行為主體發(fā)送的信息本體時(shí),則一種基于SNS環(huán)境的非正常行為過濾裝置還包括:
[0137]信息過濾單元,用于刪除數(shù)據(jù)獲得單元獲得的信息本體中的指定信息內(nèi)容,生成不包括所述指定信息內(nèi)容的過濾后的信息本體;
[0138]重復(fù)率確定單元,用于分別確定信息過濾單元生成的所有過濾后的信息本體所包含的每種信息內(nèi)容在所有過濾后的信息本體所包含的所有信息內(nèi)容中的重復(fù)率;
[0139]非正常行為信息確定單元,用于根據(jù)重復(fù)率確定單元確定的重復(fù)率,判斷所述行為主體是否發(fā)送了非正常行為信息。
[0140]非正常行為信息過濾單元,用于在所述非正常行為信息確定單元確定所述行為主體發(fā)送了非正常行為信息時(shí),對(duì)所述行為主體發(fā)送的非正常行為信息進(jìn)行過濾。
[0141]綜上所述,本申請(qǐng)實(shí)施例提供的一種基于SNS環(huán)境的非正常行為過濾裝置通過獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體和信息本體接收對(duì)象的信息數(shù)據(jù),根據(jù)行為數(shù)據(jù)確定用于表征行為特征的行為參數(shù)值,根據(jù)信息本體的接收對(duì)象的信息和關(guān)系類型數(shù)據(jù)確定行為主體的各個(gè)關(guān)系類型在行為主體的所有關(guān)系類型中的關(guān)系占比值,根據(jù)信息本體的接收對(duì)象的信息確定用于表征信息本體的接收對(duì)象分布的發(fā)散度以及根據(jù)信息本體確定信息內(nèi)容的重復(fù)率,并根據(jù)上述行為參數(shù)值、關(guān)系占比值、發(fā)散度以及重復(fù)率確定行為主體是否執(zhí)行了非正常行為,制造了非正常行為信息,徹底甄別SNS環(huán)境系統(tǒng)中制造非正常行為信息和執(zhí)行非正常行為的非正常行為主體,從而實(shí)現(xiàn)對(duì)非正常行為用戶執(zhí)行的非正常行為和/或發(fā)送的非正常行為信息的過濾處理。
[0142]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本申請(qǐng)進(jìn)行各種改動(dòng)和變型而不脫離本申請(qǐng)的精神和范圍。這樣,倘若本申請(qǐng)的這些修改和變型屬于本申請(qǐng)權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請(qǐng)也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種基于3吧環(huán)境的非正常行為過濾方法,其特征在于,包括: 服務(wù)器獲得3吧服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體的接收對(duì)象的信息; 根據(jù)所述信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度; 根據(jù)所述信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值; 根據(jù)所述行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值; 根據(jù)所述關(guān)系占比值、所述發(fā)散度以及所述行為參數(shù)值,確定所述行為主體是否執(zhí)行了非正常行為; 在確定所述行為主體執(zhí)行了非正常行為時(shí),對(duì)與所述行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
2.如權(quán)利要求1所述的方法,其特征在于,還包括: 服務(wù)器獲得3吧服務(wù)器針對(duì)所述行為主體所記錄的所述行為主體發(fā)送的信息本體; 刪除所述信息本體中的指定信息內(nèi)容,生成不包括所述指定信息內(nèi)容的過濾后的信息本體; 分別確定生成的所有過濾后的信息本體所包含的每種信息內(nèi)容在所述所有過濾后的信息本體所包含的所有信息內(nèi)容中的重復(fù)率; 根據(jù)所述重復(fù)率,判斷所述行為主體是否發(fā)送了非正常行為信息; 在確定所述行為主體發(fā)送了非正常行為信息時(shí),對(duì)所述行為主體發(fā)送的非正常行為信息進(jìn)行過濾。
3.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述信息本體的接收對(duì)象的信息,確定信息本體的接收對(duì)象分布的發(fā)散度具體包括: 確定所述行為主體所發(fā)送的所有信息本體的個(gè)數(shù); 根據(jù)獲得的所述信息本體的接收對(duì)象的信息,確定所述所有信息本體所對(duì)應(yīng)的互不相同的接收對(duì)象的個(gè)數(shù); 根據(jù)所述信息本體的個(gè)數(shù)和所述接收對(duì)象的個(gè)數(shù),確定信息本體的接收對(duì)象分布的發(fā)散度。
4.如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值,具體包括: 根據(jù)所述信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),確定每個(gè)信息本體對(duì)應(yīng)的關(guān)系類型; 根據(jù)所述行為主體所發(fā)送的信息本體的總個(gè)數(shù),分別確定每個(gè)所述關(guān)系類型所對(duì)應(yīng)的信息本體的個(gè)數(shù)在所述總個(gè)數(shù)中的個(gè)數(shù)占比; 將確定的所述個(gè)數(shù)占比分別確定為相應(yīng)的關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比。
5.如權(quán)利要求1所述的方法,其特征在于,所述用于表征行為特征的行為參數(shù)值具體包括:打?yàn)樵谥付〞r(shí)間單位內(nèi)發(fā)生的頻率; 以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值; 以及行為發(fā)生的總次數(shù)。
6.一種基于SNS環(huán)境的非正常行為過濾裝置,其特征在于,包括: 數(shù)據(jù)獲得單元,用于獲得SNS服務(wù)器針對(duì)待辨識(shí)行為的行為主體所記錄的行為數(shù)據(jù)、關(guān)系類型數(shù)據(jù)和包含信息本體的接收對(duì)象的信息; 發(fā)散度確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息,確定用于表征信息本體的接收對(duì)象分布的發(fā)散度; 關(guān)系占比確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),分別確定所述行為主體的各個(gè)關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比值; 行為參數(shù)確定單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的行為數(shù)據(jù),確定用于表征行為特征的行為參數(shù)值; 非正常行為確定單元,用于根據(jù)所述關(guān)系占比確定單元確定的關(guān)系占比值、所述發(fā)散度確定單元確定的發(fā)散度以及所述行為參數(shù)確定單元確定的行為參數(shù)值,確定所述行為主體是否執(zhí)行了非正常行為; 非正常行為過濾單元,用于在所述非正常行為確定單元確定所述行為主體執(zhí)行了非正常行為時(shí),對(duì)與所述行為主體執(zhí)行的非正常行為相關(guān)的指令進(jìn)行過濾。
7.如權(quán)利要求6所述的裝置,其特征在于, 所述數(shù)據(jù)獲得單元,還用于獲得SNS服務(wù)器針對(duì)所述行為主體所記錄的所述行為主體發(fā)送的信息本體;則所述裝置還包括: 信息過濾單元,用于刪除所述數(shù)據(jù)獲得單元獲得的信息本體中的指定信息內(nèi)容,生成不包括所述指定信息內(nèi)容的過濾后的信息本體; 重復(fù)率確定單元,用于分別確定所述信息過濾單元生成的所有過濾后的信息本體所包含的每種信息內(nèi)容在所述所有過濾后的信息本體所包含的所有信息內(nèi)容中的重復(fù)率; 非正常行為信息確定單元,用于根據(jù)所述重復(fù)率確定單元確定的重復(fù)率,判斷所述行為主體是否發(fā)送了非正常行為信息; 非正常行為信息過濾單元,用于在所述非正常行為信息確定單元確定所述行為主體發(fā)送了非正常行為信息時(shí),對(duì)所述行為主體發(fā)送的非正常行為信息進(jìn)行過濾。
8.如權(quán)利要求6所述的裝置,其特征在于,發(fā)散度確定單元具體包括: 信息本體數(shù)量確定子單元,用于確定所述行為主體所發(fā)送的所有信息本體的個(gè)數(shù);接收對(duì)象數(shù)量確定子單元,用根據(jù)所述數(shù)據(jù)獲得單元獲得的所述信息本體的接收對(duì)象的信息,確定所述所有信息本體所對(duì)應(yīng)的互不相同的接收對(duì)象的個(gè)數(shù); 發(fā)散度子單元,用于根據(jù)所述信息本體數(shù)量確定子單元確定的信息本體的個(gè)數(shù)和所述接收對(duì)象數(shù)量確定子單元確定的接收對(duì)象的個(gè)數(shù),確定信息本體的接收對(duì)象分布的發(fā)散度。
9.如權(quán)利要求6所述的裝置,其特征在于,關(guān)系占比確定單元具體包括: 關(guān)系類型確定子單元,用于根據(jù)所述數(shù)據(jù)獲得單元獲得的信息本體的接收對(duì)象的信息和所述關(guān)系類型數(shù)據(jù),確定每個(gè)信息本體對(duì)應(yīng)的關(guān)系類型;個(gè)數(shù)占比確定子單元,用于根據(jù)所述行為主體所發(fā)送的信息本體的總個(gè)數(shù),分別確定每個(gè)所述關(guān)系類型確定子單元確定的關(guān)系類型所對(duì)應(yīng)的信息本體的個(gè)數(shù)在所述總個(gè)數(shù)中的個(gè)數(shù)占比; 關(guān)系占比確定子單元,用于將所述個(gè)數(shù)占比確定子單元確定的個(gè)數(shù)占比分別確定為相應(yīng)的關(guān)系類型在所述行為主體的所有關(guān)系類型中的關(guān)系占比。
10.如權(quán)利要求6所述的裝置,其特征在于,所述行為參數(shù)確定單元確定的用于表征行為特征的行為參數(shù)值具體包括: 打?yàn)樵谥付〞r(shí)間單位內(nèi)發(fā)生的頻率; 以指定時(shí)間單位為統(tǒng)計(jì)單位,所確定出的行為的持續(xù)值; 以及行為發(fā)生 的總次數(shù)。
【文檔編號(hào)】G06F17/30GK103838759SQ201210484445
【公開日】2014年6月4日 申請(qǐng)日期:2012年11月23日 優(yōu)先權(quán)日:2012年11月23日
【發(fā)明者】夏立, 楊含飛 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司