本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別涉及一種群體虛假交易識別方法及裝置。
背景技術(shù):
在電商平臺上,一些賣家為了獲取更多的流量等平臺資源而進(jìn)行刷銷量、刷好評等作弊行為,而此種作弊行為逐漸變成一種類似“眾包”的群體作弊行為,即作弊賣家通過即時(shí)聊天工具等線上渠道將待作弊商品分發(fā)給全國各地的“刷手”買家,“刷手”買家進(jìn)行虛假購買并給予好評,提高作弊商品銷量和好評率?,F(xiàn)有技術(shù)在識別刷單類虛假交易時(shí),事先確定一個(gè)訓(xùn)練集,一般通過買家的顯著異常行為確定訓(xùn)練集,顯著異常行為例如“發(fā)空包”等行為。此種方法得到的異常數(shù)據(jù)往往是有偏差的,在此類有偏差的訓(xùn)練集基礎(chǔ)上建模,模型的泛化能力可想而知。
除此之外,隨著虛假交易的演變,個(gè)體上的虛假交易已經(jīng)“幾可亂真”,越來越難以識別。
技術(shù)實(shí)現(xiàn)要素:
本申請?zhí)峁┮环N群體虛假交易識別方法,包括:
獲取預(yù)設(shè)時(shí)間段內(nèi)各買家的交易相關(guān)信息,所述交易相關(guān)信息包含買家ID及各買家所購買的多個(gè)商品的ID;
根據(jù)所述交易相關(guān)信息對買家進(jìn)行聚類,得到多個(gè)買家群體;其中,每個(gè)買家群體中的買家購買了多種相同的商品;
根據(jù)所述交易相關(guān)信息計(jì)算每個(gè)買家群體的整體相似度指標(biāo);
根據(jù)所述整體相似度指標(biāo)識別出多個(gè)所述買家群體中的虛假交易群體。
本申請?zhí)峁┮环N群體虛假交易識別裝置,包括:
信息獲取單元,用于獲取預(yù)設(shè)時(shí)間段內(nèi)各買家的交易相關(guān)信息,所述交易相關(guān)信息包含買家ID及各買家所購買的多個(gè)商品的ID;
聚類單元,用于根據(jù)所述交易相關(guān)信息對買家進(jìn)行聚類,得到多個(gè)買家群體;其中,每個(gè)買家群體中的買家購買了多種相同的商品
計(jì)算單元,用于根據(jù)所述交易相關(guān)信息計(jì)算每個(gè)買家群體的整體相似度指標(biāo);
識別單元,用于根據(jù)所述整體相似度指標(biāo)識別出多個(gè)所述買家群體中的虛假交易群體。
本申請實(shí)施例中,可以基于交易數(shù)據(jù)自身識別群體虛假交易,無需事先確定訓(xùn)練集,具有較好的自適應(yīng)性。
當(dāng)然實(shí)施本申請的任一產(chǎn)品或者方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本申請實(shí)施例的群體虛假交易識別方法的一種實(shí)施例的方法流程圖;
圖2是本申請實(shí)施例的商品及買家列表示意圖;
圖3是本申請實(shí)施例的群體虛假交易識別方法的一種實(shí)施例的方法流程圖;
圖4是本申請實(shí)施例的買家相似性關(guān)系示意圖;
圖5是本申請實(shí)施例的群體虛假交易識別裝置的結(jié)構(gòu)示意圖;
圖6是本申請實(shí)施例的聚類單元的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1是本申請?zhí)岢龅娜后w虛假交易識別方法的一種實(shí)施例的方法流程圖。雖然本申請?zhí)峁┝巳缦率鰧?shí)施例或附圖所示的方法操作步驟或裝置結(jié)構(gòu),但基于常規(guī)或者無需創(chuàng)造性的勞動在所述方法或裝置中可以包括更多或者更少的操作步驟或模塊結(jié)構(gòu)。在邏輯性上不存在必要因果關(guān)系的步驟或結(jié)構(gòu)中,這些步驟的執(zhí)行順序或裝置的模塊結(jié)構(gòu)不限于本申請實(shí)施例提供的執(zhí)行順序或模塊結(jié)構(gòu)。所述的方法或模塊結(jié)構(gòu)的在實(shí)際中的裝置或終端產(chǎn)品執(zhí)行時(shí),可以按照實(shí)施例或者附圖所示的方法或模塊結(jié)構(gòu)連接進(jìn)行順序執(zhí)行或者并行執(zhí)行(例如并行處理器或者多線程處理的環(huán)境)。
正常交易中,買家的購物行為具有隨機(jī)性,任意兩個(gè)買家之間購物相關(guān)性不高。而同一批刷手之間由于擁有相同的線上分發(fā)渠道,在交易序列上不可避免的具有相似性,而同一批刷手越多,刷單的商品越多,此種異常越明顯。即,此類作弊行為雖然在單筆交易上越來越難以甄別,但從群體上卻有規(guī)律可循,基于此,本發(fā)明通過識別“刷手”群體異常行為識別虛假交易,通過對交易數(shù)據(jù)自身進(jìn)行識別找出虛假交易,具有較好的自適應(yīng)性。具體的如圖1所示,本申請?zhí)峁┑娜后w虛假交易識別方法可以包括:
S101:獲取預(yù)設(shè)時(shí)間段內(nèi)各買家的交易相關(guān)信息,所述交易相關(guān)信息包含買家ID及各買家所購買的多個(gè)商品的ID;
S102:根據(jù)所述交易相關(guān)信息對買家進(jìn)行聚類,得到多個(gè)買家群體;其中,每個(gè)買家群體中的買家購買了多種相同的商品;
S103:根據(jù)所述交易相關(guān)信息計(jì)算每個(gè)買家群體的整體相似度指標(biāo);
S104:根據(jù)所述整體相似度指標(biāo)識別出多個(gè)所述買家群體中的虛假交易群體。
圖1所示的群體虛假交易識別方法的執(zhí)行主體可以為服務(wù)器,由圖1所示的流程可知,本申請根據(jù)首先獲取包含買家ID及各買家所購買的多個(gè)商品的ID的各買家的交易相關(guān)信息,然后基于交易相關(guān)信息對買家進(jìn)行分類,得到多個(gè)買家群體,通過計(jì)算買家群體的整體相似度指標(biāo)識別多個(gè)所述買家群體中的虛假交易群體。即基于交易數(shù)據(jù)自身(買家ID及買家購買的商品ID)就可以準(zhǔn)確識別群體虛假交易,無需事先確定訓(xùn)練集,具有較好的自適應(yīng)性。
本申請中預(yù)設(shè)時(shí)間段可以按照如下方式如下劃分:由于時(shí)間屬性為連續(xù)值,本申請可以將時(shí)間離散化,即將時(shí)間進(jìn)行分段,如按照自然天分段,預(yù)設(shè)時(shí)間段為某一天,如按照自然月分段,預(yù)設(shè)時(shí)間段為某一月。時(shí)間的分段可以根據(jù)具體情況而定,例如按照季度、年進(jìn)行劃分,本申請并非用于限定。
本申請中,交易相關(guān)信息為與買家購買商品交易相關(guān)的信息,該交易相關(guān)信息為組合特征,包含但不限定買家ID及各買家所購買的多個(gè)商品的ID。
根據(jù)上述交易相關(guān)信息對買家進(jìn)行聚類,可以得到多個(gè)買家群體。實(shí)際商品交易時(shí),可能存在大量買家同時(shí)購買一款產(chǎn)品的情況(例如商品爆款),如果買家群體中只購買了一件相同的商品,一般不能將其列為虛假交易群體。而本申請目的為識別群體虛假交易,即從得到的多個(gè)買家群體中識別出虛假交易群體,所以本申請需要對買家群體進(jìn)行如下限定:買家群體中的買家購買了多種相同的商品。
本申請中,根據(jù)所述交易相關(guān)信息對買家進(jìn)行聚類,得到多個(gè)買家群體的方式可以有很多種,只要滿足買家群體中的買家購買了多種相同的商品即可,一實(shí)施例中,可以通過如下方法得到多個(gè)買家群體:根據(jù)各買家的交易相關(guān)信息,以商品為主體,找出購買量較大(例如超過一預(yù)設(shè)數(shù)量)的n種商品的每個(gè)買家ID,將購買上述n種商品中兩種及兩種以上商品的多個(gè)買家劃分為買家群體。圖2中列出了購買量較大的A、B、C、D、E 5種商品,A、B、C、D4種商品有B、D、G三個(gè)買家,可以將B、D、G三個(gè)買家劃分為一個(gè)買家群體。
另一實(shí)施例中,可以通過圖3所示的方法得到多個(gè)買家群體,如圖3所示,該方法包括如下步驟:
S301:根據(jù)所述交易相關(guān)信息計(jì)算兩兩買家之間的相似性。
相似性為兩兩買家之間的相似程度,相似程度以兩兩買家購買的商品的種類總和及兩兩買家購買的相同商品的種類之和進(jìn)行表征。
一實(shí)施例中,可以首先根據(jù)兩兩買家的交易相關(guān)信息計(jì)算兩兩買家購買的商品的種類總和及兩兩買家購買的相同商品的種類之和;然后根據(jù)所述商品的種類總和及相同商品的種類之和計(jì)算兩兩買家之間的相似性,計(jì)算方法有很多種,例如可以計(jì)算所述相同商品的種類之和與商品的種類總和的比值,該比值表征兩兩買家之間的相似性,比值越大,買家之間的相似程度越高。具體實(shí)施時(shí),可以利用Jaccard相似度公式計(jì)算買家之間的相似性,Jaccard相似度公式如下:
其中X、Y分別為不同買家的交易相關(guān)信息,X∩Y代表不同買家購買的相同商品的種類之和,XUY代表不同買家購買的商品的種類總和。
上述公式的分子和分母可以用圖4表示,如圖4所示,X∩Y為陰影部分,代表買家購買的相同商品的種類之和,XUY為買家X及買家Y空白部分的商品的種類加上陰影部分,代表不同買家購買的商品的種類總和。
由于買家的上述交易相關(guān)信息為離散值,本申請采用Jaccard相似度指標(biāo)計(jì)算買家之間的相似性,既考慮了兩兩買家之間購物相同頻數(shù)(兩個(gè)買家在同一時(shí)間段購買相同的商品),又按照買家各自的購物數(shù)量絕對數(shù)做了降權(quán)(分母較大),能夠很好的度量買家購物的相似性。
一實(shí)施例中,本申請也可以通過計(jì)算商品的種類總和與相同商品的種類之和的比值,用該比值表征兩兩買家之間的相似性,該比值越大,相似性程度越小。
S302:根據(jù)相似性對買家進(jìn)行聚類,得到多個(gè)買家群體。
本申請可以將相似性程度高的買家劃分到同一買家群體,具體實(shí)施時(shí),可以預(yù)先設(shè)定一相似性臨界值,比較相似性與該相似性臨界值,將相似性大于相似性臨界值的買家進(jìn)行聚類,得到多個(gè)買家群體。
本申請目的在于識別出虛假交易群體,在得到多個(gè)買家群體后,就需要從中篩選出虛假交易群體,具體實(shí)施時(shí),可以根據(jù)交易相關(guān)信息計(jì)算每個(gè)買家群體的整體相似度指標(biāo),然后基于該整體相似度指標(biāo)識別出多個(gè)買家群體中的虛假交易群體。
一實(shí)施例中,整體相似度指標(biāo)可以為買家群體中的買家購買相同商品的種類數(shù)量。舉一例,某一買家群體中共100個(gè)買家,該100個(gè)買家中每個(gè)買家都購買了商品甲、乙、丙、丁、戊五種商品,那么該買家群體購買相同商品的種類數(shù)量為5,整體相似度指標(biāo)就為5。本實(shí)施例中,計(jì)算每個(gè)買家群體的整體相似度指標(biāo)時(shí),可以直接根據(jù)交易相關(guān)信息計(jì)算買家群體中的買家購買相同商品的種類數(shù)量。
另一實(shí)施例中,整體相似度指標(biāo)還可以為買家群體中買家購買的相同商品的種類之和與該該買家群體中買家購買的商品的種類總和的比值。
基于整體相似度指標(biāo)識別出多個(gè)買家群體中的虛假交易群體的方法有多種,一實(shí)施例中,可以將各買家群體的整體相似度指標(biāo)分別與一預(yù)設(shè)的相似度指標(biāo)進(jìn)行比較,根據(jù)比較結(jié)果識別出多個(gè)買家群體中的虛假交易群體。預(yù)設(shè)的相似度指標(biāo)可以為買家群體中購買了相同商品的設(shè)定買家數(shù)。
該預(yù)設(shè)的相似度指標(biāo)的取值可以基于歷史數(shù)據(jù)庫得到,該歷史數(shù)據(jù)庫中存儲了通過分析之前的虛假交易群體(歷史的虛假交易群體)獲得的整體相似度指標(biāo)相關(guān)數(shù)據(jù)。
另一實(shí)施例中,可以根據(jù)每個(gè)買家群體的整體相似度指標(biāo)在所有買家群體的整體相似度指標(biāo)中的排名識別出多個(gè)買家群體中的虛假交易群體。排名越高,買家群體為虛假交易群體的可能性越大,如果買家群體的整體相似度指標(biāo)中的排名高于某一臨界排名,則判定買家群體為虛假交易群體。該臨界排名可以基于歷史數(shù)據(jù)庫得到,該歷史數(shù)據(jù)庫中存儲了通過分析之前的虛假交易群體(歷史的虛假交易群體)獲得的整體相似度指標(biāo)排名。
利用本申請的群體虛假交易識別方法,可以基于交易數(shù)據(jù)自身準(zhǔn)確識別群體虛假交易,無需事先確定訓(xùn)練集,具有較好的自適應(yīng)性。
基于與上述群體虛假交易識別方法相同的發(fā)明構(gòu)思,本申請?zhí)峁┮环N群體虛假交易識別裝置,如下面實(shí)施例所述。由于該群體虛假交易識別裝置解決問題的原理與群體虛假交易識別方法相似,因此該群體虛假交易識別裝置的實(shí)施可以參見群體虛假交易識別方法的實(shí)施,重復(fù)之處不再贅述。
圖5是本申請實(shí)施例的群體虛假交易識別裝置的結(jié)構(gòu)示意圖,如圖2所示,該群體虛假交易識別裝置包括:信息獲取單元501,聚類單元502,計(jì)算單元503及識別單元504。
特征生成單元501用于獲取預(yù)設(shè)時(shí)間段內(nèi)各買家的交易相關(guān)信息,所述交易相關(guān)信息包含買家ID及各買家所購買的多個(gè)商品的ID;特征生成單元501是群體虛假交易識別裝置中獲取各買家的交易相關(guān)信息的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成各買家的交易相關(guān)信息獲取功能的輸入輸出接口、處理芯片等元器件。
聚類單元502用于根據(jù)所述交易相關(guān)信息對買家進(jìn)行聚類,得到多個(gè)買家群體;其中,每個(gè)買家群體中的買家購買了多種相同的商品;聚類單元502是群體虛假交易識別裝置中對買家進(jìn)行聚類的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成買家聚類功能的輸入輸出接口、處理芯片等元器件。
計(jì)算單元503用于根據(jù)所述交易相關(guān)信息計(jì)算每個(gè)買家群體的整體相似度指標(biāo);計(jì)算單元503是群體虛假交易識別裝置中計(jì)算每個(gè)買家的整體相似度指標(biāo)的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成整體相似度指標(biāo)計(jì)算功能的輸入輸出接口、處理芯片等元器件。
識別單元504用于根據(jù)所述整體相似度指標(biāo)識別出多個(gè)所述買家群體中的虛假交易群體。識別單元504是群體虛假交易識別裝置中識別虛假交易群體的部分,可以是軟件、硬件或二者的結(jié)合,例如可以是完成虛假交易群體識別功能的輸入輸出接口、處理芯片等元器件。
本申請中預(yù)設(shè)時(shí)間段可以按照如下方式如下劃分:由于時(shí)間屬性為連續(xù)值,本申請可以將時(shí)間離散化,即將時(shí)間進(jìn)行分段,如按照自然天分段,預(yù)設(shè)時(shí)間段為某一天,如按照自然月分段,預(yù)設(shè)時(shí)間段為某一月。時(shí)間的分段可以根據(jù)具體情況而定,例如按照季度、年進(jìn)行劃分,本申請并非用于限定。
一實(shí)施例中,如圖6所示,聚類單元502包括:相似性計(jì)算模塊601及買家群體生成模塊602。
相似性計(jì)算模塊601用于根據(jù)所述交易相關(guān)信息計(jì)算兩兩買家之間的相似性;
買家群體生成模塊602用于根據(jù)所述相似性對買家進(jìn)行聚類,得到多個(gè)買家群體。
具體實(shí)施時(shí),相似性計(jì)算模塊601可以包括:商品種類計(jì)算子模塊603及商品種類計(jì)算子模塊604。
商品種類計(jì)算子模塊603用于根據(jù)兩兩買家的交易相關(guān)信息計(jì)算兩兩買家購買的商品的種類總和及兩兩買家購買的相同商品的種類之和;
相似性計(jì)算子模塊604用于根據(jù)所述商品的種類總和及相同商品的種類之和計(jì)算兩兩買家之間的相似性。
具體實(shí)施時(shí),商品種類計(jì)算子模塊603用于計(jì)算所述相同商品的種類之和與商品的種類總和的比值,該比值作為兩兩買家之間的相似性。
一實(shí)施例中,買家群體生成模塊602可以通過比較相似性與一相似性臨界值,將相似性大于相似性臨界值的買家進(jìn)行聚類,得到至少一個(gè)買家群體。
一實(shí)施例中,整體相似度指標(biāo)可以為買家群體中的買家購買相同商品的種類數(shù)量。計(jì)算單元503可以通過計(jì)算每個(gè)買家群體中的買家購買相同商品的種類數(shù)量。
一實(shí)施例中,識別單元504可以將各買家群體的整體相似度指標(biāo)分別與一預(yù)設(shè)的相似度指標(biāo)進(jìn)行比較,根據(jù)比較結(jié)果識別出多個(gè)買家群體中的虛假交易群體。
另一實(shí)施例中,識別單元504可以根據(jù)每個(gè)買家聚類簇的整體相似度指標(biāo)在所有買家群體的整體相似度指標(biāo)中的排名識別出多個(gè)買家群體中的虛假交易群體。
通過本申請的群體虛假交易識別裝置,可以基于交易數(shù)據(jù)自身準(zhǔn)確識別群體虛假交易,無需事先確定訓(xùn)練集,具有較好的自適應(yīng)性。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
本發(fā)明中應(yīng)用了具體實(shí)施例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。