本技術(shù)屬于人工智能,具體涉及一種異常訂單識別方法、異常訂單識別裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及電子設(shè)備。
背景技術(shù):
1、隨著電子商務(wù)的發(fā)展,越來越多人選擇在電商平臺進(jìn)行購物消費(fèi),但是對于電商平臺而言,則需要對眾多的訂單進(jìn)行異常檢測,將刷單、虛假評論、盜號等影響電商平臺運(yùn)營效率和用戶體驗(yàn)的訂單檢測出來,并進(jìn)行相應(yīng)的處理。
2、目前進(jìn)行異常檢測的方法有基于統(tǒng)計(jì)學(xué)的方法、基于距離的方法、基于密度的方法和基于機(jī)器學(xué)習(xí)的方法,但是這些方法在處理訂單數(shù)據(jù)這類高維數(shù)據(jù)時(shí),由于維度詛咒的影響,導(dǎo)致數(shù)據(jù)密度和距離的計(jì)算變得困難和不準(zhǔn)確,采用機(jī)器學(xué)習(xí)的方法時(shí),由于模型訓(xùn)練時(shí)通常采用固定學(xué)習(xí)率,導(dǎo)致訓(xùn)練過程耗時(shí)較長,容易陷入局部最優(yōu),并且對于未標(biāo)記的數(shù)據(jù)不能充分利用,導(dǎo)致模型性能受限。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)的目的在于提供一種異常訂單識別方法、異常訂單識別裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及電子設(shè)備,能夠克服相關(guān)技術(shù)中存在的異常識別精準(zhǔn)度差、效率低的問題。
2、本技術(shù)的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本技術(shù)的實(shí)踐而習(xí)得。
3、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供一種異常訂單識別方法,該方法包括:獲取多組包含多維度特征數(shù)據(jù)的待處理訂單數(shù)據(jù),對所述待處理訂單數(shù)據(jù)進(jìn)行預(yù)處理;對預(yù)處理后的所述待處理訂單數(shù)據(jù)進(jìn)行降維處理,獲取包含主特征的目標(biāo)訂單數(shù)據(jù);將所述目標(biāo)訂單數(shù)據(jù)輸入至異常檢測模型,通過所述異常檢測模型對所述目標(biāo)訂單數(shù)據(jù)進(jìn)行處理,以獲取與所述待處理訂單數(shù)據(jù)對應(yīng)的異常結(jié)果,其中,所述異常檢測模型是基于自適應(yīng)學(xué)習(xí)率策略和主動(dòng)學(xué)習(xí)策略訓(xùn)練得到的。
4、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供一種異常訂單識別裝置,該裝置包括:預(yù)處理模塊,用于獲取多組包含多維度特征數(shù)據(jù)的待處理訂單數(shù)據(jù),對所述待處理訂單數(shù)據(jù)進(jìn)行預(yù)處理;降維模塊,用于對預(yù)處理后的所述待處理訂單數(shù)據(jù)進(jìn)行降維處理,獲取包含主特征的目標(biāo)訂單數(shù)據(jù);異常識別模塊,用于將所述目標(biāo)訂單數(shù)據(jù)輸入至異常檢測模型,通過所述異常檢測模型對所述目標(biāo)訂單數(shù)據(jù)進(jìn)行處理,以獲取與所述待處理訂單數(shù)據(jù)對應(yīng)的異常結(jié)果,其中,所述異常檢測模型是基于自適應(yīng)學(xué)習(xí)率策略和主動(dòng)學(xué)習(xí)策略訓(xùn)練得到的。
5、在本技術(shù)的一些實(shí)施例中,所述預(yù)處理模塊包括:預(yù)處理單元,用于對所述待處理訂單數(shù)據(jù)中的缺失值進(jìn)行處理,并對處理后的所述待處理訂單數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。
6、在本技術(shù)的一些實(shí)施例中,所述預(yù)處理單元配置為:當(dāng)所述缺失值的特征類型為數(shù)值型特征時(shí),根據(jù)所述待處理訂單數(shù)據(jù)確定平均值、中位數(shù)或眾數(shù),并采用所述平均值、所述中位數(shù)或者所述眾數(shù)對所述缺失值進(jìn)行填充;當(dāng)所述缺失值的特征類型為類別型特征時(shí),采用所述待處理訂單數(shù)據(jù)中出現(xiàn)頻率最高的類別對所述缺失值進(jìn)行填充。
7、在本技術(shù)的一些實(shí)施例中,所述預(yù)處理單元配置為:根據(jù)預(yù)設(shè)規(guī)則將處理后的所述待處理訂單數(shù)據(jù)縮放至目標(biāo)數(shù)值范圍。
8、在本技術(shù)的一些實(shí)施例中,所述降維模塊包括:矩陣構(gòu)建單元,用于對預(yù)處理后的所述待處理訂單數(shù)據(jù)進(jìn)行中心化處理,根據(jù)中心化處理后的所述待處理訂單數(shù)據(jù)和所對應(yīng)的特征構(gòu)建協(xié)方差矩陣,并確定所述協(xié)方差矩陣的特征值和特征向量;主成分獲取單元,用于將所述特征值由大到小排序形成特征值序列,依次獲取所述特征值序列中預(yù)設(shè)數(shù)量特征值對應(yīng)的目標(biāo)特征向量,根據(jù)所述目標(biāo)特征向量構(gòu)建主成分特征矩陣;降維單元,用于根據(jù)中心化處理后的所述待處理訂單數(shù)據(jù)和所述主成分特征矩陣確定第一降維矩陣,對所述第一降維矩陣中的特征進(jìn)行篩選,以獲取第二降維矩陣,并將所述第二降維矩陣中的數(shù)據(jù)作為所述目標(biāo)訂單數(shù)據(jù)。
9、在本技術(shù)的一些實(shí)施例中,所述異常訂單識別裝置還包括:訓(xùn)練模塊,用于在將所述目標(biāo)訂單數(shù)據(jù)輸入至異常檢測模型之前,獲取訂單樣本數(shù)據(jù)集合,根據(jù)所述訂單樣本數(shù)據(jù)集合中各組訂單樣本數(shù)據(jù)對待訓(xùn)練異常檢測模型進(jìn)行訓(xùn)練,以獲取所述異常檢測模型。
10、在本技術(shù)的一些實(shí)施例中,所述訓(xùn)練模塊包括:樣本預(yù)處理單元,用于對所述訂單樣本數(shù)據(jù)進(jìn)行預(yù)處理,并對預(yù)處理后的所述訂單樣本數(shù)據(jù)進(jìn)行降維處理,以獲取包含主特征的目標(biāo)訂單樣本數(shù)據(jù);未標(biāo)注數(shù)據(jù)集構(gòu)建單元,用于將所述訂單樣本數(shù)據(jù)集合中的訂單樣本數(shù)據(jù)根據(jù)訂單分為第一訂單樣本數(shù)據(jù)子集和第二訂單樣本數(shù)據(jù)子集,根據(jù)所述第一訂單樣本數(shù)據(jù)子集中的所述目標(biāo)訂單樣本數(shù)據(jù)構(gòu)建未標(biāo)注數(shù)據(jù)集;標(biāo)注數(shù)據(jù)集構(gòu)建單元,用于對所述第二訂單樣本數(shù)據(jù)子集中的目標(biāo)訂單樣本數(shù)據(jù)進(jìn)行異常值檢測,并根據(jù)所述第二訂單樣本數(shù)據(jù)子集中的目標(biāo)訂單樣本數(shù)據(jù)和對應(yīng)的標(biāo)簽構(gòu)建標(biāo)注數(shù)據(jù)集;訓(xùn)練單元,用于根據(jù)所述未標(biāo)注數(shù)據(jù)集和所述標(biāo)注數(shù)據(jù)集對待訓(xùn)練異常檢測模型進(jìn)行訓(xùn)練,以獲取所述異常檢測模型。
11、在本技術(shù)的一些實(shí)施例中,所述標(biāo)注數(shù)據(jù)集構(gòu)建單元配置為:對所述第二訂單樣本數(shù)據(jù)子集的目標(biāo)訂單樣本數(shù)據(jù)進(jìn)行輪詢,將任一所述目標(biāo)訂單樣本數(shù)據(jù)作為目標(biāo)數(shù)據(jù);根據(jù)所述目標(biāo)數(shù)據(jù)和與所述目標(biāo)數(shù)據(jù)對應(yīng)的第k個(gè)最近鄰數(shù)據(jù)確定k-距離,其中k為正整數(shù);獲取所述目標(biāo)數(shù)據(jù)和所述第k個(gè)最近鄰數(shù)據(jù)之間的直接距離,根據(jù)所述k-距離和所述直接距離確定與所述目標(biāo)數(shù)據(jù)對應(yīng)的可達(dá)距離;根據(jù)與所述目標(biāo)數(shù)據(jù)的k個(gè)最近鄰數(shù)據(jù)所對應(yīng)的可達(dá)距離確定與所述目標(biāo)數(shù)據(jù)對應(yīng)的局部可達(dá)密度,并基于所述局部可達(dá)密度確定與所述目標(biāo)數(shù)據(jù)對應(yīng)的局部離群因子;根據(jù)所述局部離群因子和預(yù)設(shè)閾值判斷所述目標(biāo)數(shù)據(jù)是否為異常數(shù)據(jù),并根據(jù)判斷結(jié)果確定與包含所述目標(biāo)數(shù)據(jù)的訂單對應(yīng)的標(biāo)簽。
12、在本技術(shù)的一些實(shí)施例中,所述訓(xùn)練單元包括:主動(dòng)選擇單元,用于從所述未標(biāo)注數(shù)據(jù)集中主動(dòng)選擇具有最大信息量的數(shù)據(jù),通過人工標(biāo)注的方式確定與所述具有最大信息量的數(shù)據(jù)對應(yīng)的標(biāo)簽,并根據(jù)所述具有最大信息量的數(shù)據(jù)和所述標(biāo)簽更新所述標(biāo)注數(shù)據(jù)集;優(yōu)化單元,用于根據(jù)更新后的標(biāo)注數(shù)據(jù)集對所述待訓(xùn)練異常檢測模型進(jìn)行訓(xùn)練,在訓(xùn)練過程中通過自適應(yīng)學(xué)習(xí)率策略優(yōu)化所述待訓(xùn)練異常檢測模型的參數(shù);循環(huán)單元,用于重復(fù)以上流程,直至達(dá)到預(yù)設(shè)訓(xùn)練條件,以獲取所述異常檢測模型。
13、在本技術(shù)的一些實(shí)施例中,所述優(yōu)化單元配置為:獲取初始參數(shù),所述初始參數(shù)包括權(quán)重、偏置、一階矩估計(jì)、二階矩估計(jì)、時(shí)間步、學(xué)習(xí)率、一階矩衰因子、二階矩衰因子和小常數(shù);根據(jù)目標(biāo)函數(shù)確定與所述權(quán)重對應(yīng)的第一梯度和與所述偏置對應(yīng)的第二梯度;所述目標(biāo)函數(shù)與所述權(quán)重和所述偏置相關(guān);根據(jù)所述一階矩衰因子、所述二階矩衰因子、所述第一梯度和所述第二梯度更新所述一階矩估計(jì)和所述二階矩估計(jì);根據(jù)所述時(shí)間步、所述一階矩衰因子和所述二階矩衰因子對更新后的所述一階矩估計(jì)和所述二階矩估計(jì)進(jìn)行修正;根據(jù)修正后的所述一階矩估計(jì)、修正后的所述二階矩估計(jì)、所述學(xué)習(xí)率和所述小常數(shù)對所述權(quán)重和所述偏置進(jìn)行更新。
14、在本技術(shù)的一些實(shí)施例中,所述優(yōu)化單元還配置為:根據(jù)更新后的所述權(quán)重和更新后的所述偏置對應(yīng)的梯度確定最優(yōu)學(xué)習(xí)率。
15、在本技術(shù)的一些實(shí)施例中,所述主動(dòng)選擇單元配置為:采用最大不確定性策略、最大預(yù)測變化策略或者最大影響策略確定所述具有最大信息量的數(shù)據(jù)。
16、在本技術(shù)的一些實(shí)施例中,所述異常訂單識別裝置還包括:評估模塊,用于在完成對所述待訓(xùn)練異常檢測模型的訓(xùn)練后,采用交叉驗(yàn)證法和auc-roc曲線對所述異常檢測模型的性能進(jìn)行評估。
17、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如以上技術(shù)方案中的異常訂單識別方法。
18、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供一種電子設(shè)備,該電子設(shè)備包括:處理器;以及存儲(chǔ)器,用于存儲(chǔ)所述處理器的可執(zhí)行指令;其中,所述處理器被配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行如以上技術(shù)方案中的異常訂單識別方法。
19、根據(jù)本技術(shù)實(shí)施例的一個(gè)方面,提供一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)指令,當(dāng)所述計(jì)算機(jī)指令在計(jì)算機(jī)上運(yùn)行時(shí),使得所述計(jì)算機(jī)執(zhí)行如以上技術(shù)方案中的異常訂單識別方法。
20、本技術(shù)實(shí)施例提供的異常訂單識別方法,對所獲取的多組包含多維度特征數(shù)據(jù)的待處理訂單數(shù)據(jù)進(jìn)行預(yù)處理;接著進(jìn)行降維處理,以獲取包含主特征的目標(biāo)訂單數(shù)據(jù);最后將目標(biāo)訂單數(shù)據(jù)輸入至異常檢測模型,通過異常檢測模型對目標(biāo)訂單數(shù)據(jù)進(jìn)行處理,以獲取與待處理訂單數(shù)據(jù)對應(yīng)的異常結(jié)果,其中,異常檢測模型是基于自適應(yīng)學(xué)習(xí)率策略和主動(dòng)學(xué)習(xí)策略訓(xùn)練得到的。本技術(shù)一方面能夠基于自適應(yīng)學(xué)習(xí)率策略和主動(dòng)學(xué)習(xí)策略訓(xùn)練異常檢測模型,縮短模型訓(xùn)練時(shí)長,提高模型性能;另一方面能夠提高高維場景下異常訂單識別的準(zhǔn)確率和效率。
21、應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本技術(shù)。