本發(fā)明涉及短信詐騙識別,尤其涉及一種基于機器學(xué)習(xí)的短信詐騙識別方法、系統(tǒng)及計算機設(shè)備。
背景技術(shù):
1、隨著移動通信技術(shù)的快速發(fā)展和智能手機的普及,短信已成為人們?nèi)粘I钪胁豢苫蛉钡耐ㄐ欧绞街?。然而,伴隨著短信使用的增加,短信詐騙也日益猖獗,給用戶帶來財產(chǎn)損失和安全隱患。傳統(tǒng)的基于規(guī)則和關(guān)鍵詞匹配的短信詐騙識別方法已無法應(yīng)對日益復(fù)雜和多變的詐騙手段,其準(zhǔn)確率和實時性都難以滿足實際需求。
2、近年來,機器學(xué)習(xí)技術(shù)在自然語言處理領(lǐng)域取得了顯著進展,為短信詐騙識別提供了新的解決思路。然而,單一的機器學(xué)習(xí)模型往往難以全面捕捉短信詐騙的多樣性特征,且容易受到數(shù)據(jù)噪聲和模型局限性的影響。此外,現(xiàn)有的短信詐騙識別方法大多只關(guān)注文本特征,忽視了短信中可能包含的多模態(tài)信息,如圖像、url等,這限制了識別的全面性和準(zhǔn)確性。另一方面,知識圖譜作為一種結(jié)構(gòu)化的知識表示方法,在多個領(lǐng)域展現(xiàn)出強大的潛力。然而,如何有效地將知識圖譜與機器學(xué)習(xí)模型結(jié)合,以增強短信詐騙識別的性能,仍是一個亟待解決的問題。同時,如何在保證識別準(zhǔn)確性的同時,實現(xiàn)對新接收短信的實時分析和風(fēng)險預(yù)測,也是當(dāng)前研究面臨的重要挑戰(zhàn)。
技術(shù)實現(xiàn)思路
1、本發(fā)明提供了一種基于機器學(xué)習(xí)的短信詐騙識別方法、系統(tǒng)及計算機設(shè)備,本發(fā)明能夠?qū)π陆邮盏亩绦胚M行快速分析,滿足了實際應(yīng)用中的實時性要求,采用風(fēng)險閾值分類機制,使得詐騙風(fēng)險預(yù)測結(jié)果更具可解釋性和可操作性,便于后續(xù)的風(fēng)險管理和處置。
2、第一方面,本發(fā)明提供了一種基于機器學(xué)習(xí)的短信詐騙識別方法,所述基于機器學(xué)習(xí)的短信詐騙識別方法包括:
3、對收集的詐騙和非詐騙短信樣本進行預(yù)處理,得到結(jié)構(gòu)化短信數(shù)據(jù);
4、對所述結(jié)構(gòu)化短信數(shù)據(jù)進行多維度特征提取,得到初始特征向量;
5、基于所述結(jié)構(gòu)化短信數(shù)據(jù)構(gòu)建短信詐騙多模態(tài)知識圖譜;
6、利用所述短信詐騙多模態(tài)知識圖譜對所述初始特征向量進行特征增強,得到知識增強特征向量;
7、將所述知識增強特征向量輸入多個機器學(xué)習(xí)模型進行訓(xùn)練,得到集成短信詐騙識別模型;
8、基于所述集成短信詐騙識別模型對新接收的短信進行實時分析,得到詐騙風(fēng)險預(yù)測結(jié)果。
9、第二方面,本發(fā)明提供了一種基于機器學(xué)習(xí)的短信詐騙識別裝置,所述基于機器學(xué)習(xí)的短信詐騙識別裝置包括:
10、預(yù)處理模塊,用于對收集的詐騙和非詐騙短信樣本進行預(yù)處理,得到結(jié)構(gòu)化短信數(shù)據(jù);
11、提取模塊,用于對所述結(jié)構(gòu)化短信數(shù)據(jù)進行多維度特征提取,得到初始特征向量;
12、構(gòu)建模塊,用于基于所述結(jié)構(gòu)化短信數(shù)據(jù)構(gòu)建短信詐騙多模態(tài)知識圖譜;
13、增強模塊,用于利用所述短信詐騙多模態(tài)知識圖譜對所述初始特征向量進行特征增強,得到知識增強特征向量;
14、訓(xùn)練模塊,用于將所述知識增強特征向量輸入多個機器學(xué)習(xí)模型進行訓(xùn)練,得到集成短信詐騙識別模型;
15、分析模塊,用于基于所述集成短信詐騙識別模型對新接收的短信進行實時分析,得到詐騙風(fēng)險預(yù)測結(jié)果。
16、本發(fā)明第三方面提供了一種計算機設(shè)備,包括:存儲器和至少一個處理器,所述存儲器中存儲有指令;所述至少一個處理器調(diào)用所述存儲器中的所述指令,以使得所述計算機設(shè)備執(zhí)行上述的基于機器學(xué)習(xí)的短信詐騙識別方法。
17、本發(fā)明的第四方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)中存儲有指令,當(dāng)其在計算機上運行時,使得計算機執(zhí)行上述的基于機器學(xué)習(xí)的短信詐騙識別方法。
18、本發(fā)明提供的技術(shù)方案中,通過多維度特征提取和知識圖譜增強,本發(fā)明能夠全面捕捉短信的語義、結(jié)構(gòu)和上下文信息,提高了特征表示的豐富性和區(qū)分度。采用多模態(tài)知識圖譜的構(gòu)建方法,有效融合了文本和圖像信息,擴展了知識表示的維度,增強了對復(fù)雜詐騙模式的理解能力。利用多個機器學(xué)習(xí)模型進行集成學(xué)習(xí),克服了單一模型的局限性,提高了詐騙識別的魯棒性和泛化能力。引入stacking模型作為次級學(xué)習(xí)器,實現(xiàn)了對不同模型預(yù)測結(jié)果的自適應(yīng)融合,進一步優(yōu)化了最終的詐騙風(fēng)險預(yù)測結(jié)果。通過實時特征提取和模型預(yù)測,本發(fā)明能夠?qū)π陆邮盏亩绦胚M行快速分析,滿足了實際應(yīng)用中的實時性要求。采用風(fēng)險閾值分類機制,使得詐騙風(fēng)險預(yù)測結(jié)果更具可解釋性和可操作性,便于后續(xù)的風(fēng)險管理和處置。
1.一種基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述對收集的詐騙和非詐騙短信樣本進行預(yù)處理,得到結(jié)構(gòu)化短信數(shù)據(jù),包括:
3.根據(jù)權(quán)利要求1所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述對所述結(jié)構(gòu)化短信數(shù)據(jù)進行多維度特征提取,得到初始特征向量,包括:
4.根據(jù)權(quán)利要求1所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述基于所述結(jié)構(gòu)化短信數(shù)據(jù)構(gòu)建短信詐騙多模態(tài)知識圖譜,包括:
5.根據(jù)權(quán)利要求1所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述利用所述短信詐騙多模態(tài)知識圖譜對所述初始特征向量進行特征增強,得到知識增強特征向量,包括:
6.根據(jù)權(quán)利要求1所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述將所述知識增強特征向量輸入多個機器學(xué)習(xí)模型進行訓(xùn)練,得到集成短信詐騙識別模型,包括:
7.根據(jù)權(quán)利要求6所述的基于機器學(xué)習(xí)的短信詐騙識別方法,其特征在于,所述基于所述集成短信詐騙識別模型對新接收的短信進行實時分析,得到詐騙風(fēng)險預(yù)測結(jié)果,包括:
8.一種基于機器學(xué)習(xí)的短信詐騙識別裝置,其特征在于,用于執(zhí)行如權(quán)利要求1-7中任一項所述的基于機器學(xué)習(xí)的短信詐騙識別方法,所述裝置包括:
9.一種計算機設(shè)備,其特征在于,包括存儲器和處理器,所述存儲器存儲有可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的基于機器學(xué)習(xí)的短信詐騙識別方法。
10.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序在被處理器運行時使得所述處理器執(zhí)行如權(quán)利要求1至7中任一項所述的基于機器學(xué)習(xí)的短信詐騙識別方法。