本發(fā)明涉及通訊詐騙檢測(cè)領(lǐng)域,尤其涉及一種針對(duì)移動(dòng)電話(huà)端的基于機(jī)器學(xué)習(xí)分析可疑行為的通訊詐騙實(shí)時(shí)檢測(cè)方法和系統(tǒng)。
背景技術(shù):
近幾年來(lái),得益于電信領(lǐng)域的高速發(fā)展,移動(dòng)通訊已經(jīng)成為了人們生活和工作中不可缺少的一部分。據(jù)工信部統(tǒng)計(jì),截止到2016年7月份,中國(guó)移動(dòng)電話(huà)的總用戶(hù)數(shù)達(dá)到13.04億戶(hù),其中包含4g用戶(hù)數(shù)6.46億戶(hù)。然而,伴隨著移動(dòng)通訊帶來(lái)的不僅是便利,也同樣帶來(lái)了諸多問(wèn)題。
移動(dòng)通訊技術(shù)在給我們工作生活帶來(lái)便利的同時(shí),也給不法分子的行騙打開(kāi)了方便之門(mén),這其中就以通訊詐騙最為普遍。通訊詐騙指不法分子通過(guò)電話(huà)、短信等移動(dòng)通訊方式,設(shè)計(jì)騙局,通過(guò)編造的虛假內(nèi)容騙取受騙人的信任后,向受騙人索取個(gè)人隱私信息或誘導(dǎo)受騙人執(zhí)行特定的指令,最終給受騙人帶來(lái)相應(yīng)的損失。通訊詐騙直接威脅到了民眾的信息與財(cái)產(chǎn)的安全,給我們的生活造成了極大的安全隱患。大部分通訊詐騙的案例當(dāng)中,當(dāng)行騙人詐騙成功后,相關(guān)機(jī)構(gòu)很難從詐騙案件中留下的線(xiàn)索去追回?fù)p失,因?yàn)樵p騙人通常通過(guò)一些無(wú)記名、冒名或公共電話(huà)行騙,并且留下的信息也是經(jīng)過(guò)層層設(shè)計(jì),很難從中追查到具體的線(xiàn)索。
面對(duì)猖狂的通訊詐騙,目前的防詐騙手段主要集中于提高民眾自身警惕性和提升防詐騙打擊力度兩方面。其中,提高民眾自身警惕性的主要方法是公安機(jī)構(gòu)及相關(guān)電信機(jī)構(gòu),定期整理通訊詐騙的案件,分析其行騙流程后將其特征整理為教育資料,再通過(guò)電視、講座、宣傳冊(cè)以及app等形式去提醒、教育民眾,以此提高民眾的防詐騙意識(shí),使得民眾在收到類(lèi)似詐騙電話(huà)時(shí)能夠保持足夠的警惕性,減少不必要的損失。而在提升打擊力度方面,主要是電信機(jī)構(gòu)配合公安機(jī)關(guān),加強(qiáng)監(jiān)測(cè)機(jī)制,利用立法、建立黑名單等手段,減少通訊詐騙案件的發(fā)生。
然而,面對(duì)通訊詐騙手段的層出不窮和手法的不斷更新,上述現(xiàn)有方案都不能及時(shí)有效的跟上行騙者的步伐。提高民眾自身的警惕性依賴(lài)于相關(guān)機(jī)構(gòu)對(duì)詐騙案例信息的分析整理,以及宣傳教育流程,一般而言,案例資料的整理是在詐騙案件發(fā)生后才能進(jìn)行,加上宣傳教育也要花費(fèi)較長(zhǎng)的時(shí)間,這無(wú)疑帶給騙子一個(gè)空窗期,只要不斷改變行騙流程,就可以較為完美的繞開(kāi)這種防詐騙方式。同時(shí),民眾自身的文化修養(yǎng)層次不齊,難以保證每一個(gè)人都能有一個(gè)較高的警惕性。而在提升打擊力度方面,現(xiàn)有的方法依賴(lài)于政府機(jī)構(gòu)和商業(yè)公司的配合,且需要投入大量的人力物力,如果要通過(guò)該方法快速且有效的打擊通訊詐騙,需要消耗大量的社會(huì)資源,而如果在此投入過(guò)多的資源,則會(huì)嚴(yán)重影響整個(gè)電信行業(yè)的正常發(fā)展。因此,目前尚缺乏防通訊詐騙的技術(shù)解決方案,能夠快速有效且不需要消耗較多社會(huì)資源,實(shí)現(xiàn)對(duì)日益猖狂的通訊詐騙進(jìn)行有力打擊。
技術(shù)實(shí)現(xiàn)要素:
為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種基于可疑行為識(shí)別的通訊詐騙實(shí)時(shí)檢測(cè)方法和系統(tǒng),通過(guò)分析陌生來(lái)電的通話(huà)語(yǔ)音和短信內(nèi)容,檢測(cè)其異常的、可疑的行為來(lái)進(jìn)行詐騙預(yù)測(cè)。其中,來(lái)電語(yǔ)音通過(guò)語(yǔ)音轉(zhuǎn)文字技術(shù)將來(lái)電主叫方的通話(huà)內(nèi)容轉(zhuǎn)變成文字信息,與短信內(nèi)容同時(shí)使用自然語(yǔ)言處理技術(shù)提取動(dòng)作行為特征,并判斷對(duì)話(huà)中出現(xiàn)的動(dòng)作行為特征中是否有包含隱私信息詢(xún)問(wèn)和惡意命令等在內(nèi)的可疑行為的可能性,若存在一定數(shù)量的可疑行為則會(huì)實(shí)時(shí)提醒用戶(hù)。本發(fā)明所實(shí)現(xiàn)的實(shí)時(shí)詐騙通話(huà)識(shí)別方法,可減少防范意識(shí)較差的用戶(hù)被欺詐的可能性。
本發(fā)明提供的技術(shù)方案是:
一種基于可疑行為識(shí)別的通訊詐騙實(shí)時(shí)檢測(cè)方法,包括離線(xiàn)模型訓(xùn)練階段與實(shí)時(shí)詐騙檢測(cè)階段;
離線(xiàn)模型訓(xùn)練階段包含動(dòng)作特征識(shí)別訓(xùn)練、動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練兩部分。在動(dòng)作特征識(shí)別訓(xùn)練訓(xùn)練中,接收經(jīng)過(guò)時(shí)間分段標(biāo)注的用戶(hù)語(yǔ)音、短信以及其參照結(jié)果,其中語(yǔ)音內(nèi)容需要經(jīng)過(guò)預(yù)處理,使用語(yǔ)音轉(zhuǎn)文本工具進(jìn)行轉(zhuǎn)換,得到一個(gè)語(yǔ)音轉(zhuǎn)文字的信息,本方法將文本化的語(yǔ)音和短信,合并作為動(dòng)作特征識(shí)別訓(xùn)練的數(shù)據(jù)集。在訓(xùn)練時(shí)首先對(duì)輸入的文本信息采用hmm、crf等機(jī)器學(xué)習(xí)算法針對(duì)文本進(jìn)行分詞、詞性標(biāo)注、語(yǔ)法樹(shù)分析以及實(shí)體識(shí)別的訓(xùn)練并得到動(dòng)作行為三元組,該元組包含動(dòng)作的主體、動(dòng)作的類(lèi)型和實(shí)體信息三部分內(nèi)容,用于表示雙方交流中出現(xiàn)的某一個(gè)動(dòng)作行為的特征,識(shí)別出來(lái)的三元組使用輸入的參照結(jié)果來(lái)衡量準(zhǔn)確度,最后得到一個(gè)可以用于識(shí)別文本中的動(dòng)作特征識(shí)別模型。在動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)的訓(xùn)練方面,需要接收已經(jīng)標(biāo)注好風(fēng)險(xiǎn)值的動(dòng)作特征三元組,以及可疑行為規(guī)則,使用線(xiàn)性回歸等機(jī)器學(xué)習(xí)方法進(jìn)行訓(xùn)練,得到動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)模型。動(dòng)作特征識(shí)別模型和動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)模型在離線(xiàn)訓(xùn)練好后,會(huì)集成在客戶(hù)端中實(shí)時(shí)使用。
實(shí)時(shí)通訊詐騙檢測(cè)階段通過(guò)監(jiān)聽(tīng)來(lái)電主叫方的通話(huà)語(yǔ)音和短信內(nèi)容,并使用集成在客戶(hù)端中的已訓(xùn)練好的離線(xiàn)模型來(lái)進(jìn)行詐騙檢測(cè)??蛻?hù)端首先將語(yǔ)音內(nèi)容轉(zhuǎn)換為文本,并連同短信內(nèi)容一起轉(zhuǎn)化為時(shí)間序列的文本數(shù)據(jù),使用離線(xiàn)訓(xùn)練好的動(dòng)作特征識(shí)別模型對(duì)這些文字內(nèi)容進(jìn)行分詞、詞性標(biāo)注、語(yǔ)法樹(shù)分析的工作,并且輸出動(dòng)作行為三元組,該序列中的所有文本都會(huì)進(jìn)行如上的元組識(shí)別過(guò)程,隨后客戶(hù)端會(huì)使用離線(xiàn)計(jì)算好模型中的動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)部分,計(jì)算當(dāng)前行為的危險(xiǎn)程度分值,每一個(gè)動(dòng)作的危險(xiǎn)程度分值按時(shí)間順序計(jì)算,根據(jù)場(chǎng)景模式的不同的,當(dāng)分?jǐn)?shù)達(dá)到一定的程度后,將會(huì)觸發(fā)相應(yīng)的提醒事件。
針對(duì)上述基于可疑行為識(shí)別的防通訊詐騙方法,進(jìn)一步地,所述離線(xiàn)模型第一階段的訓(xùn)練,動(dòng)作特征識(shí)別訓(xùn)練的具體執(zhí)行如下步驟:
11)接受通話(huà)錄音數(shù)據(jù)、短信及其兩者對(duì)應(yīng)的標(biāo)注內(nèi)容信息,通過(guò)標(biāo)注內(nèi)容里的時(shí)間信息,將通話(huà)錄音進(jìn)行分段,每段包含講話(huà)人完整的一句話(huà),使用語(yǔ)音轉(zhuǎn)文本的工具將語(yǔ)音內(nèi)容轉(zhuǎn)變?yōu)槲谋拘畔?,稱(chēng)為錄音文本;隨后結(jié)合時(shí)間信息,將語(yǔ)音轉(zhuǎn)換后的文本和短信放到一起,構(gòu)成一個(gè)按照時(shí)間先后排序的時(shí)間序列數(shù)組,稱(chēng)為通訊序列數(shù)據(jù),并且關(guān)聯(lián)該通訊序列數(shù)據(jù)在標(biāo)注信息中的動(dòng)作實(shí)體信息(人工標(biāo)注的正確動(dòng)作實(shí)體信息,用于模型訓(xùn)練),生成數(shù)據(jù)集。
12)將得到的數(shù)據(jù)集按照一定比例分為訓(xùn)練集和測(cè)試集,并利用機(jī)器學(xué)習(xí)的方法訓(xùn)練得到實(shí)體識(shí)別的模型,隨后使用測(cè)試集輸入到該模型中得到預(yù)測(cè)結(jié)果集,通過(guò)計(jì)算準(zhǔn)確度、召回率以及f值的方式來(lái)評(píng)估識(shí)別效果。在實(shí)體識(shí)別模型的訓(xùn)練過(guò)程中,需要使用步驟11)已標(biāo)注好的參考實(shí)體信息,根據(jù)通訊時(shí)間訓(xùn)練信息,利用實(shí)體識(shí)別模型學(xué)習(xí)如何從中提取動(dòng)作實(shí)體信息。
13)多次重復(fù)步驟12),再選出f值最高的模型作為最終的實(shí)體識(shí)別模型。
在上述的動(dòng)作特征識(shí)別訓(xùn)練階段,進(jìn)一步地,步驟12)所述的實(shí)體識(shí)別模型的內(nèi)容包含:文本分詞、詞性標(biāo)注、語(yǔ)法樹(shù)構(gòu)建、實(shí)體搜索步驟。文本內(nèi)容首先進(jìn)行分詞,將文本內(nèi)容轉(zhuǎn)化成詞的序列后進(jìn)行詞性標(biāo)注,使得每個(gè)詞都獲得一個(gè)對(duì)應(yīng)的詞性,隨后根據(jù)分詞結(jié)果和詞性標(biāo)注結(jié)果,生成語(yǔ)法樹(shù),在語(yǔ)法樹(shù)上進(jìn)行搜索存在的實(shí)體信息。
針對(duì)上述基于可疑行為識(shí)別的防通訊詐騙方法,進(jìn)一步地,所述離線(xiàn)模型第二階段的訓(xùn)練,動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練的具體執(zhí)行步驟如下:
21)根據(jù)歷史案例和資料整理得到通訊詐騙中的關(guān)鍵特征規(guī)則,特征規(guī)則是由一系列的動(dòng)作行為構(gòu)成,其中每個(gè)動(dòng)作行為都使用一個(gè)三元組來(lái)描述,該三元組包含動(dòng)作的主體、動(dòng)作的類(lèi)型和實(shí)體信息。這些通訊詐騙中整理出來(lái)的關(guān)鍵規(guī)則特征,都需要通過(guò)具有相關(guān)領(lǐng)域知識(shí)的人員(專(zhuān)家)確定一個(gè)隔離閾值m,并且每一條規(guī)則手工指定一個(gè)危險(xiǎn)分?jǐn)?shù),該分?jǐn)?shù)需要大于m且小于等于1,表示其該規(guī)則可能出現(xiàn)在通訊詐騙中的可能性;
22)在整理通訊詐騙的關(guān)鍵特征規(guī)則以外,需要同時(shí)加入不存在通訊詐騙行為的正常規(guī)則,表達(dá)的方式和上述21)的方式一樣,無(wú)詐騙行為的征程規(guī)則仍然是由一系列的動(dòng)作構(gòu)成,每個(gè)動(dòng)作使用一個(gè)三元組表示,同時(shí)這里的危險(xiǎn)分?jǐn)?shù)被設(shè)定為0;
23)將上述21)和22)的兩部分?jǐn)?shù)據(jù)隨機(jī)排序并構(gòu)成一個(gè)規(guī)則識(shí)別數(shù)據(jù)集,將混合后的規(guī)則識(shí)別數(shù)據(jù)集再次隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,利用訓(xùn)練數(shù)據(jù)集和機(jī)器學(xué)習(xí)的回歸方法訓(xùn)練得到動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)模型。然后將測(cè)試數(shù)據(jù)集輸入該預(yù)測(cè)模型得到預(yù)測(cè)結(jié)果集,通過(guò)計(jì)算r2和均方誤差來(lái)評(píng)估模型的預(yù)測(cè)效果。
24)多次重復(fù)步驟23),并選出r2最高且均方誤差最小的模型,作為最終的動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)模型。
在上述的規(guī)則識(shí)別模型的訓(xùn)練階段,進(jìn)一步地,步驟21)和步驟22)所述的規(guī)則危險(xiǎn)分?jǐn)?shù)適用于表現(xiàn)該規(guī)則有詐騙風(fēng)險(xiǎn)的可信度,分?jǐn)?shù)取值為0到1,0代表完全無(wú)風(fēng)險(xiǎn),1代表風(fēng)險(xiǎn)最大,一般來(lái)說(shuō),為了保證有詐騙風(fēng)險(xiǎn)和無(wú)詐騙風(fēng)險(xiǎn)兩類(lèi)規(guī)則的清楚區(qū)分,需要設(shè)立一個(gè)隔離閾值m,即存在詐騙風(fēng)險(xiǎn)的規(guī)則至少都會(huì)比沒(méi)有詐騙風(fēng)險(xiǎn)的規(guī)則在評(píng)分上高m。
所述23)中的r2計(jì)算方法如式1:
其中,yi表示危險(xiǎn)分?jǐn)?shù)的真實(shí)值,
均方誤差通過(guò)式2計(jì)算得到:
其中,n表示測(cè)試數(shù)據(jù)集中數(shù)據(jù)個(gè)數(shù),常數(shù)2用于簡(jiǎn)化后續(xù)求導(dǎo)運(yùn)算,yi表示詐騙概率真實(shí)值,
針對(duì)上述基于可疑行為識(shí)別的防通訊詐騙方法,進(jìn)一步地,所述實(shí)時(shí)通訊詐騙檢測(cè)的具體執(zhí)行步驟如下:
31)用戶(hù)下載客戶(hù)端軟件,并且在移動(dòng)電話(huà)端上完成相應(yīng)的安裝、配置以及授權(quán)。
32)當(dāng)用戶(hù)收到陌生來(lái)電時(shí),客戶(hù)端軟件將會(huì)監(jiān)聽(tīng)來(lái)自主叫方的通話(huà)語(yǔ)音,以及短信信息。其中針對(duì)語(yǔ)音內(nèi)容,客戶(hù)端軟件將會(huì)通過(guò)語(yǔ)音轉(zhuǎn)文字技術(shù)將語(yǔ)音轉(zhuǎn)變?yōu)閷?duì)應(yīng)的文字信息,隨后將這兩部分的文字信息進(jìn)行相應(yīng)的文字信息修正以及預(yù)處理,隨后按照時(shí)間發(fā)生先后實(shí)時(shí)的輸出。
33)當(dāng)客戶(hù)端獲得當(dāng)前實(shí)時(shí)輸出的文本信息后,利用已經(jīng)離線(xiàn)訓(xùn)練好的動(dòng)作特征識(shí)別模型,在文字信息上抽取主叫方通話(huà)行為動(dòng)作實(shí)體,抽取結(jié)果是三元組<動(dòng)作主體,動(dòng)作類(lèi)型,實(shí)體信息>,該三元組表示主叫方和被叫方通話(huà)中出現(xiàn)的某一個(gè)具體動(dòng)作以及動(dòng)作的主體和對(duì)象。
34)客戶(hù)端把所有動(dòng)作行為的特征三元組按照時(shí)間先后放入一個(gè)時(shí)序數(shù)組,稱(chēng)為通訊序列數(shù)據(jù),并且按順序利用離線(xiàn)訓(xùn)練好的動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)器進(jìn)行檢索和預(yù)測(cè),判別該動(dòng)作其是否屬于某種可疑行為。
35)當(dāng)客戶(hù)端軟件從時(shí)序行為數(shù)組中每識(shí)別出一個(gè)可疑行為后,將會(huì)同時(shí)獲得一個(gè)危險(xiǎn)性打分,并累加到當(dāng)前可疑行為總分當(dāng)中,根據(jù)用戶(hù)設(shè)定的場(chǎng)景模式,當(dāng)總分達(dá)到某設(shè)定的相應(yīng)閾值時(shí),會(huì)觸發(fā)相應(yīng)等級(jí)的提醒事件。
36)云端服務(wù)器會(huì)定期的根據(jù)最新加入的數(shù)據(jù),而對(duì)動(dòng)作特征識(shí)別模型和動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)器進(jìn)行相應(yīng)的更新,為了保證識(shí)別效果,客戶(hù)端將會(huì)定時(shí)同云端數(shù)據(jù)庫(kù)進(jìn)行通訊,當(dāng)云端離線(xiàn)模型發(fā)生變動(dòng)后,客戶(hù)端將會(huì)從云端下載最新的模型文件替換本機(jī)客戶(hù)端的離線(xiàn)模型,保證實(shí)際使用的體驗(yàn)。
一般地,訓(xùn)練可以使用諸如adaboost、線(xiàn)性回歸、人工神經(jīng)網(wǎng)絡(luò)ann等機(jī)器學(xué)習(xí)回歸方法,以及如word2vec、lda等在內(nèi)的一些詞嵌入方法來(lái)將詞匯轉(zhuǎn)化成數(shù)值的方法來(lái)訓(xùn)練該預(yù)測(cè)模型,此后,使用測(cè)試集輸入到訓(xùn)練出的模型中得到預(yù)測(cè)結(jié)果,并且使用r2和均方誤差兩個(gè)指標(biāo)來(lái)計(jì)算預(yù)測(cè)結(jié)果的好壞,評(píng)估模型的性能。
本發(fā)明還提供一種通訊詐騙實(shí)時(shí)檢測(cè)系統(tǒng),是基于可疑行為識(shí)別的防通訊詐騙系統(tǒng),包括:離線(xiàn)模型訓(xùn)練模塊和實(shí)時(shí)防詐騙檢測(cè)模塊;其中:
離線(xiàn)模型訓(xùn)練模塊包括動(dòng)作特征識(shí)別訓(xùn)練器和風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器,動(dòng)作特征識(shí)別訓(xùn)練器對(duì)通話(huà)訓(xùn)練數(shù)據(jù)和可疑規(guī)則數(shù)據(jù)進(jìn)行預(yù)處理后,通過(guò)自然語(yǔ)言對(duì)文本內(nèi)容進(jìn)行分詞、詞性標(biāo)注及語(yǔ)法樹(shù)構(gòu)建;隨后從語(yǔ)法樹(shù)中提取文本中包含動(dòng)作的三元組信息作為特征后,結(jié)合訓(xùn)練數(shù)據(jù)已標(biāo)注的特征共同進(jìn)行訓(xùn)練并得到動(dòng)作特征識(shí)別模型;然后使用風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器進(jìn)行訓(xùn)練,選取r2最高且平均誤差最小的模型作為最終訓(xùn)練得到的風(fēng)險(xiǎn)預(yù)測(cè)模型。
實(shí)時(shí)防詐騙檢測(cè)模塊集成在客戶(hù)端軟件中,利用離線(xiàn)模型訓(xùn)練模塊訓(xùn)練得到的動(dòng)作特征識(shí)別模型和風(fēng)險(xiǎn)預(yù)測(cè)模型,通過(guò)監(jiān)聽(tīng)用戶(hù)來(lái)電通話(huà)內(nèi)容和短信內(nèi)容,實(shí)時(shí)預(yù)測(cè)用戶(hù)通話(huà)詐騙的風(fēng)險(xiǎn)程度,并按照不同的場(chǎng)景規(guī)則,實(shí)時(shí)提醒用戶(hù);包括語(yǔ)音轉(zhuǎn)文本模塊、對(duì)話(huà)內(nèi)容處理模塊和實(shí)時(shí)詐騙識(shí)別模型;語(yǔ)音轉(zhuǎn)文本模塊用于來(lái)自通話(huà)中的語(yǔ)音內(nèi)容經(jīng)過(guò)語(yǔ)音轉(zhuǎn)文本,得到相應(yīng)的通話(huà)文字內(nèi)容;對(duì)話(huà)內(nèi)容處理模塊用于接收語(yǔ)音轉(zhuǎn)文字模塊所識(shí)別得到的通話(huà)文字內(nèi)容,并且監(jiān)聽(tīng)用戶(hù)的短信內(nèi)容并將短信的內(nèi)容按照時(shí)間插入到整個(gè)對(duì)話(huà)時(shí)間線(xiàn)當(dāng)中,并設(shè)定所得到的對(duì)話(huà)的id(如設(shè)定m作為id的標(biāo)識(shí)符);實(shí)時(shí)詐騙識(shí)別模型使用離線(xiàn)模塊訓(xùn)練好的動(dòng)作特征識(shí)別模型和風(fēng)險(xiǎn)預(yù)測(cè)模型,實(shí)時(shí)接收由對(duì)話(huà)內(nèi)容處理模塊按照時(shí)間順序輸出的對(duì)話(huà)條目信息,實(shí)時(shí)地進(jìn)行詐騙風(fēng)險(xiǎn)的預(yù)測(cè):首先調(diào)用動(dòng)作特征識(shí)別模型提取每一個(gè)對(duì)話(huà)條目的動(dòng)作特征三元組;隨后使用風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)時(shí)計(jì)算該句對(duì)話(huà)的詐騙風(fēng)險(xiǎn)值;將每一個(gè)條目的風(fēng)險(xiǎn)值累加計(jì)算,得到在當(dāng)前的最新時(shí)刻的分值,用于衡量總體風(fēng)險(xiǎn)值。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
本發(fā)明提供一種移動(dòng)電話(huà)的基于可疑行為識(shí)別的防通訊詐騙的方法與系統(tǒng),利用歷史通訊詐騙案例中學(xué)習(xí)詐騙識(shí)別特征規(guī)則,并且將此規(guī)則集成到客戶(hù)端軟件中,用戶(hù)可以通過(guò)在移動(dòng)電話(huà)上安裝客戶(hù)端軟件的方式獲得通訊防詐騙保護(hù)??蛻?hù)端通過(guò)實(shí)時(shí)監(jiān)聽(tīng)陌生來(lái)電主叫方的語(yǔ)音和短信,其中語(yǔ)音部分通過(guò)語(yǔ)音轉(zhuǎn)文本工具轉(zhuǎn)化為文字信息后,使用動(dòng)作特征識(shí)別模型獲得通訊內(nèi)容對(duì)應(yīng)的動(dòng)作序列,其中每一個(gè)動(dòng)作采用三元組的形式進(jìn)行描述,通過(guò)這個(gè)動(dòng)作序列和內(nèi)置的動(dòng)作特征風(fēng)險(xiǎn)預(yù)測(cè)器,實(shí)時(shí)評(píng)估通話(huà)及短信中每個(gè)動(dòng)作特征存在詐騙行為的程度,如果當(dāng)前的風(fēng)險(xiǎn)系數(shù)超過(guò)一定閾值,將會(huì)以合適的方式提醒用戶(hù)。本發(fā)明可以實(shí)現(xiàn)快速準(zhǔn)確的防通訊詐騙檢測(cè),提供給民眾一個(gè)通訊保障,減少民眾個(gè)人隱私流失的可能性,并保證了民眾的自有資金安全。
附圖說(shuō)明
圖1是本發(fā)明提供的基于可疑行為識(shí)別的防通訊詐騙方法的流程框圖。
圖2是本發(fā)明實(shí)施例提供的基于可疑行為識(shí)別的防通訊詐騙系統(tǒng)的結(jié)構(gòu)框圖。
圖3是本發(fā)明實(shí)施例根據(jù)文本語(yǔ)料進(jìn)行分詞及語(yǔ)法分析過(guò)程的示意圖。
具體實(shí)施方式
下面結(jié)合附圖,通過(guò)實(shí)施例進(jìn)一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范圍。
本發(fā)明提供一種基于可疑行為識(shí)別的防通訊詐騙方法,通過(guò)識(shí)別通話(huà)語(yǔ)音以及短信內(nèi)容,并使用自然語(yǔ)言處理技術(shù)提取主叫方語(yǔ)音當(dāng)中的動(dòng)作行為特征,每個(gè)行為特征以一個(gè)三元組的形式表達(dá),通話(huà)中的所有行為特征都會(huì)一一進(jìn)行可疑行為識(shí)別并且計(jì)算相應(yīng)的風(fēng)險(xiǎn)預(yù)測(cè)分值,通過(guò)該分值實(shí)現(xiàn)通訊詐騙行為的檢測(cè)和提醒。
圖1是基于可疑行為識(shí)別的防通訊詐騙方法的流程框圖;圖2是基于可疑行為識(shí)別的通訊防詐騙系統(tǒng)的結(jié)構(gòu)框圖。
實(shí)施例提供的基于可疑行為識(shí)別的防通訊詐騙系統(tǒng)以通話(huà)訓(xùn)練數(shù)據(jù)、可疑行為規(guī)則、來(lái)電監(jiān)聽(tīng)語(yǔ)音以及短信內(nèi)容作為數(shù)據(jù)輸入,包括離線(xiàn)訓(xùn)練的動(dòng)作特征識(shí)別模塊、風(fēng)險(xiǎn)預(yù)測(cè)模塊,以及實(shí)時(shí)的防詐騙檢測(cè)模塊。整個(gè)系統(tǒng)的流程如下:
系統(tǒng)流程分為離線(xiàn)模型訓(xùn)練與實(shí)時(shí)防詐騙檢測(cè)階段:離線(xiàn)模型訓(xùn)練階段主要是利用通話(huà)及短信訓(xùn)練數(shù)據(jù)訓(xùn)練動(dòng)作特征識(shí)別模型,然后再結(jié)合可疑行為識(shí)別規(guī)則訓(xùn)練風(fēng)險(xiǎn)預(yù)測(cè)模型;實(shí)時(shí)防詐騙檢測(cè)模塊利用上述的離線(xiàn)模型,根據(jù)來(lái)電主叫方的語(yǔ)音內(nèi)容進(jìn)行通訊詐騙檢測(cè)。
離線(xiàn)模型訓(xùn)練階段首先根據(jù)已經(jīng)標(biāo)注好的通話(huà)及短信內(nèi)容進(jìn)行動(dòng)作特征識(shí)別模型的訓(xùn)練。在該階段,接收基于文本格式的對(duì)話(huà)信息,識(shí)別對(duì)話(huà)中出現(xiàn)的動(dòng)作特征信息,提取特征后訓(xùn)練識(shí)別模型。在訓(xùn)練完成識(shí)別模型之后,再結(jié)合可疑行為規(guī)則數(shù)據(jù),共同訓(xùn)練一個(gè)利用動(dòng)作特征和可疑行為規(guī)則實(shí)現(xiàn)的詐騙風(fēng)險(xiǎn)預(yù)測(cè)模型。動(dòng)作特征識(shí)別模型和詐騙風(fēng)險(xiǎn)預(yù)測(cè)模型,將會(huì)集成到客戶(hù)端軟件中供用戶(hù)在通話(huà)中進(jìn)行實(shí)時(shí)的詐騙檢測(cè)。
實(shí)時(shí)的防通訊詐騙模塊將會(huì)集成在手機(jī)客戶(hù)端當(dāng)中,當(dāng)安裝了客戶(hù)端的手機(jī)收到陌生來(lái)電時(shí),客戶(hù)端軟件將會(huì)監(jiān)聽(tīng)對(duì)方的語(yǔ)音內(nèi)容,通過(guò)語(yǔ)音轉(zhuǎn)文字技術(shù)將語(yǔ)音內(nèi)容轉(zhuǎn)化為文字,并讀取相關(guān)號(hào)碼的來(lái)往短信內(nèi)容,然后利用已經(jīng)集成在客戶(hù)端中的動(dòng)作特征識(shí)別模型提取動(dòng)作特征,隨后把提取出來(lái)的動(dòng)作特征輸入到風(fēng)險(xiǎn)預(yù)測(cè)模型,為每一個(gè)動(dòng)作特征計(jì)算一個(gè)風(fēng)險(xiǎn)預(yù)測(cè)值,并且按照一定規(guī)則累加到總體風(fēng)險(xiǎn)值當(dāng)中,而當(dāng)總體風(fēng)險(xiǎn)值超過(guò)一定閾值后,將會(huì)觸發(fā)提醒事件,提醒注意用戶(hù)鑒別是否為詐騙電話(huà)。
具體地,系統(tǒng)的執(zhí)行流程如圖1所示,包括如下步驟:
首先,離線(xiàn)模型分為基于通話(huà)訓(xùn)練數(shù)據(jù)的動(dòng)作特征提取識(shí)別模型,以及再加入可疑規(guī)則數(shù)據(jù)的風(fēng)險(xiǎn)預(yù)測(cè)模型。首先需要根據(jù)通話(huà)訓(xùn)練數(shù)據(jù)對(duì)動(dòng)作特征提取識(shí)別模型進(jìn)行訓(xùn)練,訓(xùn)練完成后將該部分模型的輸出,以及可疑行為規(guī)則的數(shù)據(jù),同時(shí)作為風(fēng)險(xiǎn)預(yù)測(cè)模型的輸入進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)模型的訓(xùn)練。當(dāng)這兩部分的模型都訓(xùn)練完成后,將會(huì)將其集成到客戶(hù)端軟件中,以提供客戶(hù)端軟件實(shí)時(shí)使用。
當(dāng)用戶(hù)接聽(tīng)了未知來(lái)電的時(shí)候,客戶(hù)端軟件將會(huì)自動(dòng)監(jiān)聽(tīng)主叫方的通話(huà)內(nèi)容以及短信內(nèi)容,其中,通話(huà)語(yǔ)音將實(shí)時(shí)轉(zhuǎn)化為文字信息,語(yǔ)音和短信對(duì)應(yīng)的文字信息則會(huì)調(diào)用集成在客戶(hù)端軟件中已訓(xùn)練好的離線(xiàn)模型進(jìn)行識(shí)別。首先,這些文字信息需要進(jìn)行預(yù)處理,隨后調(diào)用動(dòng)作識(shí)別模型,從文本內(nèi)容中提取出所有的動(dòng)作行為特征,隨后將這些動(dòng)作行為特征傳遞給風(fēng)險(xiǎn)預(yù)測(cè)模塊,計(jì)算每一個(gè)動(dòng)作行為特征的風(fēng)險(xiǎn)值。所有動(dòng)作特征的風(fēng)險(xiǎn)值,都會(huì)按照?qǐng)鼍澳J降牟煌?,累加到總的風(fēng)險(xiǎn)值中,當(dāng)風(fēng)險(xiǎn)值達(dá)到場(chǎng)景模式中設(shè)置的某些閾值時(shí),將會(huì)觸發(fā)對(duì)應(yīng)的提醒事項(xiàng)。
本實(shí)施例提供的基于可疑行為識(shí)別的防通訊詐騙系統(tǒng)中,各個(gè)模塊的操作通過(guò)與其他相關(guān)模塊進(jìn)行信息交互來(lái)完成,下面分別對(duì)不同的模塊進(jìn)行具體說(shuō)明。
s1)離線(xiàn)模型訓(xùn)練模塊
離線(xiàn)訓(xùn)練模塊的主要功能是接收通話(huà)訓(xùn)練數(shù)據(jù)以及可疑規(guī)則數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,通過(guò)自然語(yǔ)言對(duì)文本內(nèi)容進(jìn)行分詞、詞性標(biāo)注以及語(yǔ)法樹(shù)構(gòu)建,通過(guò)動(dòng)作特征識(shí)別器,使用語(yǔ)法樹(shù)的方式從中提取文本中包含動(dòng)作的三元組信息作為特征,然后再使用風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器進(jìn)行訓(xùn)練,并且選取r2最高且平均誤差最小的模型作為最終的離線(xiàn)模型。具體來(lái)說(shuō),該部分包含動(dòng)作特征識(shí)別訓(xùn)練器和風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器兩個(gè)子模塊:
s11)動(dòng)作特征識(shí)別器
動(dòng)作特征識(shí)別器主要接受基于文本格式的已標(biāo)注通話(huà)訓(xùn)練數(shù)據(jù)。其中語(yǔ)音部分對(duì)應(yīng)的數(shù)據(jù)維度如表1所示。
表1通話(huà)訓(xùn)練數(shù)據(jù)格式舉例
如表1所示,語(yǔ)音部分對(duì)應(yīng)的數(shù)據(jù)維度包括通話(huà)id、通話(huà)類(lèi)型、開(kāi)始時(shí)間、結(jié)束時(shí)間、通話(huà)內(nèi)容以及動(dòng)作特征。其中,通話(huà)id標(biāo)識(shí)某一特定的通話(huà),所有該通話(huà)內(nèi)的數(shù)據(jù)都使用一個(gè)共同的id,通話(huà)內(nèi)容是在該條數(shù)據(jù)的開(kāi)始時(shí)間至結(jié)束時(shí)間之間,通話(huà)方在通話(huà)中說(shuō)話(huà)的內(nèi)容;動(dòng)作特征是一個(gè)三元組,用于描述一個(gè)特定的動(dòng)作的主體是誰(shuí)、動(dòng)作是什么的以及行動(dòng)的對(duì)象是誰(shuí),三元組具體的內(nèi)容和結(jié)構(gòu)如表2所示。
表2動(dòng)作三元組結(jié)構(gòu)
接收到通話(huà)訓(xùn)練數(shù)據(jù),首先將文本形式的通話(huà)和短信內(nèi)容進(jìn)行分詞,并且進(jìn)行詞性標(biāo)注和詞與詞之間的語(yǔ)法樹(shù)分析(或稱(chēng)為句子結(jié)構(gòu)分析)。其中,分詞是指將文本內(nèi)容從句子的形式,轉(zhuǎn)變?yōu)橐粋€(gè)個(gè)獨(dú)立的詞語(yǔ);詞性標(biāo)注的工作是已為分好的詞語(yǔ),標(biāo)注特定的、符合其含義的詞性;語(yǔ)法樹(shù)分析的工作則是找到這句話(huà)的主語(yǔ)、賓語(yǔ)、謂語(yǔ)等語(yǔ)法結(jié)構(gòu),形成一個(gè)語(yǔ)法樹(shù),圖3是通話(huà)文本內(nèi)容經(jīng)過(guò)文本處理后的示意圖。隨后,通過(guò)相應(yīng)的算法從通話(huà)內(nèi)容對(duì)應(yīng)的文本樹(shù)當(dāng)中抽取動(dòng)作特征三元組,然后根據(jù)實(shí)際的動(dòng)作特征三元組計(jì)算誤差值,并且整個(gè)流程通過(guò)不斷的訓(xùn)練參數(shù),最終選擇一個(gè)誤差最小的模型作為最后模型。
s12)風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器
風(fēng)險(xiǎn)預(yù)測(cè)器的主要功能是,接收包含動(dòng)作特征識(shí)別出動(dòng)作特征三元組的通話(huà)訓(xùn)練數(shù)據(jù)集和可疑行為規(guī)則并合并形成一個(gè)數(shù)據(jù)集,利用該數(shù)據(jù)集進(jìn)行風(fēng)險(xiǎn)預(yù)測(cè)模型訓(xùn)練。其中,特征規(guī)則的構(gòu)成和上述的動(dòng)作特征形式近似,都為一個(gè)三元組,且三元組的構(gòu)造都是動(dòng)作主體、動(dòng)作內(nèi)容和相關(guān)實(shí)體。特征規(guī)則三元組和動(dòng)作特征三元組的區(qū)別在于動(dòng)作特征三元組里面的內(nèi)容是一些相對(duì)具體的詞,而特征規(guī)則的三元組里面的內(nèi)容是泛化的、包含一系列具體的詞的集合。具體的特征規(guī)則構(gòu)造結(jié)合和實(shí)例如表3所示。
表3特征規(guī)則三元組結(jié)構(gòu)
訓(xùn)練的過(guò)程,需要首先將上述通話(huà)訓(xùn)練數(shù)據(jù)集和特征規(guī)則合并成一個(gè)數(shù)據(jù)集,合并后的數(shù)據(jù)集按照一定比例,劃分為訓(xùn)練集和測(cè)試集,一般來(lái)說(shuō),訓(xùn)練集的數(shù)據(jù)量要大于測(cè)試數(shù)據(jù)集的數(shù)據(jù)量,訓(xùn)練集用于訓(xùn)練預(yù)測(cè)模型,測(cè)試集用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果和調(diào)節(jié)參數(shù)。一般來(lái)說(shuō),訓(xùn)練可以使用諸如adaboost、線(xiàn)性回歸、人工神經(jīng)網(wǎng)絡(luò)ann等機(jī)器學(xué)習(xí)回歸方法,以及如word2vec、lda等在內(nèi)的一些詞嵌入方法來(lái)將詞匯轉(zhuǎn)化成數(shù)值的方法來(lái)訓(xùn)練該預(yù)測(cè)模型,此后,使用測(cè)試集輸入到訓(xùn)練好的模型中得到預(yù)測(cè)結(jié)果,并且使用r2和均方誤差兩個(gè)指標(biāo)來(lái)計(jì)算預(yù)測(cè)結(jié)果的好壞,評(píng)估模型的性能。
在本實(shí)施例當(dāng)中,采用word2vec將文本內(nèi)容轉(zhuǎn)換成數(shù)值特征,并用線(xiàn)性回歸方程的方法作為實(shí)例,說(shuō)明風(fēng)險(xiǎn)預(yù)測(cè)模型的訓(xùn)練過(guò)程。word2vec是一種利用深度學(xué)習(xí)的思想,通過(guò)模型的訓(xùn)練,將文本內(nèi)容簡(jiǎn)化為k維向量空間中的向量,使得我們可以基于文本做包含聚類(lèi)、同義詞等工作。
此處以采用線(xiàn)性回歸算法為例,說(shuō)明詐騙風(fēng)險(xiǎn)預(yù)測(cè)模型的訓(xùn)練步驟。
上述步驟8中,預(yù)測(cè)器根據(jù)當(dāng)前的參數(shù)w和b估算預(yù)測(cè)值的公式為式3:
其中xj為當(dāng)前訓(xùn)練迭代時(shí)采樣的訓(xùn)練數(shù)據(jù)集di中第j條訓(xùn)練數(shù)據(jù),w和b為線(xiàn)性回歸模型里面的兩個(gè)參數(shù),w的維度和數(shù)據(jù)集里xj的特征維度一致,b為一個(gè)單值;
上述步驟10中,計(jì)算預(yù)測(cè)值和真實(shí)值的誤差的公式為式4:
其中εi表示風(fēng)險(xiǎn)預(yù)測(cè)期在當(dāng)前訓(xùn)練迭代時(shí)的誤差,
上述步驟11中,確定當(dāng)且步驟更新參數(shù)時(shí)所使用的學(xué)習(xí)率的計(jì)算公式是式5:
lri=max(minlr,lr0*decay_ratei-1)(式5)
lri其中代表當(dāng)前的學(xué)習(xí)率,max()代表選擇二者最高的函數(shù),minlr為指定的一個(gè)最小學(xué)習(xí)率,而lr0代表初始學(xué)習(xí)率,decay_rate代表學(xué)習(xí)率的衰減程度。
上述步驟12中,根據(jù)當(dāng)前學(xué)習(xí)率和誤差對(duì)參數(shù)w進(jìn)行更新的公式是式6:
其中l(wèi)ri為當(dāng)前的學(xué)習(xí)率,εi為當(dāng)前的平均誤差,
上述步驟13中,根據(jù)但錢(qián)學(xué)習(xí)率和誤差對(duì)參數(shù)b進(jìn)行更新的公式是式7:
其中l(wèi)ri為當(dāng)前的學(xué)習(xí)率,εi為當(dāng)前的平均誤差,
s2)實(shí)時(shí)防詐騙模塊
實(shí)時(shí)防詐騙模塊是集成在客戶(hù)端軟件當(dāng)中的,實(shí)時(shí)防詐騙模塊利用離線(xiàn)訓(xùn)練模塊訓(xùn)練好的模型,并通過(guò)監(jiān)聽(tīng)用戶(hù)來(lái)電通話(huà)內(nèi)容和短信內(nèi)容,實(shí)時(shí)的預(yù)測(cè)用戶(hù)通話(huà)詐騙的風(fēng)險(xiǎn)程度,并按照不同的場(chǎng)景規(guī)則,實(shí)時(shí)的提醒用戶(hù)。
s21)語(yǔ)音轉(zhuǎn)文本模塊
實(shí)時(shí)防詐騙模塊的輸入來(lái)自用戶(hù)的通話(huà)或者短信,其中短信直接是以文本形式表述,不需要做額外的處理,但是來(lái)自通話(huà)中的語(yǔ)音內(nèi)容并不能直接使用,必須要經(jīng)過(guò)語(yǔ)音轉(zhuǎn)文本的工作。
語(yǔ)音轉(zhuǎn)文本模塊的語(yǔ)音輸入來(lái)自于客戶(hù)端監(jiān)聽(tīng)的語(yǔ)音對(duì)話(huà)內(nèi)容,并且調(diào)用相應(yīng)的算法和模型輸出識(shí)別的結(jié)果。輸出的結(jié)果,按照句子為單位,并且在構(gòu)造id時(shí)使用d作為標(biāo)識(shí)符,分別輸出這句話(huà)的開(kāi)始時(shí)間、結(jié)束時(shí)間、文本內(nèi)容、說(shuō)話(huà)人等信息,具體的形式和示例如表4所示。
表4語(yǔ)音轉(zhuǎn)文本輸出示例
s22)對(duì)話(huà)內(nèi)容處理模塊
為了提高識(shí)別的準(zhǔn)確性,本發(fā)明提出的行為檢測(cè)模塊在檢測(cè)語(yǔ)音的同時(shí),也會(huì)同時(shí)讀取短信內(nèi)容,用以加強(qiáng)詐騙行為檢測(cè)的準(zhǔn)確性。對(duì)話(huà)內(nèi)容處理模塊接收語(yǔ)音轉(zhuǎn)文字模塊所識(shí)別出來(lái)文字內(nèi)容,并且監(jiān)聽(tīng)用戶(hù)的短信內(nèi)容并將短信的內(nèi)容按照時(shí)間插入到整個(gè)對(duì)話(huà)時(shí)間線(xiàn)當(dāng)中,并且以m作為id的標(biāo)識(shí)符。例如,針對(duì)上述表4語(yǔ)音轉(zhuǎn)文本的通話(huà)識(shí)別結(jié)果,再經(jīng)過(guò)對(duì)話(huà)內(nèi)容處理模塊后,將會(huì)加入短信結(jié)果,并入表5所示。
表5對(duì)話(huà)內(nèi)容處理后結(jié)果實(shí)例
s23)實(shí)時(shí)詐騙識(shí)別模型
實(shí)時(shí)詐騙識(shí)別模型是使用離線(xiàn)模塊訓(xùn)練好的動(dòng)作特征識(shí)別模型以及風(fēng)險(xiǎn)預(yù)測(cè)模型,并實(shí)時(shí)接收由對(duì)話(huà)內(nèi)容處理模塊按照時(shí)間順序輸出的對(duì)話(huà)條目信息,實(shí)時(shí)的進(jìn)行詐騙風(fēng)險(xiǎn)的預(yù)測(cè)。實(shí)施詐騙識(shí)別模型,首先調(diào)用動(dòng)作特征識(shí)別模型提取每一個(gè)對(duì)話(huà)條目的動(dòng)作特征三元組,隨后使用風(fēng)險(xiǎn)預(yù)測(cè)模型實(shí)時(shí)的計(jì)算該句對(duì)話(huà)的詐騙風(fēng)險(xiǎn)值。實(shí)時(shí)詐騙模型將會(huì)將每一個(gè)條目的風(fēng)險(xiǎn)值,按照一定方法累加計(jì)算,使得在當(dāng)前的最新時(shí)刻都有一個(gè)可以衡量總體風(fēng)險(xiǎn)值的分值。實(shí)時(shí)防詐騙模型的識(shí)別示意可如表6所示:
表6實(shí)時(shí)防詐騙工作格式舉例
其中上表6中的對(duì)話(huà)內(nèi)容部分同表5對(duì)應(yīng)id,總風(fēng)險(xiǎn)預(yù)測(cè)值的計(jì)算方式如式8:
total_scoret=α*total_scoret-1+β*current_score(式8)
其中total_scoret表示在時(shí)刻時(shí)候的累加分?jǐn)?shù)值,由上一時(shí)刻的分?jǐn)?shù)total_scoret-1和當(dāng)前時(shí)刻動(dòng)作特征產(chǎn)生的分?jǐn)?shù)current_score的加權(quán)求和而成,α和β分別為上一時(shí)刻分值total_scoret-1和當(dāng)前新增特征對(duì)應(yīng)分值current_score的系數(shù)。在表6中,α和β的系數(shù)分別為0.667和0.9。
下面結(jié)合實(shí)施例說(shuō)明本發(fā)明的具體實(shí)施步驟:
在離線(xiàn)模型訓(xùn)練階段,收集100條詐騙及100條正常的通訊對(duì)話(huà)內(nèi)容(其中每個(gè)內(nèi)容包含若干語(yǔ)音和短信),并將其作為訓(xùn)練數(shù)據(jù)集。首先使用文本預(yù)處理模塊對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理,然后將數(shù)據(jù)輸入到動(dòng)作特征提取器進(jìn)行訓(xùn)練并且得到每個(gè)通訊記錄的動(dòng)作特征集合,并將這些動(dòng)作特征數(shù)據(jù)輸入到風(fēng)險(xiǎn)預(yù)測(cè)訓(xùn)練器,并進(jìn)行訓(xùn)練。結(jié)合線(xiàn)性回歸的方法,設(shè)定迭代次數(shù)為2000,并使用如上的算法1進(jìn)行訓(xùn)練,最后選擇誤差最小時(shí)的參數(shù)作為最終參數(shù),并得到模型,供客戶(hù)端使用。
在實(shí)時(shí)預(yù)測(cè)階段,客戶(hù)端(安卓)需要申請(qǐng)用戶(hù)手機(jī)的短信讀取權(quán)限以及電話(huà)聲音錄音權(quán)限,在用戶(hù)接收到未接來(lái)電時(shí),將會(huì)通過(guò)這兩個(gè)權(quán)限獲取對(duì)話(huà)語(yǔ)音和短信,然后利用離線(xiàn)模型訓(xùn)練得到的模型進(jìn)行預(yù)測(cè)。
為驗(yàn)證本方法的有效性,通過(guò)真人場(chǎng)景模擬的方式,模擬詐騙和非詐騙場(chǎng)景的對(duì)話(huà)與短信,并使用本文提出的方法進(jìn)行預(yù)測(cè),利用本文所提出的方法在詐騙場(chǎng)景的對(duì)話(huà)中均會(huì)發(fā)出相應(yīng)的提示信息,說(shuō)明本方法能夠識(shí)別一定程度的通訊詐騙信息。
需要注意的是,公布實(shí)施例的目的在于幫助進(jìn)一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實(shí)施例所公開(kāi)的內(nèi)容,本發(fā)明要求保護(hù)的范圍以權(quán)利要求書(shū)界定的范圍為準(zhǔn)。