本發(fā)明屬于人工智能技術領域,具體涉及一種用于電子商務虛假交易的識別方法、系統(tǒng)及電子商務系統(tǒng)。
背景技術:
企業(yè)電子商務平臺是建立在互聯(lián)網上的管理環(huán)境,通過該平臺進行商務活動保證商務順利運營,區(qū)別于傳統(tǒng)意義的平臺,企業(yè)電子商務平臺是虛擬的網絡空間,它不受時間和空間的限制,具有高效性和直通性。電子商務平臺不僅能對供應鏈上的各種資源進行優(yōu)化整合,還能有效及時響應用戶需求,挖掘用戶潛在需求,能在鏈條的雙向上創(chuàng)造價值。
但是,電子商務平臺在提高交易效益的同時,也存在自身的一些缺陷,其中最重要的是線上虛假交易無法很好的識別,虛假交易不僅污染了真實的交易數(shù)據(jù),也給加大了政府和企業(yè)的決策難度。例如,交易平臺中的店家通過付款請人假扮顧客,用以假亂真的購物方式提高網店的排名和銷量獲取銷量及好評吸引顧客,通過這種方式,網店可以獲得較好的搜索排名以及改變店鋪的信譽,平臺企業(yè)以及消費者越來越難對這類店鋪進行有效的識別。因此,虛假交易識別越來越成為電子商務平臺亟需解決的重要問題之一。
技術實現(xiàn)要素:
本發(fā)明的目的之一在于克服以上缺點,提供一種用于識別電子商務訂單中的虛假交易的方法。
為了解決上述技術問題,本發(fā)明提供了一種用于電子商務虛假交易的識別方法,包括以下步驟:
確定分析虛擬交易所需的特征,并計算所需的特征基準值;
基于所述分析虛擬交易所需的特征,生成虛假交易推理規(guī)則;
根據(jù)所述虛假交易推理規(guī)則,判斷電子商務訂單是否為虛假交易。
通過分析確定虛擬交易的特征屬性,并根據(jù)特征屬性形成一套完整的虛假交易推理規(guī)則,再根據(jù)推理規(guī)則對電子商務訂單進行判斷,可識別出虛假交易訂單,便于對虛假訂單進行后續(xù)處理,保證交易數(shù)據(jù)的真實性和可靠性。
進一步地,所述的用于電子商務虛假交易的識別方法,還包括以下步驟:
對判斷為虛假交易的電子商務訂單進行處理。
進一步地,所述的用于電子商務虛假交易的識別方法,還包括以下步驟:
通過重新計算所述分析虛擬交易所需的特征基準值和/或更新所述虛假交易推理規(guī)則,進行學習和優(yōu)化。
本發(fā)明的方法可以通過不斷地學習對知識庫和推理規(guī)則庫進行更新和優(yōu)化,提高虛假交易識別的準確性。
進一步地,所述分析虛擬交易所需的特征基準值,是通過邏輯回歸決策樹算法進行計算,具體步驟為:
確定影響所述分析虛擬交易所需的特征的因素字段,利用因素字段構造樹形圖;
從樹形圖中的最底層進行邏輯回歸分析,至下而上逐層匯總;
將回歸匯總好的樹進行保存;
更換因素字段的排列順序,重新進行上述處理,直至所需的排列順序都處理完成。
本發(fā)明技術方案通過采用邏輯回歸決策樹算法可以支持在某些因素字段為空時,可根據(jù)其他非空的因素字段信息技術特征基準值,增強基準值計算的兼容性。
相應地,本發(fā)明還提供了一種用于電子商務虛假交易的識別系統(tǒng),包括:
第一處理模塊,用于確定分析虛擬交易所需的特征,并計算所需的特征基準值;
第二處理模塊,用于基于所述分析虛擬交易所需的特征,生成虛假交易推理規(guī)則;
第三處理模塊,用于根據(jù)所述虛假交易推理規(guī)則,判斷電子商務訂單是否為虛假交易。
進一步地,所述的用于電子商務虛假交易的識別系統(tǒng),還包括:
第四處理模塊,用于對判斷為虛假交易的電子商務訂單進行處理。
進一步地,所述的用于電子商務虛假交易的識別系統(tǒng),還包括:
第五處理模塊,用于通過重新計算所述分析虛擬交易所需的特征基準值和/或更新所述虛假交易推理規(guī)則,進行學習和優(yōu)化。
進一步地,所述分析虛擬交易所需的特征基準值,是通過邏輯回歸決策樹算法進行計算,具體步驟為:
確定影響所述分析虛擬交易所需的特征的因素字段,利用因素字段構造樹形圖;
從樹形圖中的最底層進行邏輯回歸分析,至下而上逐層匯總;
將回歸匯總好的樹進行保存;
更換因素字段的排列順序,重新進行上述處理,直至所需的排列順序都處理完成。
相應地,本發(fā)明還提供了一種電子商務系統(tǒng),包含上述的用于電子商務虛假交易的識別系統(tǒng)。
綜上所述,本發(fā)明技術方案的有益效果有:
1.通過分析確定虛擬交易的特征屬性,并根據(jù)特征屬性形成一套完整的虛假交易推理規(guī)則,再根據(jù)推理規(guī)則對電子商務訂單進行判斷,可識別出虛假交易訂單,便于對虛假訂單進行后續(xù)處理,保證交易數(shù)據(jù)的真實性和可靠性。
2.可以通過不斷地學習對知識庫和推理規(guī)則庫進行更新和優(yōu)化,提高虛假交易識別的準確性。
3.通過采用邏輯回歸決策樹算法可以支持在某些因素字段為空時,可根據(jù)其他非空的因素字段信息技術特征基準值,增強基準值計算的兼容性。
附圖說明
圖1是本發(fā)明的一種用于電子商務虛假交易的識別方法步驟流程圖。
圖2是本發(fā)明的一種用于電子商務虛假交易的識別系統(tǒng)結構圖。
圖3是本發(fā)明的一種電子商務系統(tǒng)結構圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
如圖1,是本發(fā)明的一種用于電子商務虛假交易的識別方法步驟流程圖,包括以下步驟:
步驟1、確定分析虛擬交易所需的特征,并計算所需的特征基準值;
電子商務通常是指在全球各地廣泛的商業(yè)貿易活動中,在因特網開放的網絡環(huán)境下,基于瀏覽器/服務器應用方式,買賣雙方不謀面地進行各種商貿活動,實現(xiàn)消費者的網上購物、商戶之間的網上交易和在線電子支付以及各種商務活動、交易活動、金融活動和相關的綜合服務活動的一種新型的商業(yè)運營模式,通常由平臺、消費者、產品、物流等幾大要素組成。
識別電子商務活動中的虛假交易記錄是一個復雜的過程,涉及概率論、統(tǒng)計學、語義網絡、推理系統(tǒng)等多門學科的知識內容。首先,需要確定哪些電子商務交易活動中的業(yè)務特征屬性可以用于判斷虛假交易,這些業(yè)務特征屬性可以是交易過程中的任意信息,例如,用戶信息,包括用戶性別,電話,住址等;商品信息,包括商品名稱,價格,受歡迎程度等;物流信息,包括收件地址,物流接收時間等。這類信息通常采用語義網絡中的謂詞邏輯進行描述,返回一個是或否的結果,例如:根據(jù)客戶編號判斷客戶是否為黑名單,根據(jù)客戶編號判斷是否為女性顧客,根據(jù)商品編號判斷是否為受歡迎的商品等等。
另外,判斷虛假交易的特征屬性還可以是統(tǒng)計匯總信息,例如,用戶平均頁面停留時間,用戶平均咨詢時間等,可以通過交易記錄的歷史信息進行匯總統(tǒng)計;但是在實際應用中,還有些特征值是無法通過直接計算得到的,例如,判斷顧客在商品頁面的停留時間是否為正常,不能簡單地將停留時間與平均停留時間進行判斷,而可能和顧客的性別有關,因為女性顧客停留時間會比男性顧客長;還可能和顧客訪問的商品價值有關;還可能和顧客訪問的時間段有關系等等。因此通常一個特征信息的基準值計算,會與其他若干個因素相關,這就需要用到概率學的方法。
在一具體的實施例中,本發(fā)明的用于電子商務虛假交易的識別方法,通過邏輯回歸決策樹算法計算分析虛擬交易所需的特征基準值,具體步驟為:
步驟101、確定影響所述分析虛擬交易所需的特征的因素字段,利用因素字段構造樹形圖;
決策樹是使用類似于一棵樹的結構來表示類的劃分,樹的構建是因素字段選擇的過程,內部節(jié)點表示樹選擇哪幾個因素字段作為劃分,每棵樹的葉節(jié)點表示為一個類的標號,樹的最頂層為根節(jié)點。決策樹算法屬于有指導的學習,即原數(shù)據(jù)必須包含預測變量和目標變量。決策樹分為分類決策樹和回歸決策樹,本發(fā)明采用的是回歸決策樹。構造一棵決策樹需要一個訓練集,訓練集是由一些例子組成,本發(fā)明中訓練集為現(xiàn)有電子商務系統(tǒng)數(shù)據(jù),包括交易數(shù)據(jù),用戶數(shù)據(jù),產品數(shù)據(jù),物流數(shù)據(jù)等等,每個例子用一些因素字段和一個目標特征基準值來描述。構造決策樹的目的是找出因素字段和目標特征基準值間的關系,一旦這種關系找出,就能用它來預測將來未知類別的記錄的類別。
使用邏輯回歸研究某一現(xiàn)象的概率的大小,是一個二進制變量,只有是和否兩個值,非常適合建立基準。例如,計算顧客在商品頁面的停留時間是否為正常的基準值,先確定與其相關的因素:顧客性別,商品價格,顧客訪問時間段,商品是否為受歡迎,并按照某一順序構造回歸樹形圖。通常,采用的因素字段越多,通過邏輯回歸決策樹預測的基準值越準確,同時生成決策樹越大。
步驟102、從樹形圖中的最底層進行邏輯回歸分析,至下而上逐層匯總;
通過從樹形圖葉子節(jié)點向上至根節(jié)點進行邏輯回歸決策樹的構造,即由葉子節(jié)點的各個因素字段匯總出根節(jié)點的特征基準值。步驟103、將回歸匯總好的樹進行保存;通常采用計算機某種數(shù)據(jù)結構方式存儲在數(shù)據(jù)庫。
步驟104、更換因素字段的排列順序,重新進行上述處理,直至所需的排列順序都處理完成。
在實際的應用場景中,可能存在因素字段值為空的情況,導致不能用所有的影響因素進行計算基準值,因為如果樹形結構中某個根節(jié)點為空的話,就無法進行邏輯回歸分析,例如,有的顧客沒有登記性別信息,計算顧客在商品頁面的停留時間是否為正常的基準值,就只能通過商品價格,顧客訪問時間段,商品是否為受歡迎這幾個影響因素進行計算。為解決這個問題,本發(fā)明的技術方案采用改變字段順序構造回歸樹的方式進行處理,使得樹形根節(jié)點均為非空值。另外,回歸樹的構造與影響因素的順序有關,如果有n個影響因素與概率p相關,就總共可以構造n!個回歸樹,這在實際的應用中是不切實際的,例如,如果有10個因素字段,就可以構造10!個回歸樹,構造并存儲全部的回歸樹將占用大量的存儲空間,本發(fā)明的技術方案只對最常用的回歸樹進行存儲,能夠較好的實現(xiàn)存儲與處理速度之間的平衡。
由于回歸樹的建立就是為了對一個具體的實例進行特征基準值的預測計算,在實際使用時候,根據(jù)具體實例的影響因素字段情況,選擇合適的回歸樹進行基準值預測計算。
步驟2、基于所述分析虛擬交易所需的特征,生成虛假交易推理規(guī)則;
在確定了分析虛擬交易所需的特征之后,需要根據(jù)這些特征確定判斷虛假交易的推理規(guī)則集合,由推理規(guī)則集合共同判斷電子商務訂單是否為虛假交易。例如,虛假交易的推理規(guī)則集合可以包括以下規(guī)則:如果顧客屬于黑名單,那么所有交易均為虛假交易;如果商品重量很重并且物流費用很低,則為虛假交易;如果確認收貨時間太短,則為虛假交易。同時,多條推理規(guī)則之間也可以存在推理的邏輯順序。
步驟3、根據(jù)所述虛假交易推理規(guī)則,判斷電子商務訂單是否為虛假交易。
對于電子商務系統(tǒng)的每一筆訂單,都必須通過本推理步驟進行虛假交易的判斷,即按照每個推理規(guī)則公式,提取每筆訂單的相應特征信息,得出推理結果從而判斷是否為虛假交易。例如,對于推理規(guī)則:如果顧客屬于黑名單,那么所有交易均為虛假交易,需要根據(jù)實際訂單中的顧客信息,去電子商務平臺的黑名單信息進行匹配查詢,若能匹配,說明該顧客為黑名單用戶,推理結果為:交易為虛假交易;又如,對于推理規(guī)則:如果商品重量很重并且物流費用很低,則為虛假交易,則提取訂單商品的重量特征信息和物流費用特征信息,如果商品是重量大,并且物流費用低,則推理為虛假交易。其中,商品重量是否大以及物流費用是否低,均可以采用前述邏輯回歸決策樹算法進行計算基準值。
在一優(yōu)選的實施例中,本發(fā)明的用于電子商務虛假交易的識別方法,還可以包括以下步驟:對判斷為虛假交易的電子商務訂單進行處理。例如,可以是對虛假交易訂單進行取消和回滾操作;還可以是將這些虛假交易訂單進行標識,平臺的收入或交易報表數(shù)據(jù)過濾這部分數(shù)據(jù),使得報表結果更加真實。
在另一優(yōu)選的實施例中,本發(fā)明的用于電子商務虛假交易的識別方法,還包括以下步驟:通過重新計算所述分析虛擬交易所需的特征基準值和/或更新所述虛假交易推理規(guī)則,進行學習和優(yōu)化。一方面,某些判斷虛假交易的特征屬性值是通過交易數(shù)據(jù)匯總出來的,如平均頁面停留時間等,可根據(jù)新的交易記錄進行重新計算;另一方面,某些判斷虛假交易的特征屬性值,例如,顧客在商品頁面的停留時間是否為正常,若影響其的因素發(fā)生了變化,則需要重新采用邏輯回歸決策樹算法計算特征基準值;另外,用于判斷是否為虛假交易的推理規(guī)則也并非一成不變,當有更加合理的推理規(guī)則時,也可更新至推理規(guī)則庫,提高推理的準確性。
如圖2,是本發(fā)明的一種用于電子商務虛假交易的識別系統(tǒng)結構圖,包括:
第一處理模塊,用于確定分析虛擬交易所需的特征,并計算所需的特征基準值;確定哪些電子商務交易活動中的業(yè)務特征屬性可以用于判斷虛假交易,這些業(yè)務特征屬性可以是交易過程中的任意信息,還可以是統(tǒng)計匯總信息。
其中,分析虛擬交易所需的特征基準值,是通過邏輯回歸決策樹算法進行計算,具體步驟為:確定影響所述分析虛擬交易所需的特征的因素字段,利用因素字段構造樹形圖;從樹形圖中的最底層進行邏輯回歸分析,至下而上逐層匯總;將回歸匯總好的樹進行保存;更換因素字段的排列順序,重新進行上述處理,直至所需的排列順序都處理完成。通過采用邏輯回歸決策樹算法可以支持在某些因素字段為空時,可根據(jù)其他非空的因素字段信息技術特征基準值,增強基準值計算的兼容性
第二處理模塊,用于基于所述分析虛擬交易所需的特征,生成虛假交易推理規(guī)則;在確定了分析虛擬交易所需的特征之后,需要根據(jù)這些特征生成判斷虛假交易的推理規(guī)則集合,由推理規(guī)則集合共同判斷電子商務訂單是否為虛假交易。具體的推理規(guī)則集合可以通過人為定義,也可以從現(xiàn)有的知識經驗庫導入。
第三處理模塊,用于根據(jù)所述虛假交易推理規(guī)則,判斷電子商務訂單是否為虛假交易。對于電子商務系統(tǒng)的每一筆訂單,都必須通過本模塊進行虛假交易的判斷,即按照每個推理規(guī)則公式,提取每筆訂單的相應特征信息,得出推理結果從而判斷是否為虛假交易。
在一優(yōu)選的實施例中,本發(fā)明的用于電子商務虛假交易的識別系統(tǒng),還包括:第四處理模塊,用于對判斷為虛假交易的電子商務訂單進行處理??梢允菍μ摷俳灰子唵芜M行取消和回滾操作;還可以是將這些虛假交易訂單進行標識,報表數(shù)據(jù)過濾這部分數(shù)據(jù)。
在一優(yōu)選的實施例中,本發(fā)明的用于電子商務虛假交易的識別系統(tǒng),還可以包括:第五處理模塊,用于通過重新計算所述分析虛擬交易所需的特征基準值和/或更新所述虛假交易推理規(guī)則,進行學習和優(yōu)化,包括:重新匯總虛假交易的特征屬性值;重新采用邏輯回歸決策樹算法計算特征基準值;更新推理規(guī)則集合。通過不斷地學習對知識庫和推理規(guī)則庫進行更新和優(yōu)化,提高虛假交易識別的準確性。
如圖3,是本發(fā)明的一種電子商務系統(tǒng)結構圖,包含本發(fā)明的用于電子商務虛假交易的識別系統(tǒng)。
例如,某一電子商務系統(tǒng),包括了以下三個部分,客戶端,平臺系統(tǒng)以及本發(fā)明的用于電子商務虛假交易的識別系統(tǒng)??蛻舳酥饕獮轭櫩驮L問提供支持,包括http網頁客戶端,pc端應用程序,智能設備(智能手機,平板電腦)app應用程序等。平臺系統(tǒng)主要提供電子商務平臺支撐,可以包含物流系統(tǒng)、訂單系統(tǒng),客戶系統(tǒng),股票系統(tǒng),產品系統(tǒng)和評價系統(tǒng)等等子系統(tǒng)。通過包含本發(fā)明的用于電子商務虛假交易的識別系統(tǒng),該電子商務平臺可對虛假交易訂單進行識別,具體方式為:第一處理模塊,確定分析虛擬交易所需的特征,并通過連接平臺系統(tǒng)獲取交易信息,計算所需的特征基準值;第二處理模塊,基于所述分析虛擬交易所需的特征,生成虛假交易推理規(guī)則;第三處理模塊,根據(jù)所述虛假交易推理規(guī)則,判斷每一筆電子商務訂單是否為虛假交易,得出推理結果;第四處理模塊,對判斷為虛假交易的電子商務訂單進行取消和回滾操作處理;第五處理模塊,連接平臺系統(tǒng)獲取最新的交易數(shù)據(jù),通過重新計算所述分析虛擬交易所需的特征基準值和/或更新所述虛假交易推理規(guī)則,進行學習和優(yōu)化,提高后續(xù)推理的準確性。
總之,在任何需要對交易是否真實進行判斷的電子商務平臺,均可以使用本發(fā)明的用于電子商務虛假交易的識別系統(tǒng)。
上述具體實施方式只是對本發(fā)明的技術方案進行詳細解釋,本發(fā)明并不只僅僅局限于上述實施例,凡是依據(jù)本發(fā)明原理的任何改進或替換,均應在本發(fā)明的保護范圍之內。