專利名稱:一種數(shù)據(jù)的識別處理方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,尤其是互聯(lián)網(wǎng)聯(lián)盟廣告技術(shù)領(lǐng)域,涉及一種數(shù)據(jù)的識別處理方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)廣告市場規(guī)模發(fā)展迅猛,在廣告業(yè)中占據(jù)著越加重要的位置。網(wǎng)站聯(lián)盟作為互聯(lián)網(wǎng)廣告中最為重要的形式之一,因為其覆蓋面廣、精準度高和實時靈活性而倍受關(guān)注。同時,該廣告形式也面臨著廣告欺詐的困擾。
廣告欺詐是指網(wǎng)民受金錢、利益等吸引對網(wǎng)絡(luò)廣告進行惡意反復(fù)點擊或顯示的行為,以達到收獲金錢或打壓競爭對手等目的。廣告欺詐在消耗廣告主費用的同時,也嚴重影響了廣告客戶對這一新興的網(wǎng)絡(luò)市場銷售工具的信心,對整個互聯(lián)網(wǎng)廣告行業(yè)產(chǎn)生著非常消極的影響,甚至可能影響到這一模式的生存發(fā)展。因此,如何實時、準確的識別廣告欺詐,這對網(wǎng)站聯(lián)盟的健康快速發(fā)展有著非常重要的影響。目前技術(shù)解決該問題的方法主要有兩種一是從流量監(jiān)控角度,對重復(fù)流量進行阻止或不予計費。該方法對于一些通過軟件或雇傭人力不斷重復(fù)刷新的欺詐行為有領(lǐng)好效果,但對于如今更為智能的欺詐行為,如點擊聯(lián)盟等,則收效甚微;另一種解決方式是采用對獲取的用戶訪問數(shù)據(jù)依一定算法進行分析,對欺詐行為進行實時反饋和組織。然而,由于該類算法主要進行實時分析與反饋,數(shù)據(jù)和識別力度的有限,導(dǎo)致其識別準確率也同樣有限。并且,對于聯(lián)盟中不可小覷的作弊群體和站點,其也無法進行有效識別。故,實有必要進行研究,提供一種解決方案,解決目前的互聯(lián)網(wǎng)廣告欺詐的識別方法響應(yīng)速度和識別準確性有限的問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明的目的在于提供一種數(shù)據(jù)的識別處理方法,以準確識別互聯(lián)網(wǎng)廣告欺詐,且快速響應(yīng)互聯(lián)網(wǎng)廣告欺詐的識別。為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案為一種數(shù)據(jù)的識別處理方法,包括如下步驟S10:對數(shù)據(jù)進行實時識別,并將識別出的欺詐數(shù)據(jù)和非欺詐數(shù)據(jù)以及數(shù)據(jù)對應(yīng)信任值分別存入數(shù)據(jù)庫;Sll :對數(shù)據(jù)進行定時識別,并將識別出的欺詐站點存入欺詐站點數(shù)據(jù)庫,同時將得到的站點信任值分配給站點下的數(shù)據(jù);S12:對數(shù)據(jù)進行綜合識別,結(jié)合定時識別階段獲取的信任值,將實時識別中存入非欺詐數(shù)據(jù)庫中的數(shù)據(jù)進行再一次的識別判斷。進一步地,所述步驟SlO具體包括有步驟SlOl :建立模塊劃分庫,并對每個模塊依已有經(jīng)驗進行質(zhì)量值分配;
S102 :對每條用戶訪問數(shù)據(jù)進行基于模塊的統(tǒng)計分析與質(zhì)量值獲?。?br>
S103 :對各模塊進彳丁數(shù)據(jù)融合,通過公式
權(quán)利要求
1.一種數(shù)據(jù)的識別處理方法,其特征在于,包括如下步驟 510:對數(shù)據(jù)進行實時識別,并將識別出的欺詐數(shù)據(jù)和非欺詐數(shù)據(jù)以及數(shù)據(jù)對應(yīng)信任值分別存入數(shù)據(jù)庫; 511:對數(shù)據(jù)進行定時識別,并將識別出的欺詐站點存入欺詐站點數(shù)據(jù)庫,同時將得到的站點信任值分配給站點下的數(shù)據(jù); 512:對數(shù)據(jù)進行綜合識別,結(jié)合定時識別階段獲取的信任值,將實時識別中存入非欺詐數(shù)據(jù)庫中的數(shù)據(jù)進行再一次的識別判斷。
2.如權(quán)利要求I所述數(shù)據(jù)的識別處理方法,其特征在于,所述步驟SlO具體包括有步驟 SlOl :建立模塊劃分庫,并對每個模塊依已有經(jīng)驗進行質(zhì)量值分配。
S102:對每條用戶訪問數(shù)據(jù)進行基于模塊的統(tǒng)計分析與質(zhì)量值獲取。
5103:對各模塊進彳"X數(shù)據(jù)融合,通過公式
3.如權(quán)利要求2所述數(shù)據(jù)的識別處理方法,其特征在于在所述步驟S104中,將所獲得的欺詐信任與實時欺詐識別信任值閾值進行比較,若大于預(yù)設(shè)閾值,則判斷該條用戶訪問數(shù)據(jù)為欺詐數(shù)據(jù);否則,判斷為非欺詐數(shù)據(jù)。
4.如權(quán)利要求3所述數(shù)據(jù)的識別處理方法,其特征在于,所述步驟Sll具體包括有步驟 5111:建立維度庫,對數(shù)據(jù)依據(jù)其分布屬性進行維度選擇,并依照已有經(jīng)驗建立維度標準分布庫; 5112:數(shù)據(jù)聚合與統(tǒng)計,對用戶訪問數(shù)據(jù)進行基于站點的聚合,并對聚合后數(shù)據(jù)進行基于維度的分布統(tǒng)計; 5113:各維度相似度計算,根據(jù)公式
5.如權(quán)利要求4所述數(shù)據(jù)的識別處理方法,其特征在于,所述步驟S12具體包括有步驟 S121:分配定時欺詐識別信任值,將定時欺詐識別中得到的站點信任值分配到其對應(yīng)的各用戶訪問數(shù)據(jù)上;5122:兩模塊數(shù)據(jù)融合,采用公式
6.一種數(shù)據(jù)識別處理系統(tǒng),其特征在于,包括 用戶訪問數(shù)據(jù)獲取模塊,用于將用戶每次訪問行為數(shù)據(jù)進行記錄; 數(shù)據(jù)實時識別模塊,其通過不間斷檢測,當檢測到新的訪問數(shù)據(jù)時,對該次訪問是否欺詐進行實時識別; 數(shù)據(jù)定時識別模塊,其通過不間斷檢測,當檢測到已到達預(yù)設(shè)時間點時,對數(shù)據(jù)進行基于站點的識別。此處通過對站點不同維度統(tǒng)計分析與相似度計算,對站點是否欺詐進行識別; 數(shù)據(jù)綜合識別模塊,其針對數(shù)據(jù)實時識別模塊處理后的非欺詐數(shù)據(jù)進行分析,同時結(jié)合數(shù)據(jù)定時識別模塊分析結(jié)果,對數(shù)據(jù)進行進一步的判斷。
7.如權(quán)利要求6所述的數(shù)據(jù)識別處理系統(tǒng),其特征在于,所述數(shù)據(jù)實時識別模塊進行實時識別后,將識別出的欺詐數(shù)據(jù)存入欺詐數(shù)據(jù)庫,未識別出的數(shù)據(jù)則存入非欺詐數(shù)據(jù)庫。
8.如權(quán)利要求7所述的數(shù)據(jù)識別處理系統(tǒng),其特征在于,所述數(shù)據(jù)定時識別模塊對每個站點的數(shù)據(jù)分布進行分析、對相似度計算后,將識別出的欺詐站點存入欺詐站點庫。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)的識別處理方法,包括如下步驟S10對數(shù)據(jù)進行實時識別,并將欺詐數(shù)據(jù)和非欺詐數(shù)據(jù)以及數(shù)據(jù)對應(yīng)信任值分別存入數(shù)據(jù)庫;S11對數(shù)據(jù)進行定時識別,并將欺詐站點存入欺詐站點數(shù)據(jù)庫,同時將得到的站點信任值分配給站點下的數(shù)據(jù);S12對數(shù)據(jù)進行綜合識別,結(jié)合定時識別階段獲取的信任值,將實時識別中存入非欺詐數(shù)據(jù)庫中的數(shù)據(jù)進行再一次的識別判斷。本發(fā)明通過基于數(shù)據(jù)融合的數(shù)據(jù)實時識別、定時識別和數(shù)據(jù)綜合識別有機結(jié)合,形成一套整的數(shù)據(jù)識別機制,在已獲取的用戶訪問數(shù)據(jù)基礎(chǔ)上,通過一種有效的識別方法,實現(xiàn)既能快速響應(yīng)客戶的同時,保證了識別的準確性和全面性。
文檔編號G06F17/30GK102663021SQ20121007703
公開日2012年9月12日 申請日期2012年3月21日 優(yōu)先權(quán)日2012年3月21日
發(fā)明者劉崟, 戴霖, 田寧, 譚磊 申請人:浙江盤石信息技術(shù)有限公司