基于多維分析的數據挖掘方法
【技術領域】
[0001]本發(fā)明涉及數據挖掘方法,更具體地,涉及基于多維分析的數據挖掘方法。
【背景技術】
[0002]目前,隨著計算機和網絡應用的日益廣泛以及不同領域的業(yè)務種類的日益豐富,針對海量的事件記錄數據(例如金融領域中的交易記錄數據)進行數據挖掘以發(fā)現不同的事件發(fā)生之間的關聯性(例如金融領域中不同的用戶消費事件之間的關聯性,例如,某一類持卡人在某個時刻在某類商戶消費之前,可能在什么時刻在什么類型商戶消費過,概率是多少;之后又可能在什么時刻去什么類型的商戶消費,概率是多少)變得越來越重要。
[0003]在現有的技術方案中,通常在單機上進行與序列模式分析(其是指從數據庫中挖掘出相對于時間或其他模式而言出現頻率高的模式)相關的過程,以發(fā)現不同數據之間的潛在關聯。
[0004]然而,現有的技術方案存在如下問題:(I)僅能在單機上實施分析過程,故難于適應分布式環(huán)境下的并行計算;(2)能夠處理的數據量有限,無法覆蓋全體樣本,從而導致分析結果的準確性較低;(3)僅能針對單一維度進行分析,無法實現基于多維的數據關聯分析。
[0005]因此,存在如下需求:提供能夠適應分布式環(huán)境下的并行計算并且能夠處理海量目標數據的基于多維分析的數據挖掘方法。
【發(fā)明內容】
[0006]為了解決上述現有技術方案所存在的問題,本發(fā)明提出了能夠適應分布式環(huán)境下的并行計算并且能夠處理海量目標數據的基于多維分析的數據挖掘方法。
[0007]本發(fā)明的目的是通過以下技術方案實現的:
一種基于多維分析的數據挖掘方法,所述基于多維分析的數據挖掘方法包括下列步驟:
(Al)從數據庫中提取出原始事件記錄。并對提取出的原始事件記錄進行篩選和轉換以形成基于時間序列的事件記錄事務集,其中,所述事件記錄事務集由多個事務組成,并且每個事務由若干事件元素組成;
(A2)基于所述事件記錄事物集生成頻繁模式樹;
(A3)根據所生成的頻繁模式樹篩選出與預先確定的目標事件元素相關聯的頻繁項。
[0008]在上面所公開的方案中,優(yōu)選地,所述步驟(Al)進一步包括:
(1)根據設定的篩選條件從數據庫中提取出原始事件記錄;
(2)針對每個提取出的原始事件記錄,選擇其中預定的若干字段并按預定格式形成基礎事件記錄,每個基礎事件記錄表示一次實際發(fā)生的事件,并且每個基礎事件記錄至少包括事件主體字段,事件類型字段以及事件發(fā)生時間字段;
(3)至少按預定規(guī)則以事件主體字段和事件發(fā)生時間字段的值作為主鍵對所有基礎事件記錄進行分組;
(4)分別對每個分組中的記錄進行清洗,即將每個分組中事件類型字段和事件發(fā)生時間字段的值相同的基礎事件記錄合并為一個基礎事件記錄;
(5)將每個分組中的基礎事件記錄作為以“事件類型$事件發(fā)生時間”形式表示的事件元素,并將同一分組中的所有事件元素合并以形成事件記錄事務,其被表示為〈事件類型1$事件發(fā)生時間1,事件類型2$事件發(fā)生時間2,…,事件類型事件發(fā)生時間i,…〉,其中,“事件類型事件發(fā)生時間i”表示該事件記錄事務中第i個事件元素,由此,所有分組對應的事件記錄事務構成所述事件記錄事務集。
[0009]在上面所公開的方案中,優(yōu)選地,所述步驟(A2)進一步包括:
(1)遍歷所述事件記錄事務集,計算每個事件元素出現的總頻數,并且按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表;
(2)針對所述事件記錄事務集中的每個事務,將該事務中的每個事件元素按照所述事件元素頻次列表中事件元素的順序重新排序;
(3)創(chuàng)建頻繁模式樹的根節(jié)點,再次遍歷所述事件記錄事務集,將經過步驟(2)處理的每個事務中的事件元素作為頻繁項插入到所創(chuàng)建的頻繁模式樹中。
[0010]在上面所公開的方案中,優(yōu)選地,所述步驟(A2)進一步包括:在按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表后,將其支持度小于預定閾值的事件元素剔出,其中,事件元素的支持度由如下公式計算:事件元素支持度=頻次/總事務數。
[0011]在上面所公開的方案中,優(yōu)選地,所述步驟(A3)進一步包括:以如下方式篩選與預先確定的某個目標事件元素相關聯的頻繁項:
(1)從所述頻繁模式樹中找到所有該事件元素的節(jié)點,并向上遍歷它的祖先節(jié)點,得到所有路徑,從而獲得該事件元素在所述頻繁模式樹中的條件模式基;
(2)將所述條件模式基當作原始事務集構建該目標事件元素的條件模式樹,從而得到該目標事件元素的所有頻繁項集;
(3)根據預定的最小置信度從所獲得的頻繁項集中篩選出與該目標事件元素相關聯的頻繁項
本發(fā)明所公開的基于多維分析的數據挖掘方法具有以下優(yōu)點:能夠適應分布式環(huán)境下的并行計算;能夠處理海量數據,從而覆蓋全體樣本以獲得較高的分析準確性;(3)能夠實現基于多維的數據關聯分析。
【附圖說明】
[0012]結合附圖,本發(fā)明的技術特征以及優(yōu)點將會被本領域技術人員更好地理解,其中:
圖1是根據本發(fā)明的實施例的基于多維分析的數據挖掘方法的流程圖。
【具體實施方式】
[0013]圖1是根據本發(fā)明的實施例的基于多維分析的數據挖掘方法的流程圖。如圖1所示,本發(fā)明所公開的基于多維分析的數據挖掘方法包括下列步驟=(Al)從數據庫中提取出原始事件記錄。并對提取出的原始事件記錄進行篩選和轉換以形成基于時間序列的事件記錄事務集,其中,所述事件記錄事務集由多個事務組成,并且每個事務由若干事件元素組成;(A2)基于所述事件記錄事物集生成頻繁模式樹;(A3)根據所生成的頻繁模式樹篩選出與預先確定的目標事件元素相關聯的頻繁項(即不同于目標事件元素并與其相關的其他事件元素)。
[0014]優(yōu)選地,在本發(fā)明所公開的基于多維分析的數據挖掘方法中,所述步驟(Al)進一步包括:(I)根據設定的篩選條件從數據庫中提取出原始事件記錄(例如交易記錄,每個記錄表示一次實際發(fā)生的交易);(2)針對每個提取出的原始事件記錄,選擇其中預定的若干字段(例如卡號、交易時間、商戶類型等字段)并按預定格式形成基礎事件記錄,每個基礎事件記錄表示一次實際發(fā)生的事件(例如某個持卡人在某個時刻在某個類型的商戶進行了一次消費),并且每個基礎事件記錄至少包括事件主體字段(例如卡號字段),事件類型字段(例如商戶類型字段)以及事件發(fā)生時間字段;(3)至少按預定規(guī)則以事件主體字段和事件發(fā)生時間字段的值作為主鍵對所有基礎事件記錄進行分組(例如,同一卡號同一天的所有交易記錄被分到同一個組里);(4)分別對每個分組中的記錄進行清洗,即將每個分組中事件類型字段和事件發(fā)生時間字段的值相同的基礎事件記錄合并為一個基礎事件記錄;(5)將每個分組中的基礎事件記錄作為以“事件類型$事件發(fā)生時間”形式表示的事件元素,并將同一分組中的所有事件元素合并以形成事件記錄事務(例如,一個事務表示一個卡號在某一天里發(fā)生過的所有交易商戶類型及交易時間),其被表示為 < 事件類型1$事件發(fā)生時間1,事件類型2$事件發(fā)生時間2,…,事件類型事件發(fā)生時間i,…〉,其中,“事件類型事件發(fā)生時間i”表示該事件記錄事務中第i個事件元素,由此,所有分組對應的事件記錄事務構成所述事件記錄事務集。
[0015]優(yōu)選地,在本發(fā)明所公開的基于多維分析的數據挖掘方法中,所述步驟(A2)進一步包括:(I)遍歷所述事件記錄事務集,計算每個事件元素出現的總頻數,并且按照頻數從大到小的順序對所有事件元素進行排序以得到事件元素頻次列表;(2)針對所述事件記錄事務集中的每個事務,將該事務中的每個事件元素按照所述事件元素頻次列表中事件元素的順序重新排序;(3)創(chuàng)建頻繁模式樹的根節(jié)點(其以“null”標記),再次遍歷所述事件記錄事務集,將經過步驟(2)處理的每個事務中的事件元素作為頻繁項插入到所創(chuàng)建的頻繁模式樹中。其中,所述