欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng)的制作方法

文檔序號(hào):7746013閱讀:135來源:國(guó)知局
專利名稱:基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng)的制作方法
基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng)方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息技術(shù)應(yīng)用領(lǐng)域。具體是涉及在電信收入保障系統(tǒng)中運(yùn)用數(shù)據(jù)挖掘技術(shù)分析收入流失的話單準(zhǔn)確性稽核系統(tǒng)。
背景技術(shù)
在經(jīng)歷了數(shù)年的高速發(fā)展之后,目前中國(guó)的電信運(yùn)營(yíng)企業(yè)正面臨著巨大的變革。 一方面,市場(chǎng)的逐漸飽和以及競(jìng)爭(zhēng)的日益激烈促使各運(yùn)營(yíng)商努力尋求更加先進(jìn)的設(shè)備、系 統(tǒng)和管理方法,不斷開創(chuàng)新的業(yè)務(wù)增長(zhǎng)點(diǎn)以迎接挑戰(zhàn);另一方面,運(yùn)營(yíng)利潤(rùn)的逐漸下降促使 運(yùn)營(yíng)商更加重視對(duì)收入流失的控制,這使得收入保障正成為各大電信運(yùn)營(yíng)商近期極為關(guān)注 的研究熱點(diǎn)。隨著3G技術(shù)的引入,我國(guó)電信運(yùn)營(yíng)商的技術(shù)環(huán)境將進(jìn)一步復(fù)雜化,通信產(chǎn)品、月艮 務(wù)、流程、系統(tǒng)和設(shè)備的快速更新將大大增加計(jì)費(fèi)遺漏、大額欺詐、和惡意欠費(fèi)的風(fēng)險(xiǎn)。為了 提高收入保障和管理水平、電信運(yùn)營(yíng)商需要實(shí)施一套全面和系統(tǒng)的收入保障體系。所謂收入保障就是通過對(duì)現(xiàn)有業(yè)務(wù)流程與信息系統(tǒng)的調(diào)研診斷,確定收入流失 點(diǎn),從而阻止并且預(yù)防收入流失的系統(tǒng)實(shí)踐過程。收入保障系統(tǒng)不但能夠幫助電信運(yùn)營(yíng)商 降低收入流失,提高企業(yè)效益,而且能夠協(xié)助企業(yè)建立規(guī)范的收入保障流程提高運(yùn)營(yíng)效率。電信業(yè)務(wù)收入形成過程包括以下幾個(gè)主要環(huán)節(jié)(1)客戶業(yè)務(wù)受理,(2)業(yè)務(wù)開通 與變更,(3)客戶通話明細(xì)記錄⑶R(call detail record), (4)數(shù)據(jù)采集,(5)計(jì)費(fèi)賬務(wù)處 理,(6)結(jié)算,(7)收費(fèi)等。導(dǎo)致收入漏洞存在的原因,一些國(guó)際知名的行業(yè)咨詢公司已經(jīng)做了大量的調(diào)研和 統(tǒng)計(jì)工作。歸納一下,主要有如下幾種(1)不準(zhǔn)確的設(shè)備配置或低效的網(wǎng)絡(luò)設(shè)計(jì);(2)不能 形成通話記錄;(3)不準(zhǔn)確的聯(lián)機(jī)控制過程;(4)不準(zhǔn)確的數(shù)據(jù)庫;(5)不準(zhǔn)確的計(jì)費(fèi);(6) 存在相互矛盾的配置或系統(tǒng)等。據(jù)Philips Group的報(bào)告,收入漏洞所造成的收入流失比例如下(1)記錄太遲(Record too late) 7% ; (2)損壞的記錄(Corrupted CDR)8% ; (3)未能生成記錄(Fail to create records)9% ; (4)記錄丟失(Recordlost) 10% ; (5) 送到錯(cuò)誤的文件(Sent to error file) 12 % ; (6)欺詐(Fraud) 18 % ; (7)算費(fèi)不正確 (Rating incorrectly) 10% ; (8)欠費(fèi)或壞帳(Debt/write-off) 15% ; (9)不完整的客戶記 錄(Incomplete customer records) IH從客戶對(duì)支撐系統(tǒng)功能劃分的角度看,前五個(gè)部分(46% )是在業(yè)務(wù)網(wǎng)絡(luò)內(nèi)部形 成的,其他部分則是在業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)中營(yíng)業(yè)、客戶資料、計(jì)費(fèi)、收費(fèi)等幾個(gè)環(huán)節(jié)中。特別 一提的是,46%的問題發(fā)生在電信網(wǎng)絡(luò)內(nèi)部與CDR生成相關(guān),而在后臺(tái)支撐系統(tǒng)軟件都是 處理⑶R,這些系統(tǒng)無從知道有46 %收入流失已經(jīng)發(fā)生。對(duì)于我國(guó)的電信運(yùn)營(yíng)企業(yè),由于目前的業(yè)務(wù)運(yùn)營(yíng)支撐系統(tǒng)中的軟件都是直接處理 ⑶R數(shù)目,這些系統(tǒng)無從知道⑶R生成中所產(chǎn)生的問題,而根據(jù)統(tǒng)計(jì)數(shù)據(jù)大部分的收入漏洞 都是發(fā)生在電信網(wǎng)絡(luò)內(nèi)部,與CDR數(shù)目的生成相關(guān),所以現(xiàn)有的系統(tǒng)很難控制這一部分的收入流失。
發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于提供一種能有效控制收入流失的基于成對(duì)下單 原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng)。本發(fā)明采用以下技術(shù)方案解決上述技術(shù)問題 基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng),該系統(tǒng)包括五個(gè)部 分進(jìn)行數(shù)據(jù)采集利用適配器對(duì)交換機(jī)生成的CDR話單文件進(jìn)行采集,并將采集得 到的數(shù)據(jù)存入到統(tǒng)一的原始話單數(shù)據(jù)庫中;數(shù)據(jù)預(yù)處理即CDR數(shù)據(jù)的特征表示與建模,實(shí)現(xiàn)過程是先基于原始話單數(shù)據(jù)庫 中CDR數(shù)據(jù),去掉冗余的話單記錄,然后將剩下的有效話單記錄基于構(gòu)建的CDR特征表示 模型,經(jīng)格式轉(zhuǎn)換與形式化之后分主叫話單和被叫話單分別存入到對(duì)應(yīng)的主叫CDR與被叫 ⑶R特征表示數(shù)據(jù)庫之中,構(gòu)造主叫⑶R與被叫⑶R的特征表示庫;CDR特征表示數(shù)據(jù)自適應(yīng)聚類利用所設(shè)計(jì)的自適應(yīng)聚類算法,分別將主被叫CDR 特征表示庫中的數(shù)據(jù)進(jìn)行聚類;分類算法的問題話單分揀基于交換機(jī)成對(duì)下單原理,利用規(guī)則庫中設(shè)計(jì)的有關(guān) 話單匹配規(guī)則模型,對(duì)存在問題的聚類結(jié)果類型中的記錄進(jìn)行比對(duì),得到交換機(jī)的問題話 單集合;問題話單特征挖掘具體實(shí)現(xiàn)過程是基于得到交換機(jī)的問題話單集合,采用設(shè)計(jì) 的快速頻繁模式挖掘算法,找出問題話單的頻繁模式,從而得到問題話單的特征。所述數(shù)據(jù)預(yù)處理部分中⑶R數(shù)據(jù)的特征表示與建模包括假定Q1表示由所有主 叫話單構(gòu)成的離散的樣本空間,Ω2表示由所有被叫話單構(gòu)成的離散的樣本空間,Ω3表示 由所有呼轉(zhuǎn)話單構(gòu)成的離散的樣本空間;在Qi中假定每條CDR記錄中共包括η個(gè)不同的 項(xiàng)目,若從中選擇m個(gè)有用的項(xiàng)目{In,Ii2,..., IiJ作為⑶R的特征描述,則稱m元組K = UilJi2,...,IJ為Qi的特征表示庫;其中話單類型包括移動(dòng)主叫話單,移動(dòng)被叫話單, 電信主叫話單,電信被叫話單,聯(lián)通主叫話單,聯(lián)通被叫話單;而業(yè)務(wù)類型則包括本地通話, 國(guó)內(nèi)長(zhǎng)途,國(guó)際長(zhǎng)途等;將交換機(jī)產(chǎn)生的原始CDR經(jīng)過形式化表征之后分“主叫”、“被叫”、 以及“呼轉(zhuǎn)”這三種不同的類型分別存儲(chǔ)到對(duì)應(yīng)的⑶R特征表示庫Ω1、Ω2、Ω3中;所述⑶R特征表示數(shù)據(jù)自適應(yīng)聚類包括將特征表示庫Ω 1、Ω 2中記錄的m元組 分別進(jìn)行歸一化,定義不同m元組之間的距離為歐氏幾何距離,同時(shí),定義類密度、最小類 密度、類平均距離、以及最小類平均距離等類判決因子,并將所有定義的類判決因子通過線 性組合構(gòu)成一個(gè)統(tǒng)一的類判決函數(shù)f;設(shè)定一個(gè)較大的整數(shù)值作為類的初始數(shù)目值,然后 對(duì)類數(shù)目按指數(shù)遞減,分別計(jì)算不同類數(shù)目下的判決函數(shù)值并與判決閥值進(jìn)行比較,當(dāng)判 決函數(shù)值達(dá)到拐點(diǎn)時(shí),則從達(dá)到拐點(diǎn)之前的類數(shù)目值開始,對(duì)類數(shù)目值進(jìn)行線性遞減,并計(jì) 算不同類數(shù)目下的判決函數(shù)值,當(dāng)判決函數(shù)值再次達(dá)到拐點(diǎn)時(shí),則判定在到達(dá)該次拐點(diǎn)之 前的類數(shù)目值為最終的類數(shù)目值;基于選定的最終類數(shù)目值,得到對(duì)應(yīng)的Ω1、Ω 2的聚類 結(jié)果;所述分類算法的問題話單分揀包括考慮交換機(jī)的下單延時(shí)和誤差,設(shè)定合適的話單匹配規(guī)則;基于設(shè)定的匹配規(guī)則與交換機(jī)成對(duì)下單原理,對(duì)得到的特征表示庫Ω1、 Ω 2的聚類結(jié)果,通過判別分別得到匹配話單集合、丟失話單集合、以及差錯(cuò)話單集合;所述問題話單特征挖掘包括設(shè)定一個(gè)較小的支持度值作為支持度的初始閥值, 然后對(duì)支持度值按指數(shù)遞增,分別計(jì)算不同支持度值下的頻繁模式挖掘結(jié)果,當(dāng)頻繁模式 挖掘結(jié)果達(dá)到拐點(diǎn)時(shí),則從達(dá)到拐點(diǎn)之前的支持度值開始,對(duì)支持度值進(jìn)行線性遞增,并計(jì) 算不同支持度值下的頻繁模式挖掘結(jié)果,當(dāng)頻繁模式挖掘結(jié)果再次達(dá)到拐點(diǎn)時(shí),則判定在 到達(dá)該次拐點(diǎn)之前的支持度值為最終的支持度值;基于選定的最終支持度值,得到對(duì)應(yīng)的 丟失話單集合與差錯(cuò)話單集合的頻繁模式挖掘結(jié)果。本發(fā)明的優(yōu)點(diǎn)在于以交換機(jī)所生成的CDR話單數(shù)據(jù)作為數(shù)據(jù)源,基于交換機(jī)成 對(duì)下單原理,結(jié)合國(guó)內(nèi)電信企業(yè)的實(shí)際情況,提出了一種適合國(guó)內(nèi)電信運(yùn)營(yíng)及支撐現(xiàn)狀的 基于交換系統(tǒng)的CDR話單準(zhǔn)確性稽核模型,基于該模型的收入保障系統(tǒng)能有效控制收入的 流失。

下面參照附圖結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。圖1是本發(fā)明CDR話單準(zhǔn)確性稽核系統(tǒng)統(tǒng)框架圖。圖2是本發(fā)明基于快速類別數(shù)目決定方法的CDR特征表示數(shù)據(jù)自適應(yīng)聚類算法流 程圖。圖3是本發(fā)明一種用于在存在問題的聚類集合中找出問題話單的基于規(guī)則的問 題話單集發(fā)現(xiàn)算法。圖4是本發(fā)明對(duì)CDR話單處理時(shí)采用基于搜索策略和寬度優(yōu)先的快速頻繁模式挖 掘算法流程圖。
具體實(shí)施方式本發(fā)明提出一種適合國(guó)內(nèi)電信運(yùn)營(yíng)以及支撐現(xiàn)狀的基于交換系統(tǒng)的CDR話單準(zhǔn) 確性稽核模型,在該模型中,為了實(shí)現(xiàn)最終的話單準(zhǔn)確性稽核,首要解決的問題是如何構(gòu)建 CDR的特征表示模型和特征表示庫,以期利用此特征表示模型和特征表示庫能方便的對(duì)產(chǎn) 生收入流失的原因進(jìn)行解釋。其次是如何找到一種快速合適的方法對(duì)造成收入流失的CDR 數(shù)據(jù)進(jìn)行特征提取,使得電信運(yùn)營(yíng)商能在實(shí)際中最終找到并解決造成收入流失的問題。再 次是如何在不同的電信CDR數(shù)據(jù)集中尋找出問題話單所在的聚類集合,以便能采取前面所說的特征提取方式進(jìn)行處理。最后一個(gè)問題是如何進(jìn)行一種有效的方式對(duì)海量的數(shù)據(jù)庫中 的數(shù)據(jù)進(jìn)行合適的聚類,使得系統(tǒng)能順利抽取存在問題的聚類話單集合。圖1所示為CDR話單準(zhǔn)確性稽核系統(tǒng)統(tǒng)框架圖,其中詳細(xì)展示了 CDR話單稽核系 統(tǒng)所包括的五個(gè)部分,其中每個(gè)部分產(chǎn)生的結(jié)果作為下一個(gè)部分?jǐn)?shù)據(jù)處理的對(duì)象。第一個(gè)部分進(jìn)行的是數(shù)據(jù)采集,得到的是原始的未經(jīng)處理的龐大CDR話單數(shù)據(jù), 在第二部分中經(jīng)過數(shù)據(jù)的預(yù)處理以后,冗余的話單記錄被去除,剩下的有效話單記錄經(jīng)轉(zhuǎn) 換后進(jìn)入數(shù)據(jù)庫,原始的⑶R經(jīng)過形式表征之后被分為“主叫” “被叫”以及“呼轉(zhuǎn)”,隨后被 用來構(gòu)造話單數(shù)據(jù)的知識(shí)庫,最終這三種不同的類型分別形成對(duì)應(yīng)的CDR特征表示庫Ω 1、 Ω 2、Ω 3中。第三部分,在接下來的對(duì)CDR特征表示庫中數(shù)據(jù)進(jìn)行特征分析的快速自適應(yīng)聚類方法中,根據(jù)算法選定的最終類數(shù)目值,得到對(duì)應(yīng)的Ω1、Ω2的聚類結(jié)果。第四部分,對(duì) 得到的特征表示庫Ω1、Ω 2的聚類結(jié)果,通過判別分別得到匹配話單集合、丟失話單集合、 以及差錯(cuò)話單集合。第五部分,在一個(gè)快速頻繁模式挖掘方法中,對(duì)丟失話單集合與差錯(cuò)話 單集合將會(huì)進(jìn)行特征抽取,得到最終的知識(shí)表達(dá)。圖2為基于快速類別數(shù)目決定方法的CDR特征表示數(shù)據(jù)自適應(yīng)聚類算法流程圖。 在把特征表示庫Ω1、Ω2中記錄的m元組分別進(jìn)行歸一化后,定義不同m元組之間的歐氏 幾何距離作為,同時(shí),根據(jù)距離定義類密度、最小類密度、類平均距離、以及最小類平均距離 等類判決因子,并將所有定義的類判決因子通過一個(gè)線性組合構(gòu)成統(tǒng)一的類判決函數(shù)f。完 成這些預(yù)備工作后,正式的算法流程分為以下步驟(類數(shù)目指數(shù)遞減過程)步驟1 取一個(gè)較大的值N作為初始的類數(shù)目,根據(jù)上述定義計(jì)算判決函數(shù)f的值 Yi ;步驟2:取N/2作為類數(shù)目,計(jì)算判決函數(shù)值Y2,若Y2S Y1,轉(zhuǎn)入步驟3;步驟3:取N/4作為類數(shù)目,計(jì)算判決函數(shù)值Y3,若Y3彡Y2,轉(zhuǎn)入步驟4;............步驟i 取N/2H作為類數(shù)目,計(jì)算判決函數(shù)值Y1,若Y- [_1,轉(zhuǎn)入步驟1+1 ;步驟i+Ι 取為類數(shù)目,計(jì)算判決函數(shù)值,若Yi+1> Yi,轉(zhuǎn)入步驟i+2 ;(類數(shù)目線性遞減過程)步驟i+2:取N/2H+1作為類數(shù)目,計(jì)算判決函數(shù)值Yi+2,若Yi+2^ Yi,轉(zhuǎn)入步驟 i+3 ;步驟i+3 取N/2H+2作為類數(shù)目,計(jì)算判決函數(shù)值Y i+3,若Y i+3彡Y i+2,轉(zhuǎn)入步 驟 i+4 ;............Step i+1+k 取Ν/2^1+Κ作為類數(shù)目,計(jì)算判決函數(shù)值Y i+1+k,若Y i+1+k > Y i+k,結(jié) 束ο這樣類數(shù)目線性遞減過程結(jié)束,得到最小的判決函數(shù)值Yi+k,以及最終類數(shù)目值 N/2H+K-1。以此聚類數(shù)目對(duì)對(duì)應(yīng)的Ω1、Φ2、Ω3分別進(jìn)行聚類。圖3為一種用于在存在問題的聚類集合中找出問題話單的基于規(guī)則的問題話單 集發(fā)現(xiàn)算法。對(duì)于主叫和被叫以及呼轉(zhuǎn)話單的聚類結(jié)果,由于那些有著漏單或者錯(cuò)單項(xiàng)的類將 在類數(shù)據(jù)的統(tǒng)計(jì)上出現(xiàn)明顯差異,假定Δ1 = {Cll,C12,...,Cln}表示所有有差異的主叫 話單聚類中的數(shù)據(jù)所構(gòu)成的離散的樣本空間,Δ2 = {C21,C22,C2m}表示所有有差異 被叫話單聚類中的數(shù)據(jù)所構(gòu)成的離散的樣本空間,分別取定主叫(S),被叫(R),通話起始 時(shí)間(0),通話結(jié)束時(shí)間(E),以及通話時(shí)長(zhǎng)(T),話單類型(C),業(yè)務(wù)類型(B)作為所有知識(shí) 點(diǎn),Δ3 = {C31,C32,. . ·,C3k}表示所有呼轉(zhuǎn)話單聚類所構(gòu)成的離散的樣本空間,其中=Cij =< (S,wijl),(R,wij2),(0,wij3),...,(B,wij7) >,L 表示差異話單集合,δ 表示時(shí)鐘 漂移量,針對(duì)差異話單集合,準(zhǔn)確性稽核算法的步驟如下
(I)L = Φ ;(2)F0R(i = 1,i ≤ n,i++) {(3)al = Cli. wlil, bl = Cli. wli2,…,gl = Cli. wli7 ;(4)F0R(j = 1,j≤ m,j++) {(5)a2 = C2j. w2jl, b2 = C2j. w2j2, · · ·,g2 = C2j. w2j7 ;(6)IF({al = a2}&&{bl = b2}&&{|cl_c2 ( δ 1}&&{ | dl_d2 | ( δ 2}) {(7)IF(C2j 為 Cli 的獨(dú)立補(bǔ)話單 &&|el_e2 ≤δ 3)L = L U {Cli};(8) Break ;}(9)IF({bl = a2}&&{|cl_c2| ≤ δ 1}&&{ | dl_d2 |≤δ 2}) {(10)IF(C2j 為 Cli 的組合補(bǔ)話單 &&|el_e2≤δ 3)L = L U {Cli};(Il)Break ;}}}顯然,針對(duì)Δ 1-獨(dú)立話單集合,以及Δ 2-獨(dú)立話單集合,均可仿照上述準(zhǔn)確性稽 核算法描述,同理可得。圖4是對(duì)CDR話單處理時(shí)采用基于搜索策略和寬度優(yōu)先的快速頻繁模式挖掘算法 流程圖。該算法首先搜索出頻繁1項(xiàng)集,在根據(jù)頻繁1項(xiàng)集依次搜索出頻繁K項(xiàng)集(K = 2, 3,4...),直到找不出K項(xiàng)集為止。頻繁1項(xiàng)集是通過掃描知識(shí)庫,將滿足最小支持度閥值 的項(xiàng)找出來,記為頻繁1項(xiàng)集,得到頻繁1項(xiàng)集后,假設(shè)11和12是頻繁1項(xiàng)集Lk-I中的項(xiàng) 集元素。記號(hào)li(j)表示Ii的第j項(xiàng)。為方便起見,假定事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排 序。執(zhí)行Lk-I與自身連接;其中Lk-I的元素是可連接的,如果它們前(k-2)個(gè)項(xiàng)相同。即 Lk-I的元素11和12是可連接的,如果它們前(k-2)個(gè)項(xiàng)滿足(11[1] = 12[1])"(11[2]= 12[2])". . . "(11 [k-2] = 12[k-2])"(ll[k-l] < 12[k_l])。條件(ll[k_l] < 12[k_l])是 簡(jiǎn)單地保證不產(chǎn)生重復(fù)。連接11和12產(chǎn)生的結(jié)果項(xiàng)集是(ll[l]ll[2]...ll[k-2]12[k-l]。 連接后就生成了頻繁2項(xiàng)集的候選集。然后再判斷候選集的子集是不是在頻繁1項(xiàng)集中, 如果不在,就在候選集中刪除該項(xiàng)。依次循環(huán)直到候選集中所有元素都是頻繁的,就得出了 頻繁2項(xiàng)集。得出2項(xiàng)集之后再遞歸調(diào)用連接和剪枝的方法,依次得出頻繁K項(xiàng)集,直到不 再產(chǎn)生頻繁項(xiàng),該算法退出。本發(fā)明提出一種適合國(guó)內(nèi)電信運(yùn)營(yíng)以及支撐現(xiàn)狀的基于交換系統(tǒng)的CDR話單準(zhǔn) 確性稽核模型,在該模型中,為了實(shí)現(xiàn)最終的話單準(zhǔn)確性稽核,首要解決的問題是如何構(gòu)建 CDR的特征表示模型和特征表示庫,以期利用此特征表示模型和特征表示庫能方便的對(duì)產(chǎn) 生收入流失的原因進(jìn)行解釋。其次是如何找到一種快速合適的方法對(duì)造成收入流失的CDR 數(shù)據(jù)進(jìn)行特征提取,使得電信運(yùn)營(yíng)商能在實(shí)際中最終找到并解決造成收入流失的問題。再 次是如何在不同的電信CDR數(shù)據(jù)集中尋找出問題話單所在的聚類集合,以便能采取前面所 說的特征提取方式進(jìn)行處理。最后一個(gè)問題是如何進(jìn)行一種有效的方式對(duì)海量的數(shù)據(jù)庫中 的數(shù)據(jù)進(jìn)行合適的聚類,使得系統(tǒng)能順利抽取存在問題的聚類話單集合。
權(quán)利要求
基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng),其特征在于該系統(tǒng)包括五個(gè)部分進(jìn)行數(shù)據(jù)采集利用適配器對(duì)交換機(jī)生成的CDR話單文件進(jìn)行采集,并將采集得到的數(shù)據(jù)存入到統(tǒng)一的原始話單數(shù)據(jù)庫中;數(shù)據(jù)預(yù)處理即CDR數(shù)據(jù)的特征表示與建模,實(shí)現(xiàn)過程是先基于原始話單數(shù)據(jù)庫中CDR數(shù)據(jù),去掉冗余的話單記錄,然后將剩下的有效話單記錄基于構(gòu)建的CDR特征表示模型,經(jīng)格式轉(zhuǎn)換與形式化之后分主叫話單和被叫話單分別存入到對(duì)應(yīng)的主叫CDR與被叫CDR特征表示數(shù)據(jù)庫之中,構(gòu)造主叫CDR與被叫CDR的特征表示庫;CDR特征表示數(shù)據(jù)自適應(yīng)聚類利用所設(shè)計(jì)的自適應(yīng)聚類算法,分別將主被叫CDR特征表示庫中的數(shù)據(jù)進(jìn)行聚類;分類算法的問題話單分揀基于交換機(jī)成對(duì)下單原理,利用規(guī)則庫中設(shè)計(jì)的有關(guān)話單匹配規(guī)則模型,對(duì)存在問題的聚類結(jié)果類型中的記錄進(jìn)行比對(duì),得到交換機(jī)的問題話單集合;問題話單特征挖掘具體實(shí)現(xiàn)過程是基于得到交換機(jī)的問題話單集合,采用設(shè)計(jì)的快速頻繁模式挖掘算法,找出問題話單的頻繁模式,從而得到問題話單的特征。
2.如權(quán)利要求1所述的基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng),其 特征在于所述數(shù)據(jù)預(yù)處理部分中CDR數(shù)據(jù)的特征表示與建模包括假定Q1表示由所有主叫話 單構(gòu)成的離散的樣本空間,Ω2表示由所有被叫話單構(gòu)成的離散的樣本空間,03表示由所 有呼轉(zhuǎn)話單構(gòu)成的離散的樣本空間;在Qi中假定每條CDR記錄中共包括η個(gè)不同的項(xiàng) 目,若從中選擇m個(gè)有用的項(xiàng)目{In,Ii2, ...,IiJ作為⑶R的特征描述,則稱m元組K = UilJi2,...,IJ為Qi的特征表示庫;其中話單類型包括移動(dòng)主叫話單,移動(dòng)被叫話單, 電信主叫話單,電信被叫話單,聯(lián)通主叫話單,聯(lián)通被叫話單;而業(yè)務(wù)類型則包括本地通話, 國(guó)內(nèi)長(zhǎng)途,國(guó)際長(zhǎng)途等;將交換機(jī)產(chǎn)生的原始CDR經(jīng)過形式化表征之后分“主叫”、“被叫”、 以及“呼轉(zhuǎn)”這三種不同的類型分別存儲(chǔ)到對(duì)應(yīng)的⑶R特征表示庫Ω1、Ω2、Ω3中;所述⑶R特征表示數(shù)據(jù)自適應(yīng)聚類包括將特征表示庫Ω1、Ω 2中記錄的m元組分別 進(jìn)行歸一化,定義不同m元組之間的距離為歐氏幾何距離,同時(shí),定義類密度、最小類密度、 類平均距離、以及最小類平均距離等類判決因子,并將所有定義的類判決因子通過線性組 合構(gòu)成一個(gè)統(tǒng)一的類判決函數(shù)f;設(shè)定一個(gè)較大的整數(shù)值作為類的初始數(shù)目值,然后對(duì)類 數(shù)目按指數(shù)遞減,分別計(jì)算不同類數(shù)目下的判決函數(shù)值并與判決閥值進(jìn)行比較,當(dāng)判決函 數(shù)值達(dá)到拐點(diǎn)時(shí),則從達(dá)到拐點(diǎn)之前的類數(shù)目值開始,對(duì)類數(shù)目值進(jìn)行線性遞減,并計(jì)算不 同類數(shù)目下的判決函數(shù)值,當(dāng)判決函數(shù)值再次達(dá)到拐點(diǎn)時(shí),則判定在到達(dá)該次拐點(diǎn)之前的 類數(shù)目值為最終的類數(shù)目值;基于選定的最終類數(shù)目值,得到對(duì)應(yīng)的Ω1、Ω2的聚類結(jié)果; 所述分類算法的問題話單分揀包括考慮交換機(jī)的下單延時(shí)和誤差,設(shè)定合適的話單 匹配規(guī)則;基于設(shè)定的匹配規(guī)則與交換機(jī)成對(duì)下單原理,對(duì)得到的特征表示庫Ω1、Ω2的 聚類結(jié)果,通過判別分別得到匹配話單集合、丟失話單集合、以及差錯(cuò)話單集合;所述問題話單特征挖掘包括設(shè)定一個(gè)較小的支持度值作為支持度的初始閥值,然后 對(duì)支持度值按指數(shù)遞增,分別計(jì)算不同支持度值下的頻繁模式挖掘結(jié)果,當(dāng)頻繁模式挖掘 結(jié)果達(dá)到拐點(diǎn)時(shí),則從達(dá)到拐點(diǎn)之前的支持度值開始,對(duì)支持度值進(jìn)行線性遞增,并計(jì)算不同支持度值下的頻繁模式挖掘結(jié)果,當(dāng)頻繁模式挖掘結(jié)果再次達(dá)到拐點(diǎn)時(shí),則判定在到達(dá)該次拐點(diǎn)之前的支持度值為最終的支持度值;基于選定的最終支持度值,得到對(duì)應(yīng)的丟失 話單集合與差錯(cuò)話單集合的頻繁模式挖掘結(jié)果。
全文摘要
基于成對(duì)下單原理與數(shù)據(jù)挖掘技術(shù)的話單準(zhǔn)確性稽核系統(tǒng),包括五個(gè)部分進(jìn)行數(shù)據(jù)采集;數(shù)據(jù)預(yù)處理;CDR特征表示數(shù)據(jù)自適應(yīng)聚類;分類算法的問題話單分揀;問題話單特征挖掘。本發(fā)明以交換機(jī)所生成的CDR話單數(shù)據(jù)作為數(shù)據(jù)源,基于交換機(jī)成對(duì)下單原理,結(jié)合國(guó)內(nèi)電信企業(yè)的實(shí)際情況,提出了一種適合國(guó)內(nèi)電信運(yùn)營(yíng)及支撐現(xiàn)狀的基于交換系統(tǒng)的CDR話單準(zhǔn)確性稽核模型,基于該模型的收入保障系統(tǒng)能有效控制收入的流失。
文檔編號(hào)H04M15/00GK101840423SQ201010146038
公開日2010年9月22日 申請(qǐng)日期2010年4月12日 優(yōu)先權(quán)日2010年4月12日
發(fā)明者王桐森, 王陽, 王雷, 蔣新華, 谷壘 申請(qǐng)人:福建工程學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
固安县| 镶黄旗| 广宗县| 县级市| 横山县| 乡宁县| 景宁| 雷山县| 三都| 开平市| 镇原县| 辽阳县| 谷城县| 巴塘县| 香港 | 葫芦岛市| 襄汾县| 唐河县| 桦甸市| 三门峡市| 军事| 威宁| 通河县| 宁化县| 辰溪县| 安宁市| 石景山区| 临朐县| 珲春市| 襄城县| 四平市| 朝阳市| 邛崃市| 兰西县| 广灵县| 象山县| 东莞市| 会东县| 邳州市| 肃宁县| 格尔木市|