欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于子樹模式挖掘的稅務(wù)中間指標提取方法

文檔序號:6551948閱讀:172來源:國知局
基于子樹模式挖掘的稅務(wù)中間指標提取方法
【專利摘要】本發(fā)明公開了一種基于子樹模式挖掘的稅務(wù)中間指標提取方法,關(guān)鍵步驟包括:(1)通過在稅務(wù)指標的表達式樹的后綴表達式中查找所有的“aab”形式的字串,識別出所有的子樹模式;(2)建立極大子樹模式的表達式樹,并為每個表達式樹賦予一個中間指標。本發(fā)明能夠用中間指標替代稅務(wù)指標的計算中頻次較多的共性計算過程,從而簡化稅務(wù)指標的計算。
【專利說明】基于子樹模式挖掘的稅務(wù)中間指標提取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及稅務(wù)數(shù)據(jù)分析中對稅務(wù)指標計算表達式樹進行極大子樹模式挖掘,抽 取稅務(wù)中間指標,簡化稅務(wù)指標計算的方法。

【背景技術(shù)】
[0002] 稅務(wù)指標是偷漏稅識別與跟蹤、深化稅收信息服務(wù)、優(yōu)化稅收政策的重要依據(jù);涉 及不同稅種、不同行業(yè)以及來自不同數(shù)據(jù)庫表的上萬數(shù)據(jù)項,具有映射復(fù)雜、計算冗余兩個 顯著特點,前者表現(xiàn)為每個指標包含5-15個數(shù)據(jù)項,數(shù)據(jù)項間存在各種算術(shù)運算關(guān)系,這 給后期的指標維護帶來了很大的困難;后者指標在計算中存在大量的重復(fù)計算過程,如計 算"業(yè)務(wù)成本在投入產(chǎn)出率異常"指標在"耗電率異常"、"主營業(yè)務(wù)成本變動率異常"等8個 指標中重復(fù)計算,這大大限制了指標計算的效率。


【發(fā)明內(nèi)容】

[0003] 針對現(xiàn)有技術(shù)對稅務(wù)指標的處理中所存在的重復(fù)計算,效率低下,并且維護困難 的缺陷,本發(fā)明提出了一種可簡化稅務(wù)指標計算的稅務(wù)指標處理方法。
[0004] 為達到以上目的,本發(fā)明是采取如下技術(shù)方案予以實現(xiàn)的:
[0005] -種基于子樹模式挖掘的稅務(wù)中間指標提取方法,其特征在于,首先根據(jù)稅務(wù)計 算表達式生成相應(yīng)的表達式樹集合{Tj n,進而從表達式樹集合中抽取極大子樹模式,抽取 極大子樹模式的具體步驟如下:
[0006] (1)執(zhí)行以下初始化操作:1)對每個i e [1. · n],對表達式樹Ti進行后序遍歷生 成字符串形式的后綴表達式Si,從而形成后綴表達式集合S = {Si}n ;2)初始化變量id = 88880000,用于標示后綴表達式中頻繁出現(xiàn)的字符串;3)初始化五元組(iteml,item2,op, id,max)為結(jié)點的空鏈表P,該鏈表結(jié)點用于存放以op為根節(jié)點,iteml、item2為葉結(jié)點的 子樹模式;iteml與item2表示數(shù)據(jù)項或所嵌套的子樹模式的ID, op表示運算符號;id表 示該子樹模式的ID ;max表示以op為根節(jié)點,iteml、item2為葉結(jié)點的子樹模式是否為極 大子樹模式,用max = 1表示是極大子樹模式,max = 0表示不是極大子樹模式;
[0007] (2)初始化四元組(iteml,item2, op, num)為結(jié)點的空鏈表L,iteml與item2表 示數(shù)據(jù)項或子樹模式ID,op表示運算符號,num表示由iteml、item2、op構(gòu)成的字符串在后 綴表達式集合S中出現(xiàn)的次數(shù);
[0008] (3)對每個s e S,分別執(zhí)行以下操作:1)掃描后綴表達式S,匹配S中所有"aab" 形式的子串,該子串對應(yīng)一顆以b為根節(jié)點,a為葉結(jié)點的表達式樹,其中a表示計算表達 式中的數(shù)據(jù)項或子樹模式ID,b表示計算表達式中的運算符號;2)如果未匹配出"aab"形 式的子串,則S = S-{s} ;3)如果匹配出"aab"形式的子串,對于每個子串執(zhí)行:設(shè)該子串為 axaybz ;在鏈表 L 查找滿足 iteml = ax Λ item2 = ay Λ op = bz 或 iteml = ay Λ item2 = ax Λ op = bz的結(jié)點,若找到,假設(shè)該結(jié)點為1,則1. num = 1. num+1 ;若未找到,貝U在L的末 尾加入一個結(jié)點 1,并使得 1. iteml = ax,1. item2 = ay,1. op = bz,1. unm = 1 ;
[0009] (4)掃描鏈表L,若L為空,或者L中的每個結(jié)點1都滿足1. num < 5,則轉(zhuǎn)到(6); 否則,對每個滿足1. num彡5的結(jié)點1,執(zhí)行以下操作:1)對每個s e S,查詢S是否包含 1. iteml、1. item2、1. op連接形成的字符串或1. item2、1. iteml、1. op連接形成的字符串, 若包含,則將s中的該字符串用id替換,id可作為以l.op為根節(jié)點,1. iteml、l. item2為 葉結(jié)點的子樹模式ID ;2)在P中加入一個結(jié)點p,并使得p. iteml = 1. iteml,p. item2 = 1. item2, p. op = 1. op, p. max = 1, p. id = id ;3) id = id+1 ;
[0010] (5)轉(zhuǎn)到⑵執(zhí)行;
[0011] (6)掃描鏈表P,若P為空,則表達式樹集合{?γ}η中不存在子樹模式,即不存在出 現(xiàn)頻次大于或等于的完全子樹,算法退出;否則,對Ρ中的每個結(jié)點Ρ,若存在Ρ中除了 Ρ以 外的結(jié)點1^,滿足1^.11^1111 =卩.1(1或1^.;^61]12 =卩.1(1,則卩.1]1&叉=-1,表示以卩.〇卩 為根節(jié)點,P. iteml、p. item2為葉結(jié)點的子樹模式不是極大子樹模式;
[0012] (7)對鏈表P中的每個結(jié)點p,若ρ· max = 1,則利用迭代算法TreeGene建立結(jié)點 P對應(yīng)的表達式樹,算法如下:
[0013] 輸入:ρ· ορ,ρ· iteml, ρ· item2 ;
[0014] 輸出:表達式樹T;
[0015] TreeGene (p. op, p. iteml, p. item2)
[0016] {
[0017] 建立p. op為根節(jié)點,p. iteml、p. item2為葉結(jié)點的表達式樹T ;
[0018] 若鏈表Ρ存在除了 ρ以外的結(jié)點ρ ',滿足p ' . id = p. iteml,則將 TreeGene (p' . op, p' . iteml, ρ' · item2)創(chuàng)建的表達式樹替代 T 的葉結(jié)點 p. iteml ;
[0019] 若鏈表P存在除了 ρ以外的結(jié)點ρ ',滿足p ' . id = p. item2,則將 TreeGene (p' . op, p' . iteml, ρ' · item2)創(chuàng)建的表達式樹替代 T 的葉結(jié)點 p. item2 ;
[0020] }。
[0021] (8)對(7)生成每個表達式樹分別賦予一個中間指標。
[0022] 本發(fā)明的優(yōu)點是,對稅務(wù)指標計算表達式樹進行極大子樹模式挖掘,抽取中間指 標,用中間指標替代稅務(wù)指標計算中頻次較多的共性計算過程,能夠簡化稅務(wù)指標計算與 后期維護。

【專利附圖】

【附圖說明】
[0023] 以下結(jié)合附圖及【具體實施方式】對本發(fā)明作進一步的詳細說明。
[0024] 圖1是本發(fā)明從表達式樹集合中抽取極大子樹模式的流程圖。

【具體實施方式】
[0025] 設(shè)稅務(wù)指標集合為M = {mJu,指標叫的表達式樹為?\ = (VpEi);其中,為結(jié)點 集合,可進一步表示為\ = {mj U Q U Dp指標叫作為表達式樹?\的根結(jié)點A為指標叫 的計算表達式中的運算符號集合,作為表達式樹?\的中間結(jié)點;Di為指標ffli的計算表達式 中的數(shù)據(jù)項集合,作為表達式樹凡的葉結(jié)點;A g V) X li為表達式樹的邊集合;例如, 對于指標"耗電率",其計算表達式為"評估期電費+ (評估期主營業(yè)務(wù)成本+期末存貨-期 初存貨)",對應(yīng)表達式樹的根結(jié)點為"耗電率",中間結(jié)點為" + "、" + "、"-",葉結(jié)點為"評估 期電費"、"評估期主營業(yè)務(wù)成本"、期末存貨"、"期初存貨";
[0026] 對于樹T。= (V。,E。)與凡=%,Ε),若滿足以下條件,稱T。為凡的完全子樹,表 示為7; E 7):
[0027]

【權(quán)利要求】
1. 一種基于子樹模式挖掘的稅務(wù)中間指標提取方法,其特征在于,首先根據(jù)稅務(wù)計算 表達式生成相應(yīng)的表達式樹集合{Tik,進而從表達式樹集合中抽取極大子樹模式,抽取極 大子樹模式的具體步驟如下: (1) 執(zhí)行以下初始化操作: i. 對每個i e [1.. n],對表達式樹1進行后序遍歷生成字符串形式的后綴表達式Si, 從而形成后綴表達式集合S = {Si}n; ii. 初始化變量id = 88880000,用于標示后綴表達式中頻繁出現(xiàn)的字符串; iii. 初始化五元組(iteml,item2,op,id,max)為結(jié)點的空鏈表P,該鏈表結(jié)點用于存 放以〇P為根節(jié)點,iteml、item2為葉結(jié)點的子樹模式;iteml與item2表示數(shù)據(jù)項或所嵌 套的子樹模式的ID, op表示運算符號;id表示該子樹模式的ID ;max表示以op為根節(jié)點, iteml、item2為葉結(jié)點的子樹模式是否為極大子樹模式,用max = 1表示是極大子樹模式, max = 0表示不是極大子樹模式; (2) 初始化四元組(iteml, item2, op, num)為結(jié)點的空鏈表L, iteml與item2表示數(shù) 據(jù)項或子樹模式ID,op表示運算符號,num表示由iteml、item2、op構(gòu)成的字符串在后綴表 達式集合S中出現(xiàn)的次數(shù); (3) 對每個s e S,分別執(zhí)行以下操作: i. 掃描后綴表達式s,匹配s中所有"aab"形式的子串,該子串對應(yīng)一顆以b為根節(jié)點, a為葉結(jié)點的表達式樹,其中a表示計算表達式中的數(shù)據(jù)項或子樹模式ID,b表示計算表達 式中的運算符號; ii. 如果未匹配出"aab"形式的子串,則S = S-{s}; iii. 如果匹配出"aab"形式的子串,對于每個子串執(zhí)行: 設(shè)該子串為axaybz ;在鏈表L查找滿足iteml = ax Λ item2 = ay Λ op = bz或者iteml =ay Λ item2 = ax Λ op = bz的結(jié)點,若找到,假設(shè)該結(jié)點為1,則1. num = 1. num+1 ;若未 找到,貝1J在L的末尾加入一個結(jié)點1,并使得1. iteml = ax,1. item2 = ay,1. op = bz,1. num =1 ; (4) 掃描鏈表L,若L為空,或者L中的每個結(jié)點1都滿足1. num < 5,則轉(zhuǎn)到步驟(6); 否則,對每個滿足1. num彡5的結(jié)點1,執(zhí)行以下操作: i. 對每個seS,查詢s是否包含1. iteml、1. item2、l.op連接形成的字符串或 1. item2、1. iteml、1. op連接形成的字符串,若包含,則將s中的該字符串用id替換,id可 作為以1. op為根節(jié)點,1. iteml、1. item2為葉結(jié)點的子樹模式ID ; ii. 在 P 中加入一個結(jié)點 p,并使得 ρ· iteml = 1. iteml,ρ· item2 = 1. item2, ρ· op = 1. op? p. ΓΠΒΧ - 1,p. id - id ; iii. id = id+1 ; (5) 轉(zhuǎn)到步驟(2)執(zhí)行; (6) 掃描鏈表P,若P為空,則表達式樹集合{?γ}η中不存在子樹模式,即不存在出現(xiàn)頻 次大于或等于的完全子樹,算法退出;否則,對Ρ中的每個結(jié)點Ρ,若存在Ρ中除了 Ρ以外的 結(jié)點口/,滿足口/.11^1111=卩.1(1或卩/.;^61]12 =卩.1(1,則卩.1]1&叉=-1,表示以卩.〇卩為根 節(jié)點,p. iteml、p. item2為葉結(jié)點的子樹模式不是極大子樹模式; (7) 對鏈表P中的每個結(jié)點P,若P. max = 1,利用迭代算法TreeGene建立結(jié)點ρ對應(yīng) 的表達式樹。 (8)對步驟(7)生成每個表達式樹分別賦予一個中間指標。
2.如權(quán)利要求1所述的基于子樹模式挖掘的稅務(wù)中間指標提取方法,其特征在于,步 驟(7)中所述的迭代算法TreeGene具體包括: 輸入:ρ· op, ρ· iteml,ρ· item2 ; 輸出:表達式樹T ; TreeGene (p. op, p. iteml, p. item2) { 建立p. op為根節(jié)點,p. iteml、p. item2為葉結(jié)點的表達式樹T ; 若鏈表P存在除了 P以外的結(jié)點P',滿足P' .id = p.iteml,則將1'代666116(口/· op, p' . iteml, p' . item2)創(chuàng)建的表達式樹替代T的葉結(jié)點p. iteml ; 若鏈表P存在除了 P以外的結(jié)點P',滿足P' .id = p.item2,則將1'代666116(口/· op, p' . iteml, p' . item2)創(chuàng)建的表達式樹替代T的葉結(jié)點p. item2 ; }〇
【文檔編號】G06F17/30GK104111987SQ201410310973
【公開日】2014年10月22日 申請日期:2014年7月1日 優(yōu)先權(quán)日:2014年7月1日
【發(fā)明者】劉均, 孟瑋, 鄭慶華 申請人:西安交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
高台县| 吉隆县| 阿拉善左旗| 临海市| 襄城县| 高陵县| 古蔺县| 垦利县| 庆阳市| 龙州县| 平泉县| 安远县| 衢州市| 安龙县| 竹溪县| 韶关市| 绍兴县| 教育| 九龙县| 寻甸| 湖南省| 顺义区| 来凤县| 河曲县| 乐平市| 彩票| 阳江市| 枣庄市| 新化县| 普兰县| 内黄县| 莎车县| 山西省| 安国市| 广河县| 定陶县| 祥云县| 广西| 和龙市| 台东县| 姚安县|