本發(fā)明涉及數據挖掘技術領域,特別是涉及一種基于納稅人畫像的稅務大數據挖掘方法及裝置。
背景技術:
稅收管理離不開大數據的支持,提高稅收管理水平也有賴于圍繞以數據為核心的精確管理體系,即對各種數據進行收集、分析、整合和使用。而數據挖掘技術是目前處理大數據信息的主要手段之一,數據挖掘技術是從大量的、不完全的、有噪聲的、模糊的、隨機的數據中,提取隱含在其中的,又是潛在有用的信息和知識的過程,是一種更深層次的數據分析。隨著數據挖掘技術的發(fā)展,其涉及眾多科學技術,包括數據庫技術、統(tǒng)計學、機器學習、信息科學、數據可視化及模式識別等其他科學。
當稅管部門對自己管轄稅區(qū)的納稅人的現狀并不了解時,就需要一個綜合的定量的評價指標來衡量納稅人現狀,為稅管部門提供科學管理的依據。雖然大數據挖掘案例很多,但是如何將大數據挖掘技術應用到稅收管理領域中,尤其是通過挖掘信息來描述納稅人也是目前研究的重點。
技術實現要素:
針對于上述問題,本發(fā)明提供一種基于納稅人畫像的稅務大數據挖掘方法及裝置,實現了清楚地分析納稅人信息,為稅管部門提供科學管理依據的目的。
為了實現上述目的,根據本發(fā)明的第一方面,提供了一種納稅人信息挖掘方法,該方法包括:
對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;
對所述納稅人相關指數進行加權相加,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
優(yōu)選的,所述對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,包括:
通過獲取某個稅區(qū)內各個行業(yè)納稅額,計算得到所述支柱行業(yè)指數;
獲取納稅人注冊地址信息和經營地址信息,確定所述異地經營指數;
根據納稅人產品收入相關參數,創(chuàng)建納稅人稅源風險管控模型,計算得到所述稅源風險指數;
對某個區(qū)域內各個行業(yè)的納稅貢獻率進行歸一化處理,得到所述納稅貢獻指數;
獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數。
優(yōu)選的,所述對所述納稅人相關指數進行加權相加,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像,包括:
分別設置所述納稅人相關指數的對應的權重值;
將所述權重值與其對應的納稅人相關指數相乘,分別獲得各個納稅人相關指數對應的乘積;
將所述各個納稅人相關指數對應的乘積進行加和計算,得到納稅人綜合評價指數。
優(yōu)選的,所述通過獲取某個稅區(qū)內各個行業(yè)納稅額,計算得到所述支柱行業(yè)指數,包括:
獲取某個稅區(qū)內各個行業(yè)納稅額,并對所述納稅額進行排序,得到該稅區(qū)內納稅額最大的行業(yè);
將所述稅區(qū)內納稅額最大的行業(yè)定義為該稅區(qū)的支柱行業(yè),并計算其納稅值;
計算所述支柱行業(yè)的納稅值占所述稅區(qū)納稅額的比值,對所述比值進行歸一化處理得到所述支柱行業(yè)指數。
優(yōu)選的,所述獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數,包括:
獲取納稅人企業(yè)的總部和分支企業(yè)的分布情況信息;
以所述總部企業(yè)為中心劃分所述納稅人所在稅區(qū),判斷所述分支企業(yè)是否均在所述稅區(qū)內,如果是,則記錄所述分支企業(yè);
計算所述記錄的分支企業(yè)數量占所述納稅人全部企業(yè)數量的比值,將所述比值記為所述納稅宗譜指數。
根據本發(fā)明的第二方面,提供了一種基于納稅人畫像的稅務大數據挖掘裝置,該裝置包括:
指數獲取模塊,用于對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;
計算模塊,用于對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
優(yōu)選的,所述指數獲取模塊包括:
第一獲取單元,用于通過獲取某個稅區(qū)內各個行業(yè)納稅額,計算得到所述支柱行業(yè)指數;
第二獲取單元,用于獲取納稅人注冊地址信息和經營地址信息,確定所述異地經營指數;
第三獲取單元,用于根據納稅人產品收入相關參數,創(chuàng)建納稅人稅源風險管控模型,計算得到所述稅源風險指數;
第四獲取單元,用于對某個區(qū)域內各個行業(yè)的納稅貢獻率進行歸一化處理,得到所述納稅貢獻指數;
第五獲取單元,用于獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數。
優(yōu)選的,所述計算模塊包括:
設置單元,用于分別設置所述納稅人相關指數的對應的權重值;
乘積計算單元,用于將所述權重值與其對應的納稅人相關指數相乘,分別獲得各個納稅人相關指數對應的乘積;
加權計算單元,用于將所述各個納稅人相關指數對應的乘積進行加和計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
優(yōu)選的,所述第一獲取單元包括:
排序單元,用于獲取某個稅區(qū)內各個行業(yè)納稅額,并對所述納稅額進行排序,得到該稅區(qū)內納稅額最大的行業(yè);
第一計算子單元,用于將所述稅區(qū)內納稅額最大的行業(yè)定義為該稅區(qū)的支柱行業(yè),并計算其納稅值;
第二計算子單元,用于計算所述支柱行業(yè)的納稅值占所述稅區(qū)納稅額的比值,對所述比值進行歸一化處理得到所述支柱行業(yè)指數。
優(yōu)選的,所述第五獲取單元包括:
信息獲取子單元,用于獲取納稅人企業(yè)的總部和分支企業(yè)的分布情況信息;
判斷子單元,用于以所述總部企業(yè)為中心劃分所述納稅人所在稅區(qū),判斷所述分支企業(yè)是否均在所述稅區(qū)內,如果是,則記錄所述分支企業(yè);
第三計算子單元,用于計算所述記錄的分支企業(yè)數量占所述納稅人全部企業(yè)數量的比值,將所述比值記為所述納稅宗譜指數。
相較于現有技術,本發(fā)明對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數。上述指數的計算獲取過程是基于納稅人相關信息的挖掘與處理,即將數據挖掘方法應用到了稅收管理領域;在獲得了上述指數后通過加權計算得到納稅人綜合評價指數,可以對納稅人的信息進行了綜合描述,為稅收管理部門提供科學管理的依據。
附圖說明
為了更清楚地說明本發(fā)明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
圖1為本發(fā)明實施例一提供的一種基于納稅人畫像的稅務大數據挖掘方法的流程示意圖;
圖2為本發(fā)明實施例二對應的圖1中s11步驟中的獲取指數的流程示意圖;
圖3為本發(fā)明實施例二對應的圖1中s12步驟中的計算評價指數的流程示意圖;
圖4為實施例三提供的基于納稅人畫像的稅務大數據挖掘裝置的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”和“第二”等是用于區(qū)別不同的對象,而不是用于描述特定的順序。此外術語“包括”和“具有”以及他們任何變形,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產品或設備沒有設定于已列出的步驟或單元,而是可包括沒有列出的步驟或單元。
實施例一
參見圖1為本發(fā)明實施例一提供的一種基于納稅人畫像的稅務大數據挖掘方法,該方法包括以下步驟:
s11、對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;
可以理解的是,采用數據挖掘的方法獲取到納稅人相關信息,并對獲取到的信息進行計算或處理得到了評價納稅人的五個指數,即根據某個稅區(qū)內現有數據判斷那些行業(yè)比較熱門,并結合納稅額得到支柱行業(yè)指數;根據納稅人注冊時間及異地經營之間的距離得出異地經營指數;根據稅負的高低得到稅源風險指數;根據區(qū)域稅收情況,判斷出納稅人的納稅貢獻值,得到納稅貢獻指數;獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數??梢陨鲜龈鱾€指數均是基于數據挖掘后得到相應的信息才能計算處理獲得。
s12、對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
具體的,根據不同的指數得出不同的數值,把每個指數加權相加總和得到納稅人綜合評價指數,可以清楚地客觀地描述某個納稅人的行為特征。
通過本發(fā)明實施例一公開的技術方案,對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數。上述指數的計算獲取過程是基于納稅人相關信息的挖掘與處理,即將數據挖掘方法應用到了稅收管理領域;在獲得了上述指數后通過加權計算得到納稅人綜合評價指數,可以對納稅人的信息進行了綜合描述,為稅收管理部門提供科學管理的依據。
實施例二
參照本發(fā)明實施例一和圖1中所描述的s11到s12步驟的具體過程,并參見圖2,所述步驟s11對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,具體包括:
s111、通過獲取某個稅區(qū)內各個行業(yè)納稅額,計算得到所述支柱行業(yè)指數;
具體可以理解為以下步驟:
獲取某個稅區(qū)內各個行業(yè)納稅額,并對所述納稅額進行排序,得到該稅區(qū)內納稅額最大的行業(yè);
將所述稅區(qū)內納稅額最大的行業(yè)定義為該稅區(qū)的支柱行業(yè),并計算其納稅值;
計算所述支柱行業(yè)的納稅值占所述稅區(qū)納稅額的比值,對所述比值進行歸一化處理得到所述支柱行業(yè)指數。
并且,歸一化處理的目的是將計算得到的值歸一化到1-100之間的標準值,作為支柱行業(yè)指數的定量值。
s112、獲取納稅人注冊地址信息和經營地址信息,確定所述異地經營指數;
具體的,根據納稅人注冊地址信息和氣經營地址作為基準,以該納稅人所在稅區(qū)的邊界范圍內做內切圓,以內切圓半徑作為評價該納稅人是否屬于異地經營的評定閾值,如果屬于異地經營,計算異地經營距離與內切圓半徑的倍數來計算獲得異地經營指數,同時也進行歸一化處理。
s113、根據納稅人產品收入相關參數,創(chuàng)建納稅人稅源風險管控模型,計算得到所述稅源風險指數;
具體的,要建立一個納稅人稅源風險管控模型,需要先明確那些因素會對稅源風險有一定的影響力,在本發(fā)明的實施例中利用納稅人會計報表中涉及的一些因素作為建立風險模型的主要參數,其中包括納稅人企業(yè)的產品銷售收入、產品銷售成本、期初庫存、期末庫存、稅收申報數據等。對這些數據和參數進行相應的分析和處理,輸入到建模軟件中,本發(fā)明對具體的軟件類型并不做限制,建立納稅人稅源風險管控模型。然后,對納稅人信息進行挖掘,獲得納稅人相關的“累積未入庫稅源”、“庫存率”、“毛利率”等指標,通過將上述指標對應的數值和信息輸入到稅源風險管控模型中,可以分析出庫存增減變化和利潤相關信息在稅源管理中存在的涉稅風險及產生原因。同時,分別計算獲得累積未入庫稅源和庫存率,根據企業(yè)經營規(guī)模大小設置累積未入庫稅源閾值,同時設置庫存率預警值,當所述累積未入庫稅源大于設置累積未入庫稅源閾值,并且所述庫存率大于設置庫存率預警值2倍,將滿足上述要求的納稅人篩選為涉稅風險企業(yè);并且毛利率低于行業(yè)預警值也篩選為涉稅風險企業(yè),將篩選為涉稅風險的企業(yè)對應的涉稅風險指數進行設定,具體值的設定情況根據實際需要進行設定,比如在稅收管理系統(tǒng)中重點進行涉稅風險管理時,則將該指數設置為較大值即提高其比重。同樣,在獲得稅源風險指數同時進行歸一化處理,為后續(xù)定量值計算做準備。
s114、對某個區(qū)域內各個行業(yè)的納稅貢獻率進行歸一化處理,得到所述納稅貢獻指數;
具體的,貢獻率=應納所得稅額/主營業(yè)務收入,該貢獻率反映的是企業(yè)所得稅繳納稅額與收入的比例關系,在對所得稅進行納稅評估時最為關注的指標。計算某個稅區(qū)內每個行業(yè)的納稅貢獻率,根據納稅率計算納稅高低,得到支柱行業(yè)納稅貢獻率并做歸一化處理得到納稅貢獻指數。
s115、獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數。
該步驟具體包括:
獲取納稅人企業(yè)的總部和分支企業(yè)的分布情況信息;
以所述總部企業(yè)為中心劃分所述納稅人所在稅區(qū),判斷所述分支企業(yè)是否均在所述稅區(qū)內,如果是,則記錄所述分支企業(yè);
計算所述記錄的分支企業(yè)數量占所述納稅人全部企業(yè)數量的比值,將所述比值記為所述納稅宗譜指數。
可以理解的是,在本發(fā)明實施例中獲得的支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數這五個指數,都要分別進行了歸一化處理,即將各個指數歸一化到1-100之間的標準值,這樣可以為納稅人畫像進行定量值分析。
相應的,參見圖3,所述步驟s12對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數,具體包括:
s121、分別設置所述納稅人相關指數的對應的權重值;
s122、將所述權重值與其對應的納稅人相關指數相乘,分別獲得各個納稅人相關指數對應的乘積;
s123、將所述各個納稅人相關指數對應的乘積進行加和計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
舉例說明,根據不同的指數得出不同的數值,把每個指數加權相加總和,得到納稅人畫像的歸一化標準值,并且該值在1-100之間,根據納稅人畫像標準值大小劃分為優(yōu)、良、中、差等四個級別,即可以參考下面的劃分方式:將10-25劃分為差、將25-50劃分為中、將50-75劃分為良、將75-100劃分為優(yōu),同樣可以根據稅收管理中的側重不同,對劃分等級分數值間隔進行調整,本發(fā)明對此不做限制。
可以根據稅收管理的目的不同,設置各個指數的權重值側重不同,比如在稅收管理過程中主要是對納稅人地理信息進行管理,則相應的異地經營指數和納稅宗譜指數的權重值可以相對提高,本發(fā)明對各個指數對應的權重值的具體設置并不做限制。同時,可以根據需要,對納稅人綜合評價指數進行跟具體化的設置,比如稅收管理需要細化到某個年份,某個季度或者某個月,則在獲取上述對應指數時需要進行對應的時間限制,具體過程本發(fā)明不做贅述。
根據本發(fā)明實施例二公開的技術方案,通過根據挖掘獲取的具體納稅人信息,比如獲取到產品收入信息,納稅額值信息,地理位置信息,公司機構信息等分別計算處理得到支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數。上述指數的計算獲取過程是基于納稅人相關信息的挖掘與處理,即將數據挖掘方法應用到了稅收管理領域;在獲得了上述指數后通過加權計算得到納稅人綜合評價指數,可以對納稅人的信息進行了綜合描述,為稅收管理部門提供科學管理的依據。
實施例三
與本發(fā)明實施例一和實施例二提供的一種納稅人信息挖掘方法相對應,本發(fā)明的實施例三還提供了一種納稅人信息挖掘裝置,參見圖4,該裝置包括:
指數獲取模塊1,用于對納稅人信息進行數據挖掘處理,獲取納稅人相關指數,其中,所述信息指數包括支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;
計算模塊2,用于對所述納稅人相關指數進行加權計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
相應的,所述指數獲取模塊1包括:
第一獲取單元11,用于通過獲取某個稅區(qū)內各個行業(yè)納稅額,計算得到所述支柱行業(yè)指數;
第二獲取單元12,用于獲取納稅人注冊地址信息和經營地址信息,確定所述異地經營指數;
第三獲取單元13,用于根據納稅人產品收入相關參數,創(chuàng)建納稅人稅源風險管控模型,計算得到所述稅源風險指數;
第四獲取單元14,用于對某個區(qū)域內各個行業(yè)的納稅貢獻率進行歸一化處理,得到所述納稅貢獻指數;
第五獲取單元14,用于獲取納稅人企業(yè)機構信息,計算獲得所述納稅宗譜指數。
對應的,所述計算模塊2包括:
設置單元21,用于分別設置所述納稅人相關指數的對應的權重值;
乘積計算單元22,用于將所述權重值與其對應的納稅人相關指數相乘,分別獲得各個納稅人相關指數對應的乘積;
加權計算單元23,用于將所述各個納稅人相關指數對應的乘積進行加和計算,得到納稅人綜合評價指數,并將所述納稅人綜合評價指數定義為納稅人畫像。
具體的,所述第一獲取單元包括:
排序單元,用于獲取某個稅區(qū)內各個行業(yè)納稅額,并對所述納稅額進行排序,得到該稅區(qū)內納稅額最大的行業(yè);
第一計算子單元,用于將所述稅區(qū)內納稅額最大的行業(yè)定義為該稅區(qū)的支柱行業(yè),并計算其納稅值;
第二計算子單元,用于計算所述支柱行業(yè)的納稅值占所述稅區(qū)納稅額的比值,對所述比值進行歸一化處理得到所述支柱行業(yè)指數。
相應的,所述第五獲取單元包括:
信息獲取子單元,用于獲取納稅人企業(yè)的總部和分支企業(yè)的分布情況信息;
判斷子單元,用于以所述總部企業(yè)為中心劃分所述納稅人所在稅區(qū),判斷所述分支企業(yè)是否均在所述稅區(qū)內,如果是,則記錄所述分支企業(yè);
第三計算子單元,用于計算所述記錄的分支企業(yè)數量占所述納稅人全部企業(yè)數量的比值,將所述比值記為所述納稅宗譜指數。
在本發(fā)明的實施例三中,在指數獲取模塊中對納稅人信息進行數據挖掘處理,獲取了支柱行業(yè)指數、異地經營指數、稅源風險指數、納稅貢獻指數和納稅宗譜指數;在計算模塊中對上述納稅人相關指數進行加權計算,得到納稅人綜合評價指數。上述指數的計算獲取過程是基于納稅人相關信息的挖掘與處理,即將數據挖掘方法應用到了稅收管理領域;在獲得了上述指數后通過加權計算得到納稅人綜合評價指數,可以對納稅人的信息進行了綜合描述,為稅收管理部門提供科學管理的依據。
本說明書中各個實施例采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。
對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現或使用本發(fā)明。對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。