本技術(shù)涉及數(shù)據(jù)處理與機器學(xué)習,尤其涉及一種應(yīng)收賬風險預(yù)測方法、設(shè)備及介質(zhì)。
背景技術(shù):
1、在erp系統(tǒng)的財務(wù)管理中,準確預(yù)測應(yīng)收賬款的壞賬風險對于企業(yè)的資金流動和風險控制至關(guān)重要。然而,傳統(tǒng)的壞賬預(yù)測方法往往基于簡單的財務(wù)指標和人工經(jīng)驗,且預(yù)測精度有限、主觀性強。
2、隨著企業(yè)規(guī)模的不斷擴大和市場競爭的加劇,erp系統(tǒng)在企業(yè)財務(wù)管理中的應(yīng)用越來越廣泛。然而,傳統(tǒng)的壞賬預(yù)測方法已經(jīng)無法滿足現(xiàn)代企業(yè)大數(shù)據(jù)量、更精準預(yù)測值的要求,特迫切需要一種更加高效、準確的預(yù)測方法。傳統(tǒng)的壞賬預(yù)測方法主要集中在利用神經(jīng)網(wǎng)絡(luò)、支持向量機等復(fù)雜機器學(xué)習算法進行壞賬預(yù)測。當前這些方法在預(yù)測非線性特征交互方面存在局限性影響預(yù)測精度,且存在實施成本高、解釋性差的問題。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種應(yīng)收賬風險預(yù)測方法、設(shè)備及介質(zhì),用于解決如下技術(shù)問題:現(xiàn)有的壞賬預(yù)測方式的精度有限,人為判斷的主觀性強,預(yù)測非線性特征交互的局限性大且評估不準確。
2、本技術(shù)實施例采用下述技術(shù)方案:
3、一方面,本技術(shù)實施例提供了一種應(yīng)收賬風險預(yù)測方法,包括:根據(jù)erp系統(tǒng)中抽取的歷史應(yīng)收款相關(guān)數(shù)據(jù)表,將不同的歷史應(yīng)收款相關(guān)數(shù)據(jù)表進行合并處理,得到應(yīng)收款數(shù)據(jù)集;并對所述應(yīng)收款數(shù)據(jù)集進行數(shù)據(jù)特征值的異常處理;將所述應(yīng)收款數(shù)據(jù)集進行有關(guān)矩陣的標準化處理,得到樣本數(shù)據(jù)矩陣;對所述樣本數(shù)據(jù)矩陣中的每個特征進行特征重要性評估,得到特征重要性順序;并對所述樣本數(shù)據(jù)矩陣中的每個特征進行節(jié)點分割處理,確定出節(jié)點分裂條件最優(yōu)值;基于所述特征重要性順序以及所述節(jié)點分裂條件最優(yōu)值,對所述應(yīng)收款數(shù)據(jù)集中的訓(xùn)練集進行重復(fù)回歸處理,構(gòu)建出基于所述應(yīng)收款數(shù)據(jù)集的隨機森林算法;通過所述隨機森林算法,對所述應(yīng)收款數(shù)據(jù)集進行模型訓(xùn)練,得到應(yīng)收款壞賬風險預(yù)測模型;通過所述應(yīng)收款壞賬風險預(yù)測模型,對當前應(yīng)收款相關(guān)數(shù)據(jù)表進行有關(guān)回歸樹根節(jié)點下的概率預(yù)測,得到壞賬風險信息。
4、本技術(shù)實施例通過數(shù)據(jù)標準化、集成多個影響壞賬風險的特征并評估特征重要性、獲取最優(yōu)回歸樹分裂最優(yōu)值,并發(fā)揮隨機森林算法在捕捉非線性關(guān)系方面的優(yōu)勢,不僅提升了預(yù)測精度,增強了模型對復(fù)雜業(yè)務(wù)場景的適應(yīng)能力,而且通過特征權(quán)重分析,為企業(yè)提供了更深入的壞賬風險理解和管理依據(jù),有效優(yōu)化了財務(wù)決策流程,降低了壞賬風險,提升了企業(yè)資金流動性和財務(wù)健康度。
5、在一種可行的實施方式中,根據(jù)erp系統(tǒng)中抽取的歷史應(yīng)收款相關(guān)數(shù)據(jù)表,將不同的歷史應(yīng)收款相關(guān)數(shù)據(jù)表進行合并處理,得到應(yīng)收款數(shù)據(jù)集;對所述應(yīng)收款數(shù)據(jù)集進行數(shù)據(jù)特征值的異常處理,具體包括:通過所述erp系統(tǒng),抽取所述歷史應(yīng)收款相關(guān)數(shù)據(jù)表;其中,所述歷史應(yīng)收款相關(guān)數(shù)據(jù)表中的相關(guān)數(shù)據(jù)至少包括:客戶信用評分、客戶單位性質(zhì)、歷史逾期信息、歷史交易信息以及歷史回款天數(shù);根據(jù)客戶id信息,將所述歷史應(yīng)收款相關(guān)數(shù)據(jù)表進行關(guān)鍵字的分類聚合處理,得到相同客戶id信息下的所述應(yīng)收款數(shù)據(jù)集;對所述應(yīng)收款數(shù)據(jù)集中的缺失值特征進行類型分類;若所述缺失值特征為數(shù)值型特征,則將所述缺失值特征進行平均值的填充處理;其中,所述數(shù)值型特征至少包括:所述客戶信用評分以及所述歷史交易信息;若所述缺失值特征為類別型特征,則將所述缺失值特征進行新類別的創(chuàng)建處理;其中,所述類別型特征至少包括:客戶單位性質(zhì)以及歷史逾期信息;通過預(yù)設(shè)的箱線分析技術(shù),將所述應(yīng)收款數(shù)據(jù)集中的異常值數(shù)據(jù)進行刪除處理;并基于所述應(yīng)收款數(shù)據(jù)集,生成應(yīng)收款數(shù)據(jù)集矩陣;其中,所述應(yīng)收款數(shù)據(jù)集矩陣中的每行代表預(yù)測數(shù)據(jù)記錄,每列代表特征向量,每個特征值均包含所述歷史應(yīng)收款相關(guān)數(shù)據(jù)表中的相關(guān)數(shù)據(jù)。
6、在一種可行的實施方式中,將所述應(yīng)收款數(shù)據(jù)集進行有關(guān)矩陣的標準化處理,得到樣本數(shù)據(jù)矩陣,具體包括:根據(jù)同一客戶id信息維度,將所述應(yīng)收款數(shù)據(jù)集所對應(yīng)的應(yīng)收款數(shù)據(jù)集矩陣中的數(shù)值型特征進行均值-方差標準化處理,得到標準化矩陣;其中,根據(jù)得到所述標準化矩陣的標準化值bij;xij為所述應(yīng)收款數(shù)據(jù)集矩陣中第i行第j列特征值,xijavg為所述應(yīng)收款數(shù)據(jù)集矩陣中第i行所屬客戶id信息的所有行下第j列特征的平均值,w為所述應(yīng)收款數(shù)據(jù)集矩陣中特征值的標準差;基于標準化矩陣,對所述應(yīng)收款數(shù)據(jù)集矩陣進行矩陣轉(zhuǎn)化,得到所述樣本數(shù)據(jù)矩陣。
7、在一種可行的實施方式中,對所述樣本數(shù)據(jù)矩陣中的每個特征進行特征重要性評估,得到特征重要性順序,具體包括:隨機抽取所述樣本數(shù)據(jù)矩陣中若干個樣本子集,并將所述樣本子集作為隨機森林回歸樹的樣本訓(xùn)練集;記錄所述樣本訓(xùn)練集中每個特征被用作分裂節(jié)點的使用次數(shù)以及當前分裂節(jié)點的基尼系數(shù);并將所有回歸樹中每個特征的所述使用次數(shù)以及所述基尼系數(shù)進行相加處理,得到每個特征在整個隨機森林中的總使用次數(shù)以及總基尼系數(shù);將所述總使用次數(shù)以及所述總基尼系數(shù)進行歸一化處理,并確定出所述總使用次數(shù)的第一順序以及所述總基尼系數(shù)的第二順序;基于所述第一順序以及所述第二順序,得到所述樣本數(shù)據(jù)矩陣中每個特征的特征重要性順序。
8、在一種可行的實施方式中,對所述樣本數(shù)據(jù)矩陣中的每個特征進行節(jié)點分割處理,確定出節(jié)點分裂條件最優(yōu)值,具體包括:通過隨機森林算法回歸樹的根節(jié)點,遍歷所述樣本數(shù)據(jù)矩陣中每個特征的分割點;依次計算每個所述分割點中左子樹與右子樹的殘差平方和,并將最小化殘差平方以及對應(yīng)的分割點確定為當前節(jié)點的所述節(jié)點分裂條件最優(yōu)值。
9、在一種可行的實施方式中,基于所述特征重要性順序以及所述節(jié)點分裂條件最優(yōu)值,對所述應(yīng)收款數(shù)據(jù)集中的訓(xùn)練集進行重復(fù)回歸處理,構(gòu)建出基于所述應(yīng)收款數(shù)據(jù)集的隨機森林算法,具體包括:通過所述特征重要性順序,對隨機森林回歸樹的樣本訓(xùn)練集進行特征重要性篩選,得到重要性特征;將所述重要性特征作為分裂特征,并根據(jù)所述節(jié)點分裂條件最優(yōu)值,將回歸樹葉子節(jié)點進行分裂處理;重復(fù)所述歸樹葉子節(jié)點的分裂過程,直至每個樣本訓(xùn)練集對應(yīng)生成一棵決策樹,繼而得到基于所述應(yīng)收款數(shù)據(jù)集的隨機森林算法。
10、在一種可行的實施方式中,通過所述隨機森林算法,對所述應(yīng)收款數(shù)據(jù)集進行模型訓(xùn)練,得到應(yīng)收款壞賬風險預(yù)測模型,具體包括:將所述樣本數(shù)據(jù)矩陣中的剩余若干樣本子集確定為樣本測試集;通過所述隨機森林算法,對所述樣本測試集進行有關(guān)準確率、召回率以及分數(shù)指標的超參數(shù)調(diào)整,得到超參數(shù)組合;通過交叉驗證以及網(wǎng)格搜索,對所述超參數(shù)組合進行調(diào)整判斷,確定出最佳超參數(shù)組合;其中,所述超參數(shù)至少包含:決策樹的數(shù)量、最大深度、分裂內(nèi)部節(jié)點所需的最小樣本數(shù)、葉子節(jié)點最小樣本數(shù)以及最大特征數(shù);基于樣本訓(xùn)練集的模型訓(xùn)練以及所述樣本測試集中最佳超參數(shù)組合下的模型驗證與優(yōu)化,構(gòu)建出所述應(yīng)收款壞賬風險預(yù)測模型。
11、在一種可行的實施方式中,通過所述應(yīng)收款壞賬風險預(yù)測模型,對當前應(yīng)收款相關(guān)數(shù)據(jù)表進行有關(guān)回歸樹根節(jié)點下的概率預(yù)測,得到壞賬風險信息,具體包括:將所述當前應(yīng)收款相關(guān)數(shù)據(jù)表中的當前應(yīng)收款特征集合輸入到所述應(yīng)收款壞賬風險預(yù)測模型的每顆回歸樹的根節(jié)點中;通過所述應(yīng)收款壞賬風險預(yù)測模型中的特征重要性順序以及節(jié)點分裂條件最優(yōu)值,將所述當前應(yīng)收款特征集合中的當前應(yīng)收款信息全部分裂到子葉子節(jié)點上;計算每顆回歸樹分裂葉子節(jié)點上的壞賬概率信息,并計算所述壞賬概率信息占所述每顆回歸樹中壞賬概率集合的平均值,確定出所有回歸樹的壞賬風險概率信息;將所述壞賬風險概率信息進行風險閾值判斷,得到所述壞賬風險信息。
12、第二方面,本技術(shù)實施例還提供了一種應(yīng)收賬風險預(yù)測設(shè)備,所述設(shè)備包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有能夠被所述至少一個處理器執(zhí)行的指令,以使所述至少一個處理器能夠執(zhí)行上述任一實施方式所述的一種應(yīng)收賬風險預(yù)測方法。
13、第三方面,本技術(shù)實施例還提供了一種非易失性計算機存儲介質(zhì),其特征在于,所述存儲介質(zhì)為非易失性計算機可讀存儲介質(zhì),所述非易失性計算機可讀存儲介質(zhì)存儲有至少一個程序,每個所述程序包括指令,所述指令當被終端執(zhí)行時,使所述終端執(zhí)行上述任一實施方式所述的一種應(yīng)收賬風險預(yù)測方法。
14、本技術(shù)提供了一種應(yīng)收賬風險預(yù)測方法、設(shè)備及介質(zhì),與現(xiàn)有技術(shù)相比,本技術(shù)實施例具有以下有益的技術(shù)效果:
15、本技術(shù)實施例通過數(shù)據(jù)標準化、集成多個影響壞賬風險的特征并評估特征重要性、獲取最優(yōu)回歸樹分裂最優(yōu)值,并發(fā)揮隨機森林算法在捕捉非線性關(guān)系方面的優(yōu)勢,不僅提升了預(yù)測精度,增強了模型對復(fù)雜業(yè)務(wù)場景的適應(yīng)能力,而且通過特征權(quán)重分析,為企業(yè)提供了更深入的壞賬風險理解和管理依據(jù),有效優(yōu)化了財務(wù)決策流程,降低了壞賬風險,提升了企業(yè)資金流動性和財務(wù)健康度。