一種樣本數(shù)據(jù)的整合系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種樣本數(shù)據(jù)的整合系統(tǒng)及方法,該方法包括:處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行;所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。本發(fā)明能夠提高了預(yù)測模型的樣本建立過程的準(zhǔn)確性和及時性。
【專利說明】一種樣本數(shù)據(jù)的整合系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本申請屬于數(shù)據(jù)預(yù)測模型領(lǐng)域,具體地說,涉及一種樣本數(shù)據(jù)的整合系統(tǒng)及方法。【背景技術(shù)】
[0002]現(xiàn)有技術(shù)中的數(shù)據(jù)預(yù)測一般均采用數(shù)據(jù)預(yù)測模型方式。通過從簡化的數(shù)學(xué)公式上:Y=BX+e ;其中Y就是要預(yù)測的事件(自變量),通常為一個固定的時間窗口。這里X是影響Y的因子,而B就是要估計(jì)的參數(shù);e為誤差。而現(xiàn)有的數(shù)據(jù)預(yù)測模型對于其中的Y (自變量)通常都有一個固定的N天或者月的預(yù)測窗口 X。
[0003]比如:預(yù)測風(fēng)險時,銀行要預(yù)測一個客戶從現(xiàn)在這個時點(diǎn)算起,在未來12個月的出險概率。在市場營銷上,企業(yè)會預(yù)測,在實(shí)施一個促銷活動后的3個月內(nèi),顧客會來光顧或使用產(chǎn)品的概率。
[0004]上述所有的這些數(shù)據(jù)預(yù)測模型在預(yù)測的時間窗口(Y)上都是必須固定的。這是因?yàn)橹挥泄潭ǖ臅r間窗口,在不同的實(shí)施時間點(diǎn)(比如實(shí)施在I月,或者2月)實(shí)行的促銷活動才是可比的。理論上,事件發(fā)生的概率是服從一定時間分布的(有一個⑶F(累計(jì)分布函數(shù),cumulative distribution function))累計(jì)的概念),觀測時間窗口越長,發(fā)生概率也越大。所以,只有固定預(yù)測時間窗口,才可以把不同時間點(diǎn)實(shí)行的樣本聯(lián)合起來建模,從而得出穩(wěn)定和準(zhǔn)確的預(yù)測。
[0005]然而,(如圖1所示)固定的時間窗口的數(shù)據(jù)預(yù)測模型有一個巨大的缺陷,就是所有可以拿來建模的樣本必須保留固定的時間窗口的表現(xiàn)期,而比較新的樣本,由于其表現(xiàn)期較短,無法滿足預(yù)定的時間窗口的話,這些樣本通常都被浪費(fèi)而舍棄了。如圖1所示為例:站在現(xiàn)在2012年6月的這個點(diǎn)上,如果想建立一個10個月的固定的時間窗口的數(shù)據(jù)預(yù)測模型,所用的數(shù)據(jù)則可以是2011年I月到2011年10月,2011年2月到2011年11月,以此類推,則最近的可用數(shù)據(jù)是2011年9月。所有能夠拿來用來建模的數(shù)據(jù)樣本就只有黑色線條圍成的平行四邊形黑色部分。顯然,2011年10月以后的數(shù)據(jù)即下面的白色三角部分(觀測窗口不足10個月)就只能被舍棄;同樣上面的黑色線條圍成的三角形白色部分(觀測窗口大于12個月)通常也是被忽略的。
[0006]對于上述這2塊三角形區(qū)域,目前業(yè)界普遍的做法是忽略。但實(shí)際上很多人都想利用這塊數(shù)據(jù),但沒有合適的方法。因?yàn)槿绻苯訉⒉蛔阌^測窗口的數(shù)據(jù)應(yīng)用進(jìn)來的話,會產(chǎn)生很大的一個偏差。其原因在于,預(yù)測的事件概率會隨著時間窗口的變化呈非線性的上升趨勢(這個趨勢通常是某種統(tǒng)計(jì)分布的累計(jì)分布函數(shù)(⑶F, cumulative distributionfunction)。
[0007]如圖2所示,如果原先設(shè)定的預(yù)測的固定的時間窗口是10個月的話,事件在10個月內(nèi)的發(fā)生概率在65%左右,但在6個月時,其實(shí)際發(fā)生概率可能只有15%左右。如果直接把15%發(fā)生概率的數(shù)據(jù)混合在平均65%的發(fā)生率樣本中,產(chǎn)生的數(shù)據(jù)偏差將會是非常大的。
[0008]可以看出,如果不加調(diào)整,直接使用不足觀測的時間窗口的新數(shù)據(jù)會造成預(yù)測的偏差(進(jìn)行低估的價值),但現(xiàn)有技術(shù)方案中還沒有一種方式可以調(diào)整這些新數(shù)據(jù),從而使這部分新數(shù)據(jù)可以被利用。
【發(fā)明內(nèi)容】
[0009]有鑒于此,本申請所要解決的技術(shù)問題是提供了一種樣本數(shù)據(jù)的整合系統(tǒng)及方法,通過對無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行有效的調(diào)整,來解決固定時間窗口的預(yù)測模型中無法使用和必須舍棄無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的缺點(diǎn)問題。
[0010]為了解決上述技術(shù)問題,本申請公開了一種樣本數(shù)據(jù)的整合方法,包括:處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行;所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0011]進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
[0012]進(jìn)一步地,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
[0013]進(jìn)一步還包括:所述處理器將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
[0014]進(jìn)一步地,所述合并構(gòu)建一個整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0015]為了解決上述技術(shù)問題,本申請還公開了一種樣本數(shù)據(jù)的整合系統(tǒng),包括:構(gòu)造模塊、調(diào)整模塊以及合并模塊,其中,所述構(gòu)造模塊,用于將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行;所述調(diào)整模塊,用于當(dāng)檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整;
[0016]所述合并模塊,用于將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0017]進(jìn)一步包括:所述調(diào)整模塊調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
[0018]進(jìn)一步地,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
[0019]進(jìn)一步地,所述構(gòu)造模塊,還用于將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
[0020]進(jìn)一步地,所述構(gòu)造模塊,合并構(gòu)建一個整體的樣本的概率信息時,采用以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0021]為了解決上述技術(shù)問題,本申請還公開了一種樣本數(shù)據(jù)的整合方法,包括:處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行;所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理;所述處理器未檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,則直接對構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0022]進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
[0023]進(jìn)一步地,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
[0024]進(jìn)一步還包括:所述處理器將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
[0025]進(jìn)一步地,所述合并構(gòu)建一個整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
[0026]與現(xiàn)有的方案相比,本申請所獲得的技術(shù)效果:
[0027]第一,能夠?qū)υ诠潭〞r間窗口內(nèi)進(jìn)行預(yù)測模型的樣本的建立過程中對其中的所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,使其既能反映出最新的信息,又不會在數(shù)值上對原始數(shù)據(jù)造成偏差,從而能夠進(jìn)行更加合理的使用;
[0028]第二,能大大的提高了預(yù)測模型的樣本建立過程的準(zhǔn)確性,及時性。
[0029]當(dāng)然,實(shí)施本申請的任一產(chǎn)品必不一定需要同時達(dá)到以上所述的所有技術(shù)效果。
【專利附圖】
【附圖說明】
[0030]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0031]圖1是現(xiàn)有技術(shù)中的一個10個月的固定的時間窗口的數(shù)據(jù)預(yù)測模型的示意圖;
[0032]圖2是圖1所示內(nèi)容中樣本的發(fā)生概率變化的對應(yīng)曲線圖;
[0033]圖3是本申請實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程框圖;
[0034]圖4是為本申請實(shí)施例所述的一種樣本數(shù)據(jù)的整合系統(tǒng)方框示意圖;
[0035]圖5是采用步驟301的本申請另一個實(shí)施例以10個月為固定時間窗口預(yù)測模型的樣本進(jìn)行樣本的發(fā)生概率曲線的構(gòu)造,然后在合并構(gòu)建一條整體的樣本的發(fā)生概率曲線圖;
[0036]圖6是采用步驟302的本申請另一個實(shí)施例以10個月為固定時間窗口的預(yù)測模型的樣本情況下,所有樣本的列表的分布權(quán)重調(diào)整圖。
[0037]圖7是本申請另一個實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程框圖。
【具體實(shí)施方式】
[0038]以下將配合圖式及實(shí)施例來詳細(xì)說明本申請的實(shí)施方式,藉此對本申請如何應(yīng)用技術(shù)手段來解決技術(shù)問題并達(dá)成技術(shù)功效的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。
[0039]本申請的應(yīng)用場景
[0040]上述本申請實(shí)施例所述的方法,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫、內(nèi)存和緩存的系統(tǒng)對產(chǎn)品概率統(tǒng)計(jì)領(lǐng)域,這里具體應(yīng)用可以包括:
[0041]I)票據(jù)、期貨、證券分析員對大盤進(jìn)行市值匯總分析及對個股進(jìn)行業(yè)績等績優(yōu)股評定時,需要有一整套的產(chǎn)品概率的統(tǒng)計(jì)才能進(jìn)行分析。股市信息往往是使用數(shù)據(jù)表的形式存儲整理,這里通過概率信息(所屬概率信息包括但不限于發(fā)生概率曲線)進(jìn)行統(tǒng)計(jì)分析。
[0042]2)銀行的數(shù)據(jù)分析人員向個人用戶或單位用戶提供年終賬單時進(jìn)行帳目分析時,需要有一整套的數(shù)據(jù)信息的統(tǒng)計(jì)才能進(jìn)行分析。所以這里也適用本申請的技術(shù)方案。
[0043]3)信貸機(jī)構(gòu)對申請貸款的客戶進(jìn)行客戶審批信息的分析時,客戶審批信息往往包括用戶的信用記錄和交易記錄,此時也是需要有一整套的數(shù)據(jù)信息的統(tǒng)計(jì)才能進(jìn)行分析。所以這里也適用本申請的技術(shù)方案。
[0044]總之,本申請并不限于以上應(yīng)用場景,還存在其他適用于涉及數(shù)據(jù)信息的統(tǒng)計(jì)并進(jìn)行分析以及具體地概率信息的統(tǒng)計(jì)分析的場景。
[0045]實(shí)施例描沭
[0046]如圖3所示,本申請實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存和緩存的系統(tǒng),具體步驟包括:
[0047]步驟301,處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行。
[0048]在本實(shí)施例中所述時間是以月為單位進(jìn)行的操作,當(dāng)然這里所述的時間還可以是月、日、年為單位的時間,也可以是它們中多種的組合,對所述時間這個單位的概念這里不做具體限定。
[0049]其中,步驟301具體地為:處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,實(shí)際上是處理器向數(shù)據(jù)庫(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存發(fā)送控制信息,通知將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,之后數(shù)據(jù)庫按控制信息把該樣本發(fā)給內(nèi)存,然后處理器再發(fā)送控制信息給內(nèi)存和緩存,指示在內(nèi)存中構(gòu)造所述樣本的概率信息并將所述概率信息保存到緩存中。
[0050]步驟302,處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重
進(jìn)行調(diào)整。
[0051]其中,對于步驟302中進(jìn)一步包括:所述處理器調(diào)高在內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
[0052]其中,步驟302具體地為:當(dāng)處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,發(fā)送控制信息對加載到內(nèi)存的所述樣本中所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,即調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。[0053]步驟303,處理器將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
[0054]其中,步驟303具體地為:處理器發(fā)送控制信息將調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率從內(nèi)存調(diào)到緩存中,并指示緩存中已有的所述概率信息與調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率進(jìn)行合并,然后在緩存中進(jìn)行建模處理;當(dāng)然,也可以由處理器發(fā)送控制信息,將緩存中已有的所述概率信息加載回內(nèi)存,與內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率進(jìn)行合并,然后在內(nèi)存中進(jìn)行建模處理。
[0055]步驟303中所述的建模處理,實(shí)際上是現(xiàn)有技術(shù)中常用的所謂的建模處理,由于該建模處理屬于本領(lǐng)域技術(shù)人員都知悉的現(xiàn)有技術(shù)的手段,因此這里不再贅述。
[0056]如以圖6所示為具體一實(shí)施例,具體說明下在以10個月為固定時間窗口的預(yù)測模型的樣本(包括但不限于財務(wù)數(shù)據(jù))情況下,當(dāng)樣本中出現(xiàn)無觀測值的時間點(diǎn)時,處理器則需要在內(nèi)存中對無觀測值的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,調(diào)整方法為:所述處理器調(diào)高在內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
[0057]這里處理器之所以采用調(diào)高權(quán)重值的做法,是因?yàn)闄?quán)重在評價過程中,是被評價對象的不同側(cè)面的重要程度的定量分配,對各評價因子在總體評價中的作用進(jìn)行區(qū)別對待。這里僅以如下實(shí)施例進(jìn)行說明具體調(diào)高權(quán)重值的過程,但對于本領(lǐng)域技術(shù)人員來說,并不局限于以下的方式,還可以采取其他方式以達(dá)到調(diào)高權(quán)重值的目的。
[0058]以2011年11月至2012年6月為止的數(shù)據(jù)為例,月度數(shù)據(jù)只有8個月的觀測期(不足10個月的固定時間窗口);其中,好樣本1、2在8個月內(nèi)都為‘好’,則第9個月和第10個月這兩個月的無觀測值的時間點(diǎn)上的分布權(quán)重?zé)o調(diào)整,為I。對于壞樣本1、2則看其出現(xiàn)在哪個月,如果出現(xiàn)在第7個月(壞樣本1),則根據(jù)整體概率分布線,按照第7個月和第10個月的的概率值,將其第9個月和第10個月這兩個月的無觀測值的時間點(diǎn)上的分布權(quán)重調(diào)高為 72.6%/27.4%=2.65。
[0059]這里處理器之所以采用第7個月,而不按照第8個月的概率值進(jìn)行計(jì)算(即72.6%/42.1%=1.72),是因?yàn)?.72這個值比2.65這個值要小,所以調(diào)整幅度相對來說就小,因此這里采用2.65進(jìn)行分布調(diào)整;
[0060]同時需要說明的是這里采用10個月的概率進(jìn)行計(jì)算,是因?yàn)樵诒緦?shí)施例這種情況下所有其他樣本都是以固定的10個月為觀測窗口的。所以以10個月為固定時間窗口的預(yù)測模型的樣本情況下,當(dāng)樣本中出現(xiàn)無觀測值的時間點(diǎn)時,也必須按照10個月的概率值進(jìn)行返還,這樣才能保證當(dāng)樣本中出現(xiàn)無觀測值的時間點(diǎn)時,總體的實(shí)際事件發(fā)生率仍然保持在72.6%。
[0061]顯然,壞得早的樣本,在具體現(xiàn)實(shí)中,其壞的程度要超過壞的晚的樣本,這也就是為什么給予其的權(quán)重要相對較高的原因,調(diào)整完后,該樣本在總體樣本中,將可以體現(xiàn)原樣本72.6%的實(shí)際發(fā)生率。同樣,以此類推,壞樣本2出現(xiàn)在第5個月,則將第9個月和第10個月這兩個月的無觀測值的時間點(diǎn)上的分布權(quán)重調(diào)高為72.6%/8.1%=8.96。
[0062]另外,還需要進(jìn)一步說明下,該實(shí)施例采取了選擇最后一個第10個月即該時間點(diǎn)沒有對應(yīng)樣本的情況,用這個第10個月的概率值除以第7個月的概率作為調(diào)整后的權(quán)重值,但這并不是限定必須要用第10個月來進(jìn)行操作,之所以選擇第10個月就是為了與之前第一次出現(xiàn)壞樣本的時間點(diǎn)拉大距離,以增大權(quán)重值的調(diào)整幅度。即處理器是運(yùn)用所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)與壞樣本出現(xiàn)的時間點(diǎn)之間跨度最大的兩者的概率值計(jì)算得到調(diào)整后的權(quán)重值。
[0063]上述實(shí)施例是以10個月為例。如果實(shí)際情況是要24個月(或者其他任何X個月的窗口)的話,那權(quán)重調(diào)整也必須以24個月(或X個月)的實(shí)際事件發(fā)生率,來除以不足觀測期樣本在概率曲線上對應(yīng)的實(shí)際發(fā)生值,從而得出調(diào)整權(quán)重。
[0064]對于本領(lǐng)域技術(shù)人員來說,采用何種具體手段調(diào)整權(quán)重值在本申請中并不做具體限定,是因?yàn)楸绢I(lǐng)域技術(shù)人員只要得知是通過調(diào)整權(quán)重值這個技術(shù)啟示,就可以得出多種方式來實(shí)現(xiàn)調(diào)整權(quán)重值,因此這對本領(lǐng)域來說是顯而易見的。
[0065]此外,對于該實(shí)施例中壞樣本以及好樣本的判斷并不是本申請所要解決的問題,對于好壞或者優(yōu)劣的觀測值來說,是事先已經(jīng)通過判斷確定的內(nèi)容。本申請是通過對現(xiàn)有已經(jīng)明確的觀測值進(jìn)行處理,以達(dá)到解決固定時間窗口的預(yù)測模型中無法使用和必須舍棄無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的缺點(diǎn)問題。
[0066]對應(yīng)于上述實(shí)施例來說,也就是將調(diào)整后的權(quán)重值2.65乘以壞樣本出現(xiàn)的時間點(diǎn)即第7、8兩個月份的概率,從而得到調(diào)整分布權(quán)重后的第7、8兩個月份的對應(yīng)的概率(t匕如第7個月調(diào)整為:2.65*27.4%=72.6% ;第8個月調(diào)整為:2.65*42.1%=111.57%),在將其合并到之前產(chǎn)生的所述樣本的發(fā)生概率曲線中,并進(jìn)行建模處理。當(dāng)然,利用調(diào)整后的權(quán)重值對數(shù)據(jù)樣本進(jìn)行修正,本申請不限于上述方式,本領(lǐng)域技術(shù)人員在獲得調(diào)整后的權(quán)重值及數(shù)據(jù)樣本的情況下,有能力利用任何熟知的方式進(jìn)行修正。
[0067]如圖4所示,本申請實(shí)施例所述的一種樣本數(shù)據(jù)的整合系統(tǒng),該系統(tǒng)作為處理器41的一部分,主要是應(yīng)用于具有數(shù)據(jù)庫42 (—般位于云端或者本地的數(shù)據(jù)硬盤)內(nèi)存43和緩存44的系統(tǒng),該系統(tǒng)包括:構(gòu)造模塊401、調(diào)整模塊402以及合并模塊403,其中,細(xì)連接線表示控制信息(包括各硬件設(shè)備間交互的控制指令)連接,箭頭線表示業(yè)務(wù)數(shù)據(jù)(包括但不限于概率信息、樣本等)連接;
[0068]構(gòu)造模塊401,與所述調(diào)整模塊402相耦接,用于將數(shù)據(jù)庫42中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存43中,在內(nèi)存43中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并在緩存44中緩存所述概率信息,通知所述調(diào)整模塊402樣本已加載到內(nèi)存43、所述概率信息已緩存,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行;在實(shí)際操作中,構(gòu)造模塊401分別向數(shù)據(jù)庫42、內(nèi)存43發(fā)送控制信息,通知數(shù)據(jù)庫42將保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存43,之后數(shù)據(jù)庫42按控制信息把該樣本發(fā)給內(nèi)存43 ;然后構(gòu)造模塊401再發(fā)送控制信息給內(nèi)存43和緩存44,在內(nèi)存43中構(gòu)造所述樣本的概率信息,將所述概率信息由內(nèi)存43傳輸?shù)骄彺?4中保存;
[0069]調(diào)整模塊402,分別與所述構(gòu)造模塊401和合并模塊403相耦接,用于接收所述構(gòu)造模塊401的通知,當(dāng)檢測出加載到內(nèi)存43的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存43中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,通知所述合并模塊403權(quán)重值已調(diào)整完畢;
[0070]合并模塊403,與所述調(diào)整模塊402相耦接,用于接收所述調(diào)整模塊402的通知,將內(nèi)存43中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到緩存44中所保存的所述概率信息中,并進(jìn)行建模處理;在實(shí)際操作中,合并模塊403分別向內(nèi)存43、緩存44發(fā)送控制信息,內(nèi)存43將調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率傳輸?shù)骄彺?4中,并與緩存44中已有的所述概率信息進(jìn)行合并,然后在緩存44中進(jìn)行建模處理;當(dāng)然,合并模塊403也可以分別向內(nèi)存43、緩存44發(fā)送控制信息,將緩存44中已有的所述概率信息加載回內(nèi)存43,與內(nèi)存43中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率進(jìn)行合并,然后在內(nèi)存43中進(jìn)行建模處理。
[0071]其中合并模塊403中所述的建模處理,實(shí)際上是現(xiàn)有技術(shù)中常用的所謂的建模處理,由于該建模處理屬于本領(lǐng)域技術(shù)人員都知悉的現(xiàn)有技術(shù)的手段,因此這里不再贅述。
[0072]如圖4所示的方法與上述圖3所示的實(shí)施例的方法的具體操作內(nèi)容一致,本領(lǐng)域技術(shù)人員根據(jù)上述內(nèi)容便可以得到圖4所示實(shí)施方式的具體操作過程,這里不再贅述。
[0073]下面為對上述方法中步驟301,另一個實(shí)施例方式的進(jìn)一步詳細(xì)描述,(如圖5所示)具體內(nèi)容為:
[0074]針對步驟301,所述處理器將數(shù)據(jù)庫中當(dāng)出現(xiàn)多個固定時間窗口預(yù)測模型的樣本時候,在所述內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本(所述樣本也可以是數(shù)據(jù))進(jìn)行所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)的構(gòu)造,其中,構(gòu)造每個所述樣本的概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行,然后再將樣本的概率信息合并構(gòu)建一個整體的樣本的概率信息。
[0075]這里將圖1里面的每個月的月度數(shù)據(jù)2011年I月,2011年2月……,2012年4月的數(shù)據(jù)按照固定時間窗口的長短排列在一起進(jìn)行觀測。這樣2011年10月以前的數(shù)據(jù)會有10月的充分觀測期(在圖5中表示為細(xì)的實(shí)線部分501);而2011年10月以后的數(shù)據(jù),則不足10月(從2011年11月至2012年4月),而只有部分觀測到的部分(在圖5中表示為粗的虛線502)。
[0076]根據(jù)這些不同長短的線,構(gòu)建一個整體的樣本的概率信息(本實(shí)施例中所述概率信息使用發(fā)生概率曲線進(jìn)行描述,`在圖5中表示為黑色粗實(shí)線503)作為整體的樣本在不同固定時間窗口觀測期下的樣本的發(fā)生概率曲線。而這條整體的樣本的發(fā)生概率曲線是做為后續(xù)步驟302中所述處理器檢測出加載到內(nèi)存的所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整的基礎(chǔ)。
[0077]這里處理器或者服務(wù)器針對合并構(gòu)建一個整體的樣本的概率信息所采用的方法不做限定,其既可以采用比較簡單近似的直接用平均方法進(jìn)行操作,還可以采用比較復(fù)雜精確一點(diǎn)的可以用每條時間(月度線)樣本數(shù)作為權(quán)重的加權(quán)平均值方法,也可以更加精準(zhǔn)的通過季節(jié)性分解或外生變量分解來提取總趨勢線的方法進(jìn)行制作,這里提到的采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法都屬于現(xiàn)有技術(shù)中的方式方法,因此這里不在詳細(xì)贅述。
[0078]如圖7所示,為本申請另一個實(shí)施例所述的一種樣本數(shù)據(jù)的整合方法流程圖,主要是應(yīng)用于具有處理器、數(shù)據(jù)庫(一般位于云端或者本地的數(shù)據(jù)硬盤)、內(nèi)存和緩存的系統(tǒng),具體步驟包括:
[0079]步驟701,處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息(所述概率信息包括但不限于發(fā)生概率曲線)并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行。
[0080]步驟702,所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布
權(quán)重進(jìn)行調(diào)整。
[0081]步驟703,處理器將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到步驟701中所緩存的所述概率信息中,并進(jìn)行建模處理。
[0082]步驟704,處理器檢測加載到內(nèi)存的所述樣本中不存在無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,則直接在內(nèi)存中對構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0083]如圖7所示的方法與上述圖3所示的方法的具體操作內(nèi)容一致,本領(lǐng)域技術(shù)人員根據(jù)上述內(nèi)容便可以得到圖7所示實(shí)施方式的具體操作過程,這里不再贅述。
[0084]另外,在另一實(shí)施例中,還包括一種與本方法對應(yīng)的樣本數(shù)據(jù)的整合系統(tǒng),與附圖4所示的系統(tǒng)結(jié)構(gòu)相同,不同之處在于,調(diào)整模塊402檢測到加載到內(nèi)存43的所述樣本中不存在無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,通知合并模塊403直接在內(nèi)存43中對構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
[0085]與現(xiàn)有的方案相比,本申請所獲得的技術(shù)效果:
[0086]第一,能夠?qū)υ诠潭〞r間窗口內(nèi)進(jìn)行預(yù)測模型的樣本的建立過程中對其中的所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,使其既能反映出最新的信息,又不會在數(shù)值上對原始數(shù)據(jù)造成偏差,從而能夠進(jìn)行更加合理的使用;
[0087]第二,能大大的提高了預(yù)測模型的樣本建立過程的準(zhǔn)確性,及時性。
[0088]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0089]上述說明示出并描述了本申請的若干優(yōu)選實(shí)施例,但如前所述,應(yīng)當(dāng)理解本申請并非局限于本文所披露的形式,不應(yīng)看作是對其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述發(fā)明構(gòu)想范圍內(nèi),通過上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識進(jìn)行改動。而本領(lǐng)域人員所進(jìn)行的改動和變化不脫離本申請的精神和范圍,則都應(yīng)在本申請所附權(quán)利要求的保護(hù)范圍內(nèi)。
【權(quán)利要求】
1.一種樣本數(shù)據(jù)的整合方法,其特征在于,包括: 處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行; 所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
2.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
3.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
4.如權(quán)利要求1所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步還包括: 所述處理器將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
5.如權(quán)利要求4所述的 樣本數(shù)據(jù)的整合方法,其特征在于,所述合并構(gòu)建一個整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
6.一種樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,包括:構(gòu)造模塊、調(diào)整模塊以及合并模塊,其中, 所述構(gòu)造模塊,用于將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行; 所述調(diào)整模塊,用于當(dāng)檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整; 所述合并模塊,用于將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理。
7.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,進(jìn)一步包括:所述調(diào)整模塊調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
8.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
9.如權(quán)利要求6所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于, 所述構(gòu)造模塊,進(jìn)一步還用于將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在所述內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
10.如權(quán)利要求9所述的樣本數(shù)據(jù)的整合系統(tǒng),其特征在于,所述構(gòu)造模塊,合并構(gòu)建一個整體的樣本的概率信息時,采用以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
11.一種樣本數(shù)據(jù)的整合方法,其特征在于,包括: 處理器將數(shù)據(jù)庫中保存的固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中構(gòu)造所述樣本的概率信息并緩存所述概率信息,其中,構(gòu)造所述概率信息按照時間順序根據(jù)所述樣本中包含的時間點(diǎn)對應(yīng)的概率進(jìn)行; 所述處理器檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,在內(nèi)存中對所述無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的分布權(quán)重進(jìn)行調(diào)整,將內(nèi)存中調(diào)整分布權(quán)重后的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)對應(yīng)的概率合并到所緩存的所述概率信息中,并進(jìn)行建模處理; 所述處理器未檢測出加載到內(nèi)存的所述樣本中出現(xiàn)無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)時,則直接對構(gòu)造完成的樣本的概率信息進(jìn)行建模處理。
12.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步包括:所述處理器調(diào)高加載到內(nèi)存的所述樣本中出現(xiàn)的無觀測值的時間點(diǎn)和/或新加入的時間點(diǎn)的權(quán)重值。
13.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述時間,包括以月、日或年為單位的時間中的一種或多種的組合。
14.如權(quán)利要求11所述的樣本數(shù)據(jù)的整合方法,其特征在于,進(jìn)一步還包括: 所述處理器將數(shù)據(jù)庫中出現(xiàn)具有多個固定時間窗口預(yù)測模型的樣本加載到內(nèi)存,在內(nèi)存中分別對每個需要制作成固定時間窗口預(yù)測模型的樣本進(jìn)行所述樣本的概率信息的構(gòu)造,然后再合并構(gòu)建一個整體的樣本的概率信息。
15.如權(quán)利要求14所述的樣本數(shù)據(jù)的整合方法,其特征在于,所述合并構(gòu)建一個整體的樣本的概率信息的方法,包括以下一種或多種的組合:采用平均方法、加權(quán)平均值方法、季節(jié)性分解方法或外生變量分解方法。
【文檔編號】G06F17/30GK103678322SQ201210322181
【公開日】2014年3月26日 申請日期:2012年9月3日 優(yōu)先權(quán)日:2012年9月3日
【發(fā)明者】盛子夏 申請人:阿里巴巴集團(tuán)控股有限公司