本發(fā)明涉及標(biāo)準(zhǔn)差計(jì)算技術(shù)領(lǐng)域,特別涉及一種標(biāo)準(zhǔn)差的分布式計(jì)算方法。
背景技術(shù):
標(biāo)準(zhǔn)差被定義為:總體各單位標(biāo)準(zhǔn)值與其平均數(shù)離差平方的算術(shù)平均數(shù)的平方根。在統(tǒng)計(jì)學(xué)中,標(biāo)準(zhǔn)差常常用來(lái)度量一組數(shù)值的差異大小和分散程度,標(biāo)準(zhǔn)差越大,代表大部分?jǐn)?shù)值和其平均值之間差異越大,例如在物理科學(xué)中,做重復(fù)性測(cè)量時(shí),測(cè)量數(shù)值集合的標(biāo)準(zhǔn)差代表這些測(cè)量的精確度?,F(xiàn)有技術(shù)中主要有以下幾種獲得標(biāo)準(zhǔn)差的方法:
一、標(biāo)準(zhǔn)差的抽樣計(jì)算方法,即對(duì)總體數(shù)據(jù)抽取一定的樣本,并對(duì)樣本進(jìn)行樣本標(biāo)準(zhǔn)差的計(jì)算,用以代替總體的標(biāo)準(zhǔn)差。
但是抽樣方法存在著抽樣偏差,尤其是在大數(shù)據(jù)的環(huán)境下,這種偏差會(huì)更加明顯。
二、總體標(biāo)準(zhǔn)差的傳統(tǒng)計(jì)算方法:
根據(jù)標(biāo)準(zhǔn)差的定義,標(biāo)準(zhǔn)差是各個(gè)數(shù)據(jù)分別與均值之差的平方的和的平均數(shù)的平方根,其中
均值μ的計(jì)算公式:
標(biāo)準(zhǔn)差σ的計(jì)算公式:
由公式(2)可以推導(dǎo)出公式(3),其推倒過(guò)程省略;
在大數(shù)據(jù)的環(huán)境下,傳統(tǒng)標(biāo)準(zhǔn)差計(jì)算方法的計(jì)算量非常大,操作起來(lái)不現(xiàn)實(shí)。
三、標(biāo)準(zhǔn)差的迭代計(jì)算方法:
當(dāng)有新的數(shù)據(jù)進(jìn)入時(shí),標(biāo)準(zhǔn)差的傳統(tǒng)計(jì)算方法要重新調(diào)用原來(lái)的所有數(shù)據(jù)值和新增數(shù)據(jù)一起來(lái)計(jì)算新的標(biāo)準(zhǔn)差,針對(duì)這一問(wèn)題,人們提出了標(biāo)準(zhǔn)差的迭代計(jì)算方法:
假設(shè)有一個(gè)時(shí)間序列的數(shù)據(jù):
x1,x2,x3,x4,...,xn,xn+1,...
在時(shí)間點(diǎn)n時(shí),得到數(shù)據(jù)xn,并在時(shí)間點(diǎn)n+1,得到數(shù)據(jù)xn+1。每當(dāng)一個(gè)新的數(shù)據(jù)流入時(shí),就要在一個(gè)長(zhǎng)為n的時(shí)間窗口內(nèi)計(jì)算包括該新數(shù)據(jù)在內(nèi)的n個(gè)數(shù)的標(biāo)準(zhǔn)差。
其關(guān)鍵步驟如下:首先計(jì)算
然后,通過(guò)迭代的方式計(jì)算出新增一個(gè)數(shù)據(jù)時(shí)總體的和Xn+1及標(biāo)準(zhǔn)差STD.Sn+1:
Xn+1=Xn+xn+1-x1 (6)
公式(6)迭代地計(jì)算一個(gè)長(zhǎng)為n的窗口內(nèi)數(shù)據(jù)的總和,公式(7)迭代地計(jì)算一個(gè)長(zhǎng)為n的窗口內(nèi)數(shù)據(jù)的標(biāo)準(zhǔn)差。
通過(guò)把分母(n-1)更換為n,得到總體標(biāo)準(zhǔn)差的迭代計(jì)算方法:
針對(duì)流數(shù)據(jù)的總體標(biāo)準(zhǔn)差的迭代計(jì)算方法,可以對(duì)新增數(shù)據(jù)進(jìn)行簡(jiǎn)便計(jì)算,但當(dāng)有新的數(shù)據(jù)進(jìn)入時(shí),仍需重新對(duì)所有數(shù)據(jù)進(jìn)行計(jì)算,造成計(jì)算冗余。
三、標(biāo)準(zhǔn)差的增量計(jì)算方法
為了解決傳統(tǒng)標(biāo)準(zhǔn)差計(jì)算量大的技術(shù)問(wèn)題,人們還提出了標(biāo)準(zhǔn)差的增量計(jì)算方法:
該方法首先在公式(1)的基礎(chǔ)上推倒出以下兩個(gè)關(guān)系式:
xn-μn-1=n(μn-μn-1) (9)
又由于:
因而,結(jié)合公式(9)、(10)推倒出:
Sn=Sn-1+(xn-μn-1)(xn-μn) (12)
繼而得到:
標(biāo)準(zhǔn)差增量計(jì)算方法只需要根據(jù)已往總體數(shù)據(jù)的標(biāo)準(zhǔn)差和方差及單個(gè)新增數(shù)據(jù),便可計(jì)算出新總體的標(biāo)準(zhǔn)差。但當(dāng)面對(duì)分布式存儲(chǔ)的大數(shù)據(jù)時(shí),需要將其他分布式存儲(chǔ)的局部總體中的每個(gè)值作為后續(xù)增量,逐個(gè)代入計(jì)算,而不能直接利用各個(gè)局部總體已有的均值和標(biāo)準(zhǔn)差,計(jì)算效率依舊不高。
綜上可知,根據(jù)標(biāo)準(zhǔn)差定義的傳統(tǒng)計(jì)算標(biāo)準(zhǔn)差的方法需要將每個(gè)數(shù)據(jù)值的離均差平方算出,當(dāng)數(shù)據(jù)量很多時(shí)計(jì)算量大,當(dāng)有新的數(shù)據(jù)進(jìn)入時(shí),就要重新計(jì)算總體的均值及新的離均差平方和,故其計(jì)算存在冗余?,F(xiàn)有的標(biāo)準(zhǔn)差的增量計(jì)算方法雖不用訪問(wèn)所有以前的輸入數(shù)據(jù)從而利用了已知的條件,但如果之后輸入的數(shù)據(jù)數(shù)量比較大時(shí),要將之后進(jìn)入的每個(gè)數(shù)據(jù)值逐一進(jìn)行增量計(jì)算,則其計(jì)算量也不能得到明顯降低。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的是提供一種標(biāo)準(zhǔn)差的分布式計(jì)算方法,只要知道各局部總體的均值、標(biāo)準(zhǔn)差及個(gè)數(shù),就能計(jì)算出總體的標(biāo)準(zhǔn)差,從而解決現(xiàn)有標(biāo)準(zhǔn)差計(jì)算方法計(jì)算量大的技術(shù)問(wèn)題。
本發(fā)明標(biāo)準(zhǔn)差的分布式計(jì)算方法,包括以下步驟:
1)輸入各個(gè)局部總體Pi;
2)計(jì)算各局部總體Pi的均值μi、標(biāo)準(zhǔn)差σi、以及局部總體的數(shù)據(jù)個(gè)數(shù)ni;
3)根據(jù)公式計(jì)算出輸入總體的均值;
4)利用公式計(jì)算出輸入總體的標(biāo)準(zhǔn)差。
本發(fā)明的有益效果:
本發(fā)明標(biāo)準(zhǔn)差的分布式計(jì)算方法,只要知道各局部數(shù)據(jù)的均值、標(biāo)準(zhǔn)差及個(gè)數(shù),就能計(jì)算出總體數(shù)據(jù)的標(biāo)準(zhǔn)差;這種方法使計(jì)算量顯著減少,且由于不用頻繁讀取各分散儲(chǔ)存的所有數(shù)據(jù),節(jié)省了大量的查詢?cè)L問(wèn)時(shí)間,實(shí)際計(jì)算效率會(huì)有更大的提高。
附圖說(shuō)明
圖1為本發(fā)明標(biāo)準(zhǔn)差的分布式計(jì)算方法的流程圖;
圖2為本發(fā)明標(biāo)準(zhǔn)差的分布式計(jì)算方法的計(jì)算模型圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步描述。
本實(shí)施例標(biāo)準(zhǔn)差的分布式計(jì)算方法,包括以下步驟:
1)輸入各個(gè)局部總體Pi;
2)計(jì)算各局部總體Pi的均值μi、標(biāo)準(zhǔn)差σi、以及局部總體的數(shù)據(jù)個(gè)數(shù)ni;
3)根據(jù)公式計(jì)算出輸入總體的均值;
4)利用公式計(jì)算出輸入總體的標(biāo)準(zhǔn)差。各局部總體的標(biāo)準(zhǔn)差σi可采用背景技術(shù)中所述的標(biāo)準(zhǔn)差的傳統(tǒng)計(jì)算方法或者標(biāo)準(zhǔn)差的增量計(jì)算方法獲得。
下面通過(guò)具體實(shí)例將標(biāo)準(zhǔn)差的分布式計(jì)算方法與標(biāo)準(zhǔn)差的傳統(tǒng)計(jì)算方法、標(biāo)準(zhǔn)差的迭代計(jì)算方法、以及標(biāo)準(zhǔn)差的增量計(jì)算方法在計(jì)算的復(fù)雜性上進(jìn)行對(duì)比,以證明本發(fā)明標(biāo)準(zhǔn)差的分布式計(jì)算方法的優(yōu)越性。
先輸入各局部總體:
局部總體P1:{4,16,14,13,16,-7,-3,16,10,-19,1,-6,9,-4,17,12,3,8,18,9}
局部總體P2:{-3,-12,3,4,7,13,-15,16,-15,19}
局部總體P3:{-18,-7,17,-18,-6,-13,-2,-18,-2,-12,10,0,10,9,20}
計(jì)算輸入的各局部總體Pi的均值μi、標(biāo)準(zhǔn)差σi、數(shù)據(jù)個(gè)數(shù)ni為:
各局部總體Pi的均值μi分別為:μ1=6.35,μ2=1.7,μ3=-2
各局部總體Pi的標(biāo)準(zhǔn)差σi分別為:σ1=9.763580286,σ2=11.97539143,σ3=12.35043859
各局部總體Pi的數(shù)據(jù)個(gè)數(shù)ni分別為:n1=20,n2=10,n3=15。
比較一:通過(guò)標(biāo)準(zhǔn)差的傳統(tǒng)計(jì)算方法計(jì)算局部總體P1、局部總體P2和局部總體P3這三者總體的標(biāo)準(zhǔn)差
總體的數(shù)據(jù)總個(gè)數(shù)為:nt=n1+n2+n3=45,此步驟包括2個(gè)加法。
計(jì)算總體的均值:
此步驟包括44個(gè)加法,1個(gè)除法。
計(jì)算總體的標(biāo)準(zhǔn)差:
此步驟需要進(jìn)行45個(gè)乘法或平方,1個(gè)除法,44個(gè)加法,45個(gè)減法,1個(gè)開(kāi)方運(yùn)算。
可知,用傳統(tǒng)的計(jì)算方法計(jì)算標(biāo)準(zhǔn)差時(shí)共需要45個(gè)乘法,2個(gè)除法,90個(gè)加法,45個(gè)減法,1個(gè)開(kāi)方運(yùn)算。
比較二:通過(guò)標(biāo)準(zhǔn)差的迭代計(jì)算方法計(jì)算局部總體P1、局部總體P2和局部總體P3這三者總體的標(biāo)準(zhǔn)差
已知局部總體P1的標(biāo)準(zhǔn)差σ1=9.763580286,設(shè)數(shù)據(jù)窗口的長(zhǎng)度為數(shù)據(jù)量最多的數(shù)據(jù)塊的長(zhǎng)度20。
根據(jù)公式(4)計(jì)算出前20個(gè)數(shù)的和:
此步驟包括19個(gè)加法。
根據(jù)公式(6)計(jì)算新增第21個(gè)數(shù)據(jù)后的后n個(gè)數(shù)和:
X21=X20+x21-x1=127+(-3)-4=120
此步驟包括1個(gè)加法,1個(gè)減法。
根據(jù)公式(8)計(jì)算出總體的標(biāo)準(zhǔn)差:
此步驟共包括3個(gè)乘法或平方,2個(gè)除法,3個(gè)加法,2個(gè)減法,1個(gè)開(kāi)方。
當(dāng)新增1個(gè)數(shù)據(jù)值時(shí),迭代的方法共需要進(jìn)行3個(gè)乘法,2個(gè)除法,23個(gè)加法,3個(gè)減法和1個(gè)開(kāi)方運(yùn)算。
將后面進(jìn)入的全部數(shù)據(jù)依次按以上步驟進(jìn)行計(jì)算,得出總體的標(biāo)準(zhǔn)差為σ=13.37310734。
在已知局部總體P1的均值及標(biāo)準(zhǔn)差的情況下,用迭代的計(jì)算方法計(jì)算總體的標(biāo)準(zhǔn)差共需要進(jìn)行75個(gè)乘法,50個(gè)除法,594個(gè)加法,75個(gè)減法,25個(gè)開(kāi)方運(yùn)算。
此算法的時(shí)間復(fù)雜度與數(shù)據(jù)塊中的數(shù)據(jù)量相關(guān),為O(n-a),n為總體的數(shù)據(jù)個(gè)數(shù),常量a為第一個(gè)數(shù)據(jù)塊中的數(shù)據(jù)個(gè)數(shù)。只新增一個(gè)數(shù)據(jù)時(shí),該算法相比傳統(tǒng)的計(jì)算方法具有優(yōu)勢(shì),但是當(dāng)新增數(shù)據(jù)量很大時(shí),計(jì)算量的與n正比例關(guān)系,甚至超過(guò)了傳統(tǒng)方法的計(jì)算量。另外,此方法的計(jì)算結(jié)果與正確結(jié)果之間存在差異,只能作為近似計(jì)算方法。
比較三:通過(guò)標(biāo)準(zhǔn)差的增量計(jì)算方法計(jì)算局部總體P1、局部總體P2和局部總體P3這三者總體的標(biāo)準(zhǔn)差
已知局部總體P1的均值μ1=6.35,標(biāo)準(zhǔn)差σ1=9.763580286,數(shù)據(jù)個(gè)數(shù)n1=20,
根據(jù)公式(11),計(jì)算出局部總體P1的離均差平方和的值
此步驟包括2個(gè)乘法。
計(jì)算新增第21個(gè)數(shù)據(jù)的平均值
此步驟需要進(jìn)行2個(gè)乘法,1個(gè)除法,2個(gè)加法運(yùn)算。
根據(jù)公式(12),計(jì)算出新增第21個(gè)數(shù)據(jù)以后的離均差平方和
S21=S20+((-3)-μ1)((-3)-μ21)=1989.809524
此步驟包括1個(gè)乘法,1個(gè)加法,2個(gè)減法。
根據(jù)公式(13),計(jì)算出:
此步驟包括1個(gè)除法,1個(gè)開(kāi)方。
當(dāng)新增1個(gè)數(shù)據(jù)值時(shí),共包括5個(gè)乘法,2個(gè)除法,3個(gè)加法,2個(gè)減法,1個(gè)開(kāi)方運(yùn)算。
將后面進(jìn)入的全部數(shù)據(jù)依次帶入以上步驟進(jìn)行計(jì)算,得出總體的標(biāo)準(zhǔn)差σ=11.77115118。
在已知局部總體P1的均值及標(biāo)準(zhǔn)差的情況下,用增量的計(jì)算方法計(jì)算標(biāo)準(zhǔn)差共需要計(jì)算125個(gè)乘法,50個(gè)除法,75個(gè)加法,50個(gè)減法,25個(gè)開(kāi)方。
此方法計(jì)算出的結(jié)果與準(zhǔn)確結(jié)果無(wú)誤差。當(dāng)有單個(gè)新的數(shù)據(jù)進(jìn)入時(shí),能充分利用已知條件,減少計(jì)算冗余。但可以看到,當(dāng)新增的數(shù)據(jù)量增大時(shí),計(jì)算量呈倍數(shù)增加,可能會(huì)超過(guò)傳統(tǒng)計(jì)算所需的計(jì)算量,但比迭代的計(jì)算方法所需的計(jì)算量要少。標(biāo)準(zhǔn)差的增量計(jì)算算法的時(shí)間復(fù)雜度與總體中的數(shù)據(jù)量相關(guān),為O(n-a),n為總體的數(shù)據(jù)個(gè)數(shù)量,常量a為第一個(gè)局部總體中的數(shù)據(jù)個(gè)數(shù)。
比較四:通過(guò)標(biāo)準(zhǔn)差的分布式計(jì)算方法計(jì)算局部總體P1、局部總體P2和局部總體P3這三者總體的標(biāo)準(zhǔn)差
根據(jù)公式:
計(jì)算出整體的均值μt,為此步驟包括3個(gè)乘法,1個(gè)除法,4個(gè)加法。
利用分布式標(biāo)準(zhǔn)差算法計(jì)算總體的標(biāo)準(zhǔn)差:
此步驟包括12個(gè)乘法,9個(gè)除法,14個(gè)加法,9個(gè)減法,1個(gè)開(kāi)方。
將標(biāo)準(zhǔn)差的分布計(jì)算方法帶入到上述數(shù)據(jù)中計(jì)算,總共需要計(jì)算15個(gè)乘法,10個(gè)除法,18個(gè)加法,9個(gè)減法,1個(gè)開(kāi)方。
此算法計(jì)算出的結(jié)果準(zhǔn)確無(wú)誤。當(dāng)知道每個(gè)局部總體的均值和標(biāo)準(zhǔn)差時(shí),能簡(jiǎn)便地計(jì)算出總體的標(biāo)準(zhǔn)差,充分地利用了每個(gè)數(shù)據(jù)塊的已知條件,使計(jì)算效率得到極大提高。該方法的計(jì)算復(fù)雜度與數(shù)據(jù)個(gè)數(shù)無(wú)關(guān),只與局部總體的個(gè)數(shù)有關(guān)。此算法的時(shí)間復(fù)雜度為O(l),常數(shù)l為局部總體的個(gè)數(shù)。
從上述各種標(biāo)準(zhǔn)差計(jì)算方法所需要的計(jì)算步驟可知,本發(fā)明標(biāo)準(zhǔn)差的增量計(jì)算方法使計(jì)算量顯著減少,優(yōu)勢(shì)明顯,且由于不用頻繁讀取各分散儲(chǔ)存的所有數(shù)據(jù),節(jié)省了大量的查詢?cè)L問(wèn)時(shí)間,實(shí)際計(jì)算效率會(huì)有更大的提高。
下面是將本實(shí)施例標(biāo)準(zhǔn)差的分布式計(jì)算方法用于股市穩(wěn)定性分析的實(shí)例。
股票價(jià)格的波動(dòng)是股票市場(chǎng)風(fēng)險(xiǎn)的表現(xiàn),因此股票市場(chǎng)風(fēng)險(xiǎn)分析就是對(duì)股票市場(chǎng)價(jià)格波動(dòng)進(jìn)行分析。波動(dòng)性代表了未來(lái)價(jià)格取值的不確定性,這種不確定性一般用方差或標(biāo)準(zhǔn)差來(lái)刻畫。表1是中國(guó)和美國(guó)部分時(shí)段的股票統(tǒng)計(jì)指標(biāo)。
表1:上證及標(biāo)準(zhǔn)普爾指數(shù)
通過(guò)計(jì)算可以得到:
上證指數(shù)業(yè)績(jī)期望值
=(1144.08+1686.75+4328.92+2912.42+2736.50+2795.42+2639.19+2211.11+2182.53+2279.74)/10≈2491.6660
上證波動(dòng)率期望值≈0.3323
標(biāo)準(zhǔn)普爾業(yè)績(jī)期望值≈1356.2570
標(biāo)準(zhǔn)普爾波動(dòng)率期望值≈0.17118
而標(biāo)準(zhǔn)差的計(jì)算公式則根據(jù)背景技術(shù)中的公式(12)計(jì)算:
上證指數(shù)的業(yè)績(jī)標(biāo)準(zhǔn)差≈800.5983
上證波動(dòng)率標(biāo)準(zhǔn)差≈0.1032
標(biāo)準(zhǔn)普爾指數(shù)業(yè)績(jī)標(biāo)準(zhǔn)差≈267.4948
標(biāo)準(zhǔn)普爾波動(dòng)率標(biāo)準(zhǔn)差≈0.0736
因?yàn)闃?biāo)準(zhǔn)差是絕對(duì)值,不能通過(guò)標(biāo)準(zhǔn)差對(duì)中美直接進(jìn)行對(duì)比,而變異系數(shù)可以直接比較。計(jì)算可得:
上證業(yè)績(jī)變異系數(shù)≈800.5983/2491.6660≈0.3213
上證波動(dòng)率變異系數(shù)≈0.1032/0.3323≈0.3105
標(biāo)準(zhǔn)普爾業(yè)績(jī)變異系數(shù)≈267.4948/1356.2570≈0.1972
標(biāo)準(zhǔn)普爾波動(dòng)率變異系數(shù)≈0.0736/0.17118≈0.4301
通過(guò)比較可以看出上證波動(dòng)率變異系數(shù)要大于標(biāo)準(zhǔn)普爾波動(dòng)率變異系數(shù),說(shuō)明長(zhǎng)期來(lái)講中國(guó)股市穩(wěn)定性相對(duì)較差,還是一個(gè)不太成熟的股票市場(chǎng)。
最后說(shuō)明的是,以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非限制,盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的宗旨和范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。