本發(fā)明屬于數(shù)據(jù)評價技術(shù)領(lǐng)域,具體涉及一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法。
背景技術(shù):
近年來,大數(shù)據(jù)已成為國內(nèi)外熱議的內(nèi)容。國際頂級刊物nature和science分別于2008年和2011年,以“bigdata”和“dealingwithdata”為專題,從多個方面報道了對大數(shù)據(jù)的研究,使得人們探索大數(shù)據(jù)的熱情持續(xù)高漲。由于大數(shù)據(jù)具有潛在的巨大價值,是“金礦”、是“未來的新石油”,這使得科技界和企業(yè)界對其高度重視。大數(shù)據(jù)的“大”主要體現(xiàn)在三個方面:(1)數(shù)據(jù)量大(volume);(2)數(shù)據(jù)類型的繁雜程度高(variety);(3)數(shù)據(jù)流,特別是互聯(lián)網(wǎng)中的信息流的生成速度快(velocity)。這就是現(xiàn)已普遍接受的描述大數(shù)據(jù)的3v。也有人將表示具有潛在的巨大價值的value加入其中,使3v擴展為4v。
盡管大數(shù)據(jù)中蘊含著巨大價值,但由于數(shù)據(jù)規(guī)模巨大,從何處得到“金礦”則是人們面臨的難題。從另一方面看,若存在海量的、無序的,特別是內(nèi)容相同的數(shù)據(jù),則它們會在人們勘探“新石油”時成為障礙,甚至是災(zāi)難。在如此的大數(shù)據(jù)背景下,數(shù)據(jù)將成為管理與決策的基本依據(jù),其質(zhì)量將成為實現(xiàn)管理有效性和決策科學(xué)性的關(guān)鍵。
數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),用于管理和決策的數(shù)據(jù)分析只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準確的、有用的信息,基于這種優(yōu)良環(huán)境的分析結(jié)果所做出的各項決策才不至于偏離正常軌道;否則,即使數(shù)據(jù)分析工具再先進,在充滿“垃圾”的環(huán)境中也很難提取出有意義的信息。然而,大數(shù)據(jù)中復(fù)雜多樣的數(shù)據(jù)類型和具有驚人的變化速度的海量數(shù)據(jù)難以滿足高質(zhì)量的要求。
因此,在建立用于數(shù)據(jù)分析的高質(zhì)量數(shù)據(jù)環(huán)境時,對大數(shù)據(jù)的質(zhì)量進行分析和評價就顯得尤為必要。盡管目前的質(zhì)量評價方法很多,但鮮見有關(guān)大數(shù)據(jù)品質(zhì)的定性分析和量化方法的研究。
技術(shù)實現(xiàn)要素:
本發(fā)明目的是提供一種大數(shù)據(jù)質(zhì)量測度的基本理論和實用的量化技術(shù),從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。本發(fā)明提出的一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法首先對影響大數(shù)據(jù)質(zhì)量的各個維度進行定性分析,然后建立基于中介真值程度度量的大數(shù)據(jù)單維度質(zhì)量測度模型、多維度綜合質(zhì)量測度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測度模型。
具體地說,本發(fā)明的技術(shù)方案是提出基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度,根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定;
步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析;
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型;
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型;
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型。
進一步,上述步驟2中具體包含以下步驟:
2-1:建立大數(shù)據(jù)各個維度的定義;
對數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑這幾個維度進行描述;
2-2:采用中介邏輯的方法對上述各個維度進行刻畫;
2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
上述步驟3具體包含以下步驟:
3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系,設(shè)p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對對立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(-∞,a],(a,b),[b,+∞)分別對應(yīng)著邏輯真值f(假),m(中介),t(真);
3-2:采用距離比率函數(shù)度量真值程度,
x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測度可以采用x相對于p(x)的真值程度來衡量,采用距離的概念,并把與~p(x)對應(yīng)的數(shù)值區(qū)域的長度作為參照,x相對于p(x)的真值程度越高,f(x)離╕p(x)對應(yīng)的數(shù)值區(qū)域越遠,則x的質(zhì)量測度hx為:
其中,d是歐式距離,
根據(jù)上式(1),可以分別計算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測度hs,數(shù)據(jù)所含的信息量測度hi、數(shù)據(jù)的新穎性測度hn、數(shù)據(jù)的有效性測度he,數(shù)據(jù)的模糊性測度hf以及數(shù)據(jù)的生成途徑測度hg。
上述步驟4具體包含以下步驟:
4-1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
在具體應(yīng)用時,根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個維度的權(quán)重,設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且
ws+wi+wn+we+wf+wg=1(2);
4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型h,
h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)。
上述步驟5具體包含以下步驟:
5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個維度ci,i=1,2,…,n;
5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度,
中介熵表示的大數(shù)據(jù)不確定性測度為
其中
s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci))(6)
h(ci)的定義如式(1)。
本發(fā)明的有益效果在于:
1、本發(fā)明提出了一種大數(shù)據(jù)質(zhì)量測度的基本理論。從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。
2、本發(fā)明提出了一種實用的大數(shù)據(jù)質(zhì)量測度量化技術(shù)。量化得到的數(shù)值結(jié)果有助于對大數(shù)據(jù)質(zhì)量做出精確的判斷。才能使得不同度量對象的評價結(jié)果具有可比較性,以致能獲得具有普遍意義的科學(xué)結(jié)論。
附圖說明
圖1基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法流程圖。
圖2大數(shù)據(jù)質(zhì)量維度進行定性分析流程圖。
圖3質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系圖。
圖4大數(shù)據(jù)多維度綜合質(zhì)量測度流程圖。
具體實施方式
現(xiàn)結(jié)合附圖對本發(fā)明的具體實施方式做進一步詳細的說明。本發(fā)明提出了一種基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法,其關(guān)鍵點在于面對繁雜的大數(shù)據(jù)現(xiàn)實,首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定。然后建立大數(shù)據(jù)各個維度的定義,并采用邏輯的方法對各個維度進行刻畫。最后分別建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型、大數(shù)據(jù)多維度綜合質(zhì)量測度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測度模型。
基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度;
步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析,具體包含:
2-1:建立大數(shù)據(jù)各個維度的定義;
2-2:采用中介邏輯的方法對各個維度進行刻畫;
2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型,具體包含以下步驟:
3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系;
3-2:采用距離比率函數(shù)度量真值程度。
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型,具體包含以下步驟:
4-1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型。
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型,具體包含以下步驟:
5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度。
本發(fā)明的整體技術(shù)路線如圖1所示,包含如下步驟:
步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度。大數(shù)據(jù)中的數(shù)據(jù)以各種各樣的形式涌現(xiàn),除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還出現(xiàn)了許多非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。如來自于傳感器的各種類型數(shù)據(jù)、移動電話的gps定位數(shù)據(jù)、社交網(wǎng)絡(luò)中的語音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時代的發(fā)展,新的數(shù)據(jù)來源與數(shù)據(jù)形式也會不斷出現(xiàn)。面對繁雜的大數(shù)據(jù)現(xiàn)實,首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定;
步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析;
步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型;
步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型;
步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型。
進一步如圖2所示,步驟2中,具體包含以下步驟:
2‐1:建立大數(shù)據(jù)各個維度的定義;
由于數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑等維度較全面地反映了大數(shù)據(jù)的3v特性。因此,首先以對這幾個維度進行描述。
2‐2:采用中介邏輯的方法對各個維度進行刻畫;
以新穎性為例,記謂詞p(x)表示“x是新穎的”,這里x是數(shù)據(jù)。那么在中介邏輯中,若p(x)的真值為t(真),則確認x是新穎的;若p(x)的真值為f(假),則確認x是陳舊的;若p(x)的真值為m(非真非假),則x在新穎與陳舊之間。
2‐3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。
仍然以新穎性為例,假如定義出現(xiàn)在某個領(lǐng)域不多于nmin次的數(shù)據(jù)為新穎數(shù)據(jù),出現(xiàn)不小于nmax次的數(shù)據(jù)為陳舊數(shù)據(jù),那么邏輯真值t與0~1‐nmin次、f與nmax+1~∞次、m與nmin+1~nmax次之間就建立了一一對應(yīng)關(guān)系。
進一步,步驟3具體包含以下步驟:
3‐1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系,如圖3所示;
其中p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對對立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(‐∞,a],(a,b),[b,+∞)分別對應(yīng)著邏輯真值f(假),m(中介),t(真)。
3‐2:采用距離比率函數(shù)度量真值程度。
x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測度可以采用x相對于p(x)的真值程度來衡量。采用距離的概念,并把與~p(x)對應(yīng)的數(shù)值區(qū)域的長度作為參照,x相對于p(x)的真值程度越高,f(x)離╕p(x)對應(yīng)的數(shù)值區(qū)域越遠。則x的質(zhì)量測度hx為:
其中,d是歐式距離。
根據(jù)上式(1),可以分別計算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測度hs,數(shù)據(jù)所含的信息量測度hi、數(shù)據(jù)的新穎性測度hn、數(shù)據(jù)的有效性測度he,數(shù)據(jù)的模糊性測度hf以及數(shù)據(jù)的生成途徑測度hg。
進一步,如圖4所示,步驟4具體包含以下步驟:
4‐1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;
在具體應(yīng)用時,根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個維度的權(quán)重。設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且
ws+wi+wn+we+wf+wg=1(2)
4‐2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測量度模型h。
h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)
進一步,步驟5具體包含以下步驟:
5‐1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;
根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個維度ci,i=1,2,…,n
5‐2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度。
中介熵表示的大數(shù)據(jù)不確定性測度為
其中
s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci)).(6)
h(ci)的定義如式(1)。
雖然本發(fā)明已以較佳實施例公開如上,但實施例并不是用來限定本發(fā)明的。在不脫離本發(fā)明之精神和范圍內(nèi),所做的任何等效變化或潤飾,同樣屬于本發(fā)明之保護范圍。因此本發(fā)明的保護范圍應(yīng)當(dāng)以本申請的權(quán)利要求所界定的內(nèi)容為標(biāo)準。