欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法與流程

文檔序號:12824975閱讀:249來源:國知局
基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法與流程

本發(fā)明屬于數(shù)據(jù)評價技術(shù)領(lǐng)域,具體涉及一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法。



背景技術(shù):

近年來,大數(shù)據(jù)已成為國內(nèi)外熱議的內(nèi)容。國際頂級刊物nature和science分別于2008年和2011年,以“bigdata”和“dealingwithdata”為專題,從多個方面報道了對大數(shù)據(jù)的研究,使得人們探索大數(shù)據(jù)的熱情持續(xù)高漲。由于大數(shù)據(jù)具有潛在的巨大價值,是“金礦”、是“未來的新石油”,這使得科技界和企業(yè)界對其高度重視。大數(shù)據(jù)的“大”主要體現(xiàn)在三個方面:(1)數(shù)據(jù)量大(volume);(2)數(shù)據(jù)類型的繁雜程度高(variety);(3)數(shù)據(jù)流,特別是互聯(lián)網(wǎng)中的信息流的生成速度快(velocity)。這就是現(xiàn)已普遍接受的描述大數(shù)據(jù)的3v。也有人將表示具有潛在的巨大價值的value加入其中,使3v擴展為4v。

盡管大數(shù)據(jù)中蘊含著巨大價值,但由于數(shù)據(jù)規(guī)模巨大,從何處得到“金礦”則是人們面臨的難題。從另一方面看,若存在海量的、無序的,特別是內(nèi)容相同的數(shù)據(jù),則它們會在人們勘探“新石油”時成為障礙,甚至是災(zāi)難。在如此的大數(shù)據(jù)背景下,數(shù)據(jù)將成為管理與決策的基本依據(jù),其質(zhì)量將成為實現(xiàn)管理有效性和決策科學(xué)性的關(guān)鍵。

數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)發(fā)揮效能的前提和基礎(chǔ),用于管理和決策的數(shù)據(jù)分析只有在高質(zhì)量的大數(shù)據(jù)環(huán)境中才能提取出隱含的、準確的、有用的信息,基于這種優(yōu)良環(huán)境的分析結(jié)果所做出的各項決策才不至于偏離正常軌道;否則,即使數(shù)據(jù)分析工具再先進,在充滿“垃圾”的環(huán)境中也很難提取出有意義的信息。然而,大數(shù)據(jù)中復(fù)雜多樣的數(shù)據(jù)類型和具有驚人的變化速度的海量數(shù)據(jù)難以滿足高質(zhì)量的要求。

因此,在建立用于數(shù)據(jù)分析的高質(zhì)量數(shù)據(jù)環(huán)境時,對大數(shù)據(jù)的質(zhì)量進行分析和評價就顯得尤為必要。盡管目前的質(zhì)量評價方法很多,但鮮見有關(guān)大數(shù)據(jù)品質(zhì)的定性分析和量化方法的研究。



技術(shù)實現(xiàn)要素:

本發(fā)明目的是提供一種大數(shù)據(jù)質(zhì)量測度的基本理論和實用的量化技術(shù),從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。本發(fā)明提出的一種基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法首先對影響大數(shù)據(jù)質(zhì)量的各個維度進行定性分析,然后建立基于中介真值程度度量的大數(shù)據(jù)單維度質(zhì)量測度模型、多維度綜合質(zhì)量測度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測度模型。

具體地說,本發(fā)明的技術(shù)方案是提出基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法,包含如下步驟:

步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度,根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定;

步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析;

步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型;

步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型;

步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型。

進一步,上述步驟2中具體包含以下步驟:

2-1:建立大數(shù)據(jù)各個維度的定義;

對數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑這幾個維度進行描述;

2-2:采用中介邏輯的方法對上述各個維度進行刻畫;

2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。

上述步驟3具體包含以下步驟:

3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系,設(shè)p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對對立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(-∞,a],(a,b),[b,+∞)分別對應(yīng)著邏輯真值f(假),m(中介),t(真);

3-2:采用距離比率函數(shù)度量真值程度,

x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測度可以采用x相對于p(x)的真值程度來衡量,采用距離的概念,并把與~p(x)對應(yīng)的數(shù)值區(qū)域的長度作為參照,x相對于p(x)的真值程度越高,f(x)離╕p(x)對應(yīng)的數(shù)值區(qū)域越遠,則x的質(zhì)量測度hx為:

其中,d是歐式距離,

根據(jù)上式(1),可以分別計算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測度hs,數(shù)據(jù)所含的信息量測度hi、數(shù)據(jù)的新穎性測度hn、數(shù)據(jù)的有效性測度he,數(shù)據(jù)的模糊性測度hf以及數(shù)據(jù)的生成途徑測度hg。

上述步驟4具體包含以下步驟:

4-1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;

在具體應(yīng)用時,根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個維度的權(quán)重,設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且

ws+wi+wn+we+wf+wg=1(2);

4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型h,

h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)。

上述步驟5具體包含以下步驟:

5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;

根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個維度ci,i=1,2,…,n;

5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度,

中介熵表示的大數(shù)據(jù)不確定性測度為

其中

s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci))(6)

h(ci)的定義如式(1)。

本發(fā)明的有益效果在于:

1、本發(fā)明提出了一種大數(shù)據(jù)質(zhì)量測度的基本理論。從而為數(shù)據(jù)分析,乃至為大數(shù)據(jù)價值發(fā)現(xiàn)與分析、大數(shù)據(jù)的管理與決策提供可靠依據(jù)。

2、本發(fā)明提出了一種實用的大數(shù)據(jù)質(zhì)量測度量化技術(shù)。量化得到的數(shù)值結(jié)果有助于對大數(shù)據(jù)質(zhì)量做出精確的判斷。才能使得不同度量對象的評價結(jié)果具有可比較性,以致能獲得具有普遍意義的科學(xué)結(jié)論。

附圖說明

圖1基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法流程圖。

圖2大數(shù)據(jù)質(zhì)量維度進行定性分析流程圖。

圖3質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系圖。

圖4大數(shù)據(jù)多維度綜合質(zhì)量測度流程圖。

具體實施方式

現(xiàn)結(jié)合附圖對本發(fā)明的具體實施方式做進一步詳細的說明。本發(fā)明提出了一種基于中介真值程度度量的大數(shù)據(jù)質(zhì)量評價方法,其關(guān)鍵點在于面對繁雜的大數(shù)據(jù)現(xiàn)實,首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定。然后建立大數(shù)據(jù)各個維度的定義,并采用邏輯的方法對各個維度進行刻畫。最后分別建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型、大數(shù)據(jù)多維度綜合質(zhì)量測度模型以及大數(shù)據(jù)環(huán)境下基于熵的數(shù)據(jù)不確定性測度模型。

基于中介真值程度的大數(shù)據(jù)質(zhì)量評價方法,包含如下步驟:

步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度;

步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析,具體包含:

2-1:建立大數(shù)據(jù)各個維度的定義;

2-2:采用中介邏輯的方法對各個維度進行刻畫;

2-3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。

步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型,具體包含以下步驟:

3-1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系;

3-2:采用距離比率函數(shù)度量真值程度。

步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型,具體包含以下步驟:

4-1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;

4-2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型。

步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型,具體包含以下步驟:

5-1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;

5-2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度。

本發(fā)明的整體技術(shù)路線如圖1所示,包含如下步驟:

步驟1:選擇并確定大數(shù)據(jù)質(zhì)量測度維度。大數(shù)據(jù)中的數(shù)據(jù)以各種各樣的形式涌現(xiàn),除了傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)外,還出現(xiàn)了許多非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。如來自于傳感器的各種類型數(shù)據(jù)、移動電話的gps定位數(shù)據(jù)、社交網(wǎng)絡(luò)中的語音、圖像、視頻、日志文件等等,并且隨著大數(shù)據(jù)時代的發(fā)展,新的數(shù)據(jù)來源與數(shù)據(jù)形式也會不斷出現(xiàn)。面對繁雜的大數(shù)據(jù)現(xiàn)實,首先根據(jù)大數(shù)據(jù)的3v特征,選擇數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑作為大數(shù)據(jù)質(zhì)量的維度,并以這些維度作為數(shù)據(jù)的成分和性質(zhì),對大數(shù)據(jù)質(zhì)量進行測定;

步驟2:采用中介邏輯的方法,對大數(shù)據(jù)質(zhì)量維度進行定性分析;

步驟3:建立基于中介真值程度度量的大數(shù)據(jù)各個維度的質(zhì)量測度模型;

步驟4:建立基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測度模型;

步驟5:建立大數(shù)據(jù)環(huán)境下基于中介熵的數(shù)據(jù)不確定性測度模型。

進一步如圖2所示,步驟2中,具體包含以下步驟:

2‐1:建立大數(shù)據(jù)各個維度的定義;

由于數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性、數(shù)據(jù)的模糊性、數(shù)據(jù)的信息量、數(shù)據(jù)結(jié)構(gòu)規(guī)范性、數(shù)據(jù)的生成途徑等維度較全面地反映了大數(shù)據(jù)的3v特性。因此,首先以對這幾個維度進行描述。

2‐2:采用中介邏輯的方法對各個維度進行刻畫;

以新穎性為例,記謂詞p(x)表示“x是新穎的”,這里x是數(shù)據(jù)。那么在中介邏輯中,若p(x)的真值為t(真),則確認x是新穎的;若p(x)的真值為f(假),則確認x是陳舊的;若p(x)的真值為m(非真非假),則x在新穎與陳舊之間。

2‐3:根據(jù)維度的定義,建立維度與描述該維度的謂詞真值之間的關(guān)系。

仍然以新穎性為例,假如定義出現(xiàn)在某個領(lǐng)域不多于nmin次的數(shù)據(jù)為新穎數(shù)據(jù),出現(xiàn)不小于nmax次的數(shù)據(jù)為陳舊數(shù)據(jù),那么邏輯真值t與0~1‐nmin次、f與nmax+1~∞次、m與nmin+1~nmax次之間就建立了一一對應(yīng)關(guān)系。

進一步,步驟3具體包含以下步驟:

3‐1:建立質(zhì)量維度數(shù)值區(qū)域與謂詞的對應(yīng)關(guān)系,如圖3所示;

其中p(x)為表示該維度的謂詞,╕p(x)是p(x)的反對對立面,~p(x)表示部分地具有p(x)的性質(zhì);f(x)是已定義的維度,質(zhì)量緯度數(shù)值區(qū)間(‐∞,a],(a,b),[b,+∞)分別對應(yīng)著邏輯真值f(假),m(中介),t(真)。

3‐2:采用距離比率函數(shù)度量真值程度。

x是數(shù)據(jù)集合,x∈x.x的質(zhì)量測度可以采用x相對于p(x)的真值程度來衡量。采用距離的概念,并把與~p(x)對應(yīng)的數(shù)值區(qū)域的長度作為參照,x相對于p(x)的真值程度越高,f(x)離╕p(x)對應(yīng)的數(shù)值區(qū)域越遠。則x的質(zhì)量測度hx為:

其中,d是歐式距離。

根據(jù)上式(1),可以分別計算得到數(shù)據(jù)結(jié)構(gòu)的規(guī)范性測度hs,數(shù)據(jù)所含的信息量測度hi、數(shù)據(jù)的新穎性測度hn、數(shù)據(jù)的有效性測度he,數(shù)據(jù)的模糊性測度hf以及數(shù)據(jù)的生成途徑測度hg。

進一步,如圖4所示,步驟4具體包含以下步驟:

4‐1:分析數(shù)據(jù)各個維度對數(shù)據(jù)質(zhì)量的影響程度,設(shè)置相應(yīng)的權(quán)重;

在具體應(yīng)用時,根據(jù)數(shù)據(jù)分析的目的,設(shè)置各個維度的權(quán)重。設(shè)ws,wi,wn,we,wf,wg分別為數(shù)據(jù)結(jié)構(gòu)的規(guī)范性,數(shù)據(jù)所含的信息量、數(shù)據(jù)的新穎性、數(shù)據(jù)的有效性,數(shù)據(jù)的模糊性、數(shù)據(jù)的生成途徑的權(quán)重,且

ws+wi+wn+we+wf+wg=1(2)

4‐2:采用加權(quán)距離比率和函數(shù)構(gòu)建基于中介真值程度度量的大數(shù)據(jù)多維度綜合質(zhì)量測量度模型h。

h=hs×ws+hi×wi+hn×wn+he×we+hf×wf+hg×wg(3)

進一步,步驟5具體包含以下步驟:

5‐1:首先分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)的不確定性;

根據(jù)具體的應(yīng)用,分析影響大數(shù)據(jù)不確定性的n個維度ci,i=1,2,…,n

5‐2:建立基于中介熵表示的大數(shù)據(jù)不確定性測度。

中介熵表示的大數(shù)據(jù)不確定性測度為

其中

s(h(ci))=-h(ci)logh(ci)-(1-h(ci))logh(1-h(ci)).(6)

h(ci)的定義如式(1)。

雖然本發(fā)明已以較佳實施例公開如上,但實施例并不是用來限定本發(fā)明的。在不脫離本發(fā)明之精神和范圍內(nèi),所做的任何等效變化或潤飾,同樣屬于本發(fā)明之保護范圍。因此本發(fā)明的保護范圍應(yīng)當(dāng)以本申請的權(quán)利要求所界定的內(nèi)容為標(biāo)準。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
泽州县| 康定县| 河间市| 东海县| 美姑县| 福建省| 福州市| 灵宝市| 郧西县| 盐池县| 棋牌| 奉贤区| 荔浦县| 秦皇岛市| 灵丘县| 师宗县| 湟源县| 华池县| 陕西省| 绵阳市| 永昌县| 漯河市| 德钦县| 鸡西市| 都江堰市| 绍兴市| 万宁市| 长治市| 康保县| 睢宁县| 伊通| 鹤岗市| 天水市| 台山市| 三门峡市| 松溪县| 威远县| 双牌县| 吉隆县| 佛坪县| 锦屏县|