欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置與流程

文檔序號(hào):12612298閱讀:215來(lái)源:國(guó)知局
數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)相關(guān)性識(shí)別領(lǐng)域,特別涉及一種數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置。



背景技術(shù):

在衡量影響變量對(duì)目標(biāo)變量的相關(guān)密切程度時(shí),傳統(tǒng)的方法是根據(jù)影響變量與目標(biāo)變量之間的相關(guān)性分析,從而衡量影響變量對(duì)目標(biāo)變量的相關(guān)密切程度。由于數(shù)據(jù)類型又分為連續(xù)型和離散型,傳統(tǒng)方法中主要是針對(duì)影響變量和目標(biāo)變量都為連續(xù)型數(shù)據(jù)的情形,而對(duì)于離散型數(shù)據(jù)很難計(jì)算它們之間的相關(guān)密切程度,由于不能計(jì)算離散型數(shù)據(jù)之間的相關(guān)密切程度,造成傳統(tǒng)的相關(guān)性的識(shí)別方法使用受限。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明要解決的技術(shù)問(wèn)題在于,針對(duì)現(xiàn)有技術(shù)的上述缺陷,提供一種能改善傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn)、用戶能夠更加直觀地知道影響變量的強(qiáng)有效區(qū)間的數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置。

本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:構(gòu)造一種數(shù)據(jù)相關(guān)性的識(shí)別方法,包括如下步驟:

A)讀取csv格式的數(shù)據(jù)文件并輸入數(shù)據(jù);所述csv格式的數(shù)據(jù)文件包含影響變量和目標(biāo)變量,所述影響變量分為連續(xù)型的影響變量和離散型的影響變量;

B)采取眾數(shù)的方法對(duì)輸入的所述數(shù)據(jù)進(jìn)行缺失值補(bǔ)全;

C)采用卡方分裂算法對(duì)所述連續(xù)型的影響變量做離散化處理,得到離散型的影響變量;

D)計(jì)算出每個(gè)所述離散型的影響變量中各個(gè)屬性的信息熵;

E)依據(jù)所述目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)所述離散型的影響變量對(duì)于所述目標(biāo)變量的相關(guān)程度;

F)按照相關(guān)程度從大到小的順序進(jìn)行排列,輸出相關(guān)程度計(jì)算結(jié)果列表。

在本發(fā)明所述的數(shù)據(jù)相關(guān)性的識(shí)別方法中,所述步驟A)進(jìn)一步包括:

A1)讀取所述csv格式的數(shù)據(jù)文件,并判斷是否找到所述csv格式的數(shù)據(jù)文件,如是,執(zhí)行步驟A2);否則,退出;

A2)校驗(yàn)輸入的所述數(shù)據(jù)是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,執(zhí)行步驟B);否則,報(bào)錯(cuò)后返回步驟A1)。

在本發(fā)明所述的數(shù)據(jù)相關(guān)性的識(shí)別方法中,所述步驟E)中相關(guān)程度的計(jì)算公式為iv=(ln(p1/p0))×(p1-p0),其中,iv為離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度,p1為壞樣本占總體的比例,p0為好樣本占總體的比例。

在本發(fā)明所述的數(shù)據(jù)相關(guān)性的識(shí)別方法中,所述csv格式的數(shù)據(jù)文件的最后一列為所述目標(biāo)變量。

在本發(fā)明所述的數(shù)據(jù)相關(guān)性的識(shí)別方法中,每個(gè)所述離散型的影響變量中屬性的個(gè)數(shù)小于或等于6。

本發(fā)明還涉及一種實(shí)現(xiàn)上述數(shù)據(jù)相關(guān)性的識(shí)別方法的裝置,其特征在于,包括:

文件讀取單元:用于讀取csv格式的數(shù)據(jù)文件并輸入數(shù)據(jù);所述csv格式的數(shù)據(jù)文件包含影響變量和目標(biāo)變量,所述影響變量分為連續(xù)型的影響變量和離散型的影響變量;

缺失值補(bǔ)全單元:用于采取眾數(shù)的方法對(duì)輸入的所述數(shù)據(jù)進(jìn)行缺失值補(bǔ)全;

離散化處理單元:用于采用卡方分裂算法對(duì)所述連續(xù)型的影響變量做離散化處理,得到離散型的影響變量;

信息熵計(jì)算單元:用于計(jì)算出每個(gè)所述離散型的影響變量中各個(gè)屬性的信息熵;

相關(guān)程度計(jì)算單元:用于依據(jù)所述目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)所述離散型的影響變量對(duì)于所述目標(biāo)變量的相關(guān)程度;

排列輸出單元:用于按照相關(guān)程度從大到小的順序進(jìn)行排列,輸出相關(guān)程度計(jì)算結(jié)果列表。

在本發(fā)明所述的裝置中,所述文件讀取單元進(jìn)一步包括:

讀取判斷模塊:用于讀取所述csv格式的數(shù)據(jù)文件,并判斷是否找到所述csv格式的數(shù)據(jù)文件,如是,進(jìn)入校驗(yàn)?zāi)K;否則,退出;

校驗(yàn)?zāi)K:用于校驗(yàn)輸入的所述數(shù)據(jù)是否具有所述目標(biāo)變量且所述目標(biāo)變量為二元變量,如是,進(jìn)入所述缺失值補(bǔ)全單元;否則,報(bào)錯(cuò)后返回所述讀取判斷模塊。

在本發(fā)明所述的裝置中,所述相關(guān)程度計(jì)算單元中相關(guān)程度的計(jì)算公式為iv=(ln(p1/p0))×(p1-p0),其中,iv為離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度,p1為壞樣本占總體的比例,p0為好樣本占總體的比例。

在本發(fā)明所述的裝置中,所述csv格式的數(shù)據(jù)文件的最后一列為所述目標(biāo)變量。

在本發(fā)明所述的裝置中,每個(gè)所述離散型的影響變量中屬性的個(gè)數(shù)小于或等于6。

實(shí)施本發(fā)明的數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置,具有以下有益效果:由于采用卡方分裂算法對(duì)所述連續(xù)型的影響變量做離散化處理,得到離散型的影響變量;然后計(jì)算出每個(gè)離散型的影響變量中各個(gè)屬性的信息熵;依據(jù)目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度;其能改善傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn)、用戶能夠更加直觀地知道影響變量的強(qiáng)有效區(qū)間。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置一個(gè)實(shí)施例中方法的流程圖;

圖2為所述實(shí)施例中讀取csv格式的數(shù)據(jù)文件并輸入數(shù)據(jù)的具體流程圖;

圖3為所述實(shí)施例中裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

在本發(fā)明數(shù)據(jù)相關(guān)性的識(shí)別方法及裝置實(shí)施例中,其數(shù)據(jù)相關(guān)性的識(shí)別方法的流程圖如圖1所示。圖1中,該數(shù)據(jù)相關(guān)性的識(shí)別方法包括如下步驟:

步驟S01讀取csv格式的數(shù)據(jù)文件并輸入數(shù)據(jù):本步驟中,讀取csv格式的數(shù)據(jù)文件,并輸入數(shù)據(jù)。該csv格式的數(shù)據(jù)文件包含影響變量和目標(biāo)變量,影響變量分為連續(xù)型的影響變量和離散型的影響變量。值得一提的是,可以將該csv格式的數(shù)據(jù)文件的最后一列作為目標(biāo)變量,也就是固定csv格式的數(shù)據(jù)文件的最后一列為目標(biāo)變量(y),當(dāng)y為0時(shí)表示壞樣本,當(dāng)y為1時(shí)表示好樣本。當(dāng)然,在本實(shí)施例的另外一些情況下,也可以將csv格式的數(shù)據(jù)文件的其他列作為目標(biāo)變量。

步驟S02采取眾數(shù)的方法對(duì)輸入的數(shù)據(jù)進(jìn)行缺失值補(bǔ)全:本步驟主要是進(jìn)行數(shù)據(jù)預(yù)處理,具體的,本步驟中,采取眾數(shù)的方法對(duì)輸入的數(shù)據(jù)進(jìn)行缺失值補(bǔ)全。

步驟S03采用卡方分裂算法對(duì)連續(xù)型的影響變量做離散化處理,得到離散型的影響變量:本步驟中,采用卡方分裂算法對(duì)連續(xù)型的影響變量做離散化處理,這樣就得到離散型的影響變量。

步驟S04計(jì)算出每個(gè)離散型的影響變量中各個(gè)屬性的信息熵:本步驟中,計(jì)算出每個(gè)離散型的影響變量中各個(gè)屬性的信息熵,比如:離散型的影響變量是性別,屬性就包括男和女。值得一提的是,本實(shí)施例中,每個(gè)離散型的影響變量劃分的變量不超過(guò)6個(gè),也相當(dāng)于每個(gè)離散型的影響變量中屬性的個(gè)數(shù)小于或等于6,比如將性別劃分為2個(gè):男和女;將年齡劃分為6個(gè),分別是:0-18、19-24、25-30、31-40、40-60、60以上。本步驟中實(shí)際就是計(jì)算每個(gè)離散型的影響變量中各個(gè)區(qū)間的信息熵。

步驟S05依據(jù)目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度:本步驟中,依據(jù)目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度。優(yōu)選的,該步驟中相關(guān)程度的計(jì)算公式為iv=(ln(p1/p0))×(p1-p0),其中,iv為離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度,p1為壞樣本占總體的比例,p0為好樣本占總體的比例。

步驟S06按照相關(guān)程度從大到小的順序進(jìn)行排列,輸出相關(guān)程度計(jì)算結(jié)果列表:本步驟中,按照相關(guān)程度從大到小的順序進(jìn)行排列,然后將相關(guān)程度計(jì)算結(jié)果列表進(jìn)行輸出。

本發(fā)明的方法對(duì)比傳統(tǒng)的相關(guān)性分析,改善了傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn),并且能夠計(jì)算出各個(gè)離散型的影響變量的有效區(qū)間,使得用戶能夠更加直觀地知道該離散型的影響變量的強(qiáng)有效區(qū)間。因此可知,本發(fā)明的方法能改善傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn)、用戶能夠更加直觀地知道影響變量的強(qiáng)有效區(qū)間。

對(duì)于本實(shí)施例而言,上述步驟S01還可進(jìn)一步細(xì)化,其細(xì)化后的流程圖如圖2所示。圖2中,上述步驟S01進(jìn)一步包括:

步驟S101讀取csv格式的數(shù)據(jù)文件,并判斷是否找到csv格式的數(shù)據(jù)文件:本步驟中,讀取csv格式的數(shù)據(jù)文件,并判斷是否找到csv格式的數(shù)據(jù)文件,如果判斷的結(jié)果為是,則執(zhí)行步驟S103;否則,執(zhí)行步驟S102。

步驟S102退出:如果上述步驟S101的判斷結(jié)果為否,即未找到sv格式的數(shù)據(jù)文件,則執(zhí)行本步驟。本步驟中,直接退出流程。

步驟S103校驗(yàn)輸入的數(shù)據(jù)是否具有目標(biāo)變量且目標(biāo)變量為二元變量:如果上述步驟S101的判斷結(jié)果為是,即找到了csv格式的數(shù)據(jù)文件,則執(zhí)行本步驟。本步驟中,校驗(yàn)輸入的數(shù)據(jù)是否符合要求,即是校驗(yàn)輸入的數(shù)據(jù)是否具有目標(biāo)變量,且該目標(biāo)變量是否為二元變量(即0、1),本步驟中,如果判斷的結(jié)果為是,則執(zhí)行步驟S02;否則,執(zhí)行步驟S104。

步驟S104報(bào)錯(cuò):如果上述步驟S103的判斷結(jié)果為否,則執(zhí)行本步驟。本步驟中,進(jìn)行報(bào)錯(cuò)。執(zhí)行完本步驟,返回步驟S101。這就完成了對(duì)輸入數(shù)據(jù)的校驗(yàn),通過(guò)校驗(yàn),可以提高識(shí)別的精度。

本實(shí)施例還涉及一種實(shí)現(xiàn)上述數(shù)據(jù)相關(guān)性的識(shí)別方法的裝置,其結(jié)構(gòu)示意圖如圖3所示。圖3中,該裝置包括文件讀取單元1、缺失值補(bǔ)全單元2、離散化處理單元3、信息熵計(jì)算單元4、相關(guān)程度計(jì)算單元5和排列輸出單元6,其中,文件讀取單元1用于讀取csv格式的數(shù)據(jù)文件并輸入數(shù)據(jù);上述csv格式的數(shù)據(jù)文件包含影響變量和目標(biāo)變量,該影響變量分為連續(xù)型的影響變量和離散型的影響變量;csv格式的數(shù)據(jù)文件的最后一列為目標(biāo)變量。當(dāng)然,在本實(shí)施例的另外一些情況下,也可以將csv格式的數(shù)據(jù)文件的其他列作為目標(biāo)變量。

本實(shí)施例中,缺失值補(bǔ)全單元2用于采取眾數(shù)的方法對(duì)輸入的數(shù)據(jù)進(jìn)行缺失值補(bǔ)全;離散化處理單元3用于采用卡方分裂算法對(duì)連續(xù)型的影響變量做離散化處理,得到離散型的影響變量;信息熵計(jì)算單元4用于計(jì)算出每個(gè)離散型的影響變量中各個(gè)屬性的信息熵;每個(gè)離散型的影響變量中屬性的個(gè)數(shù)小于或等于6。

本實(shí)施例中,相關(guān)程度計(jì)算單元5用于依據(jù)目標(biāo)變量中壞樣本占總體的比例和好樣本占總體的比例,計(jì)算出每個(gè)離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度;相關(guān)程度計(jì)算單元5中相關(guān)程度的計(jì)算公式為iv=(ln(p1/p0))×(p1-p0),其中,iv為離散型的影響變量對(duì)于目標(biāo)變量的相關(guān)程度,p1為壞樣本占總體的比例,p0為好樣本占總體的比例。排列輸出單元6用于按照相關(guān)程度從大到小的順序進(jìn)行排列,輸出相關(guān)程度計(jì)算結(jié)果列表。

本發(fā)明的裝置對(duì)比傳統(tǒng)的相關(guān)性分析,改善了傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn),并且能夠計(jì)算出各個(gè)離散型的影響變量的有效區(qū)間,使得用戶能夠更加直觀地知道該離散型的影響變量的強(qiáng)有效區(qū)間。因此可知,本發(fā)明的方法能改善傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn)、用戶能夠更加直觀地知道影響變量的強(qiáng)有效區(qū)間。

本實(shí)施例中,文件讀取單元1進(jìn)一步包括讀取判斷模塊11和校驗(yàn)?zāi)K12;其中,讀取判斷模塊11用于讀取csv格式的數(shù)據(jù)文件,并判斷是否找到csv格式的數(shù)據(jù)文件,如是,進(jìn)入校驗(yàn)?zāi)K12;否則,退出;校驗(yàn)?zāi)K12用于校驗(yàn)輸入的數(shù)據(jù)是否具有目標(biāo)變量且目標(biāo)變量為二元變量,如是,進(jìn)入缺失值補(bǔ)全單元2;否則,報(bào)錯(cuò)后返回讀取判斷模塊11。這就完成了對(duì)輸入數(shù)據(jù)的校驗(yàn),通過(guò)校驗(yàn),可以提高識(shí)別的精度。

總之,本發(fā)明能改善傳統(tǒng)技術(shù)不能處理離散型變量的缺點(diǎn)、用戶能夠更加直觀地知道影響變量的強(qiáng)有效區(qū)間,其不僅適用于連續(xù)型的影響變量,還適用于離散型的影響變量,應(yīng)用范圍較為廣泛。

以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
河池市| 日土县| 金阳县| 淮安市| 马鞍山市| 轮台县| 古交市| 崇礼县| 寿阳县| 凤庆县| 若羌县| 德兴市| 兴海县| 宝坻区| 石楼县| 岱山县| 双柏县| 宿州市| 怀宁县| 萍乡市| 万宁市| 五河县| 冷水江市| 鲁山县| 宁河县| 本溪市| 台安县| 淮阳县| 广元市| 高陵县| 乌什县| 吴桥县| 鸡泽县| 金塔县| 楚雄市| 桐乡市| 正宁县| 麻江县| 新河县| 清涧县| 溆浦县|