本發(fā)明屬于數(shù)據(jù)挖掘與大數(shù)據(jù)分析技術(shù)領(lǐng)域,涉及面向院校投檔線的預(yù)測(cè)技術(shù)。
背景技術(shù):
各個(gè)招生院校的投檔線是在同批次省級(jí)招辦劃定的最低控制線(又稱為省控線)的基礎(chǔ)上,根據(jù)當(dāng)年該校在本省的招生計(jì)劃、投檔比例、考生報(bào)考該院校的志愿分布情況和這些考生的成績(jī)分布情況所共同確定的。依據(jù)教育部規(guī)定,在各個(gè)批次的招生錄取中,省級(jí)招辦項(xiàng)院校投放考生檔案的比例應(yīng)控制在1:1~1:1.2之間。
而每年有許多的考生在最后錄取的結(jié)果中面臨著高就和低就的問(wèn)題。所謂高就就是在第一批次錄取的過(guò)程中,由于自己的分?jǐn)?shù)不夠,投檔后被退檔而只能進(jìn)行第二批次的征求平行志愿。所謂低就就是自己的成績(jī)比所報(bào)考的學(xué)校的投檔線高出許多。
隨著互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的發(fā)展,開(kāi)發(fā)院校投檔線預(yù)測(cè)技術(shù),能有效降低學(xué)生遇到高就和低就的概率,因此,有必要對(duì)此技術(shù)開(kāi)展全新的研究。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種基于神經(jīng)網(wǎng)絡(luò)的院校投檔線預(yù)測(cè)方法,以提高下一年院校投檔線的預(yù)測(cè)準(zhǔn)確率。
為了解決以上技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案如下。
一種基于神經(jīng)網(wǎng)絡(luò)的院校投檔線預(yù)測(cè)方法,其特征在于包括以下步驟:
步驟一,對(duì)采集到的數(shù)據(jù)進(jìn)行缺失值和離群點(diǎn)處理;
步驟二,對(duì)經(jīng)過(guò)處理的數(shù)據(jù)進(jìn)行歸一化;
步驟三,對(duì)數(shù)據(jù)集進(jìn)行分類;
步驟四,對(duì)分類好的數(shù)據(jù)集分別建立神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測(cè)。
所述缺失值和離群點(diǎn)處理包含以下四個(gè)規(guī)則:
規(guī)則1.1,將院校兩線差缺失值設(shè)置成其余各年的兩線差均值;
規(guī)則1.2,將院校的兩線差離群點(diǎn)設(shè)置成其余各年兩線差的均值;
規(guī)則1.3,將院校投檔線缺失值設(shè)置成該年兩線差與該年省控線之和;
所述歸一化包含以下兩個(gè)規(guī)則:
規(guī)則2.1,對(duì)各年兩線差歸一化采用極差法,所取的最小值和最大值是各年兩線差最小值及最大值;
規(guī)則2.2,對(duì)各年位次歸一化采用極差法,所取的最小值和最大值是各年位次最小值及最大值。
所述對(duì)數(shù)據(jù)集進(jìn)行分類包含以下三個(gè)規(guī)則:
規(guī)則3.1,篩選出近4年兩線差均為0的院校為訓(xùn)練集1;
規(guī)則3.2,篩選出近4年兩線差均小于5分,且兩線差均不為0的院校,為訓(xùn)練集2;
規(guī)則3.3,計(jì)算其余院校4年位次偏差,偏差在0~0.45的院校為訓(xùn)練集3,偏差在0.45~1的院校為訓(xùn)練集4,偏差大于1的院校為訓(xùn)練集5,所述偏差為每年位次減去四年位次均值的絕對(duì)值之和比上位次均值的絕對(duì)值。
所述建立神經(jīng)網(wǎng)絡(luò)模型包含以下規(guī)則:
規(guī)則4.1,對(duì)訓(xùn)練集1中的院校默認(rèn)這些院校下一年的兩線差為0分;
規(guī)則4.2,對(duì)訓(xùn)練集2中的院校利用前四年的兩線差歷史數(shù)據(jù),采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,其中第四年的數(shù)據(jù)作為輸出其余均為輸入。
規(guī)則4.3,對(duì)訓(xùn)練集35分別利用前四年的位次歷史數(shù)據(jù)采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,其中第四年的數(shù)據(jù)作為輸出其余均為輸入。
所述神經(jīng)網(wǎng)絡(luò)模型為雙層隱藏層,第一層隱藏層的神經(jīng)元不低于20個(gè)神經(jīng)元,第二層隱藏層不低于15個(gè)神經(jīng)元。
本發(fā)明具有有益效果。數(shù)據(jù)分析是保證院校投檔線預(yù)測(cè)準(zhǔn)確的關(guān)鍵技術(shù)。本發(fā)明提出的一種數(shù)據(jù)預(yù)測(cè)技術(shù),其特點(diǎn)是充分考慮數(shù)據(jù)的特征對(duì)數(shù)據(jù)進(jìn)行分類,通過(guò)對(duì)采集到的數(shù)據(jù)進(jìn)行缺失值和離群點(diǎn)的處理、對(duì)經(jīng)過(guò)處理的數(shù)據(jù)進(jìn)行歸一化、對(duì)數(shù)據(jù)集進(jìn)行分類、對(duì)分類好的數(shù)據(jù)集分別進(jìn)行建模預(yù)測(cè)等技術(shù)方法,顯著提高了院校投檔線預(yù)測(cè)的準(zhǔn)確性。
具體實(shí)施方式
下面結(jié)合實(shí)施例對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步詳細(xì)說(shuō)明。
以在江蘇省招生的12個(gè)院校歷年的數(shù)據(jù)為例,對(duì)這12個(gè)院校進(jìn)行下一年投檔線的預(yù)測(cè),表1為這12個(gè)院校歷年數(shù)據(jù)的原始表。
表112個(gè)院校歷年數(shù)據(jù)原始表
將表1的信息,依本發(fā)明的步驟一進(jìn)行處理之后,得到表2。
表2.缺失值和離群點(diǎn)處理后的表
將表2的信息,依本發(fā)明的步驟二進(jìn)行處理之后,得到表3。
表3數(shù)據(jù)歸一化后的表
將表3的信息,依本發(fā)明的步驟三進(jìn)行處理之后,得到表4~8。
表4訓(xùn)練集1
表5.訓(xùn)練集2
表6.訓(xùn)練集3
表7.訓(xùn)練集4
表8.訓(xùn)練集5
將訓(xùn)練集1中的院校下一年的兩線差均預(yù)測(cè)為0。
將訓(xùn)練集2中的院校利用2012-2015年的兩線差歷史數(shù)據(jù)(2012-2014年為輸入,2015為輸出)采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,利用2013-2015年的數(shù)據(jù)作為輸入,利用建立好的模型預(yù)測(cè)2016年的兩線差。其中神經(jīng)網(wǎng)絡(luò)模型為雙層隱藏層,第一層隱藏層共有20個(gè)神經(jīng)元,第二個(gè)隱藏層共有15個(gè)神經(jīng)元。
將訓(xùn)練集3中的院校利用2012-2015年的位次歷史數(shù)據(jù)(2012-2014年為輸入,2015為輸出)采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,利用2013-2015年的數(shù)據(jù)作為輸入,利用建立好的模型預(yù)測(cè)2016年的位次。其中神經(jīng)網(wǎng)絡(luò)模型為雙層隱藏層,第一層隱藏層共有20個(gè)神經(jīng)元,第二個(gè)隱藏層共有15個(gè)神經(jīng)元。
將訓(xùn)練集4中的院校利用2012-2015年的位次歷史數(shù)據(jù)(2012-2014年為輸入,2015為輸出)采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,利用2013-2015年的數(shù)據(jù)作為輸入,利用建立好的模型預(yù)測(cè)2016年的位次。其中神經(jīng)網(wǎng)絡(luò)模型為雙層隱藏層,第一層隱藏層共有20個(gè)神經(jīng)元,第二個(gè)隱藏層共有15個(gè)神經(jīng)元。
將訓(xùn)練集5中的院校利用2012-2015年的位次歷史數(shù)據(jù)(2012-2014年為輸入,2015為輸出)采用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模,利用2013-2015年的數(shù)據(jù)作為輸入,利用建立好的模型預(yù)測(cè)2016年的位次。其中神經(jīng)網(wǎng)絡(luò)模型為雙層隱藏層,第一層隱藏層共有20個(gè)神經(jīng)元,第二個(gè)隱藏層共有15個(gè)神經(jīng)元。
在實(shí)際測(cè)試集上,模型的測(cè)試效果如下。
正確率:誤差=0,24.79%
誤差≤1,51.24%
誤差≤2,65.7%
誤差≤1,75.2%
而純粹用兩線差不分類進(jìn)行建模的測(cè)試效果如下。
正確率:誤差=0,21.49%
誤差≤1,36.37%
誤差≤2,54.55%
誤差≤1,65.71%
由此可見(jiàn),本申請(qǐng)?zhí)岢龅囊环N基于神經(jīng)網(wǎng)絡(luò)的院校投檔線預(yù)測(cè)方法具有較高的準(zhǔn)確率。