本發(fā)明涉及教育技術(shù)、計算機(jī)應(yīng)用學(xué)科領(lǐng)域,具體涉及一種基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法及系統(tǒng)。
背景技術(shù):
目前,我國高等教育發(fā)展迅速,其中普通高等院校的數(shù)量已達(dá)到2500多所。近年來,生源的持續(xù)下降,給普通高等院校帶來了巨大的生存危機(jī)。如何提高學(xué)生培養(yǎng)質(zhì)量,提高學(xué)生的就業(yè)競爭能力,成為諸多高校亟需解決的一個問題。學(xué)生的學(xué)業(yè)成績作為學(xué)生培養(yǎng)質(zhì)量的一個重要核心指標(biāo),倍受高校管理者的關(guān)注。
我國高等院校通常由團(tuán)委輔導(dǎo)員(班主任)負(fù)責(zé)學(xué)生的日常管理、由教師負(fù)責(zé)學(xué)生的課程理論和專業(yè)技能教學(xué)。輔導(dǎo)員和教師之間往往缺乏有效的溝通交流,這會導(dǎo)致一部分同學(xué)因疏于管教而誤入歧途,因?qū)W業(yè)成績不佳而被迫延期畢業(yè)或退學(xué)。學(xué)生的學(xué)業(yè)成績往往受到多方面的影響,包括學(xué)生以往成績、學(xué)習(xí)能力、教師指導(dǎo)狀況等諸多因素。如果能夠根據(jù)學(xué)生的歷史學(xué)業(yè)成績和各方面的綜合表現(xiàn)及素質(zhì)情況,對學(xué)生的未來學(xué)業(yè)成績進(jìn)行預(yù)測;并根據(jù)學(xué)業(yè)成績的預(yù)測結(jié)果,對可能出現(xiàn)問題的學(xué)生及時加強(qiáng)管理教育、督促其認(rèn)真學(xué)習(xí),以避免其出現(xiàn)無法通過學(xué)業(yè)考試的后果,這將大大方便輔導(dǎo)員對于學(xué)生的教育管理,對于提高學(xué)生的培養(yǎng)質(zhì)量將起到重要作用。
盡管目前各類教學(xué)管理系統(tǒng)在高等院校中已非常普遍,能夠?qū)W(xué)生的學(xué)習(xí)成績進(jìn)行有效的管理。但是,對學(xué)生的學(xué)業(yè)成績進(jìn)行預(yù)測分析的研究工作仍非常少見,亦未見到廣泛實(shí)施。
1、現(xiàn)有的教學(xué)管理系統(tǒng),僅側(cè)重于對于學(xué)生學(xué)習(xí)成績數(shù)據(jù)的管理,而忽視了對學(xué)生其它行為數(shù)據(jù)的管理。對學(xué)生數(shù)據(jù)的收集并不完整,也難以對學(xué)生進(jìn)行全面分析評價。
2、對于學(xué)生成績數(shù)據(jù),目前僅僅是將學(xué)生成績錄入到教學(xué)管理系統(tǒng);教學(xué)管理系統(tǒng)存儲的均是學(xué)生成績的歷史數(shù)據(jù)。對學(xué)生的現(xiàn)有的能力進(jìn)行評價僅僅是通過對學(xué)生成績的歷史數(shù)據(jù)分析得到,未采用相應(yīng)的數(shù)據(jù)處理模型,無法實(shí)現(xiàn)對學(xué)生學(xué)業(yè)成績的智能預(yù)測。
本發(fā)明專利正是針對這些在學(xué)生學(xué)業(yè)成績的預(yù)測時存在的技術(shù)問題,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于學(xué)業(yè)成績的預(yù)測,實(shí)現(xiàn)一種基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法及系統(tǒng),力求能夠推動這一研究的發(fā)展。
技術(shù)實(shí)現(xiàn)要素:
為解決現(xiàn)有技術(shù)存在的不足,本發(fā)明公開了一種基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法及系統(tǒng),本發(fā)明通過采用相應(yīng)的數(shù)據(jù)獲取及分析技術(shù)實(shí)現(xiàn)對學(xué)生學(xué)業(yè)成績的智能預(yù)測。
為實(shí)現(xiàn)上述目的,本發(fā)明的具體方案如下:
一種基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法,包括以下步驟:
步驟一:獲取學(xué)生的學(xué)習(xí)數(shù)據(jù),并將獲取的數(shù)據(jù)傳輸至第一服務(wù)器的數(shù)據(jù)庫中;
步驟二:對數(shù)據(jù)庫中存儲的學(xué)生的學(xué)習(xí)數(shù)據(jù),進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表;
步驟三:對規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,通過第一服務(wù)器中的計算單元計算不同類別中各屬性的條件概率及不同類別的先驗概率,學(xué)習(xí)樸素貝葉斯模型的參數(shù),得到樸素貝葉斯模型;
步驟四:將待預(yù)測的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換后輸入至訓(xùn)練好的樸素貝葉斯模型進(jìn)行學(xué)業(yè)成績分類預(yù)測,獲得學(xué)生學(xué)業(yè)成績預(yù)測結(jié)果并通過顯示單元進(jìn)行顯示。
進(jìn)一步的,所述步驟一中,所述學(xué)生的學(xué)習(xí)數(shù)據(jù)包括學(xué)生的學(xué)業(yè)成績信息,其中學(xué)業(yè)成績?yōu)榻虒W(xué)管理系統(tǒng)數(shù)據(jù)庫服務(wù)器中存儲的信息,教學(xué)管理系統(tǒng)數(shù)據(jù)庫服務(wù)器與第一服務(wù)器進(jìn)行通信,將學(xué)生的學(xué)業(yè)成績傳輸至第一服務(wù)器中。
進(jìn)一步的,所述學(xué)業(yè)成績信息包括學(xué)生鄰近兩個學(xué)期的學(xué)業(yè)成績和入學(xué)學(xué)業(yè)成績,其中前一學(xué)期的學(xué)業(yè)成績情況和入學(xué)學(xué)業(yè)成績情況,將作為學(xué)生個體的歷史學(xué)業(yè)成績屬性;后一學(xué)期的學(xué)業(yè)成績情況將作為學(xué)生學(xué)業(yè)成績的分類結(jié)果。
進(jìn)一步的,所述步驟一中,所述學(xué)生的學(xué)習(xí)數(shù)據(jù)還包括學(xué)習(xí)行為信息,學(xué)習(xí)行為信息的獲取通過數(shù)據(jù)采集終端,數(shù)據(jù)采集終端可為計算機(jī)或可移動智能設(shè)備。
進(jìn)一步的,所述學(xué)習(xí)行為信息具體包括學(xué)習(xí)時間、網(wǎng)上娛樂時間、圖書館使用頻率及借閱圖書類型等。
進(jìn)一步的,學(xué)生學(xué)業(yè)成績的具體獲取時,利用學(xué)生的學(xué)號為檢索詞從教學(xué)管理系統(tǒng)數(shù)據(jù)庫服務(wù)器中提取出該學(xué)生成績數(shù)據(jù)和其所在班級的班級成績表。
進(jìn)一步的,在第一服務(wù)器中對學(xué)生數(shù)據(jù)轉(zhuǎn)換,根據(jù)學(xué)生信息數(shù)據(jù)所在的區(qū)間,將得到的連續(xù)型數(shù)據(jù)分段轉(zhuǎn)換為等級數(shù)據(jù)。
進(jìn)一步的,對于學(xué)業(yè)成績信息,包括學(xué)生鄰近兩個學(xué)期的學(xué)業(yè)成績和入學(xué)學(xué)業(yè)成績情況,此數(shù)據(jù)需要進(jìn)行轉(zhuǎn)換處理,具體處理流程:
獲得班級成績表,根據(jù)學(xué)生的考試科目數(shù)量,計算出學(xué)生的平均成績,并按學(xué)生的平均成績排序,輸出班級名次表;并輸出班級學(xué)生總數(shù);
根據(jù)班級名次表和學(xué)生成績數(shù)據(jù),查詢學(xué)生的名次,并輸出。
根據(jù)學(xué)生名次和班級學(xué)生總數(shù),判斷學(xué)生名次在班級中的總體位置。
如果屬于前20%,則輸出學(xué)生學(xué)業(yè)成績等級為A;如果位于20%之后、40%之前,則輸出學(xué)生學(xué)業(yè)成績等級為B;如果位于40%之后、60%之前,則輸出學(xué)生學(xué)業(yè)成績等級為C;如果位于60%之后、80%之前,則輸出學(xué)生學(xué)業(yè)成績等級為D;如果位于后20%,則輸出學(xué)生學(xué)業(yè)成績等級為E。
進(jìn)一步的,在步驟三中,條件概率參數(shù)在計算時,具體為:
3-1)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci的學(xué)生的數(shù)量,輸出Count(Ci);
3-2)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci且第r個屬性的屬性值為xr的學(xué)生的數(shù)量,輸出Count(xr|Ci);
3-3)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生學(xué)業(yè)成績類別的數(shù)量,輸出數(shù)量值K;
3-4)根據(jù)步驟3-1)所得的Count(Ci)、步驟3-2)所得的Count(xr|Ci)、步驟3-3)所得的K,計算P(xr|Ci),并輸出P(xr|Ci),計算公式為:
其中,λ取為0.1。
進(jìn)一步的,在步驟三中,先驗概率參數(shù)在計算時,具體為:
1)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci的學(xué)生的數(shù)量,輸出Count(Ci);
2)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生學(xué)業(yè)成績類別的數(shù)量,輸出數(shù)量值K;
3)遍歷規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生的總數(shù)量,輸出數(shù)量值N;
4)根據(jù)步驟1)所得的Count(Ci)、步驟2)所得的K、步驟3)所得的N,由公式計算P(Ci),并輸出P(Ci);計算公式為:
其中,λ取為0.1。
進(jìn)一步的,在步驟四中,具體步驟為:
4-1)根據(jù)所得的概率參數(shù)P(xr|Ci)、P(Ci),計算各個類別Ci的P(X|Ci)P(Ci)值;
4-2)對比步驟4-1)所獲得的各個類別Ci所對應(yīng)的P(X|Ci)P(Ci)值,將學(xué)生樣本X的類別預(yù)測為具有最大P(X|Ci)P(Ci)值的Ci。
進(jìn)一步的,在步驟4-1)中,計算過程為:
4-1-1)首先對于學(xué)生樣本X的每個屬性xr,依次獲得計算出的條件概率參數(shù)P(xr|Ci)值;而后,根據(jù)公式P(X|Ci)=P(x1|Ci)×P(x2|Ci)×......×P(xn|Ci),將各個P(xr|Ci)相乘,得到P(X|Ci)值,并輸出P(X|Ci)值;
4-1-2)將步驟4-1-1)計算而得的P(X|Ci)值與計算而得的先驗概率參數(shù)P(Ci)值相乘,得到P(X|Ci)P(Ci)值,并輸出P(X|Ci)P(Ci)值。
一種基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測系統(tǒng),包括:
數(shù)據(jù)獲取模塊:用于獲取學(xué)生的學(xué)習(xí)數(shù)據(jù),并將獲取的數(shù)據(jù)傳輸至第一服務(wù)器的數(shù)據(jù)庫中;
數(shù)據(jù)轉(zhuǎn)換模塊:用于針對數(shù)據(jù)庫中存儲的學(xué)生的學(xué)習(xí)數(shù)據(jù),進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表;
樸素貝葉斯模型建立模塊:針對規(guī)范化的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,通過服務(wù)器中的計算單元計算不同類別中各屬性的條件概率及不同類別的先驗概率,得到樸素貝葉斯模型;
學(xué)生學(xué)業(yè)預(yù)測模塊:用于將待預(yù)測的學(xué)生數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換后輸入至訓(xùn)練好的樸素貝葉斯模型進(jìn)行學(xué)生數(shù)據(jù)分類預(yù)測,獲得學(xué)生學(xué)業(yè)預(yù)測結(jié)果并通過顯示單元進(jìn)行顯示。
本發(fā)明的有益效果:
1、本發(fā)明提出基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法,可預(yù)測學(xué)生的未來的學(xué)業(yè)成績,以便于高等院校加強(qiáng)對學(xué)生的教育管理。
2、本發(fā)明通過學(xué)生的歷史學(xué)業(yè)成績和學(xué)習(xí)行為信息等14個屬性來描述學(xué)生樣本,其樣本數(shù)據(jù)可由學(xué)校的教學(xué)管理系統(tǒng)和數(shù)據(jù)采集終端獲取,其數(shù)據(jù)來源簡便且精確,便于在高等院校廣泛推廣。
3、本發(fā)明針對獲取的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到規(guī)范的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,根據(jù)學(xué)生信息數(shù)據(jù)的所在的區(qū)間,將其分段轉(zhuǎn)換為等級數(shù)據(jù),以減少屬性值的數(shù)量,便于后續(xù)模型建立時數(shù)據(jù)的利用。
4、本發(fā)明將獲得的學(xué)生的數(shù)據(jù)信息均存儲至第一服務(wù)器的數(shù)據(jù)庫中,以便后續(xù)數(shù)據(jù)的調(diào)用及處理方便,且保證數(shù)據(jù)的安全性及穩(wěn)定性。
5、目前高等院校輔導(dǎo)員的學(xué)生管理任務(wù)繁重,難以顧及到每個學(xué)生,本發(fā)明將能夠有效地為輔導(dǎo)員預(yù)測出學(xué)業(yè)即將出現(xiàn)問題的學(xué)生,這對于加強(qiáng)輔導(dǎo)員工作的針對性,提高高等院校的學(xué)生培養(yǎng)質(zhì)量將起到有益的作用。
6.本發(fā)明采用的樸素貝葉斯模型,所述模型用于實(shí)現(xiàn)學(xué)生成績的精確預(yù)測,可靠性高。
附圖說明
圖1本發(fā)明的整體預(yù)測流程圖;
圖2本發(fā)明的學(xué)生學(xué)業(yè)成績的具體獲取流程圖;
圖3本發(fā)明的學(xué)業(yè)成績信息數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理具體處理流程圖;
圖4本發(fā)明的計算在不同類別下各屬性的概率參數(shù)具體流程圖;
圖5本發(fā)明的計算各個類別條件概率及先驗概率之積的具體流程圖。
具體實(shí)施方式:
下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)說明:
如圖1所示,本發(fā)明的基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法包括以下主要步驟:
步驟一:對學(xué)生數(shù)據(jù)進(jìn)行收集,包括學(xué)生的學(xué)業(yè)成績和學(xué)習(xí)行為信息;
步驟二:對學(xué)生數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理,得到規(guī)范的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表;
步驟三:由規(guī)范的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,構(gòu)建基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測模型,學(xué)習(xí)預(yù)測模型的參數(shù);
步驟四:根據(jù)所獲得的模型概率參數(shù),利用樸素貝葉斯模型預(yù)測學(xué)生的學(xué)業(yè)成績類別。
利用本發(fā)明,可以根據(jù)學(xué)生的日常學(xué)習(xí)狀況,預(yù)測學(xué)生的未來的學(xué)業(yè)成績,能夠便于高等院校加強(qiáng)對學(xué)生的教育管理。
步驟一中,其中,學(xué)生的學(xué)業(yè)成績可由教學(xué)管理系統(tǒng)數(shù)據(jù)庫直接導(dǎo)出,其它學(xué)習(xí)行為信息等或者通過對學(xué)生開展調(diào)查問卷而得(也可借助于網(wǎng)絡(luò)發(fā)放電子調(diào)查問卷)或者采用數(shù)據(jù)采集終端獲取,優(yōu)選的選用數(shù)據(jù)采集終端的方式獲取,數(shù)據(jù)采集終端為計算機(jī)終端或者可移動設(shè)備,以學(xué)號作為學(xué)生的ID,每個學(xué)生均有且只有一個學(xué)號,每個學(xué)號下存在相應(yīng)的一條數(shù)據(jù)記錄,因為這樣獲取的數(shù)據(jù)能夠避免調(diào)查問卷可能存在的造假而導(dǎo)致的失真數(shù)據(jù)的問題。
當(dāng)通過網(wǎng)絡(luò)發(fā)放電子調(diào)查問卷獲取數(shù)據(jù)時,電子調(diào)查問卷與學(xué)生的學(xué)號一一對應(yīng),將每個學(xué)生所填寫的內(nèi)容進(jìn)行統(tǒng)一匯總并處理。
對于其它學(xué)習(xí)行為信息可以包括:學(xué)生學(xué)習(xí)時間、按時上課情況、網(wǎng)上娛樂時間、圖書館使用頻率、借閱圖書類型、時間管理能力、學(xué)習(xí)能力、課外活動、教師指導(dǎo)情況、家庭指導(dǎo)情況、專業(yè)興趣。
例如,學(xué)生學(xué)習(xí)時間開始時,計算機(jī)開始計時,學(xué)生學(xué)習(xí)時間結(jié)束時,計算機(jī)計時結(jié)束,繼而得到該學(xué)生的學(xué)習(xí)時間;
按時上課情況,通過指紋識別的方式,每個學(xué)生在上課時進(jìn)行指紋識別,沒有進(jìn)行指紋識別的學(xué)生則為缺課,通過這種方式獲取學(xué)生的按時上課情況。
網(wǎng)上娛樂時間的獲取與學(xué)生學(xué)習(xí)時間的獲取方式類似。
圖書館使用頻率、借閱圖書類型可以通過學(xué)校的圖書管理系統(tǒng)中的數(shù)據(jù)庫服務(wù)器中獲取,將圖書管理系統(tǒng)中的數(shù)據(jù)庫服務(wù)器中存儲的數(shù)據(jù)傳輸至計算機(jī)中。
時間管理能力、學(xué)習(xí)能力、課外活動、教師指導(dǎo)情況、家庭指導(dǎo)情況、專業(yè)興趣等數(shù)據(jù)可以綜合個人自我評價和教師、同學(xué)的他人評價而確定。
各類學(xué)生信息的屬性如表1所示。
表1
對于學(xué)業(yè)成績信息,收集學(xué)生鄰近兩個學(xué)期的學(xué)業(yè)成績和入學(xué)學(xué)業(yè)成績情況,其中前一學(xué)期的學(xué)業(yè)成績情況和入學(xué)學(xué)業(yè)成績情況,將作為學(xué)生個體的歷史學(xué)業(yè)成績屬性;后一學(xué)期的學(xué)業(yè)成績情況將作為學(xué)生學(xué)業(yè)成績的分類結(jié)果。各種學(xué)生學(xué)業(yè)成績的具體獲取步驟均如圖2所示。根據(jù)學(xué)生的學(xué)號和學(xué)校的學(xué)生成績數(shù)據(jù)庫,從中提取出學(xué)生成績數(shù)據(jù)和其所在班級的班級成績表。
步驟二中,對于學(xué)業(yè)成績信息,包括學(xué)生鄰近兩個學(xué)期的學(xué)業(yè)成績和入學(xué)學(xué)業(yè)成績情況,此數(shù)據(jù)需要進(jìn)行轉(zhuǎn)換處理。具體處理流程如圖3所示。
對獲得的班級成績表,根據(jù)學(xué)生的考試科目數(shù)量,計算出學(xué)生的平均成績,并按學(xué)生的平均成績排序,輸出班級名次表;并輸出班級學(xué)生總數(shù)。
根據(jù)班級名次表和學(xué)生成績數(shù)據(jù),查詢學(xué)生的名次,并輸出。
根據(jù)學(xué)生名次和班級學(xué)生總數(shù),判斷學(xué)生名次在班級中的總體位置。如果屬于前20%,則輸出學(xué)生學(xué)業(yè)成績等級為A;如果位于20%之后、40%之前,則輸出學(xué)生學(xué)業(yè)成績等級為B;如果位于40%之后、60%之前,則輸出學(xué)生學(xué)業(yè)成績等級為C;如果位于60%之后、80%之前,則輸出學(xué)生學(xué)業(yè)成績等級為D;如果位于后20%,則輸出學(xué)生學(xué)業(yè)成績等級為E。
將其它學(xué)習(xí)行為信息、轉(zhuǎn)換后的學(xué)業(yè)成績信息組合在一起,得到學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表。
在本實(shí)施例中,假定得到如表2所示的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表。
表2
步驟三中,由規(guī)范的學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,構(gòu)建基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測模型,學(xué)習(xí)預(yù)測模型的參數(shù)。
為便于表述,本發(fā)明將表2中的字段“后一學(xué)期的學(xué)業(yè)成績情況”記作C,其A、B、C、D、E五個類別分別記作C1、C2、C3、C4、C5;將表2中的其它13個字段,依次記作R1~R13。
根據(jù)樸素貝葉斯模型,學(xué)生X的后一學(xué)期學(xué)業(yè)成績的類別C可由公式(1)而預(yù)測。
在樸素貝葉斯模型中,屬性被認(rèn)為是相互條件獨(dú)立的。因此,公式(1)中的P(X|Ci)可由公式(2)計算。
P(X|Ci)=P(x1|Ci)×P(x2|Ci)×......×P(xn|Ci) (2)
為避免出現(xiàn)零概率的情況,本發(fā)明采用拉普拉斯算法對公式(1)和(2)中的概率進(jìn)行平滑處理,如公式(3)和(3)所示。
其中,λ取為0.1,K為學(xué)業(yè)成績類別的數(shù)量,N為學(xué)生的總數(shù);Count(xr|Ci)表示類別為Ci的樣本中,第r個屬性值為xr的學(xué)生的數(shù)量;Count(Ci)表示類別為Ci的學(xué)生的數(shù)量。
以學(xué)生X為例,假定根據(jù)對X的數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理后,其學(xué)習(xí)時間、按時上課情況、網(wǎng)上娛樂時間、圖書館使用頻率、借閱圖書類型、時間管理能力、學(xué)習(xí)能力、課外活動、教師指導(dǎo)情況、家庭指導(dǎo)情況、專業(yè)興趣、前一學(xué)期的學(xué)業(yè)成績情況、入學(xué)學(xué)業(yè)成績情況分別為:4、C、2、<2、小說、差、一般、較好、一般、較好、有、C、B。
為了對學(xué)生X的當(dāng)前學(xué)期的學(xué)業(yè)成績進(jìn)行預(yù)測,需要首先根據(jù)學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,學(xué)習(xí)基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測模型的各種概率參數(shù)。具體實(shí)施步驟如下所述。
根據(jù)學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,計算在不同類別下各屬性的概率參數(shù)P(xr|Ci),并使用拉普拉斯算法進(jìn)行平滑處理。具體實(shí)施流程如圖4所示。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci的學(xué)生的數(shù)量,輸出Count(Ci)。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci且第r個屬性的屬性值為xr的學(xué)生的數(shù)量,輸出Count(xr|Ci)。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生學(xué)業(yè)成績類別的數(shù)量,輸出數(shù)量值K。
根據(jù)所得的Count(Ci)、所得的Count(xr|Ci)、所得的K,由公式(3)計算P(xr|Ci),并輸出P(xr|Ci)。
在本實(shí)施例中,根據(jù)表2,不同類別下各屬性的概率參數(shù)P(xr|Ci)的計算結(jié)果如下:
對于P(x1|C1),由Count(Ci=”A”)=4,由Count(R1=”4”|Ci=”A”)=1,由K=5,代入公式(3),可得:
P(x1|C1)=P(R1=”4”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
同理可得,
P(x1|C2)=P(R1=”4”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x1|C3)=P(R1=”4”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x1|C3)=P(R1=”4”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x1|C5)=P(R1=”4”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x2|C1)=P(R2=”C”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x2|C2)=P(R2=”C”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x2|C3)=P(R2=”C”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x2|C4)=P(R2=”C”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x2|C5)=P(R2=”C”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x3|C1)=P(R3=”2”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x3|C2)=P(R3=”2”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x3|C3)=P(R3=”2”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x3|C4)=P(R3=”2”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x3|C5)=P(R3=”2”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x4|C1)=P(R4=”<2”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x4|C2)=P(R4=”<2”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x4|C3)=P(R4=”<2”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x4|C4)=P(R4=”<2”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x4|C5)=P(R4=”<2”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x5|C1)=P(R5=”小說”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x5|C2)=P(R5=”小說”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x5|C3)=P(R5=”小說”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x5|C4)=P(R5=”小說”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x5|C5)=P(R5=”小說”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x6|C1)=P(R6=”差”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x6|C2)=P(R6=”差”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x6|C3)=P(R6=”差”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x6|C4)=P(R6=”差”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x6|C5)=P(R6=”差”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x7|C1)=P(R7=”一般”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x7|C2)=P(R7=”一般”|Ci=”B”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x7|C3)=P(R7=”一般”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x7|C4)=P(R7=”一般”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x7|C5)=P(R7=”一般”|Ci=”E”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x8|C1)=P(R8=”較好”|Ci=”A”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x8|C2)=P(R8=”較好”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x8|C3)=P(R8=”較好”|Ci=”C”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x8|C4)=P(R8=”較好”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x8|C5)=P(R8=”較好”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x9|C1)=P(R9=”一般”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x9|C2)=P(R9=”一般”|Ci=”B”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x9|C3)=P(R9=”一般”|Ci=”C”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x9|C4)=P(R9=”一般”|Ci=”D”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x9|C5)=P(R9=”一般”|Ci=”E”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x10|C1)=P(R10=”較好”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x10|C2)=P(R10=”較好”|Ci=”B”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x10|C3)=P(R10=”較好”|Ci=”C”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x10|C4)=P(R10=”較好”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x10|C5)=P(R10=”較好”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x11|C1)=P(R11=”有”|Ci=”A”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x11|C2)=P(R11=”有”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x11|C3)=P(R11=”有”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x11|C4)=P(R11=”有”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x11|C5)=P(R11=”有”|Ci=”E”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x12|C1)=P(R12=”C”|Ci=”A”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x12|C2)=P(R12=”C”|Ci=”B”)=(3+0.1)/(4+5*0.1)=3.1/4.5=0.689
P(x12|C3)=P(R12=”C”|Ci=”C”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x12|C4)=P(R12=”C”|Ci=”D”)=(0+0.1)/(4+5*0.1)=0.1/4.5=0.022
P(x12|C5)=P(R12=”C”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x13|C1)=P(R13=”B”|Ci=”A”)=(2+0.1)/(4+5*0.1)=2.1/4.5=0.467
P(x13|C2)=P(R13=”B”|Ci=”B”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x13|C3)=P(R13=”B”|Ci=”C”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x13|C4)=P(R13=”B”|Ci=”D”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
P(x13|C5)=P(R13=”B”|Ci=”E”)=(1+0.1)/(4+5*0.1)=1.1/4.5=0.244
根據(jù)學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,計算不同類別樣本的概率參數(shù)P(Ci),并使用拉普拉斯算法進(jìn)行平滑處理,具體實(shí)施流程如圖4所示。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計類別為Ci的學(xué)生的數(shù)量,輸出Count(Ci)。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生學(xué)業(yè)成績類別的數(shù)量,輸出數(shù)量值K。
遍歷學(xué)生學(xué)習(xí)狀況數(shù)據(jù)表,從中統(tǒng)計學(xué)生的總數(shù)量,輸出數(shù)量值N。
根據(jù)所得的Count(Ci)、所得的K、所得的N,由公式(4)計算P(Ci),并輸出P(Ci)。
在本實(shí)施例中,根據(jù)表2,不同類別下各屬性的P(Ci)的計算結(jié)果如下:
對于P(C1),由Count(Ci=”A”)=4,由K=5,由N=20,代入公式(4)可得,P(C1)=P(Ci=”A”)=(4+0.1)/(20+5*0.1)=4.1/20.5=0.2
同理,可得P(C2)、P(C3)、P(C4)、P(C5)均為0.2。
步驟四、根據(jù)步驟三所獲得的模型概率參數(shù),利用樸素貝葉斯模型預(yù)測學(xué)生的學(xué)業(yè)成績類別。
由貝葉斯模型公式(1)可知,使P(X|Ci)P(Ci)取得最大值的類別Ci,即為學(xué)業(yè)成績的預(yù)測結(jié)果。具體實(shí)施步驟如下所述。
步驟4.1:根據(jù)步驟三所得的概率參數(shù)P(xr|Ci)、P(Ci),計算各個類別Ci的P(X|Ci)P(Ci)值。
步驟4.1的具體實(shí)施流程如圖5所示。
首先對于學(xué)生樣本X的每個屬性xr,依次獲得計算出的P(xr|Ci)值;而后,根據(jù)公式(2),將各個P(xr|Ci)相乘,得到P(X|Ci)值,并輸出P(X|Ci)值。
將計算而得的P(X|Ci)值與計算而得的P(Ci)值相乘,得到P(X|Ci)P(Ci)值,并輸出P(X|Ci)P(Ci)值。
在本實(shí)施例中,以學(xué)生X為例,說明本步驟的具體計算方法。
對于類別C1,即“A”,P(X|C1)=P(x1|C1)×P(x2|C1)×……×P(x13|C1)=0.244×0.022×0.022×0.022×0.022×0.022×0.244×0.467×0.244×0.022×0.244×0.022×0.467=1.9282E-15;P(C1)=0.2;故P(X|C1)P(C1)=1.9282E-15×0.2=3.8564E-16。
同理可得,
對于類別C2,P(X|C2)P(C2)=[P(x1|C2)×P(x2|C2)×……×P(x13|C2)]×P(C2)
=[0.244×0.022×0.244×0.022×0.022×0.022×0.689×0.244×0.467×0.022×0.244×0.689×0.244]×0.2
=1.97628E-13
對于類別C3,P(X|C3)P(C3)=[P(x1|C3)×P(x2|C3)×……×P(x13|C3)]×P(C3)
=[0.467×0.022×0.689×0.022×0.689×0.022×0.467×0.467×0.689×0.244×0.022×0.022×0.244]×0.2
=2.04424E-12
對于類別C4,P(X|C4)P(C4)=[P(x1|C4)×P(x2|C4)×……×P(x13|C4)]×P(C4)
=[0.022×0.244×0.467×0.244×0.467×0.022×0.244×0.022×0.467×0.022×0.022×0.022×0.244]×0.2
=8.18608E-15
對于類別C5,P(X|C5)P(C5)=[P(x1|C5)×P(x2|C5)×……×P(x13|C5)]×P(C5)
=[0.244×0.244×0.022×0.689×0.244×0.689×0.689×0.244×0.467×0.022×0.022×0.244×0.244]×0.2
=6.86454E-11
步驟4.2:對比步驟4.1所獲得的各個類別Ci所對應(yīng)的P(X|Ci)P(Ci)值,將學(xué)生樣本X的類別預(yù)測為具有最大P(X|Ci)P(Ci)值的Ci。
在本實(shí)施例中,對比以上各類別的P(X|Ci)P(Ci)值,可知類別C5(“E”)的值最大。故學(xué)生樣本X的當(dāng)前學(xué)期的學(xué)業(yè)成績將被預(yù)測為C5(“E”)。
根據(jù)該學(xué)生樣本的學(xué)業(yè)預(yù)測成績,其學(xué)業(yè)成績屬于“E”類,即名次排名將在80%之后,顯然應(yīng)對該同學(xué)加強(qiáng)教育管理。輔導(dǎo)員可根據(jù)該預(yù)測結(jié)果,及時對該學(xué)生予以干預(yù),對其批評教育,糾正其不良學(xué)習(xí)習(xí)慣,端正其學(xué)習(xí)態(tài)度,以避免該生的學(xué)業(yè)成績出現(xiàn)嚴(yán)重問題。
需要說明的是,本申請中的基于樸素貝葉斯模型的學(xué)生學(xué)業(yè)成績預(yù)測方法及系統(tǒng)均是基于現(xiàn)有的計算機(jī)、服務(wù)器等硬件產(chǎn)品的基礎(chǔ)上進(jìn)行的,所得到的預(yù)測結(jié)果可以通過相應(yīng)的顯示單元進(jìn)行顯示。
上述雖然結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行了描述,但并非對本發(fā)明保護(hù)范圍的限制,所屬領(lǐng)域技術(shù)人員應(yīng)該明白,在本發(fā)明的技術(shù)方案的基礎(chǔ)上,本領(lǐng)域技術(shù)人員不需要付出創(chuàng)造性勞動即可做出的各種修改或變形仍在本發(fā)明的保護(hù)范圍以內(nèi)。