本發(fā)明涉及計(jì)算機(jī)技術(shù),具體涉及課程先后序計(jì)算方法和設(shè)備。
背景技術(shù):
掌握學(xué)習(xí)(masterylearning)由本杰明·布盧姆(benjaminbloom)于1968年首先正式提出,表明學(xué)生必須在基礎(chǔ)知識上達(dá)到一定程度的掌握(例如,基礎(chǔ)知識的90%),然后才能繼續(xù)學(xué)習(xí)后續(xù)的知識概念。從此,知識概念之間的先后序關(guān)系成為學(xué)校和大學(xué)設(shè)計(jì)課程的基石。先后序關(guān)系本質(zhì)上可以看作是知識概念間的依賴。對人們學(xué)習(xí)、組織、應(yīng)用和產(chǎn)生知識至關(guān)重要。運(yùn)用概念間先后序關(guān)系來組織知識結(jié)構(gòu)可以改進(jìn)對課程的規(guī)劃,自動生成閱讀列表和提高教育質(zhì)量等任務(wù)。以往,是由老師或助教提供知識概念間的先后序關(guān)系。
然而,在大型開放式網(wǎng)絡(luò)課程(massiveopenonlinecourses)時代,需要面對擁有成千上萬種學(xué)習(xí)背景的學(xué)生,由老師或則助教安排課程的學(xué)習(xí)順序變得并不可行。同時,大型開放式網(wǎng)絡(luò)課程的快速發(fā)展提供了數(shù)千門課程,學(xué)生可以自由選擇其中的課程來學(xué)習(xí),而學(xué)生的興趣各不相同,這也使得由老師或助教安排課程的學(xué)習(xí)順序變得不可行。因此,需要從大型課程空間中自動挖掘知識概念之間先后序關(guān)系的方法,使來自不同背景的學(xué)生可以輕松探索知識空間,更好地設(shè)計(jì)個性化學(xué)習(xí)時間表。
技術(shù)實(shí)現(xiàn)要素:
鑒于上述問題,本發(fā)明提出了克服上述問題或者至少部分地解決上述問題的課程先后序計(jì)算方法和設(shè)備。
為此目的,第一方面,本發(fā)明提出一種課程先后序計(jì)算方法,其特征在于,包括步驟:
s201、根據(jù)輔助語料,獲得第一語料中的概念實(shí)體的向量表示;
s202、至少計(jì)算概念實(shí)體對之間的語義關(guān)系特征、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征;
s203、至少根據(jù)獲得的概念實(shí)體對之間的語義關(guān)系特征、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系;
s204、通過概念實(shí)體的先后順序,獲得課程的先后順序;
或課程先后序計(jì)算方法包括步驟:
s101、根據(jù)輔助語料,獲得第一語料中的概念實(shí)體的向量表示;
s102、計(jì)算概念實(shí)體對之間的復(fù)雜程度距離特征;以及計(jì)算以下6種特征中的至少5種:語義關(guān)系特征、視頻引用距離特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征;
s103、根據(jù)獲得的概念實(shí)體對之間的復(fù)雜程度距離特征,以及根據(jù)在步驟s102中獲得5種特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系;
s104、通過概念實(shí)體的先后順序,獲得課程的先后順序。
可選的,對于有序概念實(shí)體向量<a,b>之間的復(fù)雜程度距離特征通過下述方式計(jì)算獲得:
cld(a,b)=avc(a)·ast(a)-avc(b)·ast(b);
其中,max(i(c,a))和min(i(c,a))分別指a在課程c中第一次和最后一次出現(xiàn)的視頻序號;包含概念實(shí)體a的課程為c(a),|c(a)|的值等于第一語料中包含概念實(shí)體a的課程的個數(shù),|c|的值等于第一語料中課程的個數(shù),cld(a,b)即復(fù)雜程度距離特征。
可選的,對于有序概念實(shí)體向量<a,b>之間的語義關(guān)系特征通過下述方式計(jì)算獲得:
其中,va、vb分別為a、b的詞向量嵌入表示,ω(a,b)即a和b之間的語義關(guān)系特征。
可選的,有序概念實(shí)體向量<a,b>之間的視頻引用距離特征通過下述方式獲得:
vrd(a,b)=vrw(b,a)-vrw(a,b);
其中,d表示輸入的第一語料中的所有課程,c表示第一語料中的某一課程,v表示是課程c的某一視頻字幕;f(x,v)表示概念實(shí)體x在視頻v中的頻數(shù);r(v,x)表示概念實(shí)體x是否出現(xiàn)在視頻v中出現(xiàn),函數(shù)值為1,否則為0;vrd(a,b)即視頻引用距離特征。
可選的,有序概念實(shí)體向量<a,b>之間的通用句子引用距離特征通過下述方法獲得:
gsrd(a,b)=gsrw(b,a)-gsrw(a,b);
srd(a,b)=srw(b,a)-srw(a,b);
其中,d表示輸入的第一語料中的所有課程,c表示第一語料中的某一課程,v表示是課程c的某一視頻字幕,s表示字幕v中的一個句子;r(s,x)∈{0,1}表示概念實(shí)體x是否出現(xiàn)在句子s中,出現(xiàn)則r(s,x)的值為1,否則為0;ai∈e1~em,e1~em是在輔助語料上與概念實(shí)體a語義關(guān)系最為接近的m個實(shí)體;m為預(yù)設(shè)值;va、vb分別為a、b的詞向量嵌入表示,gsrd(a,b)即通用句子引用距離特征。
可選的,有序概念實(shí)體向量<a,b>之間的輔助文本引用距離通過下述方法獲得:
wrd(a,b)=wrw(b,a)-wrw(a,b);
其中va、vb分別為a、b的詞向量嵌入表示,erw(e,a)表征輔助語料的文章e是否被ra中任一概念所引用,被引用,值為1,否則為0;ra=<e1,…,em>,e1~em是在輔助語料上與概念實(shí)體a語義關(guān)系最為接近的m個實(shí)體;m為預(yù)設(shè)值,wrd(a,b)即輔助文本引用距離。
可選的,有序概念實(shí)體向量<a,b>之間的平均位置距離特征:
其中,包含概念實(shí)體x的課程為c(x),|c(x)|的值等于第一語料中包含概念實(shí)體x的課程的個數(shù),|c|的值等于第一語料中課程的個數(shù),|c(a)∩c(b)|即含有共現(xiàn)視頻的課程數(shù);對于
可選的,有序概念實(shí)體向量<a,b>之間的分布不對稱特征;
其中,max(i(c,a))和min(i(c,a))分別指a在課程c中第一次和最后一次出現(xiàn)的視頻序號;包含概念實(shí)體x的課程為c(x),|c(x)|的值等于第一語料中包含概念實(shí)體x的課程的個數(shù),|c(a)∩c(b)|即含有共現(xiàn)視頻的課程數(shù);|c|的值等于第一語料中課程的個數(shù),集合s(c)={(i,j)|i∈i(c,a),j∈i(c,b),i<j},對于
第二方面,本發(fā)明提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)如上一所述方法的步驟。
第三方面,本發(fā)明提供一種計(jì)算機(jī)設(shè)備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上執(zhí)行的計(jì)算機(jī)程序所述處理器執(zhí)行所述程序時實(shí)現(xiàn)如上任一所述方法的步驟。
由上述技術(shù)方案可知,在本發(fā)明中,在計(jì)算課程概念先后序時,將課程結(jié)構(gòu)方面的復(fù)雜程度特征與其他特征結(jié)合,并通過隨機(jī)森林方法根據(jù)上述特征計(jì)算課程概念之間的先后序,提高了課程概念先后序識別的準(zhǔn)確性,從而對網(wǎng)絡(luò)上大型開放網(wǎng)絡(luò)課程提供了一個有效的先后序確認(rèn)方法。
前面是提供對本發(fā)明一些方面的理解的簡要發(fā)明內(nèi)容。這個部分既不是本發(fā)明及其各種實(shí)施例的詳盡表述也不是窮舉的表述。它既不用于識別本發(fā)明的重要或關(guān)鍵特征也不限定本發(fā)明的范圍,而是以一種簡化形式給出本發(fā)明的所選原理,作為對下面給出的更具體的描述的簡介。應(yīng)當(dāng)理解,單獨(dú)地或者組合地利用上面闡述或下面具體描述的一個或多個特征,本發(fā)明的其它實(shí)施例也是可能的。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明的一個是實(shí)施例中采用的數(shù)據(jù)集對應(yīng)的相關(guān)統(tǒng)計(jì)信息表;
圖2為本發(fā)明的一個實(shí)施例的結(jié)果分析表;
圖3為本發(fā)明的另一個實(shí)施例的結(jié)果分析表;
圖4為本發(fā)明的一個實(shí)施例的方法流程示意圖。
具體實(shí)施方式
下面將結(jié)合示例性的通信系統(tǒng)描述本發(fā)明。
為了便于理解本發(fā)明的技術(shù)方案和原理,現(xiàn)對于本文中出現(xiàn)的一些術(shù)語進(jìn)行介紹和解釋:
語料:大規(guī)模的語言實(shí)例,例如由人民日報(bào)中的2000年之后的報(bào)道構(gòu)成的語料,或由維基百科中的條目和對應(yīng)條目的網(wǎng)頁內(nèi)容構(gòu)成語料。語料的組成由語料收集者根據(jù)語料的用途決定。
語料庫通常是指由經(jīng)過分詞和對分詞進(jìn)行詞性標(biāo)注后的語料構(gòu)成。
實(shí)體(entity):通常是名詞,例如“頻率”“概率”,“單層神經(jīng)元網(wǎng)絡(luò)”,其是知識圖譜的頂點(diǎn);
概念實(shí)體:是一種特殊的實(shí)體,該實(shí)體是一種課程中概念。
元素:本文為了區(qū)別概念1(實(shí)體)和概念2(組成實(shí)體的實(shí)體),因此將組成實(shí)體的實(shí)體稱為元素,即由元素組成實(shí)體;例如“單層”“神經(jīng)元”“網(wǎng)絡(luò)”構(gòu)成了實(shí)體“單層神經(jīng)元網(wǎng)絡(luò)”;有時元素也被稱為詞;根據(jù)語料的某一種或多種統(tǒng)計(jì)特征,將語料中的元素映射到向量空間,獲得元素的向量表示,元素的向量表示也稱為詞向量。
實(shí)體的向量表示,也稱為實(shí)體的嵌入表示或?qū)嶓w向量,其是根據(jù)語料的某一種或多種統(tǒng)計(jì)特征,將語料中的實(shí)體映射到向量空間。實(shí)體的向量表示與元素的向量表示具有相同的維度。
以下僅以通過課程視頻字幕和百科文本的例子說明本發(fā)明是如何計(jì)算課程的先后序的。百科文本指的是維基百科中,與需要計(jì)算先后序課程相關(guān)的網(wǎng)頁內(nèi)容。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知道,ppt文本、作業(yè)等都可代替本發(fā)明中課程視頻字幕,或作為本發(fā)明課程視頻字幕的補(bǔ)充,而教科書、ppt文本等可替代百科文本,或作為百科文本的補(bǔ)充,用于計(jì)算課程的先后序。
在本發(fā)明的一個實(shí)施例中,第一語料w包括各課程的視頻字幕,輔助語料f包括百科文本。
通過分詞和標(biāo)注獲得第一語料w中的概念實(shí)體;根據(jù)輔助語料f計(jì)算概念實(shí)體集合d’中的概念實(shí)體的向量表示。由第一語料w中概念實(shí)體的向量表示構(gòu)成的集合標(biāo)記為w’。第一語料w中的概念實(shí)體的向量表示的集合記為w’=<w’1…,w’i…,w’p>。
上述根據(jù)輔助語料w計(jì)算概念實(shí)體集合d’中的概念實(shí)體的向量表示,包括:根據(jù)skip-gramword2vec處理輔助語料w,獲得輔助語料中k個元素的向量表示<x1,…xi,…xk>;若元素x等于實(shí)體w,則實(shí)體w的向量表示等于元素x的向量表示;若實(shí)體w不等于輔助語料w的k個元素中的任一一個,且w可以表示為w=e1+…en,則實(shí)體w的向量表示等于各個元素的向量表示之和,其中e1,…en∈{x1,…xi,…xk}。
即通過獲得輔助語料中元素的向量表示獲得第一語料w中概念實(shí)體的向量表示:
其中,vw表示實(shí)體w的向量表示,ve是元素e的向量表示,e、e1,…en∈{x1,…xi,…xk}。例如對于處理輔助語料獲得“概率”這一概念實(shí)體的向量表示ve,則第一語料中的“概率”這一概念實(shí)體的向量表示等于ve;若輔助語料中不具有“隨機(jī)森林分類器”這一概念實(shí)體,而僅具有概念實(shí)體“隨機(jī)森林”“分類器”這兩個概念實(shí)體,則第一語料中“隨機(jī)森林分類器”這一實(shí)體概念的向量表示等于“隨機(jī)森林”和“分類器”的向量表示之和,若輔助語料中不具“隨機(jī)森林”“分類器”這兩個概念實(shí)體的向量表示,則第一語料的概念實(shí)體的向量表示的集合w’=<w’1…,w’i…,w’p>中不包含“隨機(jī)森林分類器”這一概念實(shí)體的向量表示。因此,若輔語料中未出現(xiàn)第一語料中的概念實(shí)體w,則可通過其他實(shí)體的向量表示構(gòu)造出w的向量表示,從而解決現(xiàn)有技術(shù)中若輔助語料中沒有對應(yīng)的概念實(shí)體時,無法求解第一語料中概念實(shí)體的先后序的問題。
在本發(fā)明的一個實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>(為了書寫方便,將vw寫為w’),至少計(jì)算概念實(shí)體對之間的課程上下文方面的特征和課程結(jié)構(gòu)方面的特征,課程上下文方面的特征包括視頻引用距離特征,通用句子引用距離特征和輔助文本引用距離特征;課程結(jié)構(gòu)方面的特征包括平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念實(shí)體對之間的視頻引用距離特征,通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義方面的特征和課程結(jié)構(gòu)方面的特征;課程概念語義方面的特征包括語義關(guān)系特征,課程結(jié)構(gòu)方面的特征包括平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念實(shí)體對之間的概念語義關(guān)系特征、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念視頻引用距離特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、視頻引用距離特征,通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義關(guān)系特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義關(guān)系特征、視頻引用距離特征輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、視頻引用距離特征,輔助文本引用距離、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義關(guān)系特征、視頻引用距離特征、通用句子引用距離特征、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、視頻引用距離特征、通用句子引用距離特征、平均位置距離特征、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義關(guān)系特征、視頻引用距離特征,通用句子引用距離特征、輔助文本引用距離、分布不對稱特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、視頻引用距離特征,通用句子引用距離特征、輔助文本引用距離、分布不對稱特征和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
在本發(fā)明的另一實(shí)施例中,根據(jù)上述計(jì)算獲得的p個概念實(shí)體的向量表示w’=<w’1…,w’i…,w’p>,至少計(jì)算概念實(shí)體對之間的概念語義關(guān)系特征、視頻引用距離特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特征和復(fù)雜程度距離特征,至少根據(jù)獲得的概念語義關(guān)系特征、視頻引用距離特征、通用句子引用距離特征、輔助文本引用距離、平均位置距離特和復(fù)雜程度距離特征,采用隨機(jī)森林方法訓(xùn)練獲得概念的先后序關(guān)系。
以上實(shí)施例只是為了示例說明本發(fā)明的實(shí)施方案,并不是本發(fā)明的全部實(shí)施例,本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改。
在本發(fā)明中,在計(jì)算課程概念先后序時,將課程結(jié)構(gòu)方面的復(fù)雜程度特征與其他特征結(jié)合,并通過隨機(jī)森林方法根據(jù)上述特征計(jì)算課程概念之間的先后序,提高了課程概念先后序識別的準(zhǔn)確性,從而對網(wǎng)絡(luò)上大型開放網(wǎng)絡(luò)課程提供了一個有效的先后序確認(rèn)方法。
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的概念語義關(guān)系特征:對于概念對<a,b>,表示a是b的先序概念,b是a的后續(xù)概念。a和b之間的語義關(guān)系(semanticrelatedness,sr)特征記為ω(a,b),
其中,va、vb分別為a、b的詞向量嵌入表示。
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的視頻引用距離特征,視頻引用距離特征也稱為通用視頻引用距離特征,對于一個概念對<a,b>,a和b之間的視頻引用權(quán)重(videoreferenceweight,vrw)定義為:
vrd(a,b)=vrw(b,a)-vrw(a,b)
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的通用句子引用距離:
可以定義a和b之間的句子引用權(quán)重(sentencereferenceweight,srw)和句子引用距離(sentencereferencedistance,srd):
srd(a,b)=srw(b,a)-srw(a,b)
其中r(s,a)∈{0,1}表示概念實(shí)體a是否出現(xiàn)在句子s中,出現(xiàn)則r(s,a)的值為1,否則為0。srw(a,b)可以計(jì)算出包含a的句子中出現(xiàn)概念實(shí)體b的比率。
考慮概念間語義關(guān)系,定義通用句子引用權(quán)重(generalizedsentencereferenceweight,gsrw)與通用句子引用距離(generalizedsentencereferencedistance,gsrd)特征:
gsrd(a,b)=gsrw(b,a)-gsrw(a,b)
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的輔助文本引用距離:
輔助文本中也可能蘊(yùn)含概念間先后序關(guān)系信息,因此,給定課程概念實(shí)體a,考慮與a在輔助語料上語義關(guān)系最為接近的m個實(shí)體,形式化為ra=<e1,…,em>,其中e1,…,em屬于輔助語料中的實(shí)體標(biāo)注e,定義輔助語料引用權(quán)重(wikipediareferenceweight,wrw):
其中erw(e,a)表征輔助語料的文章e是否被ra中任一概念所引用,被引用,值為1;否則為0。wrw(a,b)度量了與a相關(guān)的輔助語料實(shí)體被與b相關(guān)的輔助語料實(shí)體引用的頻率。
定義輔助文本引用距離(wikipediareferencedistance,wrd)特征為:
wrd(a,b)=wrw(b,a)-wrw(a,b)
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間平均位置距離特征;
形式化定義包含概念實(shí)體a的課程為c(a),即c(a)={ci|ci∈d,a∈w′}。形式化定義a在課程c中的索引為i(c,a)。如,a出現(xiàn)在c課程中的第1和第4個視頻中,i(c,a)={1,4}。
給定一個概念b,其先續(xù)概念實(shí)體a通常在b之前被介紹,但a、b可能會被多次提及,所以考慮各自出現(xiàn)位置的平均值,通常存在a的平均距離小于b的平均距離的分布。因此,對于同現(xiàn)于一個視頻的兩個概念,即
對于
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的分布不對稱特征;
給定一個概念b,為其先序概念a;給定一個包含a的視頻va,包含b的視頻vb,其中va在序號上先于vb。通常存在f(b,va)<f(a,vb),f(b,va)表示va中b的個數(shù)。形式化定義視頻序號對集合s(c)={(i,j)|i∈i(c,a),j∈i(c,b),i<j},進(jìn)一步定義分布不對稱(distributionalasymmetrydistance,dad)特征為:
對于
在本文的一個實(shí)施例中,通過下述方法計(jì)算概念實(shí)體對<a,b>之間的復(fù)雜程度距離特征;定義概念的平均視頻覆蓋率(averagevideocoverage,avc)、平均覆蓋長度(averagesurvivaltime,avt)為:
其中max/min(i(c,a))指a在c中第一次/最后一次出現(xiàn)的視頻序號。
兩個概念間的復(fù)雜程度距離(complexityleveldistance,cld)特征定義為:
cld(a,b)=avc(a)·ast(a)-avc(b)·ast(b);
給定一個領(lǐng)域的在線課程集合d和其中的課程概念實(shí)體向量表示的集合w’=<w’1…,w’i…,w’p>,目標(biāo)是通過隨機(jī)森林學(xué)習(xí)獲得一個由w′2空間到{0,1}空間的映射函數(shù)p,使得一個概念對<a,b>,其中a,b∈w′,被映射到二分類0和1中,分別表征a不是b的先序概念和a是b的先序概念兩種情況。最終得到兩個概念是否存在先后序關(guān)系的判定結(jié)果。
本文中所指的隨機(jī)森林(randomforest,簡稱rf)是通過集成學(xué)習(xí)的思想將多棵樹集成的一種算法,它的基本單元是決策樹,而它的本質(zhì)屬于機(jī)器學(xué)習(xí)的一大分支——集成學(xué)習(xí)(ensemblelearning)方法。在本發(fā)明的一些是實(shí)力中,可以利用python的兩個模塊,分別為pandas和scikit-learn來實(shí)現(xiàn)隨機(jī)森林。
在本文的一個實(shí)施例中,采用3個不同領(lǐng)域的大型開放式網(wǎng)絡(luò)課程數(shù)據(jù)集:機(jī)器學(xué)習(xí)(machinelearning,ml),數(shù)據(jù)結(jié)構(gòu)與算法(datastructureandalgorithms,dsa)和微積分(calculus,cal)。由于當(dāng)前并沒有用于先后序關(guān)系計(jì)算的開放數(shù)據(jù)集,所以本實(shí)驗(yàn)使用開源工具coursera-dl自動下載了著名在大型開放式網(wǎng)絡(luò)課程網(wǎng)站coursera.org上對應(yīng)三個領(lǐng)域的所有課程,人工標(biāo)注出每門課程中的概念(即概念實(shí)體)。記概念總數(shù)為n,概念間兩兩構(gòu)成的非重復(fù)概念對數(shù)量為n(n-1)/2,為標(biāo)注二者是否存在先后序關(guān)系需要大量人工標(biāo)注,所以本實(shí)驗(yàn)隨機(jī)采樣了概念對總數(shù)的25%用于實(shí)驗(yàn),三個具備所選領(lǐng)域知識的人員對每對概念是否存在先后序關(guān)系進(jìn)行標(biāo)注。例如,對于一個概念對<a,b>,若a是b的先序概念,標(biāo)注為“+”,否則為“-”。僅三人均認(rèn)為存在先后序關(guān)系的概念對被保留,并使用成對統(tǒng)計(jì)的平均值κ作為標(biāo)記一致性判定。三人均標(biāo)記一致的概念對構(gòu)成概念對集合,用于對本算法的計(jì)算獲得的有序概念對的正確性進(jìn)行驗(yàn)證。數(shù)據(jù)集的相關(guān)信息如圖1所示。
輔助文本語料采用2015年8月的維基百科詞條描述文本,共包括4,919,463篇文檔。實(shí)體標(biāo)注僅以維基百科中已標(biāo)注的超鏈接作為候選,若維基百科所標(biāo)注鏈接和給定在線課程中概念的名稱相同,則標(biāo)注為實(shí)體,否則不予標(biāo)注。
對于每一個數(shù)據(jù)集,使用5折交叉驗(yàn)證的方法,即將數(shù)據(jù)集平均分為5份,其中4份用于本發(fā)明的模型訓(xùn)練,1份用于對發(fā)明方法效果的驗(yàn)證。因?yàn)閿?shù)據(jù)集中正負(fù)例數(shù)量差異較大,實(shí)驗(yàn)中使用過采樣的方法平衡了二者的數(shù)量。概念間上下文關(guān)系方面的特征需確定關(guān)聯(lián)實(shí)體的數(shù)量m,本實(shí)驗(yàn)設(shè)置m=10進(jìn)行實(shí)驗(yàn)。二分類方法使用隨機(jī)森林(random4forest,rf)進(jìn)行實(shí)驗(yàn)。問題已被形式化為一個二分類任務(wù),所以實(shí)驗(yàn)評測使用信息檢索領(lǐng)域的常用的一個評價標(biāo)準(zhǔn):準(zhǔn)確率(precision,p),召回率(recall,r)和f1值(fscore,f1)。易知,更高的f1值體現(xiàn)了更優(yōu)秀的概念間先后序關(guān)系計(jì)算方法。
采用以上數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置,同當(dāng)前概念先后序關(guān)系計(jì)算主流方法上下位匹配方法(hpm)、引用距離(rd)和監(jiān)督關(guān)系識別(僅使用教科書特征t-sri和使用原方法所有特征f-sri)進(jìn)行對比。除了本發(fā)明公布的基本數(shù)據(jù)集,我們還從數(shù)據(jù)集中篩選出包含于維基百科的概念對集合用于與引用距離和監(jiān)督關(guān)系識別方法進(jìn)行更具說服力的對比實(shí)驗(yàn),分別記為w-ml、w-dsa和w-cal。使用ml數(shù)據(jù)集,依次移除某一特征、某一組特征進(jìn)行實(shí)驗(yàn),用于對本發(fā)明所提出的特征計(jì)算方法貢獻(xiàn)度進(jìn)行衡量。
如圖2所示,不同方法在不同數(shù)據(jù)集上測評的結(jié)果(“mooc”指本發(fā)明的方法)。對比f1值可以看出在6個數(shù)據(jù)集上本發(fā)明的方法在計(jì)算在線課程概念先后序時都體現(xiàn)出比其他方法更為有效的結(jié)果。例如,在ml數(shù)據(jù)集中,f1值分別高于t-sri和hpm方法10.5%和43.6%。在僅包含維基中存在概念的w-ml、w-dsa和w-cal數(shù)據(jù)集上,本發(fā)明的方法效果也高于其他方法至少5.7%。
對維基不包含的概念計(jì)算效果顯著原因分析。hpm和t-sri都是不依賴于課程概念必須存在于維基百科中的概念先后序計(jì)算方法,但實(shí)驗(yàn)結(jié)果中本發(fā)明的方法效果都遠(yuǎn)高于二者(f1值比hpm高43.6%,比t-sri高10.5%)。首先,hpm在計(jì)算時能達(dá)到一個較高的準(zhǔn)確率,但召回率很低。這是因?yàn)?,?dāng)匹配到a“isa”b時,通常蘊(yùn)含b是a的先序概念的意思,但顯然反過來并不是這樣的意思,hpm是基于連接詞匹配,并不能處理反過來的搭配。其次,t-sri確實(shí)體現(xiàn)出了較高的計(jì)算效果(f1值穩(wěn)定在62.1%-65.2%之間)。然而,t-sri只考慮了一些簡單的特征,比如課程的序列性和概念間的共現(xiàn)。對在線課程進(jìn)行更充分考慮、擁有更多設(shè)計(jì)精巧的特征的本實(shí)驗(yàn)方法自然效果更為顯著。另外,sri在增加了基于維基百科的特征后(f-sri),效果較t-sri僅提高了0.93%。因此,其實(shí)基于維基百科的特征并不是提高概念先后序關(guān)系的最主要因素。
如圖3所示,特征貢獻(xiàn)測評的結(jié)果。通過對比移除特征之后分類結(jié)果在f1值上體現(xiàn)的變化情況,可以直觀的看出:單個特征中,基于課程結(jié)構(gòu)方面的復(fù)雜程度距離特征對本發(fā)明方法的負(fù)面效果影響最大(移除后f1值下降7.4%),與之相反,影響最小的是基于概念語義方面的語義關(guān)系特征(移除后f1值下降1.4%);一組特征中,移除課程結(jié)構(gòu)方面的3個特征對本發(fā)明方法的負(fù)面效果影響最大(移除后f1值下降9.2%),影響最小的是概念語義方面的特征(移除后f1值下降1.4%)。
本文中使用的“至少一個”、“一個或多個”以及“和/或”是開放式的表述,在使用時可以是聯(lián)合的和分離的。例如,“a、b和c中的至少一個”,“a、b或c中的至少一個”,“a、b和c中的一個或多個”以及“a、b或c中的一個或多個”指僅有a、僅有b、僅有c、a和b一起、a和c一起、b和c一起或a、b和c一起。
術(shù)語“一個”實(shí)體是指一個或多個所述實(shí)體。由此術(shù)語“一個”、“一個或多個”和“至少一個”在本文中是可以互換使用的。還應(yīng)注意到術(shù)語“包括”、“包含”和“具有”也是可以互換使用的。
本文中使用的術(shù)語“自動的”及其變型是指在執(zhí)行處理或操作時沒有實(shí)質(zhì)的人為輸入的情況下完成的任何處理或操作。然而,即使在執(zhí)行處理或操作時使用了執(zhí)行所述處理或操作前接收到的實(shí)質(zhì)的或非實(shí)質(zhì)的人為輸入,所述處理或操作也可以是自動的。如果輸入影響所述處理或操作將怎樣進(jìn)行,則視該人為輸入是實(shí)質(zhì)的。不影響所述處理或操作進(jìn)行的人為輸入不視為是實(shí)質(zhì)的。
本文中使用的術(shù)語“計(jì)算機(jī)可讀介質(zhì)”是指參與將指令提供給處理器執(zhí)行的任何有形存儲設(shè)備和/或傳輸介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是在ip網(wǎng)絡(luò)上的網(wǎng)絡(luò)傳輸(如soap)中編碼的串行指令集。這樣的介質(zhì)可以采取很多形式,包括但不限于非易失性介質(zhì)、易失性介質(zhì)和傳輸介質(zhì)。非易失性介質(zhì)包括例如nvram或者磁或光盤。易失性介質(zhì)包括諸如主存儲器的動態(tài)存儲器(如ram)。計(jì)算機(jī)可讀介質(zhì)的常見形式包括例如軟盤、柔性盤、硬盤、磁帶或任何其它磁介質(zhì)、磁光介質(zhì)、cd-rom、任何其它光介質(zhì)、穿孔卡、紙帶、任何其它具有孔形圖案的物理介質(zhì)、ram、prom、eprom、flash-eprom、諸如存儲卡的固態(tài)介質(zhì)、任何其它存儲芯片或磁帶盒、后面描述的載波、或計(jì)算機(jī)可以讀取的任何其它介質(zhì)。電子郵件的數(shù)字文件附件或其它自含信息檔案或檔案集被認(rèn)為是相當(dāng)于有形存儲介質(zhì)的分發(fā)介質(zhì)。當(dāng)計(jì)算機(jī)可讀介質(zhì)被配置為數(shù)據(jù)庫時,應(yīng)該理解該數(shù)據(jù)庫可以是任何類型的數(shù)據(jù)庫,例如關(guān)系數(shù)據(jù)庫、層級數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫等等。相應(yīng)地,認(rèn)為本發(fā)明包括有形存儲介質(zhì)或分發(fā)介質(zhì)和現(xiàn)有技術(shù)公知的等同物以及未來開發(fā)的介質(zhì),在這些介質(zhì)中存儲本發(fā)明的軟件實(shí)施。
本文中使用的術(shù)語“確定”、“運(yùn)算”和“計(jì)算”及其變型可以互換使用,并且包括任何類型的方法、處理、數(shù)學(xué)運(yùn)算或技術(shù)。更具體地,這樣的術(shù)語可以包括諸如bpel的解釋規(guī)則或規(guī)則語言,其中邏輯不是硬編碼的而是在可以被讀、解釋、編譯和執(zhí)行的規(guī)則文件中表示。
本文中使用的術(shù)語“模塊”或“工具”是指任何已知的或以后發(fā)展的硬件、軟件、固件、人工智能、模糊邏輯或能夠執(zhí)行與該元件相關(guān)的功能的硬件和軟件的組合。另外,雖然用示例性實(shí)施方式來描述本發(fā)明,但應(yīng)當(dāng)理解本發(fā)明的各方面可以單獨(dú)要求保護(hù)。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的要素。此外,在本文中,“大于”、“小于”、“超過”等理解為不包括本數(shù);“以上”、“以下”、“以內(nèi)”等理解為包括本數(shù)。
盡管已經(jīng)對上述各實(shí)施例進(jìn)行了描述,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實(shí)施例做出另外的變更和修改,所以以上所述僅為本發(fā)明的實(shí)施例,并非因此限制本發(fā)明的專利保護(hù)范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換,或直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍之內(nèi)。