本發(fā)明涉及提問能力評測領(lǐng)域,具體涉及一種面向教育的大語言模型提問能力評測裝置。
背景技術(shù):
1、教師在傳授知識和解答疑惑等方面發(fā)揮著至關(guān)重要的作用。將大語言模型視為教師在多個方面具有重要意義。首先,它可以應(yīng)用于教育環(huán)境,例如在自動化教學(xué)或輔助學(xué)習(xí)應(yīng)用中。其次,探索它們?nèi)绾蝹鞑ブR可以為高效教育工具的開發(fā)提供啟示,以滿足學(xué)習(xí)者的需求。此外,這可以推動人類如何從機(jī)器中獲取信息和新技能的理解,推動教育領(lǐng)域人工智能的創(chuàng)新。最后,它進(jìn)一步促進(jìn)如何設(shè)計具有有效教學(xué)能力的算法,為未來的教育技術(shù)打下基礎(chǔ)。
2、以往的研究主要從學(xué)生的角度來看待模型,關(guān)注的是閱讀理解和考試評估。然而,這些任務(wù)側(cè)重于采用上下文來被動地回答問題或進(jìn)行推理,這些測試將大語言模型視為學(xué)生,并通過他們回答問題的方式來評估他們的能力。因此,大語言模型作為教師的提問能力尚未得到深入研究。
3、目前與教育相關(guān)的研究遠(yuǎn)遠(yuǎn)不足以確定大語言模型作為教師的提問能力,并且沒有一個以大語言模型作為教師進(jìn)行綜合教學(xué)能力研究的基準(zhǔn)。盡管一些角色扮演的任務(wù)模擬了專業(yè)對話,但并未真正評估大語言模型的教學(xué)能力。
4、總之,現(xiàn)有技術(shù)未能全面評估大語言模型作為教師的提問能力,并給出量化結(jié)果。
技術(shù)實現(xiàn)思路
1、本發(fā)明是為了解決上述問題而進(jìn)行的,目的在于提供一種面向教育的大語言模型提問能力評測裝置。
2、本發(fā)明提供了一種面向教育的大語言模型提問能力評測裝置,用于得到待評估大語言模型的提問能力評測結(jié)果,具有這樣的特征,包括:數(shù)據(jù)存儲模塊,用于存儲多個普通領(lǐng)域上下文、專業(yè)學(xué)科領(lǐng)域上下文和專業(yè)學(xué)科領(lǐng)域上下文;普通領(lǐng)域問題生成模塊,用于使待評估大語言模型根據(jù)各個普通領(lǐng)域上下文,生成對應(yīng)的六級普通領(lǐng)域問題;專業(yè)學(xué)科領(lǐng)域問題生成模塊,用于使待評估大語言模型根據(jù)各個專業(yè)學(xué)科領(lǐng)域上下文,生成對應(yīng)的六級??祁I(lǐng)域問題;跨學(xué)科領(lǐng)域問題生成模塊,用于使待評估大語言模型根據(jù)各個專業(yè)學(xué)科領(lǐng)域上下文,生成對應(yīng)的跨學(xué)科問題;普通領(lǐng)域評估模塊,用于對所有六級普通領(lǐng)域問題,根據(jù)對應(yīng)的普通領(lǐng)域上下文進(jìn)行評估,得到普通領(lǐng)域提問能力結(jié)果;專業(yè)學(xué)科領(lǐng)域評估模塊,用于對所有六級??祁I(lǐng)域問題,根據(jù)對應(yīng)的專業(yè)學(xué)科領(lǐng)域上下文進(jìn)行評估,得到??祁I(lǐng)域提問能力結(jié)果;跨學(xué)科領(lǐng)域評估模塊,用于對所有跨學(xué)科問題,根據(jù)對應(yīng)的專業(yè)學(xué)科領(lǐng)域上下文進(jìn)行評估,得到跨學(xué)科領(lǐng)域提問能力結(jié)果,其中,提問能力評測結(jié)果包括普通領(lǐng)域提問能力結(jié)果、??祁I(lǐng)域提問能力結(jié)果和跨學(xué)科領(lǐng)域提問能力結(jié)果。
3、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,六級普通領(lǐng)域問題包括記憶層次普通領(lǐng)域問題、理解層次普通領(lǐng)域問題、應(yīng)用層次普通領(lǐng)域問題、分析層次普通領(lǐng)域問題、評估層次普通領(lǐng)域問題和創(chuàng)造層次普通領(lǐng)域問題,分別對應(yīng)安德森和克拉斯沃爾的教育分類法的六個認(rèn)知層次。
4、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,普通領(lǐng)域評估模塊包括:普通評分單元,包括訓(xùn)練好的大語言模型,用于對各個六級普通領(lǐng)域問題中的各個問題,通過該六級普通領(lǐng)域問題對應(yīng)的普通領(lǐng)域上下文,得到各個問題的一致性得分、相關(guān)性得分和代表性得分,以及各個普通領(lǐng)域上下文對應(yīng)的覆蓋范圍得分;普通能力計算單元,用于根據(jù)所有一致性得分、相關(guān)性得分、覆蓋范圍得分和代表性得分,計算得到各個認(rèn)知層次的一致性均分、相關(guān)性均分和代表性均分,以及普通領(lǐng)域的覆蓋范圍均分作為普通領(lǐng)域提問能力結(jié)果。
5、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,六級??祁I(lǐng)域問題包括記憶層次??祁I(lǐng)域問題、理解層次??祁I(lǐng)域問題、應(yīng)用層次專科領(lǐng)域問題、分析層次專科領(lǐng)域問題、評估層次專科領(lǐng)域問題和創(chuàng)造層次??祁I(lǐng)域問題,分別對應(yīng)安德森和克拉斯沃爾的教育分類法的六個認(rèn)知層次。
6、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,專業(yè)學(xué)科領(lǐng)域評估模塊包括:??圃u分單元,包括訓(xùn)練好的大語言模型,用于對各個六級專科領(lǐng)域問題中的各個問題,通過該六級??祁I(lǐng)域問題對應(yīng)的專業(yè)學(xué)科領(lǐng)域上下文,得到各個問題的一致性得分、相關(guān)性得分和代表性得分,以及各個專業(yè)學(xué)科領(lǐng)域上下文對應(yīng)的覆蓋范圍得分;??颇芰τ嬎銌卧?,用于根據(jù)所有一致性得分、相關(guān)性得分、覆蓋范圍得分和代表性得分,計算得到各個認(rèn)知層次的一致性均分、相關(guān)性均分和代表性均分,以及專科領(lǐng)域的覆蓋范圍均分作為??祁I(lǐng)域提問能力結(jié)果。
7、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,一致性得分、相關(guān)性得分、覆蓋范圍得分和代表性得分的取值均為1或0,分別通過大語言模型對對應(yīng)的判斷內(nèi)容進(jìn)行判斷得到對應(yīng)的取值,通過大語言模型判斷問題是否與對應(yīng)的認(rèn)知層次相符,若是,則一致性得分為1,若否,則一致性得分為0,通過大語言模型判斷問題是否與對應(yīng)的上下文的內(nèi)容或主題相關(guān),若是,則相關(guān)性得分為1,若否,則相關(guān)性得分為0,通過大語言模型判斷各個上下文對應(yīng)的所有問題占該上下文全部內(nèi)容的百分比是否大于預(yù)設(shè)閾值,若是,則覆蓋范圍得分為1,若否,則覆蓋范圍得分為0,通過大語言模型判斷問題是否捕捉到上下文的主要內(nèi)容或核心觀點(diǎn),若是,則代表性得分為1,若否,則代表性得分為0。
8、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,大語言模型對各個判斷內(nèi)容分別進(jìn)行三次判斷,選取其中相同的兩次判斷結(jié)果對應(yīng)的值作為取值。
9、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,預(yù)設(shè)閾值為50%。
10、在本發(fā)明提供的面向教育的大語言模型提問能力評測裝置中,還可以具有這樣的特征:其中,跨學(xué)科問題為涉及多個學(xué)科領(lǐng)域的問題,能夠反映每個學(xué)科領(lǐng)域的特點(diǎn),跨學(xué)科領(lǐng)域評估模塊包括:跨學(xué)科評分單元,包括訓(xùn)練好的大語言模型,用于對各個跨學(xué)科問題,通過對應(yīng)的專業(yè)學(xué)科領(lǐng)域上下文,得到對應(yīng)的相關(guān)性得分和代表性得分;跨學(xué)科能力計算單元,用于根據(jù)所有相關(guān)性得分和代表性得分,計算得到相關(guān)性均分和代表性均分作為跨學(xué)科領(lǐng)域提問能力結(jié)果。
11、發(fā)明的作用與效果
12、根據(jù)本發(fā)明所涉及的面向教育的大語言模型提問能力評測裝置,因為,通過普通領(lǐng)域問題生成模塊、專業(yè)學(xué)科領(lǐng)域問題生成模塊和跨學(xué)科領(lǐng)域問題生成模塊,依次使待評估大語言模型生成普通領(lǐng)域、專科領(lǐng)域和跨學(xué)科領(lǐng)域的不同教學(xué)提問;通過普通領(lǐng)域評估模塊、專業(yè)學(xué)科領(lǐng)域評估模塊和跨學(xué)科領(lǐng)域評估模塊,結(jié)合評分引導(dǎo)詞,對不同領(lǐng)域的教學(xué)提問分別進(jìn)行不同評分角度的打分,從而得到能夠反映該待評估大語言模型在不同領(lǐng)域的教學(xué)提問能力的量化結(jié)果。所以,本發(fā)明的面向教育的大語言模型提問能力評測裝置能夠從普通、專業(yè)學(xué)科和跨學(xué)科三個領(lǐng)域分別量化評估大語言模型的教學(xué)提問能力。
1.一種面向教育的大語言模型提問能力評測裝置,用于得到待評估大語言模型的提問能力評測結(jié)果,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
3.根據(jù)權(quán)利要求2所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
4.根據(jù)權(quán)利要求1所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
5.根據(jù)權(quán)利要求4所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
6.根據(jù)權(quán)利要求3或5所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
7.根據(jù)權(quán)利要求6所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
8.根據(jù)權(quán)利要求6所述的面向教育的大語言模型提問能力評測裝置,其特征在于:
9.根據(jù)權(quán)利要求1所述的面向教育的大語言模型提問能力評測裝置,其特征在于: