本發(fā)明涉及人工智能,尤其涉及一種文本評(píng)審方法、系統(tǒng)、終端及介質(zhì)。
背景技術(shù):
1、隨著科學(xué)技術(shù)的快速發(fā)展,同行評(píng)審的如論文等科學(xué)出版物數(shù)量呈指數(shù)級(jí)增長,這使得領(lǐng)域?qū)<覍?duì)科學(xué)出版物進(jìn)行高質(zhì)量評(píng)審成為了一個(gè)重大挑戰(zhàn)。
2、近年來,研究人員開始探索利用自然語言處理(nlp)模型來為科學(xué)論文實(shí)現(xiàn)初步的ai輔助評(píng)審的可能性。例如,通過收集機(jī)器學(xué)習(xí)領(lǐng)域的論文數(shù)據(jù)集,訓(xùn)練了有針對(duì)性的摘要模型,來生成論文評(píng)審意見。
3、但是,現(xiàn)有的無論是傳統(tǒng)的人工評(píng)審還是通過ai輔助對(duì)論文評(píng)審,都存在評(píng)審效率低、無法處理多領(lǐng)域的論文評(píng)審任務(wù)、缺乏多維度、多角度的評(píng)估框架等問題,從而影響評(píng)審意見的準(zhǔn)確性。
4、因此,現(xiàn)有技術(shù)還有待改進(jìn)和提高。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明要解決的技術(shù)問題在于,針對(duì)現(xiàn)有技術(shù)的上述缺陷,提供一種文本評(píng)審方法、系統(tǒng)、終端及介質(zhì),旨在解決現(xiàn)有技術(shù)的文本評(píng)審技術(shù)和方法存在評(píng)審效率低、無法處理多領(lǐng)域的論文評(píng)審任務(wù)、缺乏多維度、多角度的評(píng)估框架等問題,從而影響評(píng)審意見的準(zhǔn)確性等問題。
2、為了解決上述技術(shù)問題,本發(fā)明所采用的技術(shù)方案如下:
3、第一方面,本發(fā)明提供一種文本評(píng)審方法,其中,所述方法包括:
4、獲取原始文本,并對(duì)所述原始文本進(jìn)行處理,得到處理后文本;
5、對(duì)所述處理后文本進(jìn)行對(duì)象提取,得到若干提取對(duì)象;
6、通過優(yōu)化后的大語言模型對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象進(jìn)行局部評(píng)估、全局評(píng)估和行業(yè)評(píng)估,分別得到每個(gè)提取對(duì)象的局部評(píng)估結(jié)果、全局評(píng)估結(jié)果和行業(yè)評(píng)估結(jié)果;
7、根據(jù)所述局部評(píng)估結(jié)果、所述全局評(píng)估結(jié)果和所述行業(yè)評(píng)估結(jié)果得到所述原始文本的整體評(píng)估結(jié)果。
8、在一種實(shí)現(xiàn)方式中,對(duì)所述原始文本進(jìn)行處理,得到處理后文本,包括:
9、對(duì)所述原始文本進(jìn)行分段處理,得到若干個(gè)原始文本段落;
10、分別將所述若干個(gè)原始文本段落的每個(gè)原始文本段落轉(zhuǎn)換為目標(biāo)格式的文本段落,得到格式化的文本段落;
11、在每個(gè)所述格式化的文本段落前添加編號(hào)索引,得到含有編號(hào)索引的文本段落;
12、根據(jù)所述含有編號(hào)索引的文本段落,得到處理后文本。
13、在一種實(shí)現(xiàn)方式中,對(duì)所述處理后文本進(jìn)行對(duì)象提取,得到若干個(gè)提取對(duì)象,包括:
14、使用正則表達(dá)式對(duì)所述處理后文本的每個(gè)文本段落進(jìn)行匹配,得到若干提取對(duì)象、所述若干提取對(duì)象的文本段落及所述若干提取對(duì)象的文本段落的編號(hào)索引。
15、在一種實(shí)現(xiàn)方式中,對(duì)所述處理后文本進(jìn)行對(duì)象提取,得到若干個(gè)提取對(duì)象,包括:
16、基于處理后文本的每個(gè)文本段落和預(yù)設(shè)的第一提示,得到組合文本段落;
17、將所述組合文本段落輸入到所述優(yōu)化后的大語言模型中,得到若干提取對(duì)象、所述若干提取對(duì)象的文本段落及所述若干提取對(duì)象的文本段落的編號(hào)索引。
18、在一種實(shí)現(xiàn)方式中,通過優(yōu)化后的大語言模型對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象進(jìn)行局部評(píng)估、全局評(píng)估和行業(yè)評(píng)估,分別得到每個(gè)提取對(duì)象的局部評(píng)估結(jié)果、全局評(píng)估結(jié)果和行業(yè)評(píng)估結(jié)果,包括:
19、對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象的文本段落進(jìn)行局部評(píng)估,得到每個(gè)提取對(duì)象的局部評(píng)估結(jié)果;
20、獲取所述若干提取對(duì)象中的多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄,基于多個(gè)提取對(duì)象和所述結(jié)構(gòu)化正文目錄對(duì)所述多個(gè)提取對(duì)象在結(jié)構(gòu)化正文目錄中的至少一個(gè)文本段落進(jìn)行評(píng)估,得到每個(gè)提取對(duì)象的全局評(píng)估結(jié)果;
21、對(duì)若干提取對(duì)象中的多個(gè)提取對(duì)象的文本段落進(jìn)行行業(yè)評(píng)估,得到行業(yè)評(píng)估結(jié)果。
22、在一種實(shí)現(xiàn)方式中,對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象的文本段落進(jìn)行局部評(píng)估,得到每個(gè)提取對(duì)象的局部評(píng)估結(jié)果,包括:針對(duì)所述多個(gè)提取對(duì)象中的每個(gè)提取對(duì)象,分別在所述處理后文本中篩選出對(duì)應(yīng)的文本段落,并分別構(gòu)建所述每個(gè)提取對(duì)象的第二提示;
23、將第二提示輸入到所述優(yōu)化后的大語言模型中以對(duì)每個(gè)提取對(duì)象進(jìn)行局部評(píng)估,得到所述每個(gè)提取對(duì)象的局部評(píng)估結(jié)果。
24、在一種實(shí)現(xiàn)方式中,所述分別構(gòu)建每個(gè)提取對(duì)象的第二提示,包括:
25、獲取預(yù)設(shè)的第一提示模板;
26、基于所述預(yù)設(shè)的第一提示模板和所述每個(gè)提取對(duì)象的文本段落,得到所述每個(gè)提取對(duì)象的第二提示。
27、在一種實(shí)現(xiàn)方式中,獲取所述若干提取對(duì)象中的多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄,基于多個(gè)提取對(duì)象和所述結(jié)構(gòu)化正文目錄對(duì)所述多個(gè)提取對(duì)象在結(jié)構(gòu)化正文目錄中的至少一個(gè)文本段落進(jìn)行評(píng)估,得到每個(gè)提取對(duì)象的全局評(píng)估結(jié)果,包括:
28、基于所述處理后文本的文本段落,得到所述結(jié)構(gòu)化正文目錄,其中,所述結(jié)構(gòu)化正文目錄包含多章和多節(jié);
29、根據(jù)所述多個(gè)提取對(duì)象的文本段落和所述結(jié)構(gòu)化正文目錄對(duì)所述多個(gè)提取對(duì)象在所述結(jié)構(gòu)化正文目錄中的至少一個(gè)文本段落進(jìn)行評(píng)估,得到所述多個(gè)提取對(duì)象的跨章節(jié)評(píng)估結(jié)果;
30、分別對(duì)所述多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄中的每章內(nèi)容進(jìn)行評(píng)估,得到所述多個(gè)提取對(duì)象的每章評(píng)估結(jié)果;
31、分別對(duì)所述多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄中的每節(jié)內(nèi)容進(jìn)行評(píng)估,得到所述多個(gè)提取對(duì)象的每節(jié)評(píng)估結(jié)果;
32、根據(jù)所述多個(gè)提取對(duì)象的所述每章評(píng)估結(jié)果和所述每節(jié)評(píng)估結(jié)果,得到每個(gè)提取對(duì)象的全局評(píng)估結(jié)果。
33、在一種實(shí)現(xiàn)方式中,基于處理后文本的文本段落,得到所述結(jié)構(gòu)化正文目錄,包括:
34、基于所述處理后文本的所有文本段落與預(yù)設(shè)的第二提示模板,得到第三提示;
35、將所述第三提示輸入至所述優(yōu)化后的大語言模型中,得到正文目錄;
36、基于所述正文目錄與預(yù)設(shè)的第三提示模板,得到第四提示,并將所述第四提示輸入至所述優(yōu)化后的大語言模型中,得到結(jié)構(gòu)化正文目錄。
37、在一種實(shí)現(xiàn)方式中,根據(jù)所述多個(gè)提取對(duì)象的文本段落和所述結(jié)構(gòu)化正文目錄對(duì)所述多個(gè)提取對(duì)象在所述結(jié)構(gòu)化正文目錄中的至少一個(gè)文本段落進(jìn)行評(píng)估,得到所述多個(gè)提取對(duì)象的跨章節(jié)評(píng)估結(jié)果,包括:
38、基于所述處理后文本的所有文本段落與預(yù)設(shè)的第四提示模板,得到第五提示,并將所述第五提示輸入至所述優(yōu)化后的大語言模型中,得到文本意圖結(jié)論;
39、根據(jù)所述多個(gè)提取對(duì)象的至少一個(gè)文本段落、所述結(jié)構(gòu)化正文目錄和預(yù)設(shè)的第五提示模板,得到第六提示,并將所述第六提示輸入至所述優(yōu)化后的大語言模型中,得到跨章節(jié)評(píng)估結(jié)果。
40、在一種實(shí)現(xiàn)方式中,分別對(duì)所述多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄中的每章內(nèi)容進(jìn)行評(píng)估,得到所述每章評(píng)估結(jié)果,包括:
41、基于所述結(jié)構(gòu)化正文目錄、所述文本意圖結(jié)論、所述跨章節(jié)評(píng)估結(jié)果、所述處理后文本的標(biāo)題、每章的標(biāo)題、每章的文本段落、以及預(yù)設(shè)的第六提示模板,得到第七提示;
42、將第七提示輸入至優(yōu)化后的大語言模型中,得到若干章的評(píng)估結(jié)果;
43、基于每章的評(píng)估結(jié)果、所述每章的標(biāo)題、所述每章的文本段落、當(dāng)前系統(tǒng)時(shí)間以及第七提示模板,得到第八提示;
44、將所述第八提示輸入至優(yōu)化后的大語言模型中,得到所述多個(gè)提取對(duì)象的每章評(píng)估結(jié)果。
45、在一種實(shí)現(xiàn)方式中,分別對(duì)所述多個(gè)提取對(duì)象的結(jié)構(gòu)化正文目錄中的每節(jié)內(nèi)容進(jìn)行評(píng)估,得到所述多個(gè)提取對(duì)象的每節(jié)評(píng)估結(jié)果,包括:
46、基于所述結(jié)構(gòu)化正文目錄、所述文本意圖結(jié)論、所述跨章節(jié)評(píng)估結(jié)果、所述處理后文本的標(biāo)題、每節(jié)的標(biāo)題、每節(jié)的文本段落、以及預(yù)設(shè)的第八提示模板,得到第九提示;
47、將所述第九提示輸入至所述優(yōu)化后的大語言模型中,得到若干節(jié)的評(píng)估結(jié)果;
48、基于每節(jié)評(píng)估結(jié)果、所述每節(jié)的標(biāo)題、所述每節(jié)的文本段落、當(dāng)前系統(tǒng)時(shí)間以及第九提示模板,得到第十提示;
49、將所述第十提示輸入至優(yōu)化后的大語言模型中,得到所述多個(gè)提取對(duì)象的每節(jié)評(píng)估結(jié)果。
50、在一種實(shí)現(xiàn)方式中,根據(jù)所述多個(gè)提取對(duì)象的所述每章評(píng)估結(jié)果和所述每節(jié)評(píng)估結(jié)果,得到每個(gè)提取對(duì)象的全局評(píng)估結(jié)果之后,還包括:
51、分別獲取所述若干提取對(duì)象在所述結(jié)構(gòu)化正文目錄中的每章和每節(jié)的文本段落對(duì)應(yīng)的編號(hào)索引;
52、根據(jù)所述每章的文本段落對(duì)應(yīng)的編號(hào)索引將所述每章評(píng)估結(jié)果插入所述對(duì)應(yīng)章的第一個(gè)編號(hào)索引處;
53、根據(jù)所述每節(jié)的文本段落對(duì)應(yīng)的編號(hào)索引將所述每節(jié)評(píng)估結(jié)果插入所述對(duì)應(yīng)節(jié)的第一個(gè)編號(hào)索引處。
54、在一種實(shí)現(xiàn)方式中,對(duì)若干提取對(duì)象中的多個(gè)提取對(duì)象的文本段落進(jìn)行行業(yè)評(píng)估,得到每個(gè)提取對(duì)象的行業(yè)評(píng)估結(jié)果,包括:
55、根據(jù)用戶輸入的文本信息和預(yù)設(shè)的第十提示模板,得到第十一提示;
56、將第十一提示輸入至所述優(yōu)化后的大語言模型中得到每個(gè)提取對(duì)象的初步評(píng)估結(jié)果;
57、基于所述初步評(píng)估結(jié)果與預(yù)設(shè)的第十一提示模板,得到第十二提示;
58、將所述第十二提示輸入至所述優(yōu)化后的大語言模型中,得到每個(gè)提取對(duì)象的行業(yè)評(píng)估結(jié)果。
59、在一種實(shí)現(xiàn)方式中,根據(jù)所述局部評(píng)估結(jié)果、所述全局評(píng)估結(jié)果和所述行業(yè)評(píng)估結(jié)果得到所述原始文本的整體評(píng)估結(jié)果,包括:
60、基于所述局部評(píng)估結(jié)果、所述全局評(píng)估結(jié)果、所述行業(yè)評(píng)估結(jié)果、文本標(biāo)題、用戶類型和預(yù)設(shè)的第十二提示模板,得到第十三提示;
61、將所述第十三提示輸入至所述優(yōu)化后的大語言模型中,得到按重要度排序的原始文本的整體評(píng)估結(jié)果,并將所述整體評(píng)估結(jié)果插入所述原始文本的末尾。
62、在一種實(shí)現(xiàn)方式中,所述優(yōu)化后的大語言模型的訓(xùn)練過程包括:將文本庫中的文本進(jìn)行分類,并在每個(gè)文本分類中進(jìn)行采樣,得到文本采樣數(shù)據(jù);
63、針對(duì)文本采樣數(shù)據(jù)中的每一個(gè)文本,構(gòu)建微調(diào)數(shù)據(jù)對(duì),所述微調(diào)數(shù)據(jù)對(duì)由提示和預(yù)設(shè)大語言模型的輸出內(nèi)容組成;
64、根據(jù)所述微調(diào)數(shù)據(jù)對(duì)得到微調(diào)數(shù)據(jù)集;
65、基于所述微調(diào)數(shù)據(jù)集和預(yù)設(shè)的通用數(shù)據(jù)集構(gòu)建第一微調(diào)數(shù)據(jù)集;
66、對(duì)所述第一微調(diào)數(shù)據(jù)集中的微調(diào)數(shù)據(jù)集進(jìn)行處理,得到第二微調(diào)數(shù)據(jù)集,并對(duì)第二微調(diào)數(shù)據(jù)集和預(yù)設(shè)大語言模型進(jìn)行微調(diào),得到所述優(yōu)化后的大語言模型。
67、第二方面,本發(fā)明實(shí)施例還提供一種文本評(píng)審系統(tǒng),所述系統(tǒng)包括:
68、文本處理模塊,用于獲取原始文本,并對(duì)所述原始文本進(jìn)行處理,得到處理后文本;
69、對(duì)象提取模塊,用于對(duì)所述處理后文本進(jìn)行對(duì)象提取,得到若干提取對(duì)象;
70、文本評(píng)估模塊,用于通過優(yōu)化后的大語言模型對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象進(jìn)行局部評(píng)估、全局評(píng)估和行業(yè)評(píng)估,分別得到每個(gè)提取對(duì)象的局部評(píng)估結(jié)果、全局評(píng)估結(jié)果和行業(yè)評(píng)估結(jié)果;
71、整體評(píng)估模塊,用于根據(jù)所述局部評(píng)估結(jié)果、所述全局評(píng)估結(jié)果和所述行業(yè)評(píng)估結(jié)果得到所述原始文本的整體評(píng)估結(jié)果。
72、第三方面,本發(fā)明實(shí)施例還提供一種終端,其中,所述終端包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器中并可在處理器上運(yùn)行的文本評(píng)審程序,處理器執(zhí)行文本評(píng)審程序時(shí),實(shí)現(xiàn)上述方案中任一項(xiàng)的文本評(píng)審方法的步驟。
73、第四方面,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有文本評(píng)審程序,所述文本評(píng)審程序被處理器執(zhí)行時(shí),實(shí)現(xiàn)上述方案中任一項(xiàng)所述的文本評(píng)審方法的步驟。
74、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明提供了一種文本評(píng)審方法,本發(fā)明首先獲取原始文本,并對(duì)所述原始文本進(jìn)行處理,得到處理后文本,然后,對(duì)所述處理后文本進(jìn)行對(duì)象提取,得到若干個(gè)提取對(duì)象。接著,通過優(yōu)化后的大語言模型對(duì)所述若干提取對(duì)象中的多個(gè)提取對(duì)象進(jìn)行局部評(píng)估、全局評(píng)估和行業(yè)評(píng)估,分別得到局部評(píng)估結(jié)果、全局評(píng)估結(jié)果和行業(yè)評(píng)估結(jié)果。由此可見,本發(fā)明可對(duì)原始文本進(jìn)行局部評(píng)估、全局評(píng)估和行業(yè)評(píng)估,從而實(shí)現(xiàn)多個(gè)維度對(duì)原始文本進(jìn)行全方位評(píng)估,提升了評(píng)估質(zhì)量,有利于輸出準(zhǔn)確的評(píng)審意見。最后,本發(fā)明基于所述局部評(píng)估結(jié)果、所述全局評(píng)估結(jié)果以及所述行業(yè)評(píng)估結(jié)果,得到所述原始文本的整體評(píng)估結(jié)果。本發(fā)明大幅提高評(píng)審效率,并且通過多維度、細(xì)粒度的評(píng)估,確保了評(píng)審的全面性和深度,顯著超越了傳統(tǒng)評(píng)審方法。