本發(fā)明涉及自然語言處理,尤其涉及一種文章標題結(jié)構(gòu)生成方法及系統(tǒng)。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、在現(xiàn)代文章處理中,自動生成文章標題結(jié)構(gòu)具有重要的意義。首先,標題結(jié)構(gòu)可以為文章提供清晰的框架結(jié)構(gòu),幫助讀者更好地理解文章內(nèi)容。其次,標題結(jié)構(gòu)可以幫助搜索引擎更好地索引和分類文章,提高搜索效率。然而,現(xiàn)有的自動生成文章標題結(jié)構(gòu)的方法存在一定的局限性,例如無法準確識別不同格式的文章,無法準確抽取標題結(jié)構(gòu)信息等。
技術(shù)實現(xiàn)思路
1、為了解決上述背景技術(shù)中存在的技術(shù)問題,本發(fā)明提供一種文章標題結(jié)構(gòu)生成方法及系統(tǒng),本發(fā)明通過fine-tuning和模型微調(diào)的方式,可以進一步優(yōu)化文章標題結(jié)構(gòu)生成的結(jié)果,提高文章標題結(jié)構(gòu)生成結(jié)果的質(zhì)量和可讀性。
2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明的第一個方面提供一種文章標題結(jié)構(gòu)生成方法。
4、一種文章標題結(jié)構(gòu)生成方法,包括:
5、獲取文章的標題結(jié)構(gòu)信息,并根據(jù)標題等級對文章標題結(jié)構(gòu)進行標簽化處理,得到文章不同層級的標題結(jié)構(gòu);
6、根據(jù)文章標題結(jié)構(gòu)標簽數(shù)據(jù),進行標題層級樹構(gòu)建;對標題層級樹中葉子節(jié)點進行剪枝,去除掉某個或者多個樹分支的葉子節(jié)點,獲得第一子標題層級樹;在樹分子節(jié)點滿足一定范圍時,根據(jù)標題層級樹的中分支子樹情況,抽取其根節(jié)點下的所有子樹,得到第二子標題層級樹;對標題層級樹中子樹分支進行剪枝,去除掉某個或者多個樹分支,得到第三子標題層級樹;基于第一子標題層級樹、第二子標題層級樹和第三子標題層級樹,構(gòu)建訓(xùn)練樣本集;基于訓(xùn)練樣本集訓(xùn)練文章結(jié)構(gòu)生成大模型;
7、在訓(xùn)練過程中,采用prompt提示詞對輸出結(jié)果進行調(diào)整,以得到符合需求的文章結(jié)構(gòu)生成結(jié)果和已訓(xùn)練的文章結(jié)構(gòu)生成大模型;
8、基于輸入的文章題目,采用已訓(xùn)練的文章結(jié)構(gòu)生成大模型,輸出文章結(jié)構(gòu)候選結(jié)果。
9、進一步地,所述在樹分子節(jié)點滿足一定范圍時為樹分子節(jié)點大于等于5時。
10、進一步地,若基于第一子標題層級樹、第二子標題層級樹或第三子標題層級樹的層級大于2時,對第一子標題層級樹、第二子標題層級樹或第三子標題層級樹進行剪枝處理,否則,不做處理。
11、進一步地,若基于第一子標題層級樹、第二子標題層級樹或第三子標題層級樹的節(jié)點數(shù)大于等于5時,對第一子標題層級樹、第二子標題層級樹或第三子標題層級樹進行剪枝處理,否則,不做處理。
12、進一步地,所述基于訓(xùn)練樣本集訓(xùn)練文章結(jié)構(gòu)生成大模型包括:將最低級別的結(jié)構(gòu)標簽和文本內(nèi)容作為訓(xùn)練輸入數(shù)據(jù),將高級別的結(jié)構(gòu)標簽和文本內(nèi)容作為訓(xùn)練輸出結(jié)果。
13、進一步地,所述采用prompt提示詞的過程包括:通過對文章結(jié)構(gòu)生成任務(wù)的提示詞進行調(diào)研,并結(jié)合專家建議,找出符合文章結(jié)構(gòu)生成prompt提示詞。
14、進一步地,所述采用prompt提示詞的過程還包括:通過prompt?encoder技術(shù)對文章結(jié)構(gòu)生成任務(wù)的提示詞進行處理,找出符合對子標題的層級內(nèi)容進行重新生成結(jié)構(gòu)層級結(jié)果promot提示詞。
15、進一步地,所述采用prompt提示詞的過程還包括:通過prompt?embedding技術(shù)對補充子標題的結(jié)構(gòu)層級任務(wù)的提示詞進行處理,并結(jié)合專家建議,找出符合對子標題的結(jié)構(gòu)層級進行補充的promot提示詞。
16、本發(fā)明的第二個方面提供一種文章標題結(jié)構(gòu)生成系統(tǒng)。
17、一種文章標題結(jié)構(gòu)生成系統(tǒng),包括:
18、數(shù)據(jù)獲取模塊,其被配置為:獲取文章的標題結(jié)構(gòu)信息,并根據(jù)標題等級對文章標題結(jié)構(gòu)進行標簽化處理,得到文章不同層級的標題結(jié)構(gòu);
19、數(shù)據(jù)增強模塊,其被配置為:根據(jù)文章標題結(jié)構(gòu)標簽數(shù)據(jù),進行標題層級樹構(gòu)建;對標題層級樹中葉子節(jié)點進行剪枝,去除掉某個或者多個樹分支的葉子節(jié)點,獲得第一子標題層級樹;在樹分子節(jié)點滿足一定范圍時,根據(jù)標題層級樹的中分支子樹情況,抽取其根節(jié)點下的所有子樹,得到第二子標題層級樹;對標題層級樹中子樹分支進行剪枝,去除掉某個或者多個樹分支,得到第三子標題層級樹;基于第一子標題層級樹、第二子標題層級樹和第三子標題層級樹,構(gòu)建訓(xùn)練樣本集;基于訓(xùn)練樣本集訓(xùn)練文章結(jié)構(gòu)生成大模型;
20、模型訓(xùn)練模塊,其被配置為:在訓(xùn)練過程中,采用prompt提示詞對輸出結(jié)果進行調(diào)整,以得到符合需求的文章結(jié)構(gòu)生成結(jié)果和已訓(xùn)練的文章結(jié)構(gòu)生成大模型;
21、標題生成模塊,其被配置為:基于輸入的文章題目,采用已訓(xùn)練的文章結(jié)構(gòu)生成大模型,輸出文章結(jié)構(gòu)候選結(jié)果。
22、本發(fā)明的第三個方面提供一種計算機可讀存儲介質(zhì)。
23、一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如上述第一個方面所述的文章標題結(jié)構(gòu)生成方法中的步驟。
24、本發(fā)明的第四個方面提供一種計算機設(shè)備。
25、一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一個方面所述的文章標題結(jié)構(gòu)生成方法中的步驟。
26、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
27、本發(fā)明結(jié)合了人工打標簽和智能提取方式,以及層級結(jié)構(gòu)拆解和遞歸等算法,用于生成文章標題的結(jié)構(gòu)化標簽信息。通過fine-tuning訓(xùn)練文章結(jié)構(gòu)生成大模型,該系統(tǒng)可解析用戶輸入的文章題目,并生成文章結(jié)構(gòu)候選結(jié)果。最后,通過對生成好的文章結(jié)構(gòu)候選結(jié)果中的部分子標題內(nèi)容進行promot提示詞文章結(jié)構(gòu)結(jié)果內(nèi)容優(yōu)化,以提高生成文章結(jié)構(gòu)的準確性和質(zhì)量。
28、根據(jù)本發(fā)明,用戶可以根據(jù)需求輸入文章名稱和提示詞,個性化定制文章標題結(jié)構(gòu)生成結(jié)果,提高了用戶體驗。
29、本發(fā)明基于文章結(jié)構(gòu)標簽化,訓(xùn)練數(shù)據(jù)增強算法,大模型訓(xùn)練算法,結(jié)構(gòu)生成展示算法和promot優(yōu)化算法,實現(xiàn)了自動化、高效率的文章處理。與傳統(tǒng)的手動編寫標題結(jié)構(gòu)相比,本發(fā)明具有更高的準確性和效率,能夠大大提升文章處理的效果和工作效率。
1.一種文章標題結(jié)構(gòu)生成方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,所述在樹分子節(jié)點滿足一定范圍時為樹分子節(jié)點大于等于5時。
3.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,若基于第一子標題層級樹、第二子標題層級樹或第三子標題層級樹的層級大于2時,對第一子標題層級樹、第二子標題層級樹或第三子標題層級樹進行剪枝處理,否則,不做處理;
4.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,所述基于訓(xùn)練樣本集訓(xùn)練文章結(jié)構(gòu)生成大模型包括:將最低級別的結(jié)構(gòu)標簽和文本內(nèi)容作為訓(xùn)練輸入數(shù)據(jù),將高級別的結(jié)構(gòu)標簽和文本內(nèi)容作為訓(xùn)練輸出結(jié)果。
5.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,所述采用prompt提示詞的過程包括:通過對文章結(jié)構(gòu)生成任務(wù)的提示詞進行調(diào)研,并結(jié)合專家建議,找出符合文章結(jié)構(gòu)生成prompt提示詞。
6.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,所述采用prompt提示詞的過程還包括:通過prompt?encoder技術(shù)對文章結(jié)構(gòu)生成任務(wù)的提示詞進行處理,找出符合對子標題的層級內(nèi)容進行重新生成結(jié)構(gòu)層級結(jié)果promot提示詞。
7.根據(jù)權(quán)利要求1所述的文章標題結(jié)構(gòu)生成方法,其特征在于,所述采用prompt提示詞的過程還包括:通過prompt?embedding技術(shù)對補充子標題的結(jié)構(gòu)層級任務(wù)的提示詞進行處理,并結(jié)合專家建議,找出符合對子標題的結(jié)構(gòu)層級進行補充的promot提示詞。
8.一種文章標題結(jié)構(gòu)生成系統(tǒng),其特征在于,包括:
9.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-7中任一項所述的文章標題結(jié)構(gòu)生成方法中的步驟。
10.一種計算機設(shè)備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1-7中任一項所述的文章標題結(jié)構(gòu)生成方法中的步驟。