本申請(qǐng)的實(shí)施例涉及數(shù)據(jù)處理領(lǐng)域,尤其涉及基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著文檔處理需求的增加,復(fù)雜文檔的自動(dòng)化編輯和語(yǔ)義理解逐漸成為文檔管理中的重要挑戰(zhàn),現(xiàn)有的文檔編輯系統(tǒng)大多依賴人工操作,用戶需要手動(dòng)對(duì)文檔內(nèi)容進(jìn)行結(jié)構(gòu)調(diào)整,如章節(jié)順序調(diào)整、段落合并或分割、句子重組,不僅耗時(shí)費(fèi)力,而且容易導(dǎo)致人為錯(cuò)誤,尤其在處理復(fù)雜的技術(shù)文檔、學(xué)術(shù)論文或法律合同時(shí),人工編輯效率較低,文檔的一致性和準(zhǔn)確性難以保證。
2、現(xiàn)有技術(shù)中,部分基于規(guī)則的自動(dòng)文檔處理系統(tǒng),雖然可以根據(jù)預(yù)定義的規(guī)則實(shí)現(xiàn)部分內(nèi)容的格式化和簡(jiǎn)單的語(yǔ)法檢查,但系統(tǒng)缺乏對(duì)文檔內(nèi)容的深層次語(yǔ)義理解能力,無(wú)法針對(duì)文檔的語(yǔ)義結(jié)構(gòu)進(jìn)行優(yōu)化編輯,此外,現(xiàn)有的文檔編輯系統(tǒng)對(duì)多語(yǔ)言、多領(lǐng)域的文檔支持有限,難以適應(yīng)不同語(yǔ)言表達(dá)和領(lǐng)域規(guī)范的差異,導(dǎo)致在多語(yǔ)言文檔處理中的靈活性較差。
3、因此,如何利用深度學(xué)習(xí)技術(shù)有效理解復(fù)雜文檔的多層級(jí)語(yǔ)義結(jié)構(gòu),自動(dòng)完成文檔的結(jié)構(gòu)化編輯,減少人工干預(yù),提高文檔編輯的效率和準(zhǔn)確性,是當(dāng)前亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)本申請(qǐng)的實(shí)施例,提供了一種基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯方案,通過(guò)深度學(xué)習(xí)技術(shù),深入理解復(fù)雜文檔的多層次語(yǔ)義結(jié)構(gòu),從而實(shí)現(xiàn)自動(dòng)化的文檔結(jié)構(gòu)化編輯,減少了人工干預(yù),顯著提高了編輯效率和準(zhǔn)確性,克服了現(xiàn)有基于規(guī)則的系統(tǒng)在靈活性和語(yǔ)義理解能力上的局限,尤其在處理多語(yǔ)言、多領(lǐng)域文檔時(shí),能夠提供更強(qiáng)大的支持和適應(yīng)性,通過(guò)智能化的文檔編輯方式,優(yōu)化文檔的結(jié)構(gòu),保證內(nèi)容的一致性和正確性,極大提升了文檔管理的效率和質(zhì)量。
2、在本申請(qǐng)的第一方面,提供了一種基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯方法。該方法包括:
3、獲取待處理的多層級(jí)文檔;
4、通過(guò)優(yōu)化的編輯模型對(duì)所述多層級(jí)文檔進(jìn)行分層級(jí)語(yǔ)義分析,生成結(jié)構(gòu)化編輯建議;
5、基于所述結(jié)構(gòu)化編輯建議,對(duì)所述多層級(jí)文檔的各層級(jí)進(jìn)行結(jié)構(gòu)調(diào)整,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯;
6、其中,可通過(guò)如下微調(diào)參數(shù)對(duì)所述編輯模型進(jìn)行優(yōu)化:
7、;
8、其中,為微調(diào)參數(shù);
9、為多層級(jí)文檔語(yǔ)義分析任務(wù)的損失函數(shù);
10、為章節(jié)數(shù)量;
11、為章節(jié)中段落的數(shù)量;
12、為段落中的句子數(shù)量;
13、為句子中的詞匯數(shù)量;
14、為第k個(gè)句子中的第l個(gè)詞匯;
15、為控制正則化項(xiàng)的超參數(shù);
16、為自適應(yīng)正則化項(xiàng)。
17、在一種可能的實(shí)現(xiàn)方式中,所述多層級(jí)文檔包括章節(jié)、段落、句子和/或詞匯層級(jí)。
18、在一種可能的實(shí)現(xiàn)方式中,所述多層級(jí)文檔為層級(jí)樹結(jié)構(gòu):
19、?;
20、其中,為多層級(jí)文檔的層級(jí)樹結(jié)構(gòu)。
21、在一種可能的實(shí)現(xiàn)方式中,所述通過(guò)優(yōu)化的編輯模型對(duì)所述多層級(jí)文檔進(jìn)行分層級(jí)語(yǔ)義分析,生成結(jié)構(gòu)化編輯建議包括:
22、通過(guò)優(yōu)化的編輯模型,分別對(duì)所述多層級(jí)文檔的章節(jié)層級(jí)、段落層級(jí)、句子層級(jí)進(jìn)行語(yǔ)義分析;
23、通過(guò)如下公式,將各層級(jí)的語(yǔ)義分析結(jié)果進(jìn)行組合,生成分層級(jí)語(yǔ)義分析結(jié)果:
24、;
25、其中,為整體多層級(jí)文檔的分層級(jí)語(yǔ)義表示;
26、、和分別為章節(jié)、段落和句子的自注意力權(quán)重矩陣;
27、、和分別為章節(jié)、段落和句子的向量表示;
28、、和分別為章節(jié)、段落和句子的加權(quán)系數(shù);
29、基于所述分層級(jí)語(yǔ)義分析結(jié)果,生成結(jié)構(gòu)化編輯建議。
30、在一種可能的實(shí)現(xiàn)方式中,所述基于所述分層級(jí)語(yǔ)義分析結(jié)果,生成結(jié)構(gòu)化編輯建議包括:
31、基于所述分層級(jí)語(yǔ)義分析結(jié)果,通過(guò)如下公式將各層級(jí)的權(quán)重矩陣和向量表示進(jìn)行整合,生成結(jié)構(gòu)化編輯建議:
32、;
33、其中,為結(jié)構(gòu)化編輯建議;
34、為詞匯層級(jí)的加權(quán)系數(shù);
35、為詞匯層級(jí)的自注意力權(quán)重矩陣。
36、在一種可能的實(shí)現(xiàn)方式中,所述基于所述結(jié)構(gòu)化編輯建議,對(duì)所述多層級(jí)文檔的各層級(jí)進(jìn)行結(jié)構(gòu)調(diào)整,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯包括:
37、基于所述結(jié)構(gòu)化編輯建議,分別對(duì)所述多層級(jí)文檔的章節(jié)層級(jí)、段落和/或句子進(jìn)行調(diào)整;
38、通過(guò)如下公式對(duì)章節(jié)層級(jí)、段落和/或句子的調(diào)整結(jié)果進(jìn)行整合,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯:
39、;
40、為最終結(jié)構(gòu)化編輯后的多層級(jí)文檔;
41、為段落合并函數(shù);
42、為章節(jié)調(diào)整函數(shù);
43、為句子重組函數(shù)。
44、在本申請(qǐng)的第二方面,提供了一種基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯裝置。該裝置包括:
45、獲取模塊,用于獲取待處理的多層級(jí)文檔;
46、生成模塊,用于通過(guò)優(yōu)化的編輯模型對(duì)所述多層級(jí)文檔進(jìn)行分層級(jí)語(yǔ)義分析,生成結(jié)構(gòu)化編輯建議;
47、編輯模塊,用于基于所述結(jié)構(gòu)化編輯建議,對(duì)所述多層級(jí)文檔的各層級(jí)進(jìn)行結(jié)構(gòu)調(diào)整,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯;
48、其中,可通過(guò)如下微調(diào)參數(shù)對(duì)所述編輯模型進(jìn)行優(yōu)化:
49、;
50、其中,為微調(diào)參數(shù);
51、為多層級(jí)文檔語(yǔ)義分析任務(wù)的損失函數(shù);
52、為章節(jié)數(shù)量;
53、為章節(jié)中段落的數(shù)量;
54、為段落中的句子數(shù)量;
55、為句子中的詞匯數(shù)量;
56、為第k個(gè)句子中的第l個(gè)詞匯;
57、為控制正則化項(xiàng)的超參數(shù);
58、為自適應(yīng)正則化項(xiàng)。
59、在本申請(qǐng)的第三方面,提供了一種電子設(shè)備。該電子設(shè)備包括:存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如以上所述的方法。
60、在本申請(qǐng)的第四方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如根據(jù)本申請(qǐng)的第一方面的方法。
61、本申請(qǐng)實(shí)施例提供的基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯方法,通過(guò)獲取待處理的多層級(jí)文檔;通過(guò)優(yōu)化的編輯模型對(duì)所述多層級(jí)文檔進(jìn)行分層級(jí)語(yǔ)義分析,生成結(jié)構(gòu)化編輯建議;基于所述結(jié)構(gòu)化編輯建議,對(duì)所述多層級(jí)文檔的各層級(jí)進(jìn)行結(jié)構(gòu)調(diào)整,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯,大幅度提升了文檔管理的效率和質(zhì)量。
62、應(yīng)當(dāng)理解,
技術(shù)實(shí)現(xiàn)要素:
部分中所描述的內(nèi)容并非旨在限定本申請(qǐng)的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本申請(qǐng)的范圍。本申請(qǐng)的其它特征將通過(guò)以下的描述變得容易理解。
1.一種基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多層級(jí)文檔包括章節(jié)、段落、句子和/或詞匯層級(jí)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述多層級(jí)文檔為層級(jí)樹結(jié)構(gòu):
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述通過(guò)優(yōu)化的編輯模型對(duì)所述多層級(jí)文檔進(jìn)行分層級(jí)語(yǔ)義分析,生成結(jié)構(gòu)化編輯建議包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述基于所述分層級(jí)語(yǔ)義分析結(jié)果,生成結(jié)構(gòu)化編輯建議包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述基于所述結(jié)構(gòu)化編輯建議,對(duì)所述多層級(jí)文檔的各層級(jí)進(jìn)行結(jié)構(gòu)調(diào)整,完成對(duì)所述多層級(jí)文檔的結(jié)構(gòu)化編輯包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
8.一種基于深度學(xué)習(xí)的文檔結(jié)構(gòu)化編輯裝置,其特征在于,包括:
9.一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1~7中任一項(xiàng)所述的方法。