本技術(shù)涉及文本審查,尤其涉及一種文本審查方法、裝置及電子設(shè)備、計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
1、通常來(lái)說(shuō),文本審查是文本中的多重要素進(jìn)行合規(guī)合法審查的過(guò)程,是確保業(yè)務(wù)合規(guī)性與法律風(fēng)險(xiǎn)防控的關(guān)鍵環(huán)節(jié)。例如,法務(wù)人員對(duì)合同文檔進(jìn)行法律審查過(guò)程中,一般會(huì)出具審查后的法律意見(jiàn),這些已出具的法律審查意見(jiàn)可以為后續(xù)合同審查提供參考,作為輔助審查的依據(jù)。
2、傳統(tǒng)上,這一過(guò)程高度依賴于具有深厚法律知識(shí)與豐富實(shí)踐經(jīng)驗(yàn)的法務(wù)人員,不僅耗時(shí)耗力,且難以全面捕捉所有潛在的法律風(fēng)險(xiǎn)點(diǎn)。隨著信息技術(shù)的飛速發(fā)展,尤其是人工智能技術(shù)的興起,利用自動(dòng)化工具輔助或替代部分人工審查工作已成為行業(yè)趨勢(shì)。
3、目前,一種較為穩(wěn)妥的解決方法是收集大量標(biāo)注數(shù)據(jù),訓(xùn)練分類模型對(duì)待審查文本進(jìn)行分類,進(jìn)而給出審查意見(jiàn)。但是在生產(chǎn)過(guò)程中,大量的標(biāo)注數(shù)據(jù)往往難以獲取,因此在生產(chǎn)前期需要給出一些低成本的解決方案,這些低成本方案大多是非模型訓(xùn)練方案,如使用檢索方案解決文本審查問(wèn)題,但這些方案在準(zhǔn)確度上一般都會(huì)比模型訓(xùn)練方案要稍遜一籌。
4、可以看出,現(xiàn)有技術(shù)大多僅采用單一方案,未能有效融合檢索與分類模型的各自優(yōu)勢(shì),實(shí)現(xiàn)審查效率與準(zhǔn)確性的最佳平衡,也未能充分考慮不同方案存在的不足并采取有效的優(yōu)化手段。因此,如何構(gòu)建一種兼顧審查效率和準(zhǔn)確性的綜合審查方案,成為當(dāng)前亟待解決的技術(shù)問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種文本審查方法、裝置及電子設(shè)備、計(jì)算機(jī)程序產(chǎn)品,以提高文本審查的準(zhǔn)確性。
2、本技術(shù)實(shí)施例采用下述技術(shù)方案:
3、第一方面,本技術(shù)實(shí)施例提供一種文本審查方法,所述文本審查方法包括:
4、獲取待審查文本;
5、利用當(dāng)前使用的文本審查方案對(duì)所述待審查文本進(jìn)行審查,得到初始的文本審查結(jié)果,所述當(dāng)前使用的文本審查方案為對(duì)多個(gè)文本審查方案評(píng)估后確定的,多個(gè)所述文本審查方案包括檢索方案和分類方案;
6、根據(jù)所述當(dāng)前使用的文本審查方案對(duì)應(yīng)的審查優(yōu)化策略對(duì)所述初始的文本審查結(jié)果進(jìn)行優(yōu)化,得到最終的文本審查結(jié)果。
7、可選地,多個(gè)所述文本審查方案包括基于預(yù)訓(xùn)練模型實(shí)現(xiàn)的檢索方案、基于文本審查分類模型實(shí)現(xiàn)的檢索方案以及基于文本審查分類模型實(shí)現(xiàn)的分類方案,所述文本審查方法還包括:
8、獲取文本審查分類模型的訓(xùn)練數(shù)據(jù)集;
9、在所述訓(xùn)練數(shù)據(jù)集中的數(shù)據(jù)量大于預(yù)設(shè)數(shù)據(jù)量閾值的情況下,利用所述訓(xùn)練數(shù)據(jù)集訓(xùn)練文本審查分類模型;
10、根據(jù)訓(xùn)練好的訓(xùn)練文本審查分類模型生成基于文本審查分類模型實(shí)現(xiàn)的檢索方案以及基于文本審查分類模型實(shí)現(xiàn)的分類方案;
11、對(duì)多個(gè)所述文本審查方案進(jìn)行評(píng)估,確定可上線使用的文本審查方案。
12、可選地,所述對(duì)多個(gè)所述文本審查方案進(jìn)行評(píng)估,確定可上線使用的文本審查方案包括:
13、構(gòu)建全周期驗(yàn)證數(shù)據(jù)集;
14、利用所述全周期驗(yàn)證數(shù)據(jù)集對(duì)多個(gè)所述文本審查方案進(jìn)行評(píng)估,確定可上線使用的文本審查方案。
15、可選地,所述構(gòu)建全周期驗(yàn)證數(shù)據(jù)集包括:
16、獲取原始的訓(xùn)練數(shù)據(jù)集、原始的驗(yàn)證數(shù)據(jù)集以及新增的訓(xùn)練數(shù)據(jù);
17、利用所述原始的訓(xùn)練數(shù)據(jù)集和所述新增的訓(xùn)練數(shù)據(jù)更新所述原始的驗(yàn)證數(shù)據(jù)集,得到更新后的驗(yàn)證數(shù)據(jù)集;
18、根據(jù)所述原始的驗(yàn)證數(shù)據(jù)集和所述更新后的驗(yàn)證數(shù)據(jù)集構(gòu)建所述全周期驗(yàn)證數(shù)據(jù)集。
19、可選地,所述利用所述全周期驗(yàn)證數(shù)據(jù)集對(duì)多個(gè)所述文本審查方案進(jìn)行評(píng)估,確定可上線使用的文本審查方案包括:
20、利用所述預(yù)訓(xùn)練模型對(duì)所述全周期驗(yàn)證數(shù)據(jù)集以及訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行特征提取,根據(jù)全周期驗(yàn)證數(shù)據(jù)集的第一特征提取結(jié)果和訓(xùn)練數(shù)據(jù)集的第一特征提取結(jié)果進(jìn)行檢索匹配,得到全周期驗(yàn)證數(shù)據(jù)集的第一分類結(jié)果;
21、利用所述文本審查分類模型對(duì)所述全周期驗(yàn)證數(shù)據(jù)集以及訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行特征提取,根據(jù)全周期驗(yàn)證數(shù)據(jù)集的第二特征提取結(jié)果和訓(xùn)練數(shù)據(jù)集的第二特征提取結(jié)果進(jìn)行檢索匹配,得到全周期驗(yàn)證數(shù)據(jù)集的第二分類結(jié)果;
22、利用所述文本審查分類模型對(duì)所述全周期驗(yàn)證數(shù)據(jù)集的數(shù)據(jù)進(jìn)行分類,得到全周期驗(yàn)證數(shù)據(jù)集的第三分類結(jié)果;
23、根據(jù)所述全周期驗(yàn)證數(shù)據(jù)集的第一分類結(jié)果、第二分類結(jié)果以及第三分類結(jié)果確定確定可上線使用的文本審查方案。
24、可選地,所述文本審查方法還包括:
25、確定是否觸發(fā)文本審查分類模型的更新策略,所述更新策略包括周期性更新策略和事務(wù)性更新策略中的至少一種;
26、在觸發(fā)文本審查分類模型的更新策略的情況下,更新所述文本審查分類模型。
27、可選地,所述當(dāng)前使用的文本審查方案為基于預(yù)訓(xùn)練模型或文本審查分類模型實(shí)現(xiàn)的檢索方案,所述根據(jù)所述當(dāng)前使用的文本審查方案對(duì)應(yīng)的審查優(yōu)化策略對(duì)所述初始的文本審查結(jié)果進(jìn)行優(yōu)化,得到最終的文本審查結(jié)果包括:
28、在利用基于預(yù)訓(xùn)練模型或文本審查分類模型實(shí)現(xiàn)的檢索方案得到的檢索結(jié)果中,獲取高于預(yù)設(shè)相似度閾值的多個(gè)檢索結(jié)果;
29、對(duì)高于預(yù)設(shè)相似度閾值的多個(gè)檢索結(jié)果對(duì)應(yīng)的文本審查類別進(jìn)行統(tǒng)計(jì);
30、根據(jù)統(tǒng)計(jì)結(jié)果確定最終的文本審查結(jié)果。
31、可選地,所述當(dāng)前使用的文本審查方案為基于文本審查分類模型實(shí)現(xiàn)的分類方案,所述根據(jù)所述當(dāng)前使用的文本審查方案對(duì)應(yīng)的審查優(yōu)化策略對(duì)所述初始的文本審查結(jié)果進(jìn)行優(yōu)化,得到最終的文本審查結(jié)果包括:
32、確定基于文本審查分類模型實(shí)現(xiàn)的分類方案得到的文本審查結(jié)果對(duì)應(yīng)的類別概率是否小于預(yù)設(shè)概率閾值;
33、在所述類別概率小于預(yù)設(shè)概率閾值的情況下,獲取基于預(yù)訓(xùn)練模型和文本審查分類模型實(shí)現(xiàn)的檢索方案得到的檢索結(jié)果;
34、對(duì)所述文本審查分類模型輸出的文本分類結(jié)果以及基于預(yù)訓(xùn)練模型和文本審查分類模型實(shí)現(xiàn)的檢索方案得到的檢索結(jié)果進(jìn)行融合,確定最終的文本審查結(jié)果。
35、第二方面,本技術(shù)實(shí)施例還提供一種文本審查裝置,所述文本審查裝置包括:
36、第一獲取單元,用于獲取待審查文本;
37、審查單元,用于利用當(dāng)前使用的文本審查方案對(duì)所述待審查文本進(jìn)行審查,得到初始的文本審查結(jié)果,所述當(dāng)前使用的文本審查方案為對(duì)多個(gè)文本審查方案評(píng)估后確定的,多個(gè)所述文本審查方案包括檢索方案和分類方案;
38、優(yōu)化單元,用于根據(jù)所述當(dāng)前使用的文本審查方案對(duì)應(yīng)的審查優(yōu)化策略對(duì)所述初始的文本審查結(jié)果進(jìn)行優(yōu)化,得到最終的文本審查結(jié)果。
39、第三方面,本技術(shù)實(shí)施例還提供一種電子設(shè)備,包括:
40、處理器;以及
41、被安排成存儲(chǔ)計(jì)算機(jī)可執(zhí)行指令的存儲(chǔ)器,所述可執(zhí)行指令在被執(zhí)行時(shí)使所述處理器執(zhí)行前述之任一所述文本審查方法。
42、第四方面,本技術(shù)實(shí)施例還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序或指令,所述計(jì)算機(jī)程序或指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)前述任一所述文本審查方法。
43、本技術(shù)實(shí)施例采用的上述至少一個(gè)技術(shù)方案能夠達(dá)到以下有益效果:本技術(shù)實(shí)施例的文本審查方法,先獲取待審查文本;然后利用當(dāng)前使用的文本審查方案對(duì)所述待審查文本進(jìn)行審查,得到初始的文本審查結(jié)果,所述當(dāng)前使用的文本審查方案為對(duì)多個(gè)文本審查方案評(píng)估后確定的,多個(gè)所述文本審查方案包括檢索方案和分類方案;最后根據(jù)當(dāng)前使用的文本審查方案對(duì)應(yīng)的審查優(yōu)化策略對(duì)初始的文本審查結(jié)果進(jìn)行優(yōu)化,得到最終的文本審查結(jié)果。本技術(shù)實(shí)施例的文本審查方法通過(guò)評(píng)估多種不同文本審查方案的效果,構(gòu)建了一個(gè)新的文本審查框架,多種不同的文本審查方案相協(xié)同,挖掘了多種方案之間的互補(bǔ)性,提高了文本審查的效果,且設(shè)計(jì)了不同文本審查方案的結(jié)果優(yōu)化策略,進(jìn)一步提高了文本審查的準(zhǔn)確性。