本發(fā)明涉及人工智能,特別涉及一種基于內(nèi)容提取的合同智能審核方法、裝置、設(shè)備、介質(zhì)。
背景技術(shù):
1、目前,物業(yè)管理領(lǐng)域需要審核大量的合同,例如,為提供面向小區(qū)內(nèi)所有的業(yè)主的服務(wù),需要為每個(gè)業(yè)主生成一份合同,這就導(dǎo)致需要處理的合同數(shù)量較多,傳統(tǒng)的人工審核方式已經(jīng)不能滿足需求,隨著自然語(yǔ)言處理(natural?language?processing,nlp)技術(shù)的發(fā)展,出現(xiàn)了一些能夠自動(dòng)審核合同內(nèi)容的大模型,通過(guò)光學(xué)字符識(shí)別(opticalcharacter?recognition,ocr)技術(shù)掃描紙質(zhì)合同得到合同文本,再將合同文本輸入到大模型進(jìn)行自動(dòng)審核。
2、由于合同文本通常較長(zhǎng),若將合同文本整體至大模型進(jìn)行審核,會(huì)導(dǎo)致計(jì)算量過(guò)大而計(jì)算時(shí)間過(guò)長(zhǎng),因此,現(xiàn)有技術(shù)通常會(huì)將合同文本以每個(gè)章節(jié)或者每一頁(yè)作為一個(gè)部分,將每部分依次輸入至大模型進(jìn)行識(shí)別。但是,現(xiàn)有技術(shù)只會(huì)針對(duì)每個(gè)部分單獨(dú)輸出審核結(jié)果,若相關(guān)的內(nèi)容被分到不同的部分,會(huì)因?yàn)槲谋救笔Ф鴮徍顺鲞壿嬪e(cuò)誤;若兩個(gè)部分的內(nèi)容出現(xiàn)了前后矛盾,大模型也無(wú)法識(shí)別而判定為審核通過(guò)。因此,現(xiàn)有技術(shù)的審核結(jié)果的可靠性得不到保證。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本發(fā)明提出一種基于內(nèi)容提取的合同智能審核方法、裝置、設(shè)備、介質(zhì),能夠?qū)⒑贤殖啥鄠€(gè)部分進(jìn)行審核,并且能夠跨部分進(jìn)行邏輯關(guān)聯(lián),提高合同審核的效率和可靠性。
2、第一方面,本發(fā)明實(shí)施例提供了一種基于內(nèi)容提取的合同智能審核方法,應(yīng)用于預(yù)設(shè)的nlp模型,所述nlp模型預(yù)設(shè)有審核規(guī)則和cot機(jī)制,所述審核規(guī)則包括多個(gè)預(yù)設(shè)審核項(xiàng),所述方法包括:
3、將合同文本按順序拆分成多個(gè)文本塊,按順序遍歷各個(gè)所述文本塊;
4、將當(dāng)前遍歷到的所述文本塊確定為目標(biāo)塊,基于所述nlp模型確定所述目標(biāo)塊的塊審核結(jié)果,其中,所述塊審核結(jié)果包括各個(gè)所述預(yù)設(shè)審核項(xiàng)各自對(duì)應(yīng)的候選審核結(jié)果和關(guān)聯(lián)文本序列,當(dāng)所述目標(biāo)塊為首個(gè)所述文本塊,所述nlp模型的輸入包括所述目標(biāo)塊,或者,當(dāng)所述目標(biāo)塊不是首個(gè)所述文本塊,所述nlp模型的輸入包括所述目標(biāo)塊和上一個(gè)遍歷到的所述文本塊的所述塊審核結(jié)果;
5、將最后一個(gè)所述塊審核結(jié)果的各個(gè)所述候選審核結(jié)果確定為目標(biāo)審核結(jié)果,將全部的所述目標(biāo)審核結(jié)果和對(duì)應(yīng)的所述關(guān)聯(lián)文本序列輸入至所述nlp模型;
6、基于任一對(duì)關(guān)聯(lián)的所述目標(biāo)審核結(jié)果和所述關(guān)聯(lián)文本序列,通過(guò)所述nlp模型基于所述cot機(jī)制進(jìn)行內(nèi)容提取得到目標(biāo)審核信息;
7、基于全部的所述預(yù)設(shè)審核項(xiàng)和對(duì)應(yīng)的所述目標(biāo)審核信息生成文本審核結(jié)果。
8、根據(jù)本發(fā)明的一些實(shí)施例,在將合同文本按順序拆分成多個(gè)文本塊之前,所述方法還包括:
9、獲取多張合同圖像,其中,多張所述合同圖像歸屬于同一份目標(biāo)合同;
10、按順序?qū)γ繌埶龊贤瑘D像進(jìn)行ocr識(shí)別,得到每張所述合同圖像所對(duì)應(yīng)的圖像識(shí)別信息和頁(yè)碼信息,其中,所述圖像識(shí)別信息包括識(shí)別文本或簽章圖像;
11、當(dāng)所述圖像識(shí)別信息不包括所述簽章圖像,將所述識(shí)別文本確定為所述合同圖像的圖像文本;
12、或者,當(dāng)所述圖像識(shí)別信息包括所述簽章圖像,基于文字識(shí)別得到所述簽章圖像的簽章文字,基于所述識(shí)別文本和所述簽章文字按順序排列成所述圖像文本;
13、基于所述頁(yè)碼信息對(duì)全部的所述圖像文本進(jìn)行排序得到所述合同文本。
14、根據(jù)本發(fā)明的一些實(shí)施例,將合同文本按順序拆分成多個(gè)文本塊,包括:
15、基于首張所述合同圖像的所述合同文本,從多個(gè)預(yù)設(shè)的合同類型中確定目標(biāo)類型;
16、基于所述目標(biāo)類型從多個(gè)預(yù)設(shè)的可選規(guī)則確定所述審核規(guī)則,其中,每個(gè)所述可選規(guī)則至少對(duì)應(yīng)于一個(gè)所述合同類型;
17、基于所述目標(biāo)類型從多個(gè)預(yù)設(shè)分隔符中確定至少一個(gè)目標(biāo)分隔符,基于所述目標(biāo)分隔符將所述合同文本拆分成多個(gè)所述文本塊,其中,每個(gè)所述合同類型關(guān)聯(lián)有至少一個(gè)所述預(yù)設(shè)分隔符,每個(gè)所述預(yù)設(shè)分隔符互不相同。
18、根據(jù)本發(fā)明的一些實(shí)施例,多個(gè)所述預(yù)設(shè)審核項(xiàng)包括多個(gè)格式審核項(xiàng)和多個(gè)內(nèi)容審核項(xiàng),當(dāng)所述目標(biāo)塊為首個(gè)所述文本塊,基于所述nlp模型確定所述目標(biāo)塊的塊審核結(jié)果,包括:
19、基于任一所述格式審核項(xiàng),遍歷所述目標(biāo)塊確定格式審核結(jié)果;
20、基于任一所述內(nèi)容審核項(xiàng),從首個(gè)所述目標(biāo)塊中確定所述內(nèi)容審核項(xiàng)對(duì)應(yīng)的第一文本序列,基于所述第一文本序列和所述內(nèi)容審核項(xiàng)確定內(nèi)容審核結(jié)果;
21、將所述格式審核結(jié)果和所述內(nèi)容審核結(jié)果分別確定為所述候選審核結(jié)果,基于全部的所述候選審核結(jié)果和對(duì)應(yīng)的所述預(yù)設(shè)審核項(xiàng)構(gòu)建所述塊審核結(jié)果。
22、根據(jù)本發(fā)明的一些實(shí)施例,在將所述格式審核結(jié)果和所述內(nèi)容審核結(jié)果分別確定為所述候選審核結(jié)果之后,所述方法還包括:
23、當(dāng)所述格式審核結(jié)果表征審核通過(guò),將預(yù)設(shè)的第一描述信息確定為所述關(guān)聯(lián)文本序列;
24、當(dāng)所述格式審核結(jié)果表征審核異常,將識(shí)別到異常的至少一個(gè)文本集合組合成所述關(guān)聯(lián)文本序列,所述文本集合包括多個(gè)連續(xù)的文本字符;
25、當(dāng)所述內(nèi)容審核結(jié)果表征審核通過(guò),將所述第一文本序列確定為所述關(guān)聯(lián)文本序列;
26、當(dāng)所述內(nèi)容審核結(jié)果表征審核異常,基于所述第一文本序列生成異常分析信息,將所述第一文本序列和所述異常分析信息組合成所述關(guān)聯(lián)文本序列。
27、根據(jù)本發(fā)明的一些實(shí)施例,當(dāng)所述目標(biāo)塊不是首個(gè)所述文本塊,基于所述nlp模型確定所述目標(biāo)塊的塊審核結(jié)果,包括:
28、基于所述目標(biāo)塊的上一個(gè)所述文本塊的所述塊審核結(jié)果,將表征審核異常的所述格式審核結(jié)果的所述關(guān)聯(lián)文本序列確定為第一參考序列,將所述內(nèi)容審核結(jié)果的所述關(guān)聯(lián)文本序列確定為第二參考序列;
29、將所述第一參考序列和所述目標(biāo)塊拼接成第二文本序列,基于任一所述格式審核項(xiàng),遍歷所述第二文本序列確定所述目標(biāo)塊的所述格式審核結(jié)果;
30、基于任一所述內(nèi)容審核項(xiàng),從上一個(gè)所述目標(biāo)塊中確定所述第一文本序列,基于所述內(nèi)容審核項(xiàng)、所述第一文本序列和所述第二參考序列確定所述目標(biāo)塊的所述格式審核結(jié)果;
31、將所述格式審核結(jié)果和所述內(nèi)容審核結(jié)果分別確定為所述候選審核結(jié)果,基于全部的所述候選審核結(jié)果和對(duì)應(yīng)的所述預(yù)設(shè)審核項(xiàng)構(gòu)建所述塊審核結(jié)果。
32、根據(jù)本發(fā)明的一些實(shí)施例,基于全部的所述預(yù)設(shè)審核項(xiàng)和對(duì)應(yīng)的所述目標(biāo)審核信息生成文本審核結(jié)果,包括:
33、基于所述預(yù)設(shè)審核項(xiàng)所對(duì)應(yīng)的所述目標(biāo)審核結(jié)果,確定對(duì)應(yīng)的審核標(biāo)記,其中,所述審核標(biāo)記用于指示審核通過(guò)或者審核不通過(guò);
34、構(gòu)建可視化表格,將關(guān)聯(lián)的所述預(yù)設(shè)審核項(xiàng)、所述審核標(biāo)記和所述目標(biāo)審核信息確定為一組表格單元;
35、將各組所述表格單元依次輸入所述可視化表格得到所述文本審核結(jié)果。
36、第二方面,本發(fā)明實(shí)施例提供了一種基于內(nèi)容提取的合同智能審核裝置,包括少一個(gè)控制處理器和用于與所述至少一個(gè)控制處理器通信連接的存儲(chǔ)器;所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)控制處理器執(zhí)行的指令,所述指令被所述至少一個(gè)控制處理器執(zhí)行,以使所述至少一個(gè)控制處理器能夠執(zhí)行如上述第一方面所述的基于內(nèi)容提取的合同智能審核方法。
37、第三方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括有如上述第二方面所述的基于內(nèi)容提取的合同智能審核裝置。
38、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,所述計(jì)算機(jī)可執(zhí)行指令用于執(zhí)行如上述第一方面所述的基于內(nèi)容提取的合同智能審核方法。
39、根據(jù)本發(fā)明實(shí)施例的基于內(nèi)容提取的合同智能審核方法,至少具有如下有益效果:將合同文本按順序拆分成多個(gè)文本塊,按順序遍歷各個(gè)所述文本塊;將當(dāng)前遍歷到的所述文本塊確定為目標(biāo)塊,基于所述nlp模型確定所述目標(biāo)塊的塊審核結(jié)果,其中,所述塊審核結(jié)果包括各個(gè)所述預(yù)設(shè)審核項(xiàng)各自對(duì)應(yīng)的候選審核結(jié)果和關(guān)聯(lián)文本序列,當(dāng)所述目標(biāo)塊為首個(gè)所述文本塊,所述nlp模型的輸入包括所述目標(biāo)塊,或者,當(dāng)所述目標(biāo)塊不是首個(gè)所述文本塊,所述nlp模型的輸入包括所述目標(biāo)塊和上一個(gè)遍歷到的所述文本塊的所述塊審核結(jié)果;將最后一個(gè)所述塊審核結(jié)果的各個(gè)所述候選審核結(jié)果確定為目標(biāo)審核結(jié)果,將全部的所述目標(biāo)審核結(jié)果和對(duì)應(yīng)的所述關(guān)聯(lián)文本序列輸入至所述nlp模型;基于任一對(duì)關(guān)聯(lián)的所述目標(biāo)審核結(jié)果和所述關(guān)聯(lián)文本序列,通過(guò)所述nlp模型基于所述cot機(jī)制進(jìn)行內(nèi)容提取得到目標(biāo)審核信息;基于全部的所述預(yù)設(shè)審核項(xiàng)和對(duì)應(yīng)的所述目標(biāo)審核信息生成文本審核結(jié)果。根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,能夠?qū)贤谋具M(jìn)行分塊審核,在執(zhí)行下一級(jí)目標(biāo)塊的審核時(shí),將上一級(jí)的候選審核結(jié)果作為前序內(nèi)容的參考信息,與下一級(jí)目標(biāo)塊共同輸入至nlp模型,利用cot機(jī)制在一個(gè)目標(biāo)塊的識(shí)別中實(shí)現(xiàn)了多文本塊的關(guān)聯(lián)邏輯推理,使得最后輸出的目標(biāo)審核結(jié)果能夠表征整個(gè)合同文本的邏輯推理結(jié)果,在較少計(jì)算量的情況下提高了合同審核的可靠性。