本技術(shù)屬于行政數(shù)據(jù)處理領(lǐng)域,涉及一種基于大模型的政務(wù)流程自動化處理方法及系統(tǒng)。
背景技術(shù):
1、隨著信息技術(shù)的迅猛發(fā)展,政務(wù)管理逐漸向數(shù)字化、智能化方向發(fā)展。然而,現(xiàn)有的政務(wù)流程依然存在設(shè)計(jì)復(fù)雜、執(zhí)行效率低、人工參與度高等問題。這主要是因?yàn)檎?wù)流程依賴于政務(wù)條例、政策文件、流程樣本等因素,因此,在有新的政務(wù)條例、政策文件時,需要對于政務(wù)流程進(jìn)行及時調(diào)整,現(xiàn)在多是通過人工討論的方式對政務(wù)流程進(jìn)行調(diào)整,該種方式不僅調(diào)整效率低,調(diào)整的工作量也比較大。但是由于政務(wù)條例、政策文件本身具有連貫性,因此可以考慮采用人工智能方式進(jìn)行輔助處理,以實(shí)現(xiàn)政務(wù)流程的自動化與智能化,成為當(dāng)前亟待解決的重要課題。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述問題,本技術(shù)一方面公開了一種基于大模型的政務(wù)流程自動化處理方法,包括如下步驟:
2、獲取原有政務(wù)流程并獲得分解得到的流程塊以及在流程塊之間的信息流;
3、獲取增補(bǔ)信息;
4、將原有政務(wù)流程與增補(bǔ)信息進(jìn)行對比得到區(qū)隔部分;
5、根據(jù)區(qū)隔部分得到變化流程塊以及變化信息流,按照信息流發(fā)生變化的位置將新的流程塊以及信息流插入到原有政務(wù)流程當(dāng)中得到新政務(wù)流程。本技術(shù)采用對比分析的方式獲得原有政務(wù)流程和增補(bǔ)信息的區(qū)隔部分,并進(jìn)行精確調(diào)整,從而可以實(shí)時的對于政務(wù)流程進(jìn)行更新處理,以更好的利用政務(wù)流程變動連續(xù)性的特點(diǎn)并作出有效調(diào)整。
6、優(yōu)選的,將流程塊和信息流形成的處理結(jié)構(gòu)調(diào)整為順序結(jié)構(gòu):
7、對于循環(huán)結(jié)構(gòu),按照將循環(huán)部分的流程塊和信息流分列的方式進(jìn)行調(diào)整,并調(diào)整循環(huán)次數(shù)的限定,不超過設(shè)定的循環(huán)閾值,從而將循環(huán)結(jié)構(gòu)調(diào)整為順序結(jié)構(gòu);
8、對于條件結(jié)構(gòu),按照條件成立與否部分的流程塊和信息流分列的方式進(jìn)行調(diào)整,從而將條件結(jié)構(gòu)調(diào)整為順序結(jié)構(gòu)。本技術(shù)基于本技術(shù)利用的流程塊和信息流的分析方式,采用順序結(jié)構(gòu)能夠更好的進(jìn)行自動化更新,而由于計(jì)算機(jī)本身具有順序執(zhí)行能力的多少并不過分影響其處理效率的特點(diǎn),從而在不影響處理效率的前提下還能保證流程更新時的更新效率以及更新結(jié)構(gòu)的可靠性,實(shí)際上也是利用了政務(wù)流程變動連續(xù)性的特點(diǎn)。
9、優(yōu)選的,所述區(qū)隔部分按照如下方式獲取:
10、根據(jù)增補(bǔ)信息獲得增補(bǔ)信息流;
11、將增補(bǔ)信息流與原有的信息流進(jìn)行對比得到變化信息流;
12、根據(jù)變化信息流分析得到其對應(yīng)的變化流程塊,然后將變化流程塊沿遠(yuǎn)離變化信息流的方向根據(jù)原有的信息流的方向進(jìn)行遍歷,直至尋找到不變的流程塊;
13、將不變的流程塊之間的變化信息流以及變化流程塊作為區(qū)隔部分。
14、優(yōu)選的,在得到新政務(wù)流程之后,還包括預(yù)審查的過程:
15、根據(jù)已經(jīng)處理完畢的存檔案卷分析得到新政務(wù)流程所需要的原始信息;
16、并將原始信息分別投入到原有政務(wù)流程以及新政務(wù)流程;
17、對比原有政務(wù)流程、新政務(wù)流程所需要的原始信息、處理效率、處理結(jié)果;
18、如果新政務(wù)流程所需要的原始信息存檔案卷無法提供,或,新政務(wù)流程的處理效率低于原有政務(wù)流程30%以上,或,新政務(wù)流程與原有政務(wù)流程的處理結(jié)果不同,則推送對于新證據(jù)流程的警告信息;
19、所述處理效率指的是在極端情況下的最長耗時。本技術(shù)采用預(yù)審查的方式是為了避免新政務(wù)流程存在的潛在風(fēng)險以及不可執(zhí)行性,能夠盡可能的在前期就完成對于不可執(zhí)行風(fēng)險或者執(zhí)行效率低等缺點(diǎn)的規(guī)避。
20、優(yōu)選的,所述增補(bǔ)信息按照如下步驟進(jìn)行數(shù)據(jù)采集:
21、收集政務(wù)條例、政策文件、流程樣本數(shù)據(jù):
22、開發(fā)數(shù)據(jù)采集工具,支持多種格式的政務(wù)條例、政策文件、流程樣本數(shù)據(jù)的采集,建立數(shù)據(jù)采集管道,自動從各政府部門的系統(tǒng)和網(wǎng)站進(jìn)行數(shù)據(jù)采集,對采集的數(shù)據(jù)進(jìn)行清洗、去重、格式轉(zhuǎn)換的數(shù)據(jù)預(yù)處理,隨后將預(yù)處理后的數(shù)據(jù)存入分布式文件系統(tǒng)hdfs和nosql數(shù)據(jù)庫mongodb;
23、自然語言處理:
24、利用大模型進(jìn)行語義理解和分析;采用預(yù)訓(xùn)練的本地開源的中文大模型作為基礎(chǔ)模型,在大模型上進(jìn)行政務(wù)領(lǐng)域的訓(xùn)練,提高模型對政務(wù)語言的理解能力,利用訓(xùn)練后的模型對政務(wù)文本進(jìn)行語義理解、關(guān)鍵信息抽取、文本分類處理,將處理結(jié)果轉(zhuǎn)化為結(jié)構(gòu)化的json格式數(shù)據(jù)表示;
25、業(yè)務(wù)規(guī)則引擎處理:
26、將非結(jié)構(gòu)化信息轉(zhuǎn)化為可執(zhí)行的業(yè)務(wù)規(guī)則,基于自然語言處理模塊輸出的結(jié)構(gòu)化數(shù)據(jù),提取業(yè)務(wù)規(guī)則,采用基于規(guī)則的專家系統(tǒng)技術(shù),將業(yè)務(wù)規(guī)則轉(zhuǎn)化為可執(zhí)行的規(guī)則腳本,開發(fā)規(guī)則管理系統(tǒng),支持規(guī)則的編輯、存儲、版本控制、發(fā)布功能,提供規(guī)則引擎api,供其他模塊調(diào)用以執(zhí)行業(yè)務(wù)規(guī)則;
27、流程生成:
28、基于大模型生成流程模型和文檔,利用生成式預(yù)訓(xùn)練模型,結(jié)合政務(wù)流程樣本數(shù)據(jù),訓(xùn)練流程生成模型,根據(jù)業(yè)務(wù)規(guī)則引擎的輸出,分析得到流程塊和信息流,所述信息流指的是傳遞的信息,流程塊是傳遞的信息的接收方以及發(fā)出方。
29、優(yōu)選的,所述數(shù)據(jù)采集按照如下步驟進(jìn)行:
30、設(shè)定定時任務(wù)調(diào)度:
31、使用任務(wù)調(diào)度框架apacheairflow和luigi來管理和執(zhí)行數(shù)據(jù)采集任務(wù),設(shè)置調(diào)度策略,定時增量采集、實(shí)時更新,配置任務(wù)依賴關(guān)系,確保上下游任務(wù)的有序執(zhí)行;
32、設(shè)定數(shù)據(jù)源接入方式:
33、對于提供api接口的數(shù)據(jù)源,開發(fā)對應(yīng)的api客戶端,定期調(diào)用接口獲取增量數(shù)據(jù),對于需要網(wǎng)頁抓取的數(shù)據(jù)源,使用爬蟲框架進(jìn)行數(shù)據(jù)采集,針對不同的數(shù)據(jù)格式和協(xié)議設(shè)定相應(yīng)的采集邏輯;
34、進(jìn)行數(shù)據(jù)同步與增量采集:
35、與數(shù)據(jù)源系統(tǒng)建立同步機(jī)制,獲取數(shù)據(jù)變更信息,根據(jù)數(shù)據(jù)變更信息判斷需要采集的數(shù)據(jù)范圍,實(shí)現(xiàn)增量采集,避免重復(fù)采集;
36、進(jìn)行異常處理與監(jiān)控:
37、在采集過程中建立完善異常處理機(jī)制,確保采集任務(wù)的穩(wěn)定性,對采集任務(wù)的執(zhí)行情況進(jìn)行監(jiān)控,包括采集數(shù)據(jù)量、任務(wù)執(zhí)行時間關(guān)鍵指標(biāo),使用日志記錄采集過程中的關(guān)鍵信息,便于問題排查和追蹤;
38、建立數(shù)據(jù)質(zhì)量檢測:
39、對采集到的數(shù)據(jù)進(jìn)行質(zhì)量檢測,包括完整性、準(zhǔn)確性、一致性的校驗(yàn),建立數(shù)據(jù)質(zhì)量報告和預(yù)警機(jī)制,及時發(fā)現(xiàn)和處理數(shù)據(jù)質(zhì)量問題,對于不符合質(zhì)量要求的數(shù)據(jù),采取過濾、清洗、修復(fù)措施;
40、進(jìn)行數(shù)據(jù)流轉(zhuǎn)與集成:
41、將采集到的數(shù)據(jù)傳輸?shù)侥繕?biāo)系統(tǒng),對數(shù)據(jù)進(jìn)行必要的轉(zhuǎn)換和加工,包括格式轉(zhuǎn)換、字段映射、數(shù)據(jù)脫敏,并與下游數(shù)據(jù)處理流程進(jìn)行集成,實(shí)現(xiàn)端到端的數(shù)據(jù)流轉(zhuǎn);
42、進(jìn)行元數(shù)據(jù)管理:
43、對采集到的數(shù)據(jù)進(jìn)行元數(shù)據(jù)提取和管理,包括數(shù)據(jù)源、采集時間、數(shù)據(jù)格式等,將元數(shù)據(jù)存儲在元數(shù)據(jù)管理系統(tǒng)中,方便數(shù)據(jù)檢索和溯源,建立數(shù)據(jù)字典和數(shù)據(jù)目錄,方便用戶理解和使用數(shù)據(jù)。
44、優(yōu)選的,數(shù)據(jù)預(yù)處理包括清洗,去除噪聲和無效數(shù)據(jù),對重復(fù)數(shù)據(jù)進(jìn)行去重處理,保證數(shù)據(jù)的唯一性;同時將不同格式的數(shù)據(jù)進(jìn)行統(tǒng)一的格式轉(zhuǎn)換,便于后續(xù)處理;
45、具體按照如下方式進(jìn)行:
46、數(shù)據(jù)清洗:
47、處理缺失值:刪除缺失值記錄或使用均值、中位數(shù)、眾數(shù)方法填充缺失值;
48、檢測和處理異常值:使用統(tǒng)計(jì)方法檢測異常值,并選擇刪除或調(diào)整異常值;使用pandas和numpy庫進(jìn)行異常值檢測和處理。
49、處理不一致數(shù)據(jù):定義標(biāo)準(zhǔn)化規(guī)則,統(tǒng)一格式和分類,包括日期格式、單位轉(zhuǎn)換;使用正則表達(dá)式和pandas庫進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化;
50、數(shù)據(jù)去重:
51、確定去重字段:根據(jù)業(yè)務(wù)需求選擇去重字段,如id、名稱;
52、選擇去重算法:使用哈希算法或基于相似度的方法去重;
53、合并新舊數(shù)據(jù):對新舊數(shù)據(jù)進(jìn)行比對,保留最新或最完整的記錄;
54、數(shù)據(jù)格式轉(zhuǎn)換:
55、解析非結(jié)構(gòu)化數(shù)據(jù):使用正則表達(dá)式或nlp工具提取結(jié)構(gòu)化字段;
56、進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換:使用pandas庫的`astype()`方法進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換;
57、規(guī)范化數(shù)據(jù)格式:按照統(tǒng)一的命名、類型和約束進(jìn)行規(guī)范化處理;
58、數(shù)據(jù)質(zhì)量監(jiān)控
59、定義質(zhì)量指標(biāo):從完整性、準(zhǔn)確性、一致性維度定義質(zhì)量指標(biāo)。
60、建立監(jiān)控流程:在關(guān)鍵處理環(huán)節(jié)設(shè)置質(zhì)量檢查點(diǎn),使用pandas進(jìn)行質(zhì)量檢查,生成質(zhì)量報告并觸發(fā)預(yù)警;
61、開發(fā)質(zhì)量看板:使用可視化工具實(shí)時展示質(zhì)量指標(biāo),支持趨勢分析和問題定位。
62、優(yōu)選的,所述業(yè)務(wù)規(guī)則引擎處理按照如下步驟:
63、業(yè)務(wù)規(guī)則提?。?/p>
64、采用自然語言處理算法,包括命名實(shí)體識別和依存句法分析,從結(jié)構(gòu)化數(shù)據(jù)中提取關(guān)鍵信息;
65、規(guī)則轉(zhuǎn)化:
66、利用規(guī)則描述語言來表達(dá)業(yè)務(wù)規(guī)則的語義,同時利用規(guī)則解析器,將提取的規(guī)則無縫轉(zhuǎn)換為dsl腳本。
67、優(yōu)選的,所述流程生成按照如下步驟:
68、流程模型生成:
69、基于訓(xùn)練完成的流程生成模型,根據(jù)業(yè)務(wù)規(guī)則引擎輸出自動生成初步流程,所述初步流程包括信息流以及位于信息流兩側(cè)的流程塊;將生成的流程無縫轉(zhuǎn)換為標(biāo)準(zhǔn)bpmn格式,并自動添加流程圖、步驟描述、任務(wù)分配詳細(xì)信息;
70、流程文檔生成:
71、從bpmn流程模型中智能提取關(guān)鍵信息,并運(yùn)用自然語言生成技術(shù)將流程信息轉(zhuǎn)換為易懂的文本描述;生成的文本會自動填充到相應(yīng)的文檔模板中;引入人工審核機(jī)制,以確保文檔的準(zhǔn)確性和完整性。
72、可視化流程設(shè)計(jì):
73、采用vue.js和elementuiweb技術(shù),設(shè)置可視化流程設(shè)計(jì)器;可視化流程設(shè)計(jì)器支持拖拽式操作并提供實(shí)時預(yù)覽功能,動態(tài)顯示流程圖。
74、另一方面,本技術(shù)還公開了一種基于大模型的政務(wù)流程自動化處理系統(tǒng),包括如下模塊:
75、信息獲取模塊,用于獲取原有政務(wù)流程并獲得分解得到的流程塊以及在流程塊之間的信息流以及獲取增補(bǔ)信息;
76、對比模塊,用于將原有政務(wù)流程與增補(bǔ)信息進(jìn)行對比得到區(qū)隔部分;
77、更新模塊,用于根據(jù)區(qū)隔部分得到變化流程塊以及變化信息流,按照信息流發(fā)生變化的位置將新的流程塊以及信息流插入到原有政務(wù)流程當(dāng)中得到新政務(wù)流程。
78、本技術(shù)能夠帶來如下有益效果:
79、1.本技術(shù)采用對比分析的方式獲得原有政務(wù)流程和增補(bǔ)信息的區(qū)隔部分,并進(jìn)行精確調(diào)整,從而可以實(shí)時的對于政務(wù)流程進(jìn)行更新處理,以更好的利用政務(wù)流程變動連續(xù)性的特點(diǎn)并作出有效調(diào)整。
80、2.本技術(shù)基于本技術(shù)利用的流程塊和信息流的分析方式,采用順序結(jié)構(gòu)能夠更好的進(jìn)行自動化更新,而由于計(jì)算機(jī)本身具有順序執(zhí)行能力的多少并不過分影響其處理效率的特點(diǎn),從而在不影響處理效率的前提下還能保證流程更新時的更新效率以及更新結(jié)構(gòu)的可靠性,實(shí)際上也是利用了政務(wù)流程變動連續(xù)性的特點(diǎn)。
81、3.本技術(shù)采用預(yù)審查的方式是為了避免新政務(wù)流程存在的潛在風(fēng)險以及不可執(zhí)行性,能夠盡可能的在前期就完成對于不可執(zhí)行風(fēng)險或者執(zhí)行效率低等缺點(diǎn)的規(guī)避。