本發(fā)明涉及語義分析領(lǐng)域,特別涉及基于初始知識(shí)庫通過語義理解自動(dòng)補(bǔ)充知識(shí)永續(xù)學(xué)習(xí)裝置。
背景技術(shù):
1、隨著自然語言處理和人工智能技術(shù)的快速發(fā)展,預(yù)訓(xùn)練的大規(guī)模語言模型在語言理解、問答、對(duì)話、文本生成等任務(wù)上取得了突破性進(jìn)展,知識(shí)庫是知識(shí)工程中結(jié)構(gòu)化,易操作,易利用,全面有組織的知識(shí)集群,是針對(duì)某一(或某些)領(lǐng)域問題求解的需要,采用某種(或若干)知識(shí)表示方式在計(jì)算機(jī)存儲(chǔ)器中存儲(chǔ)、組織、管理和使用的互相聯(lián)系的知識(shí)片集合。
2、在實(shí)際使用過程中,知識(shí)庫內(nèi)容有限,接入知識(shí)庫的內(nèi)容有限,無法對(duì)接業(yè)務(wù)系統(tǒng);也無法控制導(dǎo)入到知識(shí)庫模型的范圍內(nèi)容,無法持續(xù)補(bǔ)充內(nèi)容,影響用戶體驗(yàn)感。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種基于初始知識(shí)庫通過語義理解自動(dòng)補(bǔ)充知識(shí)永續(xù)學(xué)習(xí)裝置,以解決上述背景技術(shù)中提出的問題。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:基于初始知識(shí)庫通過語義理解自動(dòng)補(bǔ)充知識(shí)永續(xù)學(xué)習(xí)裝置,其特征在于:包括文件管理模塊、知識(shí)規(guī)則管理模塊、語義理解模塊、任務(wù)調(diào)度模塊、知識(shí)拓展模塊、知識(shí)審批模塊、知識(shí)存儲(chǔ)模塊、系統(tǒng)展示模塊,
3、所述文件管理模塊將初始化或者已知的少量文件導(dǎo)入模型中,并標(biāo)識(shí)文件的來源之類的信息內(nèi)容;
4、所述知識(shí)規(guī)則管理模塊用于設(shè)定實(shí)體以及要素對(duì)應(yīng)的任務(wù)規(guī)則,其中實(shí)體和要素從文件管理模塊已有的文件中推理所得;
5、所述語義理解模塊對(duì)模型中的知識(shí)文件進(jìn)行語義的分析,獲取知識(shí)推理的內(nèi)容,將推理的內(nèi)容進(jìn)行結(jié)構(gòu)化轉(zhuǎn)換獲取到對(duì)應(yīng)的實(shí)體或者要素信息;
6、所述任務(wù)調(diào)度模塊將匹配到的實(shí)體屬性信息與知識(shí)規(guī)則管理模塊中的規(guī)則進(jìn)行相似度匹配,并調(diào)用對(duì)應(yīng)的規(guī)則任務(wù);
7、所述知識(shí)拓展模塊將任務(wù)調(diào)度模塊中獲取的信息,按照不同的方式進(jìn)行處理,擴(kuò)展知識(shí)庫時(shí)根據(jù)要求進(jìn)行多次反復(fù)學(xué)習(xí);
8、所述知識(shí)審批模塊將獲取到的信息轉(zhuǎn)換后形成的文件進(jìn)行統(tǒng)一匯總并審批;
9、所述知識(shí)存儲(chǔ)模塊將獲取到的文件按照推理拓展的過程進(jìn)行層次化的管理并存儲(chǔ);
10、所述系統(tǒng)展示模塊用于將各個(gè)模塊的內(nèi)容和成果的展現(xiàn)。
11、優(yōu)選的,所述文件管理模塊將初始文件導(dǎo)入問答模型中,初始文件導(dǎo)入的方式包括對(duì)接業(yè)務(wù)系統(tǒng)或者手動(dòng)上傳的文件;文件導(dǎo)入時(shí)需要同步文件進(jìn)行分類、加工處理;將各類文件轉(zhuǎn)化為ofd文件或其他文件格式;處理方式包括ocr識(shí)別,音視頻文字識(shí)別、各種波形識(shí)別、文檔內(nèi)容批補(bǔ)充處理;該模塊將文件來源存入數(shù)據(jù)庫中,將每次入庫的文件來源按層級(jí)匯總放入數(shù)據(jù)庫中,以便于展現(xiàn)模塊調(diào)用查詢。
12、優(yōu)選的,所述知識(shí)規(guī)則管理模塊是用于設(shè)定用戶所需通過該裝置獲取信息的規(guī)則,該規(guī)則表現(xiàn)為要素,能是一個(gè)字、一個(gè)語句、一個(gè)段落、一個(gè)文本。
13、優(yōu)選的,所述語義理解模塊根據(jù)知識(shí)庫管理規(guī)則,逐個(gè)要素的對(duì)知識(shí)庫現(xiàn)有的文件進(jìn)行語義分析,語義理解模塊將已經(jīng)獲得的成果推送到任務(wù)調(diào)度模塊,這些成果是以xml、json格式輸出,并同步驗(yàn)證其準(zhǔn)確性,若輸出結(jié)果存在錯(cuò)誤,則重新推理、問答n遍,調(diào)整閾值的方式對(duì)原有的文件重新進(jìn)行語義理解,最后通過對(duì)正確的xml、json的解析,獲得key、value形式的數(shù)據(jù),key用于展示實(shí)體的屬性,value表示屬性對(duì)應(yīng)的值,對(duì)于未能獲得成果的規(guī)則要素以0或者空的值推送給任務(wù)調(diào)度模塊。
14、優(yōu)選的,所述任務(wù)調(diào)度模塊是指用戶在設(shè)置知識(shí)庫管理規(guī)則的同時(shí)逐個(gè)要素的配置對(duì)應(yīng)的任務(wù)工具,這些任務(wù)工具包括接口、數(shù)據(jù)共享交換工具、rpa數(shù)據(jù)機(jī)器人;調(diào)度任務(wù)時(shí),根據(jù)不同的任務(wù)類型調(diào)用不同的任務(wù);其中任務(wù)調(diào)度模塊支持多線程進(jìn)行并發(fā)獲取,若傳過來的值為0或者空時(shí),則不執(zhí)行任務(wù);這些任務(wù)后獲取的文件數(shù)據(jù)報(bào)告、文本文件、知識(shí)內(nèi)容,將該內(nèi)容推送到知識(shí)庫拓展模塊中。
15、優(yōu)選的,所述知識(shí)拓展模塊是將任務(wù)調(diào)度中獲取的信息,根據(jù)不同的類型,設(shè)定不同的方式進(jìn)行處理,
16、當(dāng)獲取的信息是數(shù)據(jù),將信息解析為非結(jié)構(gòu)化內(nèi)容,并將轉(zhuǎn)換后的數(shù)據(jù)寫到文件中。轉(zhuǎn)換時(shí)?將json、xml自描述的數(shù)據(jù)格式,將內(nèi)容按照key、value的形式描述并展示;
17、當(dāng)獲取的信息是文件,將文件進(jìn)行處理,針對(duì)不同的文件格式進(jìn)行按照不同的規(guī)則進(jìn)行處理,若為掃描件則進(jìn)行ocr對(duì)文件進(jìn)行加工生成雙層帶有(文字的)文件;
18、當(dāng)獲取的信息是鏈接,自動(dòng)將獲得的html鏈接,保存為本地的html文件;
19、所述知識(shí)拓展模塊將上述的文件導(dǎo)入到文件庫中,并標(biāo)記文件的具體來源;
20、知識(shí)拓展時(shí),支持設(shè)定相同問題的問答次數(shù),達(dá)到設(shè)定次數(shù)后,獲取多次問答的問題主體,自動(dòng)補(bǔ)充文件內(nèi)容補(bǔ)充知識(shí)庫。
21、優(yōu)選的,所述的知識(shí)審批模塊是本裝置的管理模塊,不僅針對(duì)補(bǔ)充的文件信息,支持設(shè)置不同的入庫關(guān)系,設(shè)定自動(dòng)加入知識(shí)庫,或者設(shè)置需要審核后,同步加入知識(shí)庫,還具備該裝置運(yùn)行所需要的身份信息、數(shù)字證書、權(quán)限管理、過濾策略、加密方法的功能。
22、優(yōu)選的,所述知識(shí)存儲(chǔ)模塊對(duì)文件進(jìn)行統(tǒng)一匯總時(shí),將不同的來源推理補(bǔ)寫的文件之間存在的關(guān)聯(lián)關(guān)系設(shè)定來源樹形關(guān)系,自動(dòng)補(bǔ)充的文件庫。
23、優(yōu)選的,所述系統(tǒng)展示模塊是本裝置各個(gè)模塊的內(nèi)容和成果的展現(xiàn),展示的文件支持按照文件的推理過程進(jìn)行層次化展示,展示的文件標(biāo)明來源參照用于追溯核實(shí)。
24、基于初始知識(shí)庫通過語義理解自動(dòng)補(bǔ)充知識(shí)永續(xù)學(xué)習(xí)裝置,其特征在于,包括以下步驟:
25、步驟s1:將初始化或者已知文件導(dǎo)入模型中,知識(shí)規(guī)則管理模塊從文件中將實(shí)體信息或關(guān)系信息抽取出來,并在文件上標(biāo)識(shí)對(duì)應(yīng)的信息內(nèi)容;
26、步驟s2:將知識(shí)庫的文件導(dǎo)入到模型中,對(duì)文件進(jìn)行向量分析;
27、步驟s3:任務(wù)預(yù)制調(diào)度模塊將文件問答模塊中匹配到的實(shí)體屬性信息與知識(shí)規(guī)則管理模塊中的規(guī)則進(jìn)行相似度匹配,將任務(wù)調(diào)度中的內(nèi)容,將獲取到的信息,按照不同的方式進(jìn)行處理;
28、步驟s4:將獲取到的文件按照推理拓展的過程進(jìn)行層次化的管理并存儲(chǔ),并將獲取到的信息轉(zhuǎn)換后形成的文件進(jìn)行統(tǒng)一匯總;
29、步驟s5:將問答內(nèi)容標(biāo)明各種文件來源參照,推理展示的各個(gè)內(nèi)容能夠通過點(diǎn)擊回答內(nèi)容?回溯原文中,回溯時(shí),涉及到文件以合訂本的形式展示,并采用導(dǎo)覽的方式進(jìn)行匯總,切換點(diǎn)擊各個(gè)出處進(jìn)行跳轉(zhuǎn)閱讀,其中,如果文件為掃描件或者圖片時(shí),跳轉(zhuǎn)到ocr后的ofd文件進(jìn)行精準(zhǔn)匹配溯源,當(dāng)文件之間存在層級(jí)關(guān)系,支持多層展示追溯的內(nèi)容。
30、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
31、(1)本發(fā)明創(chuàng)造了一種機(jī)器學(xué)習(xí)的邏輯,生成了一種永續(xù)學(xué)習(xí)的裝置;
32、(2)本發(fā)明充分利用了ai推理技術(shù),完成了非結(jié)構(gòu)化文件中數(shù)據(jù)的提取,按照用戶所需要的邏輯來執(zhí)行新的學(xué)習(xí)任務(wù),從而對(duì)知識(shí)庫不斷擴(kuò)充用戶所需要的動(dòng)力;
33、(3)本發(fā)明基于用戶持續(xù)生產(chǎn)的應(yīng)用系統(tǒng)的匯聚,伴隨著用戶的應(yīng)用系統(tǒng)生產(chǎn)持續(xù)獲取內(nèi)容,送入本系統(tǒng)中,為永續(xù)學(xué)習(xí)提供了生態(tài)環(huán)境。
34、本發(fā)明將知識(shí)庫中補(bǔ)充的文件與原文形成層次的關(guān)聯(lián)關(guān)系,在問答時(shí),可以有效的進(jìn)行多文件之間的銜接處理,大大提高了文件知識(shí)庫之間的銜接關(guān)系。