本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、對(duì)于非結(jié)構(gòu)化文本,無(wú)法進(jìn)行結(jié)構(gòu)化描述,操作和查詢都只能作為一段文字來(lái)處理,因此,對(duì)于非結(jié)構(gòu)化文本的文本內(nèi)容提取變的尤為重要。
2、目前,在現(xiàn)有技術(shù)中,對(duì)于非結(jié)構(gòu)化文本的文本內(nèi)容提取方法通常是采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法直接進(jìn)行信息提取,這兩種模型的缺點(diǎn)是在訓(xùn)練過(guò)程中,訓(xùn)練時(shí)間長(zhǎng)度與文本內(nèi)容的長(zhǎng)度正相關(guān),文本的長(zhǎng)度越長(zhǎng)、模型訓(xùn)練時(shí)間越長(zhǎng),且當(dāng)文本越長(zhǎng),會(huì)導(dǎo)致提取的準(zhǔn)確度降低。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法進(jìn)行提取導(dǎo)致提取的使用感下降以及提取的準(zhǔn)確度降低的缺陷,實(shí)現(xiàn)基于構(gòu)建的用于對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的結(jié)構(gòu)化分析大模型,對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分析,不考慮非結(jié)構(gòu)化文本數(shù)據(jù)的長(zhǎng)度,得到結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度,再進(jìn)一步通過(guò)結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度綜合確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果,提升提取的準(zhǔn)確性。
2、本發(fā)明提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,包括如下步驟。
3、獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性。
4、將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型。
5、根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息。
6、根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。
7、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,獲取非結(jié)構(gòu)化文本數(shù)據(jù),包括:獲取初始化非結(jié)構(gòu)文本數(shù)據(jù);對(duì)初始化非結(jié)構(gòu)文本數(shù)據(jù)進(jìn)行清洗處理,得到非結(jié)構(gòu)化文本數(shù)據(jù)。
8、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,結(jié)構(gòu)化分析大模型的訓(xùn)練過(guò)程包括如下:獲取非結(jié)構(gòu)化樣本數(shù)據(jù);根據(jù)非結(jié)構(gòu)化樣本數(shù)據(jù)確定非結(jié)構(gòu)化訓(xùn)練集和非結(jié)構(gòu)化測(cè)試集;將非結(jié)構(gòu)化訓(xùn)練集輸入基礎(chǔ)分析大模型,得到基礎(chǔ)分析大模型輸入的分析結(jié)果;基于分析結(jié)果對(duì)基礎(chǔ)分析大模型進(jìn)行模型微調(diào),得到初始結(jié)構(gòu)化分析大模型;將非結(jié)構(gòu)化測(cè)試集輸入初始結(jié)構(gòu)化分析大模型,得到初始結(jié)構(gòu)化分析大模型輸出的評(píng)估結(jié)果;在評(píng)估結(jié)果滿足預(yù)設(shè)閾值的情況下,得到結(jié)構(gòu)化分析大模型。
9、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度,包括:將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中的文本分類器中,得到文本分類器輸出的文本分類結(jié)果;將文本分類結(jié)果輸入結(jié)構(gòu)化分析大模型中的信息提取器中,得到信息提取器輸出的結(jié)構(gòu)化分析結(jié)果;將結(jié)構(gòu)化分析結(jié)果輸入結(jié)構(gòu)化分析大模型中的標(biāo)簽分類器中,得到標(biāo)簽分類器輸出的分類標(biāo)簽準(zhǔn)確度。
10、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息,包括:確定結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽是否屬于實(shí)體標(biāo)準(zhǔn)屬性;在結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽屬于實(shí)體標(biāo)準(zhǔn)屬性的情況下,確定屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽為數(shù)據(jù)補(bǔ)充屬性信息;在結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽不屬于實(shí)體標(biāo)準(zhǔn)屬性的情況下,根據(jù)不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)候選屬性信息。
11、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,根據(jù)不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)候選屬性信息,包括:確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度是否大于或者等于預(yù)設(shè)準(zhǔn)確度;其中,預(yù)設(shè)準(zhǔn)確度為預(yù)先設(shè)定的用于判斷分類標(biāo)簽準(zhǔn)確度的準(zhǔn)確度;在確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度大于或者等于預(yù)設(shè)準(zhǔn)確度的情況下,確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽為數(shù)據(jù)候選屬性信息。
12、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,還包括:在確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度的情況下,確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽異常,確定異常信息;其中,異常信息用于提示非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行數(shù)據(jù)提取異常。
13、本發(fā)明還提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取裝置,包括如下模塊。
14、數(shù)據(jù)獲取模塊,用于獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性。
15、結(jié)果輸出模塊,用于將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型。
16、信息確定模塊,用于根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息。
17、結(jié)果確定模塊,用于根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。
18、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。
19、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。
20、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。
21、本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過(guò)獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性;將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型;根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息;根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。本發(fā)明的技術(shù)方案,用以解決現(xiàn)有技術(shù)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法進(jìn)行提取導(dǎo)致提取的使用感下降以及提取的準(zhǔn)確度降低的缺陷,實(shí)現(xiàn)基于構(gòu)建的用于對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的結(jié)構(gòu)化分析大模型,對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分析,得到結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度,再進(jìn)一步通過(guò)結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度綜合確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果,提升提取的準(zhǔn)確性。