欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

文檔序號(hào):40593170發(fā)布日期:2025-01-07 20:33閱讀:8來(lái)源:國(guó)知局
非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)與流程

本發(fā)明涉及數(shù)據(jù)處理,尤其涉及一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。


背景技術(shù):

1、對(duì)于非結(jié)構(gòu)化文本,無(wú)法進(jìn)行結(jié)構(gòu)化描述,操作和查詢都只能作為一段文字來(lái)處理,因此,對(duì)于非結(jié)構(gòu)化文本的文本內(nèi)容提取變的尤為重要。

2、目前,在現(xiàn)有技術(shù)中,對(duì)于非結(jié)構(gòu)化文本的文本內(nèi)容提取方法通常是采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法直接進(jìn)行信息提取,這兩種模型的缺點(diǎn)是在訓(xùn)練過(guò)程中,訓(xùn)練時(shí)間長(zhǎng)度與文本內(nèi)容的長(zhǎng)度正相關(guān),文本的長(zhǎng)度越長(zhǎng)、模型訓(xùn)練時(shí)間越長(zhǎng),且當(dāng)文本越長(zhǎng),會(huì)導(dǎo)致提取的準(zhǔn)確度降低。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),用以解決現(xiàn)有技術(shù)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法進(jìn)行提取導(dǎo)致提取的使用感下降以及提取的準(zhǔn)確度降低的缺陷,實(shí)現(xiàn)基于構(gòu)建的用于對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的結(jié)構(gòu)化分析大模型,對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分析,不考慮非結(jié)構(gòu)化文本數(shù)據(jù)的長(zhǎng)度,得到結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度,再進(jìn)一步通過(guò)結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度綜合確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果,提升提取的準(zhǔn)確性。

2、本發(fā)明提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,包括如下步驟。

3、獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性。

4、將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型。

5、根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息。

6、根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。

7、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,獲取非結(jié)構(gòu)化文本數(shù)據(jù),包括:獲取初始化非結(jié)構(gòu)文本數(shù)據(jù);對(duì)初始化非結(jié)構(gòu)文本數(shù)據(jù)進(jìn)行清洗處理,得到非結(jié)構(gòu)化文本數(shù)據(jù)。

8、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,結(jié)構(gòu)化分析大模型的訓(xùn)練過(guò)程包括如下:獲取非結(jié)構(gòu)化樣本數(shù)據(jù);根據(jù)非結(jié)構(gòu)化樣本數(shù)據(jù)確定非結(jié)構(gòu)化訓(xùn)練集和非結(jié)構(gòu)化測(cè)試集;將非結(jié)構(gòu)化訓(xùn)練集輸入基礎(chǔ)分析大模型,得到基礎(chǔ)分析大模型輸入的分析結(jié)果;基于分析結(jié)果對(duì)基礎(chǔ)分析大模型進(jìn)行模型微調(diào),得到初始結(jié)構(gòu)化分析大模型;將非結(jié)構(gòu)化測(cè)試集輸入初始結(jié)構(gòu)化分析大模型,得到初始結(jié)構(gòu)化分析大模型輸出的評(píng)估結(jié)果;在評(píng)估結(jié)果滿足預(yù)設(shè)閾值的情況下,得到結(jié)構(gòu)化分析大模型。

9、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度,包括:將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中的文本分類器中,得到文本分類器輸出的文本分類結(jié)果;將文本分類結(jié)果輸入結(jié)構(gòu)化分析大模型中的信息提取器中,得到信息提取器輸出的結(jié)構(gòu)化分析結(jié)果;將結(jié)構(gòu)化分析結(jié)果輸入結(jié)構(gòu)化分析大模型中的標(biāo)簽分類器中,得到標(biāo)簽分類器輸出的分類標(biāo)簽準(zhǔn)確度。

10、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息,包括:確定結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽是否屬于實(shí)體標(biāo)準(zhǔn)屬性;在結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽屬于實(shí)體標(biāo)準(zhǔn)屬性的情況下,確定屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽為數(shù)據(jù)補(bǔ)充屬性信息;在結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽不屬于實(shí)體標(biāo)準(zhǔn)屬性的情況下,根據(jù)不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)候選屬性信息。

11、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,根據(jù)不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)候選屬性信息,包括:確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度是否大于或者等于預(yù)設(shè)準(zhǔn)確度;其中,預(yù)設(shè)準(zhǔn)確度為預(yù)先設(shè)定的用于判斷分類標(biāo)簽準(zhǔn)確度的準(zhǔn)確度;在確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度大于或者等于預(yù)設(shè)準(zhǔn)確度的情況下,確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽為數(shù)據(jù)候選屬性信息。

12、根據(jù)本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法,還包括:在確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度小于預(yù)設(shè)準(zhǔn)確度的情況下,確定不屬于實(shí)體標(biāo)準(zhǔn)屬性的結(jié)構(gòu)化分析結(jié)果中的分類標(biāo)簽異常,確定異常信息;其中,異常信息用于提示非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行數(shù)據(jù)提取異常。

13、本發(fā)明還提供一種非結(jié)構(gòu)化的數(shù)據(jù)提取裝置,包括如下模塊。

14、數(shù)據(jù)獲取模塊,用于獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性。

15、結(jié)果輸出模塊,用于將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型。

16、信息確定模塊,用于根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息。

17、結(jié)果確定模塊,用于根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。

18、本發(fā)明還提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,處理器執(zhí)行計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。

19、本發(fā)明還提供一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。

20、本發(fā)明還提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上述任一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法。

21、本發(fā)明提供的一種非結(jié)構(gòu)化的數(shù)據(jù)提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì),通過(guò)獲取非結(jié)構(gòu)化文本數(shù)據(jù),并確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的實(shí)體標(biāo)準(zhǔn)屬性;將非結(jié)構(gòu)化文本數(shù)據(jù)輸入結(jié)構(gòu)化分析大模型中,得到結(jié)構(gòu)化分析大模型輸出的結(jié)構(gòu)化分析結(jié)果和結(jié)構(gòu)化分析結(jié)果對(duì)應(yīng)的分類標(biāo)簽準(zhǔn)確度;其中,結(jié)構(gòu)化分析大模型是用于對(duì)長(zhǎng)度不限的非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的模型;根據(jù)實(shí)體標(biāo)準(zhǔn)屬性、結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度確定數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息;其中,補(bǔ)充屬性信息是指基于實(shí)體標(biāo)準(zhǔn)屬性對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后確定的屬性信息,數(shù)據(jù)候選屬性信息是指基于分類標(biāo)簽準(zhǔn)確度對(duì)結(jié)構(gòu)化分析結(jié)果進(jìn)行分析后的屬性信息;根據(jù)數(shù)據(jù)補(bǔ)充屬性信息和數(shù)據(jù)候選屬性信息確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果。本發(fā)明的技術(shù)方案,用以解決現(xiàn)有技術(shù)中采用循環(huán)神經(jīng)網(wǎng)絡(luò)或者長(zhǎng)短期記憶方法進(jìn)行提取導(dǎo)致提取的使用感下降以及提取的準(zhǔn)確度降低的缺陷,實(shí)現(xiàn)基于構(gòu)建的用于對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行文本分類和信息提取的結(jié)構(gòu)化分析大模型,對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行分析,得到結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度,再進(jìn)一步通過(guò)結(jié)構(gòu)化分析結(jié)果和分類標(biāo)簽準(zhǔn)確度綜合確定非結(jié)構(gòu)化文本數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提取結(jié)果,提升提取的準(zhǔn)確性。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
依安县| 宁明县| 花垣县| 浦北县| 大同县| 兰坪| 邹城市| 天等县| 芜湖市| 碌曲县| 淮南市| 台东县| 集贤县| 南丰县| 张家口市| 江津市| 鱼台县| 新兴县| 南郑县| 盐源县| 友谊县| 浦江县| 同仁县| 蕉岭县| 云阳县| 浏阳市| 刚察县| 青海省| 清远市| 东明县| 前郭尔| 汤阴县| 尉犁县| 敦煌市| 融水| 江油市| 醴陵市| 进贤县| 西贡区| 巴林右旗| 玉龙|