欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種卷宗關(guān)鍵信息抽取方法與流程

文檔序號(hào):40563864發(fā)布日期:2025-01-03 11:24閱讀:11來(lái)源:國(guó)知局
一種卷宗關(guān)鍵信息抽取方法與流程

本發(fā)明涉及軟件,具體涉及一種卷宗關(guān)鍵信息抽取方法。


背景技術(shù):

1、目前,公司處理大量的卷宗文檔,其中包含了大量的關(guān)鍵信息,如項(xiàng)目名稱、當(dāng)事人信息等,這些信息對(duì)用戶信息回填、無(wú)紙化辦公等工作至關(guān)重要。然而,由于這些信息分散在材料文檔的不同部分,且材料文檔格式各異,傳統(tǒng)的人工處理方式效率低下,容易出現(xiàn)錯(cuò)誤。而傳統(tǒng)的基于正則抽取由于材料的多樣性維護(hù)和開發(fā)成本極高,魯棒性差,準(zhǔn)確率低。


技術(shù)實(shí)現(xiàn)思路

1、針對(duì)上述問(wèn)題,本發(fā)明提供了一種卷宗關(guān)鍵信息抽取方法,旨在高效、精準(zhǔn)的從大量非標(biāo)的卷宗材料中提取出有用的關(guān)鍵信息。為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:

2、一種卷宗關(guān)鍵信息抽取方法,包括以下步驟:

3、s1:根據(jù)要抽取關(guān)鍵信息的卷宗類型,設(shè)置需要抽取的關(guān)鍵信息的表達(dá)形式;

4、s2:對(duì)長(zhǎng)度可能超過(guò)長(zhǎng)度閾值的關(guān)鍵信息,制定正則抽取規(guī)則;對(duì)長(zhǎng)度不可能超過(guò)長(zhǎng)度閾值的關(guān)鍵信息,訓(xùn)練深度學(xué)習(xí)模型抽取關(guān)鍵信息;長(zhǎng)度不可能超過(guò)長(zhǎng)度閾的關(guān)鍵信息,如果在卷宗中表述統(tǒng)一或者有前后文字特征,則也制定正則抽取規(guī)則;

5、s3:在對(duì)卷宗抽取過(guò)程中,對(duì)只存在正則抽取規(guī)則的關(guān)鍵信息,使用正則抽取規(guī)則抽取;

6、對(duì)只存在深度學(xué)習(xí)模型的關(guān)鍵信息,使用深度學(xué)習(xí)模型抽取關(guān)鍵信息;

7、對(duì)同時(shí)存在深度學(xué)習(xí)模型與正則抽取規(guī)則的關(guān)鍵信息,優(yōu)先使用深度學(xué)習(xí)模型抽取,當(dāng)抽取失敗或者收到用戶反饋的關(guān)鍵信息抽取錯(cuò)誤時(shí),使用正則抽取規(guī)則進(jìn)行二次抽??;

8、根據(jù)關(guān)鍵信息的表達(dá)形式,將提取的關(guān)鍵信息展示給用戶。

9、優(yōu)選的,還包括步驟:

10、s4:對(duì)卷宗抽取過(guò)程產(chǎn)生的關(guān)鍵信息進(jìn)行錯(cuò)誤修正、存儲(chǔ),并以此定期更新正則抽取規(guī)則、深度學(xué)習(xí)模型。

11、優(yōu)選的,關(guān)鍵信息的表達(dá)形式用schema結(jié)構(gòu)的形式去表述;

12、優(yōu)選的,深度學(xué)習(xí)模型為bert。

13、優(yōu)選的,長(zhǎng)度閾值為400個(gè)漢字的長(zhǎng)度。

14、有益效果:本發(fā)明結(jié)合了正則抽取與深度學(xué)習(xí)模型抽取,適應(yīng)性更強(qiáng),大大節(jié)省了從卷宗獲取關(guān)鍵信息的人力成本。



技術(shù)特征:

1.一種卷宗關(guān)鍵信息抽取方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,還包括步驟:

3.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,關(guān)鍵信息的表達(dá)形式用schema結(jié)構(gòu)的形式去表述。

4.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,深度學(xué)習(xí)模型為bert。

5.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,長(zhǎng)度閾值為400個(gè)漢字的長(zhǎng)度。


技術(shù)總結(jié)
本發(fā)明涉及軟件技術(shù)領(lǐng)域,具體涉及一種卷宗關(guān)鍵信息抽取方法。方法包括以下步驟:根據(jù)要抽取關(guān)鍵信息的卷宗類型,設(shè)置需要抽取的關(guān)鍵信息的表達(dá)形式;根據(jù)關(guān)鍵信息的特爾點(diǎn),制定正則抽取規(guī)則或者訓(xùn)練深度學(xué)習(xí)模型抽取關(guān)鍵信息;在對(duì)卷宗抽取過(guò)程中,優(yōu)先使用深度學(xué)習(xí)模型抽取關(guān)鍵信息;使用正則抽取規(guī)則作為補(bǔ)充;根據(jù)關(guān)鍵信息的表達(dá)形式,將提取的關(guān)鍵信息展示給用戶。本發(fā)明結(jié)合了正則抽取與深度學(xué)習(xí)模型抽取,適應(yīng)性更強(qiáng),大大節(jié)省了從卷宗獲取關(guān)鍵信息的人力成本。

技術(shù)研發(fā)人員:許衡,吳云朝,王池
受保護(hù)的技術(shù)使用者:南京通達(dá)海軟件有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
隆尧县| 海门市| 阿克苏市| 泰和县| 曲阜市| 饶平县| 于都县| 府谷县| 鄂伦春自治旗| 巴塘县| 新野县| 库车县| 通许县| 长宁县| 甘孜县| 盐津县| 博客| 大洼县| 循化| 贵德县| 吉林省| 安仁县| 乐至县| 常宁市| 平遥县| 丹江口市| 综艺| 县级市| 武冈市| 德兴市| 五莲县| 惠东县| 游戏| 郴州市| 敦煌市| 明水县| 古丈县| 建昌县| 庆城县| 安龙县| 延吉市|