本發(fā)明涉及軟件,具體涉及一種卷宗關(guān)鍵信息抽取方法。
背景技術(shù):
1、目前,公司處理大量的卷宗文檔,其中包含了大量的關(guān)鍵信息,如項(xiàng)目名稱、當(dāng)事人信息等,這些信息對(duì)用戶信息回填、無(wú)紙化辦公等工作至關(guān)重要。然而,由于這些信息分散在材料文檔的不同部分,且材料文檔格式各異,傳統(tǒng)的人工處理方式效率低下,容易出現(xiàn)錯(cuò)誤。而傳統(tǒng)的基于正則抽取由于材料的多樣性維護(hù)和開發(fā)成本極高,魯棒性差,準(zhǔn)確率低。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述問(wèn)題,本發(fā)明提供了一種卷宗關(guān)鍵信息抽取方法,旨在高效、精準(zhǔn)的從大量非標(biāo)的卷宗材料中提取出有用的關(guān)鍵信息。為實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案:
2、一種卷宗關(guān)鍵信息抽取方法,包括以下步驟:
3、s1:根據(jù)要抽取關(guān)鍵信息的卷宗類型,設(shè)置需要抽取的關(guān)鍵信息的表達(dá)形式;
4、s2:對(duì)長(zhǎng)度可能超過(guò)長(zhǎng)度閾值的關(guān)鍵信息,制定正則抽取規(guī)則;對(duì)長(zhǎng)度不可能超過(guò)長(zhǎng)度閾值的關(guān)鍵信息,訓(xùn)練深度學(xué)習(xí)模型抽取關(guān)鍵信息;長(zhǎng)度不可能超過(guò)長(zhǎng)度閾的關(guān)鍵信息,如果在卷宗中表述統(tǒng)一或者有前后文字特征,則也制定正則抽取規(guī)則;
5、s3:在對(duì)卷宗抽取過(guò)程中,對(duì)只存在正則抽取規(guī)則的關(guān)鍵信息,使用正則抽取規(guī)則抽取;
6、對(duì)只存在深度學(xué)習(xí)模型的關(guān)鍵信息,使用深度學(xué)習(xí)模型抽取關(guān)鍵信息;
7、對(duì)同時(shí)存在深度學(xué)習(xí)模型與正則抽取規(guī)則的關(guān)鍵信息,優(yōu)先使用深度學(xué)習(xí)模型抽取,當(dāng)抽取失敗或者收到用戶反饋的關(guān)鍵信息抽取錯(cuò)誤時(shí),使用正則抽取規(guī)則進(jìn)行二次抽??;
8、根據(jù)關(guān)鍵信息的表達(dá)形式,將提取的關(guān)鍵信息展示給用戶。
9、優(yōu)選的,還包括步驟:
10、s4:對(duì)卷宗抽取過(guò)程產(chǎn)生的關(guān)鍵信息進(jìn)行錯(cuò)誤修正、存儲(chǔ),并以此定期更新正則抽取規(guī)則、深度學(xué)習(xí)模型。
11、優(yōu)選的,關(guān)鍵信息的表達(dá)形式用schema結(jié)構(gòu)的形式去表述;
12、優(yōu)選的,深度學(xué)習(xí)模型為bert。
13、優(yōu)選的,長(zhǎng)度閾值為400個(gè)漢字的長(zhǎng)度。
14、有益效果:本發(fā)明結(jié)合了正則抽取與深度學(xué)習(xí)模型抽取,適應(yīng)性更強(qiáng),大大節(jié)省了從卷宗獲取關(guān)鍵信息的人力成本。
1.一種卷宗關(guān)鍵信息抽取方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,還包括步驟:
3.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,關(guān)鍵信息的表達(dá)形式用schema結(jié)構(gòu)的形式去表述。
4.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,深度學(xué)習(xí)模型為bert。
5.根據(jù)權(quán)利要求1所述的一種卷宗關(guān)鍵信息抽取方法,其特征在于,長(zhǎng)度閾值為400個(gè)漢字的長(zhǎng)度。