一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)

文檔序號：40620615發(fā)布日期：2025-01-10 18:26閱讀：3來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)

背景技術(shù)：

1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和移動設(shè)備的廣泛普及，中文文本的生成和處理變得日益頻繁。在這個信息爆炸的時代，人們越來越依賴網(wǎng)絡(luò)和移動設(shè)備進(jìn)行溝通、學(xué)習(xí)和工作，這無疑增加了中文文本的生成和處理需求。由于中文漢字的數(shù)量龐大和拼音輸入法的靈活性，拼寫錯誤在中文文本中仍然是一個普遍存在的問題。拼寫錯誤不僅會影響文本的可讀性，還可能導(dǎo)致誤解和錯誤的決策。在學(xué)術(shù)研究、新聞報道、商業(yè)溝通等場合，準(zhǔn)確的文本表達(dá)至關(guān)重要。拼寫錯誤可能會改變原文的意思，導(dǎo)致讀者對信息的理解產(chǎn)生偏差，甚至可能對決策產(chǎn)生影響。因此，拼寫糾錯技術(shù)在中文文本處理中具有重要意義。

2、傳統(tǒng)的中文拼寫糾錯方法主要基于規(guī)則和字典匹配?；谝?guī)則的方法通過制定一系列拼寫規(guī)則來檢測和糾錯錯誤，而字典匹配方法則通過查找字典中的正確拼寫來糾錯錯誤。然而，這些方法往往依賴于人工制定的規(guī)則和字典的大小，難以覆蓋所有的拼寫錯誤情況。為了解決這些問題，研究者們開始采用深度學(xué)習(xí)技術(shù)，并取得了不錯的結(jié)果。在這些基于深度學(xué)習(xí)的方法中，研究者們通常會將中文文本轉(zhuǎn)換為字符序列，然后使用神經(jīng)網(wǎng)絡(luò)模型對字符序列進(jìn)行建模。模型會學(xué)習(xí)到字符之間的依賴關(guān)系，從而能夠識別出拼寫錯誤，并生成正確的拼寫。此外，一些方法還會結(jié)合語言模型，通過計(jì)算字符序列的概率來評估其正確性，并選擇概率最高的序列作為正確的拼寫。

3、在中文文本中，實(shí)體信息占據(jù)著至關(guān)重要的地位，通常涉及具有特定意義的名詞或名詞短語，如人名、地名、組織名等。在中文拼寫糾錯的任務(wù)中，確保實(shí)體的正確性對于整個句子的理解和表達(dá)至關(guān)重要。但是，現(xiàn)有的中文拼寫糾錯方法尚未充分整合語料中所蘊(yùn)含的實(shí)體信息，這在實(shí)體糾錯方面導(dǎo)致了性能上的不足。因此，如何高效地利用實(shí)體信息以提升中文拼寫糾錯方法的性能，已成為當(dāng)前研究的一個熱點(diǎn)問題。

技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明要解決的技術(shù)問題是：本發(fā)明提供基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)，解決了現(xiàn)有的拼寫糾錯方法尚未充分整合語料中所蘊(yùn)含的實(shí)體信息在實(shí)體糾錯方面導(dǎo)致了性能上的不足的問題，本發(fā)明提出了“實(shí)體信息隱藏-實(shí)體信息恢復(fù)-實(shí)體信息增強(qiáng)-實(shí)體信息融合”層次結(jié)構(gòu)，可以有效地讓預(yù)訓(xùn)練語言模型更加關(guān)注于實(shí)體信息，高效地利用實(shí)體信息提升了中文拼寫糾錯方法的性能。

2、本發(fā)明的技術(shù)方案是：第一方面。本發(fā)明提供一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法，所述方法的具體步驟如下：

3、步驟1、收集了公開可用的實(shí)體詞典，并對其覆蓋范圍進(jìn)行了擴(kuò)展。接著收集無標(biāo)注語料并進(jìn)行數(shù)據(jù)過濾，最后，通過人工標(biāo)注和命名實(shí)體識別模型來構(gòu)建專注實(shí)體的中文拼寫語料；

4、步驟2、在實(shí)體信息隱藏模塊中，利用三種不同的掩碼策略來隱藏專注實(shí)體的中文拼寫語料中的實(shí)體信息；

5、步驟3、將隱藏實(shí)體信息后的語料傳遞到實(shí)體信息恢復(fù)模塊，微調(diào)初始預(yù)訓(xùn)練語言模型，讓其關(guān)注于淺層的實(shí)體信息；

6、步驟4、將微調(diào)后的預(yù)訓(xùn)練語言模型傳輸?shù)綄?shí)體信息增強(qiáng)模塊，使用公開的中文語法糾錯語料進(jìn)一步微調(diào)實(shí)體信息恢復(fù)模型，進(jìn)一步增強(qiáng)模型中的實(shí)體信息；

7、步驟5、將不同預(yù)訓(xùn)練語言模型的結(jié)果傳遞到實(shí)體信息融合模塊，該方法通過對比不同模型之間的實(shí)體信息來融合實(shí)體信息，以進(jìn)一步提高模型的性能。

8、作為本發(fā)明的進(jìn)一步方案，所述步驟1包括如下具體步驟：

9、步驟1.1、實(shí)體詞典構(gòu)建：收集公開可用的實(shí)體詞典和維基百科上的結(jié)構(gòu)化實(shí)體；接著，利用命名實(shí)體識別模型來識別新聞和政務(wù)網(wǎng)站上的實(shí)體。最后，把不同來源的實(shí)體匯總到一起，過濾重復(fù)的實(shí)體以形成最終的實(shí)體詞典；

10、步驟1.2、無標(biāo)注語料獲取與過濾：從不同的新聞和政務(wù)網(wǎng)站上獲取無標(biāo)注語料，去除無意義的符號和限制句子的長度。最后，利用上采樣技術(shù)平衡語料中的拼寫錯誤的分布；

11、步驟1.3、專注實(shí)體的中文拼寫語料構(gòu)建：將清洗過后的語料進(jìn)行分詞并使用命名實(shí)體模型識別句子中的實(shí)體，利用混淆集來替換實(shí)體中的字符，以形成包含實(shí)體錯誤的語料。最后，利用雙重標(biāo)注和專家評審的策略標(biāo)注出專注實(shí)體的中文拼寫語料的驗(yàn)證集和測試集，簡稱為efcec；

12、作為本發(fā)明的進(jìn)一步方案，所述步驟2包括如下具體步驟：

13、步驟2.1、實(shí)體位置獲?。豪脤?shí)體識別模型來識別專注實(shí)體的中文拼寫糾錯語料中實(shí)體的位置；

14、步驟2.2、實(shí)體信息隱藏：設(shè)計(jì)三種不同的掩碼策略(靜態(tài)掩碼、全詞掩碼和n元掩碼)來隱藏實(shí)體中的實(shí)體信息；

15、作為本發(fā)明的進(jìn)一步方案，所述步驟3包括如下具體步驟：

16、步驟3.1、預(yù)訓(xùn)練語言模型獲?。翰捎胏hinese?bart和chinese?structbert作為初始預(yù)訓(xùn)練語言模型；

17、步驟3.2、實(shí)體信息恢復(fù)：利用進(jìn)行實(shí)體信息隱藏后的語料來微調(diào)上述兩個預(yù)訓(xùn)練語言模型的全部參數(shù)，以最小化語言模型的損失函數(shù)；

18、作為本發(fā)明的進(jìn)一步方案，所述步驟4包括如下具體步驟：

19、步驟4.1、實(shí)體模型初始化：將經(jīng)過實(shí)體信息恢復(fù)的預(yù)訓(xùn)練語言模型作為初始化seq2seq和seq2edit模型的全部參數(shù)；

20、步驟4.2、實(shí)體信息增強(qiáng)：利用公開可用的中文拼寫糾錯語料來微調(diào)初始化后的seq2seq和seq2edit模型，激活其拼寫糾錯能力，進(jìn)一步提高模型中的實(shí)體信息表征能力。

21、作為本發(fā)明的進(jìn)一步方案，所述步驟5包括如下具體步驟：

22、步驟5.1、實(shí)體增強(qiáng)模型選取：獲取實(shí)體信息增強(qiáng)后的seq2seq和seq2edit模型的結(jié)果，利用cherrant工具提取不同結(jié)果中的編輯操作；

23、步驟5.2、實(shí)體信息融合：利用多數(shù)投票策略來提高專注實(shí)體的拼寫錯誤糾錯模型的準(zhǔn)確性，并迭代地應(yīng)用編輯操作到錯誤句子中，以形成效果更佳的正確句子，并確保在應(yīng)用過程中不重復(fù)已進(jìn)行過的編輯操作。

24、第二方面，本發(fā)明實(shí)施例還提供了一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯裝置，該裝置包括用于執(zhí)行上述第一方面的方法的模塊。

25、第三方面，本發(fā)明實(shí)施例提供了另一種終端，包括處理器、通信接口、顯示屏和存儲器，所述處理器、通信接口、顯示屏和存儲器相互連接，其中，所述存儲器用于存儲支持終端執(zhí)行上述方法的計(jì)算機(jī)程序，所述計(jì)算機(jī)程序包括程序指令，所述處理器被配置用于調(diào)用所述程序指令，執(zhí)行上述第一方面的方法。

26、第四方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì)，所述計(jì)算機(jī)存儲介質(zhì)存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序包括程序指令，所述程序指令當(dāng)被處理器執(zhí)行時使所述處理器執(zhí)行上述第一方面的方法。

27、第五方面，本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品，其在計(jì)算機(jī)上運(yùn)行時，使得計(jì)算機(jī)執(zhí)行上述第一方面的方法。

28、本發(fā)明的有益效果是：

29、1、本發(fā)明構(gòu)建了專注實(shí)體的中文拼寫糾錯語料，簡稱為efcec。它不僅關(guān)注于單詞層面的拼寫錯誤，而是更加注重于實(shí)體層面的錯誤識別和糾錯。通過構(gòu)建該語料，可以更加深入地研究和理解預(yù)訓(xùn)練語言模型中的實(shí)體信息表征，從而推動相關(guān)領(lǐng)域的研究進(jìn)展。

30、2、本發(fā)明提出了“實(shí)體信息隱藏-實(shí)體信息恢復(fù)-實(shí)體信息增強(qiáng)-實(shí)體信息融合”層次結(jié)構(gòu)，可以有效提高模型對實(shí)體信息的關(guān)注度，并通過分階段的訓(xùn)練方法，增強(qiáng)了模型的泛化能力和魯棒性。

31、3、本發(fā)明在三個標(biāo)準(zhǔn)公共中文拼寫糾錯數(shù)據(jù)集以及本發(fā)明構(gòu)建的數(shù)據(jù)集上進(jìn)行了充分的實(shí)驗(yàn)，驗(yàn)證了該方法的有效性。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李英,劉枵,余正濤,高盛祥
技術(shù)所有人：昆明理工大學(xué)
我是此專利的發(fā)明人

上一篇：一種母粒的冷卻切料機(jī)構(gòu)的制作方法
上一篇：一種適于多場景使用的灌藥充氣機(jī)

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)

一種基于實(shí)體信息增強(qiáng)的中文拼寫糾錯方法、裝置、計(jì)算機(jī)可讀存儲介質(zhì)