欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本校正方法和裝置的制造方法

文檔序號:9787380閱讀:421來源:國知局
文本校正方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本申請涉及計算機技術(shù)領(lǐng)域,具體涉及文本處理技術(shù)領(lǐng)域,尤其涉及文本校正方法和裝置。
【背景技術(shù)】
[0002]隨著人工智能技術(shù)的不斷發(fā)展,越來越多的服務(wù)或商品提供商開始建立智能服務(wù)交互系統(tǒng),以便24小時不間斷的為用戶提供所需要的咨詢或業(yè)務(wù)服務(wù)。通常用戶可以通過輸入文字信息與這類智能系統(tǒng)進行交互。但是,用戶所輸入的文字信息經(jīng)常會因為各種原因(例如,拼寫錯誤或按鍵錯誤)出現(xiàn)詞不達意的情況,而使得用戶無法從智能系統(tǒng)中獲取有效的幫助信息。因此,對用戶在智能交互系統(tǒng)中輸入的語句進行糾錯,是所有智能交互系統(tǒng)都必須解決的問題。
[0003]在現(xiàn)有技術(shù)中,主要通過預(yù)先配置的糾錯規(guī)則,對用戶輸入的文本進行校正。具體可以將所有命中糾錯規(guī)則的詞,全都校正為糾錯后的詞,例如,只要用戶輸入“優(yōu)惠卷”,就將其校正為“優(yōu)惠券”。由于這種糾錯規(guī)則中只能包括一定數(shù)量的固定詞匯,因此只能對部分特定詞匯進行校正。例如,只能將“ipone6”校正為“Iphone6”,而無法將“ipone6”校正為“Iphone”,也無法對“iphne6”、“iphon6”、“ipone6”等進行校正,因此導(dǎo)致文本校正的準確率和召回率都比較低。

【發(fā)明內(nèi)容】

[0004]本申請的目的在于提出一種文本校正方法和裝置,來解決以上【背景技術(shù)】部分提到的技術(shù)問題。
[0005]第一方面,本申請?zhí)峁┝艘环N文本校正方法,所述方法包括:接收用戶輸入的文本信息;通過第一語言模型確定出所述文本信息中的至少一個出錯詞;基于預(yù)定規(guī)則確定出與所述出錯詞對應(yīng)的候選詞;使用所述候選詞替換所述出錯詞,得到校正后的文本信息。
[0006]在一些實施例中,所述通過第一語言模型確定出所述文本信息中的至少一個出錯詞,包括:通過所述第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率;根據(jù)所述每個詞的出現(xiàn)概率,確定出所述文本信息中的至少一個出錯詞。
[0007]在一些實施例中,所述第一語言模型是通過以下方法得到的:獲取歷史文本信息;對所述歷史文本信息進行預(yù)處理,得到訓(xùn)練樣本;使用所述訓(xùn)練樣本進行語言模型訓(xùn)練,得到所述第一語言模型;其中,所述預(yù)處理包括文本過濾、切詞和泛化。
[0008]在一些實施例中,所述預(yù)處理還包括基于業(yè)務(wù)類型的分類;所述使用所述訓(xùn)練樣本進行語言模型訓(xùn)練,得到所述第一語言模型,包括:通過循環(huán)神經(jīng)網(wǎng)絡(luò)算法,對分類后的訓(xùn)練樣本分別進行語言模型訓(xùn)練,得到每個業(yè)務(wù)類型對應(yīng)的第一語言模型;所述通過所述第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率,包括:確定所述文本信息對應(yīng)的業(yè)務(wù)類型;通過與該業(yè)務(wù)類型對應(yīng)的第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率。
[0009]在一些實施例中,所述預(yù)定規(guī)則包括拼音規(guī)則、字形規(guī)則、編輯距離規(guī)則中的至少一項;所述文本校正方法還包括:若所述出錯詞對應(yīng)多個候選詞,通過第二語言模型分別計算每個候選詞的出現(xiàn)次數(shù);根據(jù)所述每個候選詞的出現(xiàn)次數(shù),從所述多個候選詞中選定至少一個待定候選詞;其中,所述第二語言模型是使用所述訓(xùn)練樣本對一元語言模型訓(xùn)練得到的。
[0010]在一些實施例中,所述使用所述候選詞替換所述出錯詞,得到校正后的文本信息,包括:分別使用每個所述待定候選詞替換所述出錯詞,得到至少一個待定文本信息;通過所述第一語言模型分別計算每個所述待定文本信息的出現(xiàn)概率;根據(jù)所述待定文本信息的出現(xiàn)概率,將一個待定文本信息確定為校正后的文本信息。
[0011]第二方面,本申請?zhí)峁┝艘环N文本校正裝置,所述裝置包括:接收模塊,用于接收用戶輸入的文本信息;出錯詞確定模塊,用于通過第一語言模型確定出所述文本信息中的至少一個出錯詞;候選詞確定模塊,用于基于預(yù)定規(guī)則確定出與所述出錯詞對應(yīng)的候選詞;校正模塊,用于使用所述候選詞替換所述出錯詞,得到校正后的文本信息。
[0012]在一些實施例中,所述出錯詞確定模塊進一步用于:通過所述第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率;根據(jù)所述每個詞的出現(xiàn)概率,確定出所述文本信息中的至少一個出錯詞。
[0013]在一些實施例中,所述第一語言模型是通過以下方法得到的:獲取歷史文本信息;對所述歷史文本信息進行預(yù)處理,得到訓(xùn)練樣本;使用所述訓(xùn)練樣本進行語言模型訓(xùn)練,得到所述第一語言模型;其中,所述預(yù)處理包括文本過濾、切詞和泛化。
[0014]在一些實施例中,所述預(yù)處理還包括基于業(yè)務(wù)類型的分類;所述使用所述訓(xùn)練樣本進行語言模型訓(xùn)練,得到所述第一語言模型,包括:通過循環(huán)神經(jīng)網(wǎng)絡(luò)算法,對分類后的訓(xùn)練樣本分別進行語言模型訓(xùn)練,得到每個業(yè)務(wù)類型對應(yīng)的第一語言模型;所述通過所述第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率,包括:確定所述文本信息對應(yīng)的業(yè)務(wù)類型;通過與該業(yè)務(wù)類型對應(yīng)的第一語言模型計算所述文本信息中每個詞的出現(xiàn)概率。
[0015]在一些實施例中,所述預(yù)定規(guī)則包括拼音規(guī)則、字形規(guī)則、編輯距離規(guī)則中的至少一項;所述文本校正裝置還包括:計算模塊,用于若所述出錯詞對應(yīng)多個候選詞,通過第二語言模型分別計算每個候選詞的出現(xiàn)次數(shù);選定模塊,用于根據(jù)所述每個候選詞的出現(xiàn)次數(shù),從所述多個候選詞中選定至少一個待定候選詞;其中,所述第二語言模型是使用所述訓(xùn)練樣本對一元語言模型訓(xùn)練得到的。
[0016]在一些實施例中,所述校正模塊進一步用于:分別使用每個所述待定候選詞替換所述出錯詞,得到至少一個待定文本信息;通過所述第一語言模型分別計算每個所述待定文本信息的出現(xiàn)概率;根據(jù)所述待定文本信息的出現(xiàn)概率,將一個待定文本信息確定為校正后的文本信息。
[0017]本申請?zhí)峁┑奈谋拘U椒ê脱b置,可以首先通過預(yù)先訓(xùn)練的第一語言模型從用戶輸入的文本信息中確定出至少一個出錯詞,然后根據(jù)預(yù)定規(guī)則確定出與出錯詞對應(yīng)的候選詞,最后使用候選詞替換出錯詞,以實現(xiàn)文本校正。通過預(yù)先訓(xùn)練的語言模型可以準確的確定出文本信息所要表達的用戶意圖,使得據(jù)此校正后的文本更加精準,從而提升了文本校正的準確率和召回率。
【附圖說明】
[0018]通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
[0019]圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0020]圖2是本申請文本校正方法的一個實施例的流程圖;
[0021 ]圖3是本申請文本校正方法的另一個實施例的流程圖;
[0022]圖4是本申請文本校正裝置的一個實施例的結(jié)構(gòu)示意圖;
[0023]圖5是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0024]下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0025]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
[0026]圖1示出了可以應(yīng)用本申請的文本校正方法或文本校正裝置的實施例的示例性系統(tǒng)架構(gòu)100。
[0027]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0028]用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如電子商務(wù)類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用、即時通信工具、郵箱客戶端、社交平臺軟件等。用戶可以在終端設(shè)備101、102、103上輸入文本信息,服務(wù)器105可以通過網(wǎng)絡(luò)104,接收由終端設(shè)備101、102、103發(fā)送的用戶輸入的文本信息。
[0029]終端設(shè)備101、102、103可以是各種電子設(shè)備,包括但不限于智能手機、平板電腦、電子書閱讀器、MP3播放器(Moving Picture Experts Group Aud1 Layer III,動態(tài)影像專家壓縮標準音頻層面3)、MP4(Moving Picture Experts Group Aud1 Layer IV,動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
[0030]服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對終端設(shè)備101、102、103上運行的應(yīng)用提供支持的后臺服務(wù)器。
[0031]需要說明的是,本申請實施例所提供的文本校正方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,文本校正裝置一般設(shè)置于服務(wù)器105中。
[0032]應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備
當前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
偏关县| 佳木斯市| 大埔县| 思茅市| 中牟县| 高碑店市| 松阳县| 博野县| 邻水| 禹州市| 独山县| 台安县| 如皋市| 陆丰市| 磐石市| 大同市| 双牌县| 苍山县| 安国市| 澄迈县| 武山县| 桂林市| 宁武县| 阜阳市| 厦门市| 建德市| 饶平县| 三门县| 万安县| 旌德县| 承德市| 安义县| 辽阳县| 临桂县| 福贡县| 高陵县| 隆尧县| 高邮市| 焦作市| 元江| 绍兴市|