本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本處理方法、裝置及計(jì)算設(shè)備。
背景技術(shù):
全文搜索技術(shù)已經(jīng)發(fā)展了數(shù)十年,目前已經(jīng)是一種較為成熟的技術(shù)。而傳統(tǒng)的搜索系統(tǒng)一般都會默認(rèn)導(dǎo)入系統(tǒng)內(nèi)部的文件是正確無誤的。因此,只要對導(dǎo)入系統(tǒng)內(nèi)的文件做一些預(yù)處理后,就可以按照自己的方法對導(dǎo)入系統(tǒng)建立索引,提供給應(yīng)用程序做搜索業(yè)務(wù)。然而,隨著技術(shù)的進(jìn)步,需要搜索的內(nèi)容和來源變得更加多元化,很多內(nèi)容本身在導(dǎo)入搜索引擎建立索引之前,都是經(jīng)過多次轉(zhuǎn)換的。所以,可能會存在一些轉(zhuǎn)換的錯(cuò)誤導(dǎo)致原有的關(guān)鍵信息丟失而搜索不到結(jié)果。
技術(shù)實(shí)現(xiàn)要素:
針對上述技術(shù)問題,本發(fā)明提供了一種文本處理方法、裝置及計(jì)算設(shè)備。在文本導(dǎo)入搜索引擎之前,發(fā)現(xiàn)并修正文本中存在的錯(cuò)誤來提高關(guān)鍵詞搜索結(jié)果的方法和裝置。
第一方面,本發(fā)明提供了一種文本處理方法,所述方法運(yùn)行于文本處理系統(tǒng),所述文本處理系統(tǒng)包括至少一個(gè)計(jì)算設(shè)備,所述方法包括:
獲取源文本,其中,源文本包括樣本文本和測試文本;源文本可以為文本處理系統(tǒng)收集到的歷史文本中的一部分,文本處理系統(tǒng)根據(jù)源文本來訓(xùn)練文本修正模型,以使文本更為精確。對樣本文本進(jìn)行分詞,獲取樣本文本中的至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。根據(jù)至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,訓(xùn)練第一模型;該模型也即用于修正待修正關(guān)鍵 詞的模型。對測試文本進(jìn)行分詞,獲取測試文本中的待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。將待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞輸入第一模型,獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞。根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞和待修正關(guān)鍵詞,訓(xùn)練第二模型。對待修正文本進(jìn)行分詞,將待修正文本的分詞結(jié)果輸入第二模型,修正待修正文本。
在文本導(dǎo)入到搜索引擎之前,利用第一模型檢測出文本中可能存在待修正的錯(cuò)誤關(guān)鍵詞;利用待修正關(guān)鍵詞和與之對應(yīng)的修正后關(guān)鍵詞,訓(xùn)練第二模型,利用第二模型,將其他待修正文本中存在錯(cuò)誤的關(guān)鍵詞進(jìn)行修正,提升了文本內(nèi)關(guān)鍵詞的精度,也有助于提高后續(xù)根據(jù)關(guān)鍵詞進(jìn)行搜索的精確度。
結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,對樣本文本進(jìn)行分詞,獲取樣本文本中的至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞包括:對樣本文本進(jìn)行分詞,獲取樣本文本的分詞結(jié)果,樣本文本的分詞結(jié)果中包括至少一個(gè)樣本文本詞;從至少一個(gè)樣本文本詞中獲取至少一個(gè)關(guān)鍵詞,至少一個(gè)關(guān)鍵詞在樣本文本中的詞頻大于第一閾值;獲取每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞,從每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞中獲取每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與每個(gè)關(guān)鍵詞的聯(lián)合概率大于第二閾值。
通過對詞頻高于第一閾值的關(guān)鍵詞的提取,獲取了文本中價(jià)值較高,后續(xù)使用頻率較高的關(guān)鍵詞,并通過與關(guān)鍵詞的聯(lián)合概率來篩選出各個(gè)關(guān)鍵詞的關(guān)聯(lián)詞,以供后續(xù)訓(xùn)練。
結(jié)合第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,根據(jù)至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,訓(xùn)練第一模型包括:根據(jù)至少一個(gè)關(guān)鍵詞、每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與每個(gè)關(guān)鍵詞的聯(lián)合概率,訓(xùn)練第一模型。
結(jié)合第一方面至第一方面的第二種可能的實(shí)現(xiàn)方式中的任一種,在第一方面的第三種可能的實(shí)現(xiàn)方式中,將待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞輸入第一模型,獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,具體包括: 利用第一模型將待修正關(guān)鍵詞修正為至少一個(gè)待選修正關(guān)鍵詞;將至少一個(gè)待選修正關(guān)鍵詞構(gòu)成待選修正關(guān)鍵詞組;在待選修正關(guān)鍵詞組中選取與待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,其中,修正后關(guān)鍵詞所對應(yīng)的第一修正概率值,為待選修正關(guān)鍵詞組中與待選修正關(guān)鍵詞對應(yīng)的修正概率值中的最大值,修正概率值為至少一個(gè)待選修正關(guān)鍵詞中的每一個(gè)待選修正關(guān)鍵詞和待選修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率。
由于第一模型在判斷每個(gè)待修正關(guān)鍵詞的修正后關(guān)鍵詞的過程中,不是簡單的進(jìn)行匹配,而是有一定概率的影響,因此每個(gè)待修正關(guān)鍵詞可能對應(yīng)有多個(gè)待選修正關(guān)鍵詞,通過獲取修正概率值最高的待選修正關(guān)鍵詞作為最終的修正后關(guān)鍵詞。
結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞和待修正關(guān)鍵詞,訓(xùn)練第二模型,包括:根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,待修正關(guān)鍵詞以及修正后關(guān)鍵詞對應(yīng)的第一修正概率值,訓(xùn)練第二模型。
結(jié)合第一方面至第一方面的第二種可能的實(shí)現(xiàn)方式,以及第一方面的第四種可能的實(shí)現(xiàn)方式中的任一種,在第一方面的第五種可能的實(shí)現(xiàn)方式中,該方法還包括:獲取查詢?nèi)罩局械娜罩娟P(guān)鍵詞,日志關(guān)鍵詞為查詢?nèi)罩局性~頻大于第三閾值的詞;將日志關(guān)鍵詞作為樣本文本的關(guān)鍵詞。
從用戶的日志中,獲取用戶感興趣的關(guān)鍵詞,并將其作為樣本文本中提取關(guān)鍵詞的手段之一,提升了從樣本文本中提取最有價(jià)值的關(guān)鍵詞的精度,與第一方面的前幾種實(shí)現(xiàn)方式相比,關(guān)鍵詞的提取不僅僅依賴于樣本文本中各個(gè)詞的詞頻。
第二方面,本發(fā)明實(shí)施例提供了一種文本處理裝置,該裝置包括:
分詞模塊,用于獲取源文本,源文本包括樣本文本和測試文本;對樣本文本進(jìn)行分詞,獲取樣本文本中的至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān) 聯(lián)詞;處理模塊,用于根據(jù)至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,訓(xùn)練第一模型;分詞模塊還用于,對測試文本進(jìn)行分詞,獲取測試文本中的待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞;處理模塊還用于,將待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞輸入第一模型,獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞;根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞和待修正關(guān)鍵詞,訓(xùn)練第二模型;分詞模塊還用于,對待修正文本進(jìn)行分詞;處理模塊還用于,將待修正文本的分詞結(jié)果輸入第二模型,修正待修正文本。
結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,分詞模塊具體用于,對樣本文本進(jìn)行分詞,獲取樣本文本的分詞結(jié)果,樣本文本的分詞結(jié)果中包括至少一個(gè)樣本文本詞;從至少一個(gè)樣本文本詞中獲取至少一個(gè)關(guān)鍵詞,至少一個(gè)關(guān)鍵詞在樣本文本中的詞頻大于第一閾值;獲取每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞,從每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞中獲取每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與每個(gè)關(guān)鍵詞的聯(lián)合概率大于第二閾值。
結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式中,處理模塊具體用于:根據(jù)所述至少一個(gè)關(guān)鍵詞、所述每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞以及所述每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與所述每個(gè)關(guān)鍵詞的聯(lián)合概率,訓(xùn)練所述第一模型。
結(jié)合第二方面至第二方面的第二種可能的實(shí)現(xiàn)方式中的任一種實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,處理模塊具體用于,利用第一模型將待修正關(guān)鍵詞修正為至少一個(gè)待選修正關(guān)鍵詞;將至少一個(gè)待選修正關(guān)鍵詞構(gòu)成待選修正關(guān)鍵詞組;在待選修正關(guān)鍵詞組中選取與待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,其中,修正后關(guān)鍵詞所對應(yīng)的第一修正概率值,為待選修正關(guān)鍵詞組中與待選修正關(guān)鍵詞對應(yīng)的修正概率值中的最大值,修正概率值為至少一個(gè)待選修正關(guān)鍵詞中的每一個(gè)待選修正關(guān)鍵詞和待選修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率。
結(jié)合第二方面的第三種可能的實(shí)現(xiàn)方式,在第二方面的第四種可能的實(shí) 現(xiàn)方式中,處理模塊具體用于,根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,待修正關(guān)鍵詞以及修正后關(guān)鍵詞對應(yīng)的第一修正概率值,訓(xùn)練第二模型。
結(jié)合第二方面至第二方面的第二種可能的實(shí)現(xiàn)方式,以及第二方面的第四種可能的實(shí)現(xiàn)方式中的任一種實(shí)現(xiàn)方式,在第二方面的第五種可能的實(shí)現(xiàn)方式中,處理模塊還用于:獲取查詢?nèi)罩局械娜罩娟P(guān)鍵詞,日志關(guān)鍵詞為查詢?nèi)罩局性~頻大于第三閾值的詞;將日志關(guān)鍵詞作為樣本文本的關(guān)鍵詞。
第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算設(shè)備,該計(jì)算設(shè)備包括:處理器,存儲器,總線及通信接口,處理器、存儲器和通信接口通過總線實(shí)現(xiàn)通信連接,存儲器用于存儲處理器需要執(zhí)行的指令,指令被處理器執(zhí)行以用于實(shí)現(xiàn)在第一方面中所介紹的文本處理方法中的任一項(xiàng)所述的方法。
附圖說明
圖1為本發(fā)明實(shí)施例提供的一種修文本處理系統(tǒng)的架構(gòu)圖;
圖2為本發(fā)明實(shí)施例提供的一種文本處理方法流程圖;
圖3為本發(fā)明實(shí)施例提供的一種文本處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面通過附圖和實(shí)施例,對本發(fā)明實(shí)施例的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例的應(yīng)用環(huán)境可以是利用語音識別軟件處理語音文件獲得的 文本,也可以是以其他形式獲取的文本。在下面的具體實(shí)施例中,以通過語音文件轉(zhuǎn)換得來的文本進(jìn)行修正為例說明。
本發(fā)明實(shí)施例提供了一種文本處理系統(tǒng)的系統(tǒng)架構(gòu)圖,如圖1所示,該系統(tǒng)包括:錄音器110,和計(jì)算設(shè)備120,計(jì)算設(shè)備120中包括處理器1201,存儲器1202,總線1203以及通信接口1204。
錄音器110可以是麥克風(fēng)或者其他可以錄音的設(shè)備,錄音器110接收用戶發(fā)來的聲音信號,并對其進(jìn)行記錄生成語音文件。
計(jì)算設(shè)備中的處理器1201、存儲器1202和通信接口1204可以通過總線1203建立通信連接,也可以通過無線傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。
處理器1201可以為中央處理器(英文:centralprocessingunit,縮寫:cpu)。
存儲器1202可以包括易失性存儲器(英文:volatilememory),例如隨機(jī)存取存儲器(英文:random-accessmemory,縮寫:ram);存儲器也可以包括非易失性存儲器(英文:non-volatilememory),例如只讀存儲器(英文:read-onlymemory,縮寫:rom),快閃存儲器,硬盤(英文:harddiskdrive,縮寫:hdd)或固態(tài)硬盤(英文:solidstatedrive,縮寫:ssd);存儲器1202還可以包括上述種類的存儲器的組合。
在通過軟件來實(shí)現(xiàn)本申請?zhí)峁┑募夹g(shù)方案時(shí),用于實(shí)現(xiàn)本申請圖2提供的文本處理方法的程序代碼保存在存儲器1202中,并由處理器1201來執(zhí)行。計(jì)算設(shè)備120通過通信接口1204與錄音器110通信。
圖2為本發(fā)明實(shí)施例一提供的一種文本處理方法流程圖200,包括:
步驟210,獲取源文本,源文本包括樣本文本和測試文本。
具體的,錄音器110將語音文件發(fā)送到計(jì)算設(shè)備120中,計(jì)算設(shè)備120將語音文件轉(zhuǎn)換成多個(gè)文本,并將多個(gè)文本分為樣本文本和測試文本。
計(jì)算設(shè)備120中可以利用自動語音識別(automaticspeechrecognition,簡稱asr)技術(shù),將語音文件轉(zhuǎn)換成文本。
步驟220,對樣本文本進(jìn)行分詞,獲取樣本文本中的至少一個(gè)關(guān)鍵詞以及 每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。
具體的,計(jì)算設(shè)備120可以采用自然語言處理(naturallanguageprocessing,簡稱nlp)技術(shù)對樣本文本進(jìn)行分詞處理,獲取樣本文本的分詞結(jié)果。
樣本文本的分詞結(jié)果中包括至少一個(gè)樣本文本詞。從至少一個(gè)樣本文本次中獲取至少一個(gè)關(guān)鍵詞,其中,每一個(gè)關(guān)鍵詞在樣本文本中的詞頻大于第一閾值。
例如,一篇文本是與信用卡有關(guān)的文本。在文本中出現(xiàn)了“新用戶如果想要辦理一張信用卡,必須攜帶個(gè)人的身份證”的語句。在采用nlp技術(shù)進(jìn)行分詞時(shí),計(jì)算設(shè)備120會將這句話分詞為“新/用戶/如果/想/要/辦理/一張/信用卡/,/必須/攜帶/個(gè)人/的/身份證/”。而每出現(xiàn)一個(gè)詞,計(jì)算設(shè)備120還會統(tǒng)計(jì)該詞在樣本文本中所出現(xiàn)的次數(shù)。當(dāng)一個(gè)詞在樣本文本中出現(xiàn)的次數(shù),也即是詞頻大于第一閾值(例如第一閾值為20,即一個(gè)詞出現(xiàn)次數(shù)大于20次)時(shí),可以將該詞定義為樣本文本中的關(guān)鍵詞。
可選的,在利用nlp技術(shù)對文本分詞時(shí),可以將該文本置于一個(gè)子場景中。這里的子場景就是一個(gè)專業(yè)詞庫。例如關(guān)于信用卡的文本,將該文本置于一個(gè)包括信用卡的專業(yè)詞庫中時(shí),系統(tǒng)可以更容易將“信用卡”作為一個(gè)詞,而不是單單的將“信用”作為一個(gè)詞,“卡”單獨(dú)作為一個(gè)詞。也就是說,在子場景中,利用nlp技術(shù)分詞時(shí),可以更加的符合文本的情景,分詞的準(zhǔn)確率能夠更高一些。
可選的,還可以獲取每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞,從每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞中獲取每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,其中每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與關(guān)鍵詞的聯(lián)合概率值大于第二閾值。
具體的,可以利用詞向量的方法,計(jì)算關(guān)鍵詞與該關(guān)鍵詞的關(guān)聯(lián)詞之間的聯(lián)合概率值。
例如,沿用上文中所舉的例子,樣本文本中的一個(gè)關(guān)鍵詞是“信用卡”, 而待選關(guān)聯(lián)詞可以為“要”、“辦理”、“一張”、必須”和“攜帶”等等,可以通過貝葉斯公式計(jì)算待選關(guān)聯(lián)詞和關(guān)鍵詞之間的聯(lián)合概率值。例如,將關(guān)鍵詞事件用a表示,關(guān)聯(lián)詞事件用b表示。p(a)是關(guān)鍵詞單獨(dú)出現(xiàn)的概率,p(b)是關(guān)聯(lián)詞單獨(dú)出現(xiàn)的概率,而p(ab)則是關(guān)鍵詞和關(guān)聯(lián)詞同時(shí)出現(xiàn)的概率。p(a|b)代表關(guān)聯(lián)詞出現(xiàn)的條件下關(guān)鍵詞出現(xiàn)的概率,也即是關(guān)鍵詞和關(guān)聯(lián)詞之間的聯(lián)合概率,具體計(jì)算公式如下:
可選的,當(dāng)關(guān)鍵詞與所有該關(guān)鍵詞的關(guān)聯(lián)詞之間的聯(lián)合概率值均小于第二閾值時(shí)(例如,第二閾值為1%),則應(yīng)該剔除掉該關(guān)鍵詞。
因?yàn)?,雖然利用nlp技術(shù)分詞后,已經(jīng)確定了一些關(guān)鍵詞,但是關(guān)鍵詞也僅僅是通過統(tǒng)計(jì)學(xué)的算法計(jì)算而得到的,不一定完全的準(zhǔn)確。而聯(lián)系上下文,如果獲取的某一關(guān)鍵詞與其相關(guān)聯(lián)的關(guān)聯(lián)詞之間的聯(lián)合概率值均小于第二閾值,那么則說明該關(guān)鍵詞是偽關(guān)鍵詞,所以應(yīng)該剔除掉。
步驟230,根據(jù)至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,訓(xùn)練第一模型。
具體的,將至少一個(gè)關(guān)鍵詞和關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,作為輸入?yún)?shù)對第一模型進(jìn)行訓(xùn)練,以便于后續(xù)利用第一模型,獲取待修正文本中的待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞。
可選的,也可以根據(jù)至少一個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與關(guān)鍵詞之間的聯(lián)合概率,訓(xùn)練第一模型。第一模型可以采用機(jī)器學(xué)習(xí)模型,例如采用樸素貝葉斯或者支持向量機(jī)(supportvectormachine,簡稱svm)等。例如,關(guān)鍵詞是“自動取款機(jī)”等,關(guān)聯(lián)詞是“故障”和“修理”等,關(guān)鍵詞與兩個(gè)關(guān)聯(lián)詞之間的聯(lián)合概率分別是0.8546702,0.4326960等,具體參見表1。
表1
步驟240,對測試文本進(jìn)行分詞,獲取測試文本中的待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。
具體的分詞步驟,以及獲取測試文本中的待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞等分別與步驟210和步驟220中對樣本文本進(jìn)行分詞,和獲取關(guān)鍵詞以及關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞的步驟類似,這里不再贅述。
步驟250,將待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞輸入第一模型,獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞。
可選的,步驟250包括:利用所述第一模型將所述待修正關(guān)鍵詞修正為至少一個(gè)待選修正關(guān)鍵詞;從所述至少一個(gè)待選修正關(guān)鍵詞中選取與所述待修正關(guān)鍵詞對應(yīng)的所述修正后關(guān)鍵詞,其中,所述修正后關(guān)鍵詞所對應(yīng)的修正概率值,為所述至少一個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值中的最大值,每個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值為該待選修正關(guān)鍵詞和所述待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率。
具體的,首先確定測試文本中出現(xiàn)的待修正關(guān)鍵詞,同時(shí),還可以根據(jù)待修正關(guān)鍵詞在測試文本中的上下文,確定與待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞, 其中,與待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞的個(gè)數(shù)同樣可以一個(gè)或者多個(gè)。第一模型針對每一個(gè)待修正關(guān)鍵詞,可能會將該待修正關(guān)鍵詞修正為一個(gè)或者多個(gè)待選修正關(guān)鍵詞,這一個(gè)或者多個(gè)待選修正關(guān)鍵詞組成了待選修正關(guān)鍵詞組。然后從待選修正關(guān)鍵詞組中獲取修正后關(guān)鍵詞。
在一個(gè)具體的例子中,例如該第一模型是一個(gè)表格,如表1所示。那么,通過第一模型將待修正關(guān)鍵詞與表格1中的每一個(gè)關(guān)鍵詞進(jìn)行匹配,同時(shí),將待修正關(guān)鍵詞的關(guān)聯(lián)詞與表格1中的關(guān)鍵詞所對應(yīng)的關(guān)聯(lián)詞相匹配,當(dāng)二者皆匹配成功時(shí),則會將匹配成功的一個(gè)或者多個(gè)關(guān)鍵詞作為該待修正關(guān)鍵詞對應(yīng)的待選修正關(guān)鍵詞,構(gòu)成一個(gè)待選修正關(guān)鍵詞組。而從待選修正關(guān)鍵詞組中,確定待選修正關(guān)鍵詞和待選修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率值最大的一個(gè),作為修正后關(guān)鍵詞。
例如在語音文檔轉(zhuǎn)換成文本時(shí),將“自動取款機(jī)故障”轉(zhuǎn)換成了“自動**機(jī)故障”(**可以是拼錯(cuò)的后的任意詞,或者,也可以使用**或其他字符代替,例如“自動期刊機(jī)”,“自動#&機(jī)”等),并且,該待修正關(guān)鍵詞“自動**機(jī)故障”在該文本中出現(xiàn)了多次。而與待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞還可以是修理(假設(shè),原文中所記載的內(nèi)容是:檢測到自動**機(jī)發(fā)生故障,所以需要立即對自動**機(jī)進(jìn)行修理,所取得關(guān)聯(lián)詞是待修正關(guān)鍵詞右邊的第二個(gè)詞,所以,在第一次自動**機(jī)出現(xiàn)時(shí),所取的第二關(guān)聯(lián)詞是發(fā)生和故障這兩個(gè)詞;而在第二次出現(xiàn)自動**機(jī)時(shí),所取的第二關(guān)聯(lián)詞是進(jìn)行,和修理這兩個(gè)詞)。處理器將會將該錯(cuò)誤的關(guān)鍵詞“自動**機(jī)”與第一模型中的一個(gè)或者多個(gè)關(guān)鍵詞進(jìn)行匹配,同時(shí)將該待修正關(guān)鍵詞的關(guān)聯(lián)詞“故障”與第一模型中的與每一個(gè)關(guān)鍵詞分別對應(yīng)的關(guān)聯(lián)詞相匹配。獲取修正關(guān)鍵詞組。由表1中可以知道,在第一模型中,關(guān)聯(lián)詞是“故障”的,并且關(guān)鍵詞包括自動**機(jī)的包括了兩個(gè)關(guān)鍵詞,第一個(gè)是自動取款機(jī),第二個(gè)是自動存款機(jī)。并且,“自動取款機(jī)”與“故障”之間的聯(lián)合概率值是0.8546702,即“自動取款機(jī)”對應(yīng)的修正概率值為0.8546702,而“自動存款機(jī)”與“故障”之間的聯(lián)合概 率值是0.6543890,即“自動存款機(jī)”對應(yīng)的修正概率值為0.6543890。而待修正關(guān)鍵詞“自動**機(jī)”的關(guān)聯(lián)詞還包括一個(gè)“修理”,在與第一模型相匹配時(shí),發(fā)現(xiàn)同樣存在關(guān)聯(lián)詞“修理”,與該關(guān)聯(lián)詞對應(yīng)的關(guān)鍵詞同樣是“自動取款機(jī)”,聯(lián)合概率值是0.4326960。處理器則會將這兩個(gè)關(guān)鍵詞作為待修正關(guān)鍵詞對應(yīng)的待選修正關(guān)鍵詞,將這兩個(gè)待選修正關(guān)鍵詞構(gòu)成一個(gè)待選修正關(guān)鍵詞組。而從待選修正關(guān)鍵詞組中,選出修正概率值最高的待選修正關(guān)鍵詞作為修正后關(guān)鍵詞。
在另一個(gè)具體的例子中,第一模型也可以是一個(gè)分類器模型,或者類似分類器模型的其他模型。將待修正關(guān)鍵詞輸入到第一模型中,第一模型輸出與待修正模型對應(yīng)的一個(gè)或者多個(gè)待選修正關(guān)鍵詞。構(gòu)成待選修正關(guān)鍵詞組。而從待選修正關(guān)鍵詞組中,確定待選修正關(guān)鍵詞和待選修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率值最大的一個(gè),作為修正后關(guān)鍵詞。
利用第一模型對測試文本中的待修正關(guān)鍵詞進(jìn)行多次的迭代處理。例如,在測試文本中,“自動**機(jī)”出現(xiàn)的總次數(shù)為100次,在第一次處理后,將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為60次,將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為40次。將經(jīng)過第一次處理后的,測試文本中的待修正關(guān)鍵詞再次輸入第一模型進(jìn)行第二次處理后,測試文本中的待修正關(guān)鍵詞“自動**機(jī)”被修正為“自動取款機(jī)”的次數(shù)為79次,“自動**機(jī)”被修正為“自動存款機(jī)”的次數(shù)為31次,進(jìn)行多次前述迭代處理,直至第n-2次,將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為78次,將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為32次;第n-1次,將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為80次,將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為20次,第n次,將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為80次,將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為20次,第n+1次時(shí),處理后的結(jié)果仍然沒有變化或變化幅度小于預(yù)期,也即第n+1詞迭代處理與第n次迭代處 理中待修正關(guān)鍵詞的修正結(jié)果無變化或變化幅度小于預(yù)期,將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為80次,將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為20次。
每個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值還可以為該待選修正關(guān)鍵詞修正待修正關(guān)鍵詞的比例。承接上例,經(jīng)過多次迭代處理后,迭代結(jié)果為將“自動**機(jī)”修正為“自動取款機(jī)”的次數(shù)為80次,即修正概率值為80%;將“自動**機(jī)”修正為“自動存款機(jī)”的次數(shù)為20次,則說明修正概率值為20%。在確定修正后關(guān)鍵詞時(shí),可以根據(jù)修正關(guān)鍵詞組中各個(gè)待選修正關(guān)鍵詞的修正概率值確定,選取修正概率值最大的待選修正關(guān)鍵詞,作為修正后關(guān)鍵詞。由此,將待選修正關(guān)鍵詞“自動取款機(jī)”的修正概率值最大,為80%。因此,選取的修正后關(guān)鍵詞為“自動取款機(jī)”。需要說明的是,在本實(shí)施例中,僅僅是列舉了兩個(gè)待選修正關(guān)鍵詞與待修正關(guān)鍵詞進(jìn)行匹配,而在一種情況中,若與待修正關(guān)鍵詞可以匹配的待選修正關(guān)鍵詞為多個(gè)時(shí),在構(gòu)建待選修正關(guān)鍵詞組時(shí),可以按照每一個(gè)待選修正關(guān)鍵詞與待選修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率值來作為一個(gè)衡量標(biāo)準(zhǔn)。例如,一個(gè)待修正關(guān)鍵詞和待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞分別是自動**機(jī)/欠費(fèi),而在第一模型中與關(guān)聯(lián)詞“欠費(fèi)”對應(yīng)的待選關(guān)鍵詞包括多個(gè),即關(guān)聯(lián)詞同樣是欠費(fèi),而在待選關(guān)鍵詞中同樣包括自動……機(jī)的包括多個(gè)詞。此時(shí),就取決于待選關(guān)鍵詞與關(guān)聯(lián)詞“欠費(fèi)”之間的聯(lián)合概率值,可以取概率值較大的前幾個(gè)詞作為推薦的待選修正關(guān)鍵詞,加入到待選修正關(guān)鍵詞組中,再將待選修正關(guān)鍵詞組中的待選關(guān)鍵詞進(jìn)行迭代處理。最后確定每一個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值,確定修正概率值最大的待選關(guān)鍵詞作為待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞。
步驟260,根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞和待修正關(guān)鍵詞,訓(xùn)練第二模型。
具體的,可以利用待修正關(guān)鍵詞和與之對應(yīng)的修正后關(guān)鍵詞作為輸入?yún)?shù)訓(xùn)練第二模型,第二模型可以機(jī)械學(xué)習(xí)模型,例如svm,神經(jīng)網(wǎng)絡(luò)等。
可選的,還可以將第一修正概率值,與待修正關(guān)鍵詞和修正后關(guān)鍵詞一起,作為輸入?yún)?shù)對第二模型進(jìn)行訓(xùn)練。
可選的,在訓(xùn)練過程中,輸入?yún)?shù)還可以包括待修正關(guān)鍵詞的關(guān)聯(lián)詞或與修正后關(guān)鍵詞對應(yīng)的修正概率值。例如,atm**/機(jī)/atm存款/90%。
其中,atm**為待修正關(guān)鍵詞,機(jī)是待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,atm存款是修正后關(guān)鍵詞,90%是修正概率值。
應(yīng)當(dāng)理解,一個(gè)存在錯(cuò)誤的關(guān)鍵詞,在修正的過程中,可能填充或者修正的字節(jié)為一個(gè)或者多個(gè),如上文中,很有可能關(guān)鍵詞是“atm存款取款”,即填充的字節(jié)是4個(gè),而不是兩個(gè)。
再或者,例如一個(gè)關(guān)鍵詞是“信用卡”,但是在語音文件轉(zhuǎn)換為文本時(shí),將信用卡轉(zhuǎn)化成了“信用啊”,所以在語句中出現(xiàn)了“信用啊/欠費(fèi)”,因?yàn)?,需要修正的詞時(shí)一個(gè)字,而在第一模型中,已經(jīng)查詢到信用卡和欠費(fèi)這兩個(gè)詞的聯(lián)合概率值是90%;那么,當(dāng)這個(gè)關(guān)鍵詞作為推薦的修正關(guān)鍵詞時(shí),可以規(guī)定該關(guān)鍵詞與關(guān)聯(lián)詞之間的聯(lián)合概率值不發(fā)生改變,就是90%。
而當(dāng)語音文件轉(zhuǎn)換成文本時(shí),將“信用卡”轉(zhuǎn)換成了“信用阿拉”,即語句中出現(xiàn)了“信用阿拉/欠費(fèi)”,那么,即使信用卡和欠費(fèi)這兩個(gè)詞之間的聯(lián)合概率值是90%,此時(shí)若想將“信用卡”作為待修正關(guān)鍵詞“信用阿拉”的推薦關(guān)鍵詞時(shí),則規(guī)定該關(guān)鍵詞語關(guān)聯(lián)詞之間的聯(lián)合概率值不再是90%,而是要再乘以一個(gè)修正系數(shù)。
這樣做的目的是,可以提高修正的精確率。因?yàn)榭倳幸恍┰~,可能缺少的本身就是兩個(gè)詞,而不是一個(gè)詞。例如atm存款機(jī),在轉(zhuǎn)換時(shí)轉(zhuǎn)換成了atm**機(jī),而在關(guān)鍵詞匹配時(shí),可以是atm存款機(jī),或者也可以是atm存款取款機(jī)。而正確的其實(shí)是atm存款取款機(jī),而不是atm存款機(jī)。當(dāng)然,這樣的概率一般不會很大,所以才會在算關(guān)鍵詞與關(guān)聯(lián)詞之間的聯(lián)合概率值時(shí),乘以一個(gè)修正系數(shù)。
步驟270,對待修正文本進(jìn)行分詞,將待修正文本的分詞結(jié)果輸入第二模 型,修正待修正文本。
具體的,對待修正文本進(jìn)行分詞過程與對樣本文本、對測試文本進(jìn)行分詞過程類似,這里不再贅述。
應(yīng)理解,這里的待修正文本一般為測試文本和樣本文本之外的文本。在獲取文本時(shí),首先利用第一模型檢測文本中是否存在待修正關(guān)鍵詞,在存在待修正關(guān)鍵詞時(shí),則利用第二修正模型,對該文本中的待修正關(guān)鍵詞進(jìn)行修正。
進(jìn)一步可選的,因?yàn)樵谌魏我粋€(gè)技術(shù)領(lǐng)域中,關(guān)鍵詞都不是固定的,而根據(jù)樣本文本所獲取的關(guān)鍵詞也不能完全覆蓋整個(gè)技術(shù)領(lǐng)域的關(guān)鍵詞。因此,該方法還可以包括步驟280,獲取查詢?nèi)罩局械娜罩娟P(guān)鍵詞,其中,日志關(guān)鍵詞為查詢?nèi)罩局性~頻大于第三閾值的詞;將日志關(guān)鍵詞作為樣本文本的關(guān)鍵詞。步驟280可以執(zhí)行于步驟270之后,即在本次對待修正文本的修正結(jié)束后,將從日志中提取的日志關(guān)鍵詞作為新的樣本文本的關(guān)鍵詞的選擇依據(jù),例如,可以結(jié)合新的樣本文本中詞的詞頻與各個(gè)詞是否為日志關(guān)鍵詞結(jié)合判斷新的樣本文本中的關(guān)鍵詞。步驟280還可以執(zhí)行于步驟210之前,也即在本次從樣本文本中提取關(guān)鍵詞之前就提取日志關(guān)鍵詞,并用于步驟210中對樣本文本的關(guān)鍵詞的提取中。
具體的,在用戶查詢信息時(shí),可以獲取日志中的日志關(guān)鍵詞,例如在當(dāng)前第一模型中不存在的關(guān)鍵詞和關(guān)鍵詞所在的技術(shù)領(lǐng)域內(nèi)的熱門詞。這些日志關(guān)鍵詞均是在查詢?nèi)罩局性~頻大于第三閾值的詞。
可以將這些日志關(guān)鍵詞,更新第一模型,進(jìn)而可以獲得更好的第二模型,提高文本中詞的精確度。
在一個(gè)具體的實(shí)施例中,例如某銀行的呼叫中心,業(yè)務(wù)員在跟客戶溝通的過程中,已經(jīng)將溝通的語音通過錄音設(shè)備錄制成了語音文件,然后計(jì)算設(shè)備又將語音文件轉(zhuǎn)換成了文本。處理器利用第一模型查找出該文本中出現(xiàn)的待修正關(guān)鍵詞,以及與之對應(yīng)的關(guān)聯(lián)詞。例如,在文本中具體語句為“信用 啦啊”,其中“信用啦啊”中的“啦啊”出現(xiàn)是因?yàn)閍sr系統(tǒng)識別出該處有音節(jié)存在,但是因?yàn)樵胍舾蓴_或者抖動,未能正確的識別具體內(nèi)容,使用語氣詞進(jìn)行填充,其正確的內(nèi)容應(yīng)該是“信用卡”。
真實(shí)的業(yè)務(wù)場景是客戶在咨詢信用卡的相關(guān)事宜,“信用卡”在搜索索引中是一個(gè)完整的詞語,而該詞可能成為搜索的關(guān)鍵詞,因?yàn)樽R別的錯(cuò)誤,將會導(dǎo)致搜索失敗。此時(shí),則可以利用第二修正模型,將該關(guān)鍵詞“信用啦啊”修正為“信用卡”。然后,將修正后的文本存儲在存儲器中。而在本發(fā)明實(shí)施例中,存儲器中包含數(shù)據(jù)倉庫組件。將修正后的文本則存儲在數(shù)據(jù)倉庫組件中,然后建立索引任務(wù)。當(dāng)用戶需要進(jìn)行搜索應(yīng)用時(shí),可以利用搜索軟件,例如百度等搜索,而應(yīng)用軟件則會通過api接口調(diào)用程序,與全文搜索引擎進(jìn)行交互,搜索引擎則可以根據(jù)索引在數(shù)據(jù)倉庫組件中找到與用戶輸入的關(guān)鍵詞對應(yīng)的文本,發(fā)送到搜索軟件中,并通過顯示屏顯示給用戶。
本發(fā)明實(shí)施例提供的文本處理方法,根據(jù)樣本文本中的至少一個(gè)關(guān)鍵詞以及與至少一個(gè)關(guān)鍵詞對應(yīng)的的關(guān)聯(lián)詞訓(xùn)練第一模型,并且通過第一模型獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞;根據(jù)待修正關(guān)鍵詞,以及對應(yīng)的修正后關(guān)鍵詞,訓(xùn)練第二模型,利用第二模型修正待修正文本,提升了文本精度。
還應(yīng)理解,在本發(fā)明的實(shí)施例中,可以利用業(yè)務(wù)已有的分類得到各個(gè)子場景的修正模型,利用每個(gè)子場景的修正模型來糾正錯(cuò)誤數(shù)據(jù)文本中的關(guān)鍵詞內(nèi)容,充分利用了上下文信息。而每個(gè)子領(lǐng)域中的關(guān)鍵詞詞量較小,在訓(xùn)練修正模型時(shí),相對容易。在特定的子場景中,避免了數(shù)據(jù)源的錯(cuò)誤引入,同樣可以有效的提高業(yè)務(wù)搜索的精確度,非常實(shí)用。
與上述文本處理方法相對應(yīng)的,本發(fā)明實(shí)施例還提供了一種文本處理裝置300,該文本處理裝置300可以通過圖1所示的計(jì)算設(shè)備120實(shí)現(xiàn),還可以通過專用集成電路(英文:application-specificintegratedcircuit,縮寫:asic)實(shí)現(xiàn),或可編程邏輯器件(英文:programmablelogicdevice,縮寫:pld)實(shí)現(xiàn)。上述pld可以是復(fù)雜可編程邏輯器件(英文:complexprogrammablelogic device,縮寫:cpld),即現(xiàn)場可編程門陣列(英文:fieldprogrammablegatearray,縮寫fpga),通用陣列邏輯(英文:genericarraylogic,縮寫:gal)或其任意組合。該文本處理裝置300用于實(shí)現(xiàn)圖2所示的文本處理方法。通過軟件實(shí)現(xiàn)圖2所示的文本處理方法時(shí),文本處理裝置300及其各個(gè)模塊也可以為軟件模塊。
具體的文本處理裝置如圖3所示,所述裝置包括:分詞模塊301,處理模塊302。
分詞模塊301,用于獲取源文本,其中,源文本包括樣本文本和測試文本;并對樣本文本進(jìn)行分詞,獲取樣本文本中的至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。
具體的,分詞模塊301對樣本文本進(jìn)行分詞,獲取樣本文本的分詞結(jié)果,樣本文本的分詞結(jié)果中包括至少一個(gè)樣本文本詞;從至少一個(gè)樣本文本詞中獲取至少一個(gè)關(guān)鍵詞,至少一個(gè)關(guān)鍵詞在樣本文本中的詞頻大于第一閾值。
獲取每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞,從每個(gè)關(guān)鍵詞的待選關(guān)聯(lián)詞中獲取每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與每個(gè)關(guān)鍵詞的聯(lián)合概率大于第二閾值。
處理模塊302,用于根據(jù)至少一個(gè)關(guān)鍵詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞,訓(xùn)練第一模型。
具體的,處理模塊302根據(jù)至少一個(gè)關(guān)鍵詞、每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞以及每個(gè)關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞與每個(gè)關(guān)鍵詞的聯(lián)合概率,訓(xùn)練第一模型。
分詞模塊301還用于,對測試文本進(jìn)行分詞,獲取測試文本中的待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞。
處理模塊302還用于,將待修正關(guān)鍵詞以及待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞輸入第一模型,獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞。
根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞和待修正關(guān)鍵詞,訓(xùn)練第二模型;
具體的,利用所述第一模型將所述待修正關(guān)鍵詞修正為至少一個(gè)待選修 正關(guān)鍵詞;從所述至少一個(gè)待選修正關(guān)鍵詞中選取與所述待修正關(guān)鍵詞對應(yīng)的所述修正后關(guān)鍵詞,其中,所述修正后關(guān)鍵詞所對應(yīng)的修正概率值,為所述至少一個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值中的最大值,每個(gè)待選修正關(guān)鍵詞對應(yīng)的修正概率值為該待選修正關(guān)鍵詞和所述待修正關(guān)鍵詞對應(yīng)的關(guān)聯(lián)詞之間的聯(lián)合概率。
可選的,處理模塊302可以根據(jù)待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞,待修正關(guān)鍵詞以及修正后關(guān)鍵詞對應(yīng)的第一修正概率值,訓(xùn)練第二模型。
分詞模塊301還用于,對待修正文本進(jìn)行分詞。
處理模塊302還用于,將待修正文本的分詞結(jié)果輸入第二模型,修正待修正文本。
修正文本之后,還包括獲取查詢?nèi)罩局械娜罩娟P(guān)鍵詞,其中,日志關(guān)鍵詞為查詢?nèi)罩局性~頻大于第三閾值的詞;將日志關(guān)鍵詞作為樣本文本的關(guān)鍵詞。
本申請實(shí)施例二提供的裝置運(yùn)行時(shí)執(zhí)行本申請實(shí)施例一提供的方法,其工作細(xì)節(jié)參考本申請實(shí)施例一提供的方法。
本發(fā)明實(shí)施例提供的一種文本處理裝置,根據(jù)樣本文本中的關(guān)鍵詞以及與關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)詞訓(xùn)練第一模型,并且通過第一模型獲取待修正關(guān)鍵詞對應(yīng)的修正后關(guān)鍵詞;根據(jù)待修正關(guān)鍵詞,以及對應(yīng)的修正后關(guān)鍵詞,訓(xùn)練第二模型,利用第二模型修正待修正文本,提升了文本的精度。
還應(yīng)理解,在本發(fā)明的實(shí)施例中,可以利用業(yè)務(wù)已有的分類得到各個(gè)子場景對應(yīng)的修正模型,利用每個(gè)子場景對應(yīng)的修正模型來糾正錯(cuò)誤數(shù)據(jù)文本中的關(guān)鍵詞內(nèi)容,充分利用了上下文信息。而每個(gè)子領(lǐng)域?qū)?yīng)的詞庫中的關(guān)鍵詞詞量較小,在訓(xùn)練修正模型時(shí),相對容易。在特定的子場景中,避免了數(shù)據(jù)源的錯(cuò)誤引入,同樣可以有效的提高業(yè)務(wù)搜索的精確度,非常實(shí)用。
與上述修正關(guān)鍵詞的方法相對應(yīng)的,本發(fā)明實(shí)施例還提供了一種計(jì)算設(shè)備,該計(jì)算設(shè)備包括:處理器和存儲器總線及通信接口,其中,處理器、存 儲器和通信接口通過總線實(shí)現(xiàn)彼此之間的通信連接。處理器和存儲器的組成部件以及所執(zhí)行的方法步驟已經(jīng)分別在上文中所介紹的文本處理系統(tǒng)和文本處理方法流程中做了詳細(xì)的介紹,這里不再贅述。
專業(yè)人員應(yīng)該還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、獲取機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(ram)、內(nèi)存、只讀存儲器(rom)、電可編程rom、電可擦除可編程rom、寄存器、硬盤、可移動磁盤、cd-rom、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上所述的具體實(shí)施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。