專利名稱:用于自動(dòng)化文本校正的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于自化化文本校正的方法和系統(tǒng)。
背景技術(shù):
文本校正通常是困難和耗時(shí)的。另外,通常編輯文本是昂貴的,特別是涉及翻譯,因?yàn)榫庉嬐ǔP枰褂糜屑夹g(shù)和受過(guò)訓(xùn)練的工作人員。例如,編輯翻譯可能需要由在兩種或多種語(yǔ)言中具有高水平熟練度的工作人員來(lái)提供密集勞動(dòng)。自動(dòng)化的翻譯系統(tǒng)(例如某些在線翻譯器)可以使翻譯的勞動(dòng)密集型的某些方面有所減輕,但是它們?nèi)圆荒芴娲斯しg員。特別地,自動(dòng)化系統(tǒng)執(zhí)行相對(duì)好的單詞到單詞翻譯的工作,但是由于語(yǔ)法和標(biāo)點(diǎn)的不精確性,句子的意義經(jīng)常無(wú)法理解。某些自動(dòng)化文本編輯系統(tǒng)確實(shí)存在,但此類系統(tǒng)通常具有不精確性。另外,現(xiàn)有技術(shù)的自動(dòng)化文本編輯系統(tǒng)可能需要相對(duì)大量的處理資源。一些自動(dòng)化文本編輯系統(tǒng)可能需要訓(xùn)練或配置以精確地編輯文本。例如,某些現(xiàn)有技術(shù)的系統(tǒng)可以使用學(xué)習(xí)文本(learner text)的加注釋的語(yǔ)料庫(kù)(annotated corpus)來(lái)被訓(xùn)練。替代地,一些現(xiàn)有技術(shù)的系統(tǒng)可以使用沒(méi)有加注釋的非學(xué)習(xí)文本的語(yǔ)料庫(kù)來(lái)被訓(xùn)練。本領(lǐng)域普通技術(shù)人員可以認(rèn)識(shí)學(xué)習(xí)文本和非學(xué)習(xí)文本之間的差異。標(biāo)準(zhǔn)自動(dòng)化語(yǔ)音識(shí)別(ASR)系統(tǒng)的輸出通常由話語(yǔ)(utterance)構(gòu)成,其中例如真實(shí)情況、句子邊界和標(biāo)點(diǎn)符號(hào)的重要語(yǔ)言和結(jié)構(gòu)信息是不可獲得的。語(yǔ)言和結(jié)構(gòu)信息改進(jìn)轉(zhuǎn)錄的語(yǔ)音文本的可讀性,并且輔助進(jìn)一步的下游處理,例如詞性(POS)標(biāo)注、語(yǔ)法分析、信息抽取和機(jī)器翻譯?,F(xiàn)有技術(shù)的標(biāo)點(diǎn)預(yù)測(cè)技術(shù)使用詞匯和韻律學(xué)線索。然而,例如基音和中斷持續(xù)時(shí)間的韻律學(xué)特征在沒(méi)有原始未處理語(yǔ)音波形的情況下通常是不可獲得的。在其中對(duì)于轉(zhuǎn)錄語(yǔ)音文本的自然語(yǔ)言處理(NLP)變成主要關(guān)注的一些場(chǎng)景中,語(yǔ)音韻律學(xué)信息可能無(wú)法輕易獲得。在國(guó)際口語(yǔ)翻譯研討會(huì)(IWSLT)的評(píng)測(cè)活動(dòng)中,僅提供人工轉(zhuǎn)錄或自動(dòng)識(shí)別的語(yǔ)音文本,而原始未處理語(yǔ)音波形是不可獲得的。按照慣例,在語(yǔ)音識(shí)別期間執(zhí)行標(biāo)點(diǎn)插入。在一個(gè)例子中,在決策樹(shù)框架內(nèi)使用連同語(yǔ)言模型概率的韻律學(xué)特征。在另一個(gè)例子中,廣播新聞?lì)I(lǐng)域中的插入包括針對(duì)任務(wù)的有限狀態(tài)和多層感知器方法,其中韻律學(xué)和詞匯信息被并入。在進(jìn)一步的例子中,實(shí)施基于最大熵的標(biāo)注方法,其在自發(fā)的英語(yǔ)對(duì)話中進(jìn)行標(biāo)點(diǎn)插入,包括使用詞匯和韻律學(xué)特征。在另一個(gè)例子中,通過(guò)使用條件隨機(jī)場(chǎng)(CRF)來(lái)執(zhí)行句子邊界檢測(cè)。邊界檢測(cè)顯示出對(duì)于基于隱馬爾可夫模型(HMM)的在先方法的改進(jìn)。一些現(xiàn)有技術(shù)將句子邊界檢測(cè)和標(biāo)點(diǎn)插入任務(wù)考慮為隱事件檢測(cè)任務(wù)。例如,HMM可以描述單詞和單詞間事件上的聯(lián)合分布,其中觀察值是單詞,并且單詞/事件對(duì)被編碼為隱狀態(tài)。具體地,在該任務(wù)中,單詞邊界和標(biāo)點(diǎn)符號(hào)被編碼為單詞間事件。訓(xùn)練短語(yǔ)涉及使用平滑技術(shù)來(lái)在所有觀察單詞和事件上訓(xùn)練n-gram語(yǔ)言模型。學(xué)習(xí)到的n-gram概率分?jǐn)?shù)接著被用作HMM狀態(tài)轉(zhuǎn)換分?jǐn)?shù)。在測(cè)試期間,在每個(gè)單詞處的事件的后驗(yàn)概率利用使用前向-后向算法的動(dòng)態(tài)編程來(lái)計(jì)算。最為可能的狀態(tài)的序列因此形成給出加標(biāo)點(diǎn)的句子的輸出。此類的基于HMM的方法具有若干個(gè)缺陷。首先,n-gram語(yǔ)言模型僅能夠捕獲圍繞的上下文信息。然而,對(duì)于標(biāo)點(diǎn)插入可能需要更長(zhǎng)范圍相關(guān)性的建模。例如,該方法不能夠有效地捕獲強(qiáng)烈的指示疑問(wèn)句的初始短語(yǔ)“你想(would you)”和結(jié)束問(wèn)號(hào)之間的長(zhǎng)范圍相關(guān)性。因此,在使用隱事件語(yǔ)言模型之外可以使用特殊的技術(shù)以便克服長(zhǎng)范圍相關(guān)性?,F(xiàn)有技術(shù)的例子包括重新排放或復(fù)制標(biāo)點(diǎn)符號(hào)到句子的不同位置,使得它們顯得更接近于指示的單詞(例如,“多少錢”指示疑問(wèn)句)。一個(gè)此類的技術(shù)建議在訓(xùn)練語(yǔ)言模型前將結(jié)尾的標(biāo)點(diǎn)符號(hào)復(fù)制到每個(gè)句子的開(kāi)始處。從經(jīng)驗(yàn)上來(lái)說(shuō),該技術(shù)已經(jīng)演示了其在英語(yǔ)中預(yù)測(cè)問(wèn)號(hào)的有效性,因?yàn)橛糜谟⒄Z(yǔ)疑問(wèn)句的大多數(shù)指示的單詞出現(xiàn)在問(wèn)題的開(kāi)始處。然而,此類的技術(shù)是專門設(shè)計(jì)的并且可能不能廣泛地通常應(yīng)用或應(yīng)用于除英語(yǔ)以外的語(yǔ)言。進(jìn)一步,在每次話語(yǔ)多個(gè)句子而沒(méi)有在話語(yǔ)內(nèi)清楚地加注釋的句子邊界的情況下,直接應(yīng)用該方法可能會(huì)失敗。與此類方法關(guān)聯(lián)的另一個(gè)缺陷是該方法對(duì)將要插入的標(biāo)點(diǎn)符號(hào)和其圍繞的單詞之間的強(qiáng)相關(guān)性假定進(jìn)行編碼。因此,其缺乏魯棒性來(lái)處理其中頻繁出現(xiàn)噪聲或詞匯表外(OOV)單詞的情形,例如在由ASR系統(tǒng)自動(dòng)識(shí)別的文本中。語(yǔ)法糾錯(cuò)(GEC)已經(jīng)被認(rèn)為是自然語(yǔ)言處理(NLP)中有趣和商業(yè)上引人注意的問(wèn)題,特別是對(duì)于將英語(yǔ)作為外語(yǔ)或第二門語(yǔ)言(EFL/ESL)的學(xué)習(xí)者來(lái)說(shuō)。盡管興趣在增長(zhǎng),由于缺乏可用于研究目的的學(xué)習(xí)文本的大量加注釋的語(yǔ)料庫(kù),研究已經(jīng)受到阻礙。結(jié)果是,對(duì)于GEC的標(biāo)準(zhǔn)方法是訓(xùn)練現(xiàn)成的分類器來(lái)重新預(yù)測(cè)非學(xué)習(xí)文本中的單詞。直接從加注釋的初學(xué)者語(yǔ)料庫(kù)學(xué)習(xí)GEC模型不能被很好的實(shí)施,如同將學(xué)習(xí)文本和非學(xué)習(xí)文本合并的方法。進(jìn)一步,GEC的評(píng)估已經(jīng)是個(gè)問(wèn)題。先前的工作或?qū)θ斯y(cè)試實(shí)例進(jìn)行評(píng)估來(lái)作為對(duì)實(shí)際初學(xué)者錯(cuò)誤的替代,或?qū)Σ豢捎糜谄渌芯空叩膶S脭?shù)據(jù)進(jìn)行評(píng)估。結(jié)果,現(xiàn)有的方法并不能在相同的測(cè)試集上進(jìn)行比較,從而不清楚現(xiàn)有技術(shù)的當(dāng)前狀態(tài)實(shí)際上在哪。對(duì)于GEC的業(yè)界標(biāo)準(zhǔn)方法是構(gòu)建統(tǒng)計(jì)模型,其能夠從可能校正選擇的混淆集來(lái)選項(xiàng)最為可能的校正。定義混淆集的方式取決于錯(cuò)誤的類型。上下文相關(guān)拼寫(xiě)錯(cuò)誤校正傳統(tǒng)地關(guān)注于具有類似拼寫(xiě)(例如,{dessert, desert “})或類似的發(fā)音(例如,{there, their})的混淆集。換句話說(shuō),混淆集中的單詞因?yàn)槠磳?xiě)或語(yǔ)音相似性而被認(rèn)為是可能被混淆的。GEC中的其他工作基于句法相似性來(lái)定義混淆集,例如,所有的英語(yǔ)冠詞或最為頻繁的英語(yǔ)介詞形成混淆集。
發(fā)明內(nèi)容
本實(shí)施例演示了用于自動(dòng)化文本校正的系統(tǒng)和方法。在某些實(shí)施例中,方法和系統(tǒng)可以通過(guò)根據(jù)單個(gè)文本編輯模型的分析來(lái)實(shí)現(xiàn)。在特定的實(shí)施例中,單個(gè)文本編輯模型可以通過(guò)學(xué)習(xí)文本的語(yǔ)料庫(kù)和非學(xué)習(xí)文本的語(yǔ)料庫(kù)的分析來(lái)生成。根據(jù)一個(gè)實(shí)施例,一種設(shè)備,包括至少一個(gè)處理器和耦合到該至少一個(gè)處理器的存儲(chǔ)器裝置,其中所述至少一個(gè)處理器配置成識(shí)別輸入話語(yǔ)的單詞。所述至少一個(gè)處理器也配置成將單詞放置在存儲(chǔ)在存儲(chǔ)器裝置中的多個(gè)第一節(jié)點(diǎn)中。所述至少一個(gè)處理器進(jìn)一步配置成部分基于線性鏈的相鄰節(jié)點(diǎn)來(lái)向第一節(jié)點(diǎn)的每個(gè)分配單詞層標(biāo)簽。所述至少一個(gè)處理器也配置成通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子。根據(jù)另一個(gè)實(shí)施例,一種計(jì)算機(jī)程序產(chǎn)品,包括具有用于識(shí)別輸入話語(yǔ)的單詞的代碼的計(jì)算機(jī)可讀介質(zhì)。所述介質(zhì)也包括用于將單詞放置在存儲(chǔ)在存儲(chǔ)器裝置中的多個(gè)第一節(jié)點(diǎn)中的代碼。所述介質(zhì)進(jìn)一步包括用于部分基于多個(gè)第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來(lái)向第一節(jié)點(diǎn)的每個(gè)分配單詞層標(biāo)簽的代碼。所述介質(zhì)也包括用于通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子的代碼。根據(jù)另一個(gè)實(shí)施例,一種方法,包括識(shí)別輸入話語(yǔ)的單詞。所述方法還包括將單詞放置在存儲(chǔ)在存儲(chǔ)器裝置中的多個(gè)第一節(jié)點(diǎn)中。所述方法進(jìn)一步包括部分基于所述多個(gè)第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來(lái)向多個(gè)第一節(jié)點(diǎn)中的每個(gè)第一節(jié)點(diǎn)分配單詞層標(biāo)簽。所述方法也包括通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子。一種方法的附加實(shí)施例包括接收自然語(yǔ)言文本輸入,所述文本輸入包括語(yǔ)法錯(cuò)誤,其中輸入文本的一部分包括來(lái)自于一組類的類。該方法也可以包括從假設(shè)沒(méi)有語(yǔ)法錯(cuò)誤的非學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)選擇任務(wù),其中對(duì)于每個(gè)選擇任務(wù),分類器重新預(yù)測(cè)在非學(xué)習(xí)文本中使用的類。進(jìn)一步,該方法可以包括從學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)校正任務(wù),其中對(duì)于每個(gè)校正任務(wù),分類器建議在學(xué)習(xí)文本中使用的類。另外,所述方法可以包括使用一組二進(jìn)制分類問(wèn)題來(lái)訓(xùn)練語(yǔ)法校正模型,該一組二進(jìn)制分類問(wèn)題包括多個(gè)選擇任務(wù)和多個(gè)校正任務(wù)。該實(shí)施例也可以包括使用訓(xùn)練的語(yǔ)法校正模型來(lái)從一組可能的類預(yù)測(cè)文本輸入的類。在另外的實(shí)施例中,該方法包括輸出建議以便如果預(yù)測(cè)的類不同于文本輸入中的類,則將文本輸入的類改變成預(yù)測(cè)的類。在此類的實(shí)施例中,學(xué)習(xí)文本由老師以假定正確的類來(lái)加注釋。類可以是與輸入文本中的名詞短語(yǔ)關(guān)聯(lián)的冠詞。該方法也可以包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語(yǔ)來(lái)抽取用于分類器的特征函數(shù)。在另一實(shí)施例中,類是與輸入文本中的介詞短語(yǔ)關(guān)聯(lián)的介詞。此類的方法可以包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語(yǔ)抽取用于分類器的特征函數(shù)。在一個(gè)實(shí)施例中,非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間,學(xué)習(xí)文本的特征空間包括由作者使用的單詞。訓(xùn)練語(yǔ)法校正模型可以包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。訓(xùn)練語(yǔ)法校正模型也可以包括通過(guò)分析非學(xué)習(xí)文本來(lái)識(shí)別多個(gè)線性分類器。線性分類器進(jìn)一步包括權(quán)重因子,該權(quán)重因子包括在權(quán)重因子的矩陣中。在一個(gè)實(shí)施例中,訓(xùn)練語(yǔ)法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解(SVD)。訓(xùn)練語(yǔ)法校正模型也可以包括識(shí)別組合權(quán)重值,該組合權(quán)重值代表通過(guò)分析非學(xué)習(xí)文本所識(shí)別的第一權(quán)重值元素以及通過(guò)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)來(lái)分析學(xué)習(xí)文本而識(shí)別的第二權(quán)重值元素。也提供用于自動(dòng)化文本校正的一種設(shè)備。該設(shè)備可以包括例如配置成執(zhí)行上述的方法的步驟的處理器。提供一種方法的另一實(shí)施例。該方法可以包括校正語(yǔ)義搭配錯(cuò)誤。此類方法的一個(gè)實(shí)施例包括響應(yīng)于在處理裝置執(zhí)行的平行語(yǔ)言文本的語(yǔ)料庫(kù)分析,自動(dòng)地識(shí)別一個(gè)或多個(gè)譯文候選。另外,該方法可以包括使用處理裝置來(lái)確定與每個(gè)譯文候選關(guān)聯(lián)的特征。該方法也可以包括從存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中的學(xué)習(xí)文本的語(yǔ)料庫(kù)生成一組一個(gè)或多個(gè)權(quán)重值。該方法可以進(jìn)一步包括響應(yīng)于與每個(gè)譯文候選關(guān)聯(lián)的特征和所述一組一個(gè)或多個(gè)權(quán)重值來(lái)使用處理裝置計(jì)算針對(duì)所述一個(gè)或多個(gè)譯文候選的分?jǐn)?shù)。在進(jìn)一步的實(shí)施例中,識(shí)別一個(gè)或多個(gè)譯文候選可以包括從平行文本的數(shù)據(jù)庫(kù)選擇文本的平行語(yǔ)料庫(kù),每個(gè)平行文本包括第一語(yǔ)言的文本和第二語(yǔ)言的相應(yīng)文本,使用處理裝置來(lái)對(duì)第一語(yǔ)言的文本進(jìn)行劃分,使用所述處理裝置來(lái)標(biāo)記化第二語(yǔ)言的文本,使用處理裝置來(lái)自動(dòng)化地將第一文本中的單詞與第二文本中的單詞對(duì)準(zhǔn),使用處理裝置從第一文本和第二文本中的對(duì)準(zhǔn)的單詞抽取短語(yǔ),并且使用處理裝置來(lái)計(jì)算與第一文本中的一個(gè)或多個(gè)短語(yǔ)以及第二文本中的一個(gè)或多個(gè)短語(yǔ)關(guān)聯(lián)的釋義匹配的概率。在特定的實(shí)施例中,與每個(gè)譯文候選關(guān)聯(lián)的特征是釋義匹配的概率。可以使用對(duì)學(xué)習(xí)文本的語(yǔ)料庫(kù)的最小錯(cuò)誤率訓(xùn)練(MERT)操作來(lái)計(jì)算一組一個(gè)或多個(gè)權(quán)重值。該方法也可以包括生成具有帶有從拼寫(xiě)編輯距離導(dǎo)出的特征的搭配校正的短語(yǔ)表。在另一個(gè)實(shí)施例中,該方法可以包括生成具有帶有從同音異義詞字典導(dǎo)出的特征的搭配校正的短語(yǔ)表。在另一個(gè)實(shí)施例中,該方法可以包括生成帶有從同義詞導(dǎo)出的特征的搭配校正的短語(yǔ)表。另外,該方法可以包括生成具有帶有從母語(yǔ)引入的釋義導(dǎo)出的特征的搭配校正的短語(yǔ)表。在此類的實(shí)施例中,短語(yǔ)表包括用于在計(jì)算釋義匹配的概率使用的一個(gè)或多個(gè)懲罰特征。也提供一種設(shè)備,包括至少一個(gè)處理器和耦合到至少一個(gè)處理器的存儲(chǔ)器裝置,其中至少一個(gè)處理器配置成執(zhí)行如上所述的權(quán)利要求的方法的步驟。也提供一種有形計(jì)算機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可讀代碼,當(dāng)由計(jì)算機(jī)執(zhí)行時(shí),使得計(jì)算機(jī)執(zhí)行如上所述的方法中的操作。術(shù)語(yǔ)“耦合”被定義為連接,盡管不必為直接地連接,并且也不必是機(jī)械地連接。術(shù)語(yǔ)“一個(gè)”以及“一種”被定義為一個(gè)或多個(gè),除非本公開(kāi)明確另外要求。術(shù)語(yǔ)“基本上”以及其變形被定義為大體上但不必全部為由本領(lǐng)域技術(shù)人員理解所規(guī)定的那樣,并且在一個(gè)非限制性的實(shí)施例中,“基本上”表示處于所規(guī)定的10%的范圍內(nèi),優(yōu)選地為5%的范圍內(nèi),更為優(yōu)選的是位于1%內(nèi),并且最為優(yōu)選的是位于0.5%的范圍內(nèi)。術(shù)語(yǔ)“包括(comprise)”(以及任意其他形式的包括,例如“comprises”和“comprising”)、"具有”、“包括(include)” (以及任意其他形式的包括,例如“includes”和“including”)和“包含(contain)” (以及任意其他形式的包含,例如“contains”和“containing”)是開(kāi)放式的連接動(dòng)詞。結(jié)果是,“包括(comprises) ”、“具有”、“包括(includes) ”或“包含(contains) ”一個(gè)或多個(gè)步驟或單元的方法或裝置處理那些一個(gè)或多個(gè)步驟或單元,但不限于僅處理那些步驟或單元。同樣地,“包括(comprises) ”、“具有”、“包括(includes) ”或“包含(contains) ”一個(gè)或多個(gè)特征的方法的步驟或裝置的單元處理那些一個(gè)或多個(gè)特征,但不限于僅處理那些一個(gè)或多個(gè)特征。進(jìn)一步,以特定方式配置的裝置或結(jié)構(gòu)至少以這種方式來(lái)配置,但其也可以以沒(méi)有列出的方式來(lái)配置。通過(guò)參考結(jié)合所附附圖的下面特定實(shí)施例的詳細(xì)描述,其他的特征和關(guān)聯(lián)優(yōu)勢(shì)將變得明顯。
下面的附圖形成本說(shuō)明書(shū)的一部分并且被包括進(jìn)以進(jìn)一步演示本發(fā)明的某些方面。通過(guò)參考這些附圖的一個(gè)或多個(gè)附圖、結(jié)合這里所提供的特定實(shí)施例的詳細(xì)描述,本發(fā)明可以被更好的理解。圖1是示出根據(jù)本公開(kāi)的一個(gè)實(shí)施例的用于分析話語(yǔ)的系統(tǒng)的框圖;圖2是示出根據(jù)本公開(kāi)的一個(gè)實(shí)施例的配置成存儲(chǔ)句子的數(shù)據(jù)管理系統(tǒng)的框圖;圖3是示出根據(jù)本公開(kāi)的一個(gè)實(shí)施例的用于分析話語(yǔ)的計(jì)算機(jī)系統(tǒng)的框圖;圖4是示出用于線性鏈CRF的圖形表示的框圖;圖5是用于線性鏈條件隨機(jī)域(CRF)的訓(xùn)練句子的示例標(biāo)記;圖6是示了二層階乘CRF的圖形表示的框圖;圖7是用于階乘條件隨機(jī)域(CRF)的訓(xùn)練句子的示例標(biāo)記;圖8是示出用于將標(biāo)點(diǎn) 插入進(jìn)句子的方法的一個(gè)實(shí)施例的流程圖;圖9是示出用于自動(dòng)的語(yǔ)法糾錯(cuò)的方法的一個(gè)實(shí)施例的流程圖;圖1OA是示出用于校正冠詞錯(cuò)誤的文本校正模型的一個(gè)實(shí)施例的精確性的示圖;圖1OB是示出用于校正介詞錯(cuò)誤的文本校正模型的一個(gè)實(shí)施例的精確性的示圖;圖1lA是示出相比較于使用DeFelice特征集的常用方法,用于校正冠詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖1lB是示出相比較于使用Han特征集的常用方法,用于校正冠詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖1lC是示出相比較于使用Lee特征集的常用方法,用于校正冠詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖12A是示出相比較于使用DeFelice特征集的常用方法,用于校正介詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖12B是示出相比較于使用TetreaultChunk特征集的常用方法,用于校正介詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖12C是示出相比較于使用TetreaultParse特征集的常用方法,用于校正介詞錯(cuò)誤的方法的Fl測(cè)量的示圖;圖13是示出用于校正語(yǔ)義搭配錯(cuò)誤的方法的一個(gè)實(shí)施例的流程圖。
具體實(shí)施例方式參考在附圖中示出并且在下面的描述細(xì)化的非限制性實(shí)施例來(lái)更為全面地解釋各種特征和優(yōu)勢(shì)。公知的原始材料、處理技術(shù)、組件和裝置的描述被省略以便不必要地混淆本發(fā)明的細(xì)節(jié)。然而,應(yīng)該理解的是指示本發(fā)明的實(shí)施例的詳細(xì)描述和特定例子是僅通過(guò)實(shí)例說(shuō)明給出的,并且絕不是限制。根本的發(fā)明構(gòu)思內(nèi)的精神和/或范圍內(nèi)的各種替代、修改、添加和/或重新安排將通過(guò)本公開(kāi)而對(duì)本領(lǐng)域技術(shù)人員變得清楚。在本說(shuō)明書(shū)中描述的某些單元已經(jīng)被標(biāo)記為模塊,以便更為特別地強(qiáng)調(diào)它們的實(shí)現(xiàn)獨(dú)立性。模塊是“一種自包含硬件或軟件組件,其與更大的系統(tǒng)交互”,艾倫弗里德曼,“The Computer Glossary^ 268 (1998年,第8版)。模塊包括機(jī)器或機(jī)器可執(zhí)行指令。例如,模塊可以被實(shí)現(xiàn)為硬件電路,包括定制的VLSI電路或門陣列,現(xiàn)成的半導(dǎo)體例如邏輯芯片、晶體管或其他分離組件。模塊也可以被實(shí)現(xiàn)在可編程硬件器件中,例如現(xiàn)場(chǎng)可編程門陣列、可編程陣列邏輯、可編程邏輯器件或類似等。模塊也可以包括軟件定義的單元或指令,當(dāng)由處理機(jī)器或裝置執(zhí)行時(shí),將存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置上的數(shù)據(jù)從第一狀態(tài)轉(zhuǎn)換到第二狀態(tài)??蓤?zhí)行代碼的標(biāo)識(shí)模塊可以例如包括計(jì)算機(jī)指令的一個(gè)或多個(gè)物理或邏輯塊,其可以被組織為對(duì)象、過(guò)程或功能。不管怎樣,標(biāo)識(shí)模塊的可執(zhí)行文件不需要物理上在一起,而是可以包括存儲(chǔ)在不同位置中的分離指令,其在邏輯上連接在一起時(shí)包括模塊,并且當(dāng)由處理器執(zhí)行時(shí),實(shí)現(xiàn)聲明的數(shù)據(jù)轉(zhuǎn)換。事實(shí)上,可執(zhí)行代碼的模塊可以是單個(gè)的指令,或者是許多指令,并且可以在若干個(gè)不同的代碼段、在不同的程序間或跨若干個(gè)存儲(chǔ)裝置來(lái)分布。類似地,操作數(shù)據(jù)這里可以在模塊內(nèi)被識(shí)別和示出,并且可以以任意合適的形式來(lái)體現(xiàn),并且在任意合適類型的數(shù)據(jù)結(jié)構(gòu)內(nèi)組織。操作數(shù)據(jù)可以被聚集為單個(gè)的數(shù)據(jù)集,或者可以在不同的位置上分布,包括在不同的存儲(chǔ)裝置上分布。在下面的描述中,提供許多特定的細(xì)節(jié),例如編制程序、軟件模塊、用戶選擇、網(wǎng)絡(luò)事務(wù)、數(shù)據(jù)庫(kù)查詢、數(shù)據(jù)庫(kù)結(jié)構(gòu)、硬件模塊、硬件電路、硬件芯片等的例子,以提供對(duì)本實(shí)施例的透徹理解。然而,相關(guān)領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到本發(fā)明可以在沒(méi)有特定細(xì)節(jié)的一個(gè)或多個(gè)的情況下實(shí)踐,或可以利用其他的方法、組件、材料等來(lái)實(shí)踐。在其他的實(shí)例中,公知的結(jié)構(gòu)、材料、或操作沒(méi)有詳細(xì)的示出或描述以避免混淆本發(fā)明的多個(gè)方面。圖1示出用于自動(dòng)化文本和語(yǔ)音編輯(speech editing)的系統(tǒng)100的一個(gè)實(shí)施例。系統(tǒng)100可以包括服務(wù)器102、數(shù)據(jù)存儲(chǔ)裝置106、網(wǎng)絡(luò)108和用戶接口裝置110。在一個(gè)特定的實(shí)施例中,系統(tǒng)100可以包括存儲(chǔ)器控制器104、或存儲(chǔ)器服務(wù)器,其配置成管理數(shù)據(jù)存儲(chǔ)器裝置106和與網(wǎng)絡(luò)108通信的服務(wù)器102或其他組件之間的數(shù)據(jù)傳遞。在替代的實(shí)施例中,存儲(chǔ)器控制器104可以耦合到網(wǎng)絡(luò)108。在一個(gè)實(shí)施例中,用戶接口裝置110可以被廣義地指代,并且旨在包含基于合適的處理器的裝置,例如臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、個(gè)人數(shù)字助理(PDA)或平板計(jì)算機(jī)、接入到網(wǎng)絡(luò)108的智能電話或其他移動(dòng)通信裝置或管理器裝置。在進(jìn)一步的實(shí)施例中,用戶接口裝置110可以接入到因特網(wǎng)或其他廣域網(wǎng)或局域網(wǎng),以訪問(wèn)由服務(wù)器102主控的web應(yīng)用或web服務(wù)并且提供用戶接口以便使得用戶能夠輸入或接收信息。例如,用戶可以通過(guò)麥克風(fēng)(未示出)或鍵盤(pán)320來(lái)錄入輸入的話語(yǔ)或文本到系統(tǒng)100。網(wǎng)絡(luò)108可以促進(jìn)服務(wù)器102和用戶接口裝置110之間的數(shù)據(jù)傳遞。網(wǎng)絡(luò)108可以包括任意類型的通信網(wǎng)絡(luò),包括但不限于直接PC到PC連接、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、調(diào)制解調(diào)器到調(diào)制解調(diào)器連接、因特網(wǎng)、上述的組合,或現(xiàn)在已知或稍后開(kāi)始的在組網(wǎng)領(lǐng)域內(nèi)允許兩個(gè)或多個(gè)計(jì)算機(jī)來(lái)彼此通信的任意其他通信網(wǎng)絡(luò)。在一個(gè)實(shí)施例中,服務(wù)器102配置成存儲(chǔ)輸入的話語(yǔ)和/或輸入的文本。另外,服務(wù)器可以經(jīng)由存儲(chǔ)區(qū)域網(wǎng)(SAN)、LAN、數(shù)據(jù)總線或類似等來(lái)訪問(wèn)存儲(chǔ)在數(shù)據(jù)存儲(chǔ)器裝置106中的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)器裝置106可以包括硬盤(pán)(包括在獨(dú)立磁盤(pán)冗余(RAID)陣列中布置的硬盤(pán))、包括磁帶數(shù)據(jù)存儲(chǔ)器裝置的帶存儲(chǔ)器驅(qū)動(dòng)器、光存儲(chǔ)器裝置或類似等。在一個(gè)實(shí)施例中,數(shù)據(jù)存儲(chǔ)器裝置106可以存儲(chǔ)英語(yǔ)或其他語(yǔ)言的句子。數(shù)據(jù)可以布置在數(shù)據(jù)庫(kù)中并且可以通過(guò)結(jié)構(gòu)化查詢語(yǔ)言(SQL)查詢、或其他數(shù)據(jù)庫(kù)查詢語(yǔ)言或操作來(lái)訪問(wèn)。圖2示出配置成存儲(chǔ)輸入的話語(yǔ)和/或輸入文本的數(shù)據(jù)管理系統(tǒng)200的一個(gè)實(shí)施例。在一個(gè)實(shí)施例中,數(shù)據(jù)管理系統(tǒng)200可以包括服務(wù)器102。服務(wù)器102可以耦合到數(shù)據(jù)總線202。在一個(gè)實(shí)施例中,數(shù)據(jù)管理系統(tǒng)200也可以包括第一數(shù)據(jù)存儲(chǔ)器裝置204、第二數(shù)據(jù)存儲(chǔ)器裝置206和/或第三數(shù)據(jù)存儲(chǔ)器裝置208。在另外的實(shí)施例中,數(shù)據(jù)管理系統(tǒng)200可以包括另外的數(shù)據(jù)存儲(chǔ)器裝置(未示出)。在一個(gè)實(shí)施例中,例如學(xué)習(xí)者英語(yǔ)的NUS語(yǔ)料庫(kù)(NUCLE)的學(xué)習(xí)文本的語(yǔ)料庫(kù)可以存儲(chǔ)在第一數(shù)據(jù)存儲(chǔ)器裝置204中。第二數(shù)據(jù)存儲(chǔ)器裝置206可以存儲(chǔ)例如非學(xué)習(xí)文本的語(yǔ)料庫(kù)。非學(xué)習(xí)文本的例子可以包括平行語(yǔ)料庫(kù)、新聞或期刊文本以及其他公共可獲得的文本。在某些實(shí)施例中,從被認(rèn)為包含相對(duì)少的錯(cuò)誤的源選擇非學(xué)習(xí)文本。第三數(shù)據(jù)存儲(chǔ)器裝置208可以包含計(jì)算的數(shù)據(jù)、輸入的文本和或輸入的話語(yǔ)數(shù)據(jù)。在另外的實(shí)施例中,所述的數(shù)據(jù)可以被一起存儲(chǔ)進(jìn)合并的數(shù)據(jù)存儲(chǔ)器裝置 210。在一個(gè)實(shí)施例中,服務(wù)器102可以向選擇的數(shù)據(jù)存儲(chǔ)器裝置204、206提交查詢,以檢索輸入的句子。服務(wù)器102可以將合并的數(shù)據(jù)集存儲(chǔ)在合并的數(shù)據(jù)存儲(chǔ)器裝置210中。在此類的一個(gè)實(shí)施例中,服務(wù)器102可以返回查閱合并的數(shù)據(jù)存儲(chǔ)器裝置210以獲得與指定的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。替代地,服務(wù)器101可以獨(dú)立地查詢數(shù)據(jù)存儲(chǔ)器裝置204、206,208中的每個(gè)或在分布式的查詢中查詢,以便獲得與輸入的句子關(guān)聯(lián)的一組數(shù)據(jù)元素。在另一個(gè)替代實(shí)施例中,多個(gè)數(shù)據(jù)庫(kù)可以存儲(chǔ)在單個(gè)的合并的數(shù)據(jù)存儲(chǔ)器裝置210上。數(shù)據(jù)管理系統(tǒng)200也可以包括用于輸入和處理話語(yǔ)的文件。在各種實(shí)施例中,月艮務(wù)器102可以通過(guò)數(shù)據(jù)總線202與數(shù)據(jù)存儲(chǔ)器裝置204、206、208通信。數(shù)據(jù)總線202可以包括SAN、LAN或類似等。通信基礎(chǔ)結(jié)構(gòu)可以包括以太網(wǎng)、光纖通道仲裁環(huán)路(FC-AL)、小型計(jì)算機(jī)系統(tǒng)接口(SCSI )、串行高級(jí)技術(shù)附件(SATA)、高級(jí)技術(shù)附加裝置(ATA)和/或其他與數(shù)據(jù)存儲(chǔ)和通信關(guān)聯(lián)的類似數(shù)據(jù)通信策略。例如,服務(wù)器102可以間接與數(shù)據(jù)存儲(chǔ)器裝置204、206、208、210通信;服務(wù)器102首先與存儲(chǔ)器服務(wù)器或存儲(chǔ)器控制器104通信。服務(wù)器102可以主控配置用于分析話語(yǔ)和/或輸入文本的軟件應(yīng)用。軟件應(yīng)用可以進(jìn)一步包括用于與數(shù)據(jù)存儲(chǔ)器裝置204、206、208、210接口連接、與網(wǎng)絡(luò)108接口連接、通過(guò)用戶接口裝置110與用戶接口連接以及類似等的模塊。在另外的實(shí)施例中,服務(wù)器102可以主控引擎、應(yīng)用插件、或應(yīng)用編程接口(API)。圖3示出根據(jù)服務(wù)器102和/或用戶接口裝置110的某些實(shí)施例適配的計(jì)算機(jī)系統(tǒng)300。中央處理單元(“CPU”)302耦合到系統(tǒng)總線304。CPU302可以是通用CPU或微處理器、圖像處理單元(“GPU”)、微控制器或可以被專門地編程以執(zhí)行如下面的流程圖中描述的方法的類似物。本實(shí)施例并不限于CPU302的架構(gòu),只要CPU302直接或間接地支持如這里所述的模塊和操作。CPU302根據(jù)本實(shí)施例可以執(zhí)行各種邏輯指令。計(jì)算機(jī)系統(tǒng)300也可以包括隨機(jī)存取存儲(chǔ)器(RAM) 308、其可以是SRAM、DRAM、SDRAM或類似等。計(jì)算機(jī)系統(tǒng)300可以使用RAM308來(lái)存儲(chǔ)由具有代碼的軟件應(yīng)用用于分析話語(yǔ)的各種數(shù)據(jù)結(jié)構(gòu)。計(jì)算機(jī)系統(tǒng)300也可以包括只讀存儲(chǔ)器(ROM) 306,其可以是PR0M、EPROM、EEPR0M、光存儲(chǔ)器或類似等。ROM可以存儲(chǔ)用于啟動(dòng)計(jì)算機(jī)系統(tǒng)300的配置信息。RAM308和R0M306保持用戶和系統(tǒng)數(shù)據(jù)。計(jì)算機(jī)系統(tǒng)300也可以包括輸入/輸出(I/O)適配器310、通信適配器314、用戶接口適配器316和顯示器適配器322。在某些實(shí)施例中,I/O適配器310和/或用戶接口適配器316可以使得用戶來(lái)與計(jì)算機(jī)系統(tǒng)300交互,從而輸入話語(yǔ)或文本。在另外的實(shí)施例中,顯示器適配器322可以顯示與用于生成具有插入的標(biāo)點(diǎn)符號(hào)、語(yǔ)法校正和其他相關(guān)文本和語(yǔ)音編輯功能的基于軟件和web的應(yīng)用或移動(dòng)應(yīng)用關(guān)聯(lián)的圖形用戶接口。I/O適配器310可以連接一個(gè)或多個(gè)存儲(chǔ)器裝置312到計(jì)算機(jī)系統(tǒng)300,該存儲(chǔ)器裝置312例如為硬驅(qū)動(dòng)器、計(jì)算機(jī)盤(pán)(⑶)驅(qū)動(dòng)器、軟盤(pán)驅(qū)動(dòng)器和磁帶驅(qū)動(dòng)器中的一個(gè)或多個(gè)。通信適配器314可以適于將計(jì)算機(jī)系統(tǒng)300耦合到網(wǎng)絡(luò)108,該網(wǎng)絡(luò)108可以是LAN、WAN和/或因特網(wǎng)中的一個(gè)或多個(gè)。用戶接口適配器316將例如鍵盤(pán)320和指向裝置318的用戶輸入裝置耦合到計(jì)算機(jī)系統(tǒng)300。顯示器適配器322可以由CPU302驅(qū)動(dòng)以控制在顯示器裝置324上的顯示。本公開(kāi)的應(yīng)用并不限于計(jì)算機(jī)系統(tǒng)300的架構(gòu)。相反,將計(jì)算機(jī)系統(tǒng)300提供為可以適于執(zhí)行服務(wù)器102和/或用戶接口裝置110的一種類型的計(jì)算裝置的例子。例如,可以使用任意合適的基于處理器的裝置,包括但不限于個(gè)人數(shù)字助理(PDA)、臺(tái)式計(jì)算機(jī)、智能電話、計(jì)算機(jī)游戲控制臺(tái)以及多處理器服務(wù)器。此外,本公開(kāi)的系統(tǒng)和方法可以實(shí)現(xiàn)在專用集成電路(ASIC)上,超大規(guī)模集成電路(VLSI)電路或其他電路。事實(shí)上,本領(lǐng)域技術(shù)人員可以使用任意數(shù)目的合適結(jié)構(gòu),該結(jié)構(gòu)能夠根據(jù)所述的實(shí)施例執(zhí)行邏輯操作。下面的示意流程圖和相關(guān)描述總體上作為邏輯流程圖來(lái)闡述。這樣,所繪出的順序和標(biāo)記的步驟指示所提供的方法的一個(gè)實(shí)施例。在功能、邏輯或效果上等同于所示出的方法的一個(gè)或多個(gè)步驟、或其一部分的其他步驟和方法是可以想到的。另外,提供所使用的格式和符號(hào)以解釋本方法的邏輯步驟并且被理解為不限制該方法的范圍。盡管在流程圖中可以使用各種箭頭類型和連線類型,它們被理解為不限制相應(yīng)方法的范圍。事實(shí)上,一些箭頭或其他連接符可以用于僅指示方法的邏輯流程。例如,箭頭可以指示在所繪出的方法的列表步驟之間的未指定持續(xù)期間的等待或監(jiān)視周期。另外,特定方法發(fā)生的順序可以或可以不嚴(yán)格遵守所示相應(yīng)步驟的順序。標(biāo)點(diǎn)預(yù)測(cè)根據(jù)一個(gè)實(shí)施例,可以從標(biāo)準(zhǔn)文本處理角度來(lái)預(yù)測(cè)標(biāo)點(diǎn)符號(hào),其中僅語(yǔ)音文本是可獲得的,而不依賴于另外的韻律特征例如基音和中斷持續(xù)時(shí)間。例如,可以在轉(zhuǎn)錄對(duì)話語(yǔ)音文本或話語(yǔ)上執(zhí)行標(biāo)點(diǎn)預(yù)測(cè)任務(wù)。不同于例如廣播新聞?wù)Z料庫(kù)的許多其他語(yǔ)料庫(kù),對(duì)話語(yǔ)音語(yǔ)料庫(kù)可以包括對(duì)話,其中非正式的和短的句子頻繁地出現(xiàn)。此外,由于對(duì)話的屬性,相比較于其他的語(yǔ)料庫(kù),其也可以包括更多的疑問(wèn)句。一種放松由隱事件語(yǔ)言編碼的強(qiáng)相關(guān)性假設(shè)的自然方法是采用非定向圖形模型,其中可以利用任意重疊的特征。條件隨機(jī)域(CRF)已經(jīng)廣泛地應(yīng)用于各種序列標(biāo)記和分段任務(wù)中。在給定觀察項(xiàng)下,CRF可以是完整標(biāo)記序列的條件分布的判別模型。例如,采取第一級(jí)馬爾可夫?qū)傩缘牡谝患?jí)線性鏈CRF可以通過(guò)下面的等式來(lái)定義:Pa(y IX) = -J- exp〔等 EXJk (X,Vy1, Vt, /))其中X是觀察項(xiàng),而y是標(biāo)記序列。作為時(shí)間步長(zhǎng)t的函數(shù)的特征函數(shù)fk可以在整個(gè)觀察項(xiàng)X和兩個(gè)相鄰隱標(biāo)記上定義。Z(X)是歸一化因子以確保很好的形成概率分布。圖4是不出用于線性鏈CRF的圖形表不的框圖。一系列第一節(jié)點(diǎn)402a、402b、402c、...,402n稱合到一系列第二節(jié)點(diǎn)404a、404b、404c、…,404n。第二節(jié)點(diǎn)可以是與第一節(jié)點(diǎn)402的相應(yīng)節(jié)點(diǎn)關(guān)聯(lián)的事件,例如單詞層標(biāo)簽。標(biāo)點(diǎn)預(yù)測(cè)任務(wù)可以建模為向每個(gè)單詞分配標(biāo)簽的處理。一組可能的標(biāo)簽可以包括沒(méi)有(NONE)、逗號(hào)(,)、句號(hào)(.),問(wèn)號(hào)(?)以及感嘆號(hào)(!)。根據(jù)一個(gè)實(shí)施例,每個(gè)單詞可以與一個(gè)事件關(guān)聯(lián)。事件標(biāo)識(shí)哪個(gè)標(biāo)點(diǎn)符號(hào)(可能NONE)應(yīng)該被插入在單詞后。用于模型的訓(xùn)練數(shù)據(jù)可以包括一組話語(yǔ),其中標(biāo)點(diǎn)符號(hào)被編號(hào)為分配給各個(gè)單詞的標(biāo)簽。標(biāo)簽NONE意味著在當(dāng)前的單詞后沒(méi)有標(biāo)點(diǎn)符號(hào)插入。任意其他的標(biāo)簽標(biāo)識(shí)用于插入相應(yīng)的標(biāo)點(diǎn)符號(hào)的位置。預(yù)測(cè)標(biāo)簽的最為可能的序列并且接著可以從此類的輸出構(gòu)建中標(biāo)點(diǎn)的文本??梢栽趫D5中示出對(duì)話語(yǔ)加標(biāo)點(diǎn)的示例。圖5是用于線性鏈條件隨機(jī)域(CRF)的訓(xùn)練句子的示例加標(biāo)點(diǎn)。句子502可以被劃分成單詞和分配給每個(gè)單詞的單詞層標(biāo)簽504。單詞層標(biāo)簽504可以指示跟隨輸出句子中的單詞的標(biāo)點(diǎn)標(biāo)記。例如,單詞“不”被加標(biāo)點(diǎn)“逗號(hào)”指示逗號(hào)應(yīng)該跟著單詞“不”。另夕卜,例如“請(qǐng)”的一些單詞標(biāo)記有“沒(méi)有”,以指示沒(méi)有跟隨單詞“請(qǐng)”的符號(hào)標(biāo)記。根據(jù)一個(gè)實(shí)施例,條件隨機(jī)域的特征可以因式分解為在當(dāng)前的時(shí)間步長(zhǎng)(在該情形中,邊緣)處分配一組團(tuán)(clique)的二進(jìn)制函數(shù)以及在觀察序列上單獨(dú)定義的特征函數(shù)的乘積。圍繞當(dāng)前單詞的n-元發(fā)生連同位置信息用作針對(duì)n=l; 2; 3的二進(jìn)制特征函數(shù)。當(dāng)構(gòu)建特征時(shí),出現(xiàn)在來(lái)自于當(dāng)前單詞的5個(gè)單詞內(nèi)的單詞被考慮。特殊的開(kāi)始和結(jié)束符號(hào)被超出話語(yǔ)邊界使用。例如,對(duì)于在圖5中示出的單詞,例子特征包括在相對(duì)位置0處的一元特征“做”,在相對(duì)位置-1處的“請(qǐng)”,在相對(duì)位置2到3處的二元特征“你想”,以及在相對(duì)位置-2到0處的三元特征“不請(qǐng)做”。在本實(shí)施例中的線性鏈CRF模型可以能夠利用任意重疊特征來(lái)對(duì)單詞和標(biāo)點(diǎn)符號(hào)之間的相關(guān)性建模。因此,可以避免隱事件語(yǔ)言模型中的強(qiáng)相關(guān)性假設(shè)。通過(guò)包括在句子級(jí)處的長(zhǎng)范圍相關(guān)性的分析,提供進(jìn)一步改進(jìn)該模型。例如,在圖5中示出的相同話語(yǔ)中,結(jié)束問(wèn)號(hào)和出現(xiàn)的很遠(yuǎn)的指示單詞“你想”之間的長(zhǎng)范圍相關(guān)性可以不被捕獲。作為動(dòng)態(tài)條件隨機(jī)域的一個(gè)實(shí)例的階乘-CRF (F-CRF)可以用作一種框架,該框架用于針對(duì)給定的序列提供同時(shí)標(biāo)記標(biāo)簽的多個(gè)層的能力。F-CRF學(xué)習(xí)給定觀察項(xiàng)的標(biāo)簽的聯(lián)合條件分布。動(dòng)態(tài)條件隨機(jī)域可以被定義為給定觀察項(xiàng)X標(biāo)記矢量序列y的條件概率:
權(quán)利要求
1.一種設(shè)備,包括: 至少一個(gè)處理器和耦合到所述至少一個(gè)處理器的存儲(chǔ)器裝置,其中所述至少一個(gè)處理器配置成: 識(shí)別輸入話語(yǔ)的單詞; 將單詞放置在存儲(chǔ)在所述存儲(chǔ)器裝置中的多個(gè)第一節(jié)點(diǎn)中; 部分基于所述多個(gè)第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來(lái)向第一節(jié)點(diǎn)的每個(gè)分配單詞層標(biāo)簽;以及通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子。
2.根據(jù)權(quán)利要求1所述的設(shè)備,其中所述單詞層標(biāo)簽是沒(méi)有、逗號(hào)、句號(hào)、問(wèn)號(hào)以及感嘆號(hào)中的至少一個(gè)。
3.根據(jù)權(quán)利要求1所述的設(shè)備,其中所述多個(gè)第一節(jié)點(diǎn)是條件隨機(jī)域的第一級(jí)線性鏈。
4.根據(jù)權(quán)利要求1所述的設(shè)備,其中單詞層標(biāo)簽的每個(gè)被放置在存儲(chǔ)在所述存儲(chǔ)器裝置中的多個(gè)第二節(jié)點(diǎn)的節(jié)點(diǎn)中,每個(gè)所述第二節(jié)點(diǎn)耦合到至少一個(gè)第一節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1所述的設(shè)備,其中所述至少一個(gè)處理器進(jìn)一步配置成部分基于所述輸入話語(yǔ)的邊界來(lái)向所述多個(gè)第一節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)分配句子層標(biāo)簽,其中部分基于所述句子層標(biāo)簽來(lái)選擇針對(duì)所述輸出句子而選擇的標(biāo)點(diǎn)標(biāo)記。
6.根據(jù)權(quán)利要求5所述的設(shè)備,其中所述句子層標(biāo)簽是陳述句開(kāi)始、陳述句內(nèi)部、疑問(wèn)句開(kāi)始、疑問(wèn)句內(nèi)部、感嘆句開(kāi)始和感嘆句內(nèi)部中的至少一個(gè)。
7.根據(jù)權(quán)利要求5所述的設(shè)備,其中所述多個(gè)第一節(jié)點(diǎn)和所述多個(gè)第二節(jié)點(diǎn)包括動(dòng)態(tài)條件隨機(jī)域的兩層階乘結(jié)構(gòu)。
8.一種計(jì)算機(jī)程序產(chǎn)品,包括: 計(jì)算機(jī)可讀介質(zhì),其包括: 用于識(shí)別輸入話語(yǔ)的單詞的代碼; 用于將單詞放置在存儲(chǔ)在存儲(chǔ)器裝置中的多個(gè)第一節(jié)點(diǎn)中的代碼; 用于部分基于多個(gè)第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來(lái)向第一節(jié)點(diǎn)的每個(gè)分配單詞層標(biāo)簽的代碼; 用于通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子的代碼。
9.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述單詞層標(biāo)簽是沒(méi)有、逗號(hào)、句號(hào)、問(wèn)號(hào)以及感嘆號(hào)中的至少一個(gè)。
10.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述多個(gè)第一節(jié)點(diǎn)是條件隨機(jī)域的第一級(jí)線性鏈。
11.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中單詞層標(biāo)簽的每個(gè)被放置在存儲(chǔ)在所述存儲(chǔ)器裝置中的多個(gè)第二節(jié)點(diǎn)的節(jié)點(diǎn)中,每個(gè)所述第二節(jié)點(diǎn)耦合到至少一個(gè)第一節(jié)點(diǎn)。
12.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述介質(zhì)進(jìn)一步包括部分基于所述輸入話語(yǔ)的邊界來(lái)向所述多個(gè)第一節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)分配句子層標(biāo)簽,其中用于生成所述輸出句子的代碼部分基于所述句子層標(biāo)簽來(lái)選擇針對(duì)所述輸出句子而選擇的標(biāo)點(diǎn)標(biāo)記。
13.根據(jù)權(quán)利要求12所述的計(jì)算機(jī)程序產(chǎn)品,其中所述句子層標(biāo)簽是陳述句開(kāi)始、陳述句內(nèi)部、疑問(wèn)句開(kāi)始、疑問(wèn)句內(nèi)部、感嘆句開(kāi)始和感嘆句內(nèi)部中的至少一個(gè)。
14.一種方法,包括: 識(shí)別輸入話語(yǔ)的單詞; 將單詞放置在多個(gè)第一節(jié)點(diǎn)中; 部分基于所述多個(gè)第一節(jié)點(diǎn)的相鄰節(jié)點(diǎn)來(lái)向多個(gè)第一節(jié)點(diǎn)中的每個(gè)第一節(jié)點(diǎn)分配單詞層標(biāo)簽;以及 通過(guò)將來(lái)自于多個(gè)第一節(jié)點(diǎn)的單詞與部分在分配給每個(gè)第一節(jié)點(diǎn)的單詞層標(biāo)簽上選擇的標(biāo)點(diǎn)組合,生成輸出句子。
15.根據(jù)權(quán)利要求14所述的方法,其中所述單詞層標(biāo)簽是沒(méi)有、逗號(hào)、句號(hào)、問(wèn)號(hào)以及感嘆號(hào)中的至少一個(gè)。
16.根據(jù)權(quán)利要求14所述的方法,其中所述多個(gè)第一節(jié)點(diǎn)是條件隨機(jī)域的第一級(jí)線性 鏈。
17.根據(jù)權(quán)利要求14所述的方法,其中單詞層標(biāo)簽的每個(gè)被放置在多個(gè)第二節(jié)點(diǎn)的節(jié)點(diǎn)中,每個(gè)所述第二節(jié)點(diǎn)耦合到至少一個(gè)第一節(jié)點(diǎn)。
18.根據(jù)權(quán)利要求14所述的方法,進(jìn)一步包括部分基于所述輸入話語(yǔ)的邊界來(lái)向所述多個(gè)第一節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)分配句子層標(biāo)簽,其中部分基于所述句子層標(biāo)簽來(lái)選擇針對(duì)所述輸出句子而選擇的標(biāo)點(diǎn)標(biāo)記。
19.根據(jù)權(quán)利要求18所述的方法,其中所述句子標(biāo)簽是陳述句開(kāi)始、陳述句內(nèi)部、疑問(wèn)句開(kāi)始、疑問(wèn)句內(nèi)部、感嘆句開(kāi)始和感嘆句內(nèi)部中的至少一個(gè)。
20.根據(jù)權(quán)利要求18所述的方法,其中所述多個(gè)第一節(jié)點(diǎn)和所述多個(gè)第二節(jié)點(diǎn)包括動(dòng)態(tài)條件隨機(jī)域的兩層階乘結(jié)構(gòu)。
21.一種用于校正語(yǔ)法錯(cuò)誤的方法,該方法包括: 接收自然語(yǔ)言文本輸入,所述文本輸入包括語(yǔ)法錯(cuò)誤,其中輸入文本的一部分包括來(lái)自于一組類的類; 從假設(shè)沒(méi)有語(yǔ)法錯(cuò)誤的非學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)選擇任務(wù),其中對(duì)于每個(gè)選擇任務(wù),分類器重新預(yù)測(cè)在非學(xué)習(xí)文本中使用的類; 從學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)校正任務(wù),其中對(duì)于每個(gè)校正任務(wù),分類器建議在學(xué)習(xí)文本中使用的類; 使用一組二進(jìn)制分類問(wèn)題來(lái)訓(xùn)練語(yǔ)法校正模型,該一組二進(jìn)制分類問(wèn)題包括多個(gè)選擇任務(wù)和多個(gè)校正任務(wù);以及 使用訓(xùn)練的語(yǔ)法校正模型來(lái)從一組可能的類預(yù)測(cè)文本輸入的類。
22.根據(jù)權(quán)利要求21所述的方法,進(jìn)一步包括輸出建議,以便如果預(yù)測(cè)的類不同于文本輸入中的類,則將文本輸入的類改變成預(yù)測(cè)的類。
23.根據(jù)權(quán)利要求21所述的方法,其中所述學(xué)習(xí)文本由老師以假定正確的類來(lái)加注釋。
24.根據(jù)權(quán)利要求21所述的方法,其中所述類是與輸入文本中的名詞短語(yǔ)關(guān)聯(lián)的冠詞
25.根據(jù)權(quán)利要求24所述的方法,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語(yǔ)來(lái)抽取用于分類器的特征函數(shù)。
26.根據(jù)權(quán)利要求21所述的方法,其中所述類是與輸入文本中的介詞短語(yǔ)關(guān)聯(lián)的介詞
27.根據(jù)權(quán)利要求26所述的方法,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語(yǔ)抽取用于分類器的特征函數(shù)。
28.根據(jù)權(quán)利要求21所述的方法,其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間,學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
29.根據(jù)權(quán)利要求21所述的方法,其中訓(xùn)練語(yǔ)法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。
30.根據(jù)權(quán)利要求21所述的方法,訓(xùn)練語(yǔ)法校正模型進(jìn)一步包括通過(guò)分析非學(xué)習(xí)文本來(lái)識(shí)別多個(gè)線性分類器。
31.根據(jù)權(quán)利要求30所述的方法,其中所述線性分類器進(jìn)一步包括權(quán)重因子,該權(quán)重因子包括在權(quán)重因子的矩陣中。
32.根據(jù)權(quán)利要求31所述的方法,其中訓(xùn)練所述語(yǔ)法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解(SVD)。
33.根據(jù)權(quán)利要求32所述的方法,其中訓(xùn)練語(yǔ)法校正模型也可以包括識(shí)別組合權(quán)重值,該組合權(quán)重值代表通過(guò)分析非學(xué)習(xí)文本所識(shí)別的第一權(quán)重值元素以及通過(guò)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)來(lái)分析學(xué)習(xí)文本而識(shí)別的第二權(quán)重值元素。
34.一種設(shè)備,包括: 至少一個(gè)處理器和耦合到該至少一個(gè)處理器的存儲(chǔ)器裝置,其中所述至少一個(gè)處理器配置成: 接收自然語(yǔ)言文本輸入,所述文本輸入包括語(yǔ)法錯(cuò)誤,其中輸入文本的一部分包括來(lái)自于一組類的類; 從假設(shè)沒(méi)有語(yǔ)法錯(cuò)誤的非學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)選擇任務(wù),其中對(duì)于每個(gè)選擇任務(wù),分類器重新預(yù)測(cè)在非學(xué)習(xí)文本中使用的類; 從學(xué)習(xí)文本的語(yǔ)料庫(kù)生成多個(gè)校正任務(wù),其中對(duì)于每個(gè)校正任務(wù),分類器建議在學(xué)習(xí)文本中使用的類; 使用一組二進(jìn)制分類問(wèn)題來(lái)訓(xùn)練語(yǔ)法校正模型,該一組二進(jìn)制分類問(wèn)題包括多個(gè)選擇任務(wù)和多個(gè)校正任務(wù);以及 使用訓(xùn)練的語(yǔ)法校正模型來(lái)從一組可能的類預(yù)測(cè)文本輸入的類。
35.根據(jù)權(quán)利要求34所述的設(shè)備,進(jìn)一步包括輸出建議,以便如果預(yù)測(cè)的類不同于文本輸入中的類,則將文本輸入的類改變成預(yù)測(cè)的類。
36.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述學(xué)習(xí)文本由老師以假定正確的類來(lái)加注釋。
37.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述類是與所述輸入文本中的名詞短語(yǔ)關(guān)聯(lián)的冠詞。
38.根據(jù)權(quán)利要求37所述的設(shè)備,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本中的名詞短語(yǔ)來(lái)抽取用于分類器的特征函數(shù)。
39.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述類是與輸入文本中的介詞短語(yǔ)關(guān)聯(lián)的介ο
40.根據(jù)權(quán)利要求39所述的設(shè)備,進(jìn)一步包括從非學(xué)習(xí)文本和學(xué)習(xí)文本的介詞短語(yǔ)抽取用于分類器的特征函數(shù)。
41.根據(jù)權(quán)利要求34所述的設(shè)備,其中所述非學(xué)習(xí)文本和學(xué)習(xí)文本具有不同的特征空間,學(xué)習(xí)文本的特征空間包括由作者使用的單詞。
42.根據(jù)權(quán)利要求34所述的設(shè)備,其中訓(xùn)練語(yǔ)法校正模型包括最小化訓(xùn)練數(shù)據(jù)上的損失函數(shù)。
43.根據(jù)權(quán)利要求34所述的設(shè)備,其中訓(xùn)練所述語(yǔ)法校正模型進(jìn)一步包括通過(guò)分析非學(xué)習(xí)文本來(lái)識(shí)別多個(gè)線性分類器。
44.根據(jù)權(quán)利要求43所述的設(shè)備,其中所述線性分類器進(jìn)一步包括權(quán)重因子,該權(quán)重因子包括在權(quán)重因子的矩陣中。
45.根據(jù)權(quán)利要求44所述的設(shè)備,其中訓(xùn)練所述語(yǔ)法校正模型進(jìn)一步包括在權(quán)重因子的矩陣上執(zhí)行奇異值分解(SVD)。
46.根據(jù)權(quán)利要求45所述的設(shè)備,其中訓(xùn)練語(yǔ)法校正模型也可以包括識(shí)別組合權(quán)重值,該組合權(quán)重值代表通過(guò)分析非學(xué)習(xí)文本所識(shí)別的第一權(quán)重值元素以及通過(guò)最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)來(lái)分析學(xué)習(xí)文本而識(shí)別的第二權(quán)重值元素。
47.一種用于校正語(yǔ)義搭配錯(cuò)誤的方法,包括: 響應(yīng)于在處理裝置執(zhí)行的平行語(yǔ)言文本的語(yǔ)料庫(kù)分析,自動(dòng)地識(shí)別一個(gè)或多個(gè)譯文候選; 使用處理裝置來(lái)確定與每個(gè)譯文候選關(guān)聯(lián)的特征; 從存儲(chǔ)在數(shù)據(jù)存儲(chǔ)裝置中的學(xué)習(xí)文本的語(yǔ)料庫(kù)生成一組一個(gè)或多個(gè)權(quán)重值; 響應(yīng)于與每個(gè)譯文候選關(guān)聯(lián)的特征和所述一組一個(gè)或多個(gè)權(quán)重值來(lái)使用處理裝置計(jì)算針對(duì)所述一個(gè)或多個(gè)譯文候選的分?jǐn)?shù)。
48.根據(jù)權(quán)利要求47所述的方法,其中識(shí)別一個(gè)或多個(gè)譯文候選包括: 從平行文本的數(shù)據(jù)庫(kù)選擇文本的平行語(yǔ)料庫(kù),每個(gè)平行文本包括第一語(yǔ)言的文本和第二語(yǔ)言的相應(yīng)文本; 使用處理裝置來(lái)對(duì)第一語(yǔ)言的文本進(jìn)行劃分; 使用所述處理裝置來(lái)標(biāo)記化第二語(yǔ)言的文本; 使用處理裝置來(lái)自動(dòng)化地將第一文本中的單詞與第二文本中的單詞對(duì)準(zhǔn); 使用處理裝置從第一文本和第二文本中的對(duì)準(zhǔn)的單詞抽取短語(yǔ);以及使用處理裝置來(lái)計(jì)算與第一文本中的一個(gè)或多個(gè)短語(yǔ)以及第二文本中的一個(gè)或多個(gè)短語(yǔ)關(guān)聯(lián)的釋義匹配的概率。
49.根據(jù)權(quán)利要求48所述的方法同,其中與每個(gè)譯文候選關(guān)聯(lián)的特征是釋義匹配的概率。
50.根據(jù)權(quán)利要求47所述的方法,其中使用對(duì)學(xué)習(xí)文本的語(yǔ)料庫(kù)的最小錯(cuò)誤率訓(xùn)練(MERT)操作來(lái)計(jì)算一組一個(gè)或多個(gè)權(quán)重值。
51.根據(jù)權(quán)利要求47所述的方法,進(jìn)一步包括生成具有帶有從拼寫(xiě)編輯距離導(dǎo)出的特征的搭配校正的短語(yǔ)表。
52.根據(jù)權(quán)利要求47所述的方法,進(jìn)一步包括生成具有帶有從同音異義詞字典導(dǎo)出的特征的搭配校正的短語(yǔ)表。
53.根據(jù)權(quán)利要求47所述的方法,進(jìn)一步包括生成帶有從同義詞字典導(dǎo)出的特征的搭配校正的短語(yǔ)表。
54.根據(jù)權(quán)利要求47所述的方法,進(jìn)一步包括生成具有帶有從母語(yǔ)引起的釋義導(dǎo)出的特征的搭配校正的短語(yǔ)表。
55.根據(jù)權(quán)利要求50-54的任意一項(xiàng)所述的方法,其中所述短語(yǔ)表包括用于在計(jì)算釋義匹配的概率使用的一個(gè)或多個(gè)懲罰特征。
56.一種設(shè)備,包括至少一個(gè)處理器和耦合到至少一個(gè)處理器的存儲(chǔ)器裝置,其中至少一個(gè)處理器配置成執(zhí)行權(quán)利要求47-55的方法的步驟。
57.—種有形計(jì)算機(jī)可讀介質(zhì),其包括計(jì)算機(jī)可讀代碼,當(dāng)由計(jì)算機(jī)執(zhí)行時(shí),使得計(jì)算機(jī)執(zhí)行權(quán)利要求47-55 的方法中的操作。
全文摘要
本實(shí)施例演示用于自動(dòng)化文本校正的系統(tǒng)和方法。在某些實(shí)施例中,該方法和系統(tǒng)可以通過(guò)根據(jù)單個(gè)文本校正模型的分析來(lái)實(shí)現(xiàn)。在特定的實(shí)施例中,可以通過(guò)分析學(xué)習(xí)文本的語(yǔ)料庫(kù)和非學(xué)習(xí)文本的語(yǔ)料庫(kù)二者來(lái)生成單個(gè)文本校正模型。
文檔編號(hào)G06F17/20GK103154936SQ201180045961
公開(kāi)日2013年6月12日 申請(qǐng)日期2011年9月23日 優(yōu)先權(quán)日2010年9月24日
發(fā)明者丹尼爾·赫曼·理查德·戴梅爾, 陸巍, 黃偉道 申請(qǐng)人:新加坡國(guó)立大學(xué)