欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

修改或改進(jìn)詞語(yǔ)使用的方法和裝置的制作方法

文檔序號(hào):6365594閱讀:510來(lái)源:國(guó)知局
專利名稱:修改或改進(jìn)詞語(yǔ)使用的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種修改或改善自然語(yǔ)言文本中詞語(yǔ)的選擇與使用的方法和裝置。本發(fā)明還涉及為計(jì)算機(jī)編程以執(zhí)行這樣一種方法的計(jì)算機(jī)程序、包含這樣一種程序的存貯介質(zhì)和被編制了這樣一種程序的計(jì)算機(jī)。
在英語(yǔ)學(xué)習(xí)者標(biāo)注語(yǔ)料庫(kù)(尼可爾斯,1999年“The Cambridge LearnerCorpus-Error Coding and Analysis for Writing Dictionaries and other booksfor English Learners”,學(xué)習(xí)者語(yǔ)料庫(kù)的夏季工作室,劍橋大學(xué)出版社)中,動(dòng)詞或前置詞的錯(cuò)誤使用是僅次于拼寫與標(biāo)點(diǎn)錯(cuò)誤的最為常見的錯(cuò)誤類型。例如,一位作者可能用了“associate to”而不是“associate with”,“l(fā)oose one’s temper”而不是“l(fā)ose one’s temper”,或者“wins me at tennis”而不是“beats me at tennis”。
本發(fā)明使檢測(cè)這些和其它類型的錯(cuò)誤以及對(duì)它們提出修改成為可能。它能處理真實(shí)的詞語(yǔ)拼寫錯(cuò)誤(如lose/loose),也能處理其它不同類型的錯(cuò)誤。
在辭典里查一個(gè)象“make”這樣的詞,作者會(huì)找到大量同義詞。可以將這些同義詞分類成共有一種中心意義的語(yǔ)群。一個(gè)語(yǔ)群可能包括諸如“create”、“construct”和“establish”這樣一些同義詞,但是作者找不到“creates a diversion”、“constructs a model”或“establishes arelationship”這樣的詞。
本發(fā)明使在響應(yīng)諸如“make a diversion”、“make a model”或“makea relationship”的輸入時(shí)提供這些同義詞作為建議成為可能。
本發(fā)明利用了由在下文中稱為文本的一段寫作或敘述的語(yǔ)言中同時(shí)(不必相鄰地)出現(xiàn)的兩個(gè)詞語(yǔ)或短語(yǔ)之間關(guān)系構(gòu)成的相關(guān)性或關(guān)聯(lián)。一個(gè)關(guān)聯(lián)可能和基于其在大量文本中出現(xiàn)的頻率測(cè)出的強(qiáng)度或相似性有關(guān)。文本中的一個(gè)詞可能與一個(gè)以該詞語(yǔ)所在關(guān)聯(lián)的可能值為根據(jù)的似真值有關(guān)。在文本中不合情理的詞語(yǔ)在上下文中將是錯(cuò)誤的或不自然的。
美國(guó)專利4,916,614、4,942,526、5,406,480公開了在句法分析與翻譯中同時(shí)出現(xiàn)信息的創(chuàng)建和使用。
在美國(guó)專利4,674,065、4,868,750、5,258,909、5,537,317、5,659,771、5,799,269、5,907,839和5,907,839的每一篇中公開的技術(shù)都使用一個(gè)普遍易被混淆的詞語(yǔ)集合的列表,諸如“hear”和“here”,或“to”和“too”。在文本中出現(xiàn)這樣的詞表示有潛在的錯(cuò)誤。這些專利接著描述了修改錯(cuò)誤的不同方法。
美國(guó)專利4,674,065公開了一種使用規(guī)則系統(tǒng)的技術(shù),該系統(tǒng)描述用于區(qū)別易被混淆的詞語(yǔ)使用的不同上下文。
美國(guó)專利4,868,750、5,537,317和5,799,269公開了為詞性序列賦概率值的系統(tǒng)。一個(gè)含有易被混淆詞語(yǔ)的序列的概率可以與含有它被混淆成的詞語(yǔ)的序列的概率進(jìn)行比較。如果后者大于前者,那么將報(bào)告可能的錯(cuò)誤。
美國(guó)專利5,258,909公開了一種系統(tǒng),該系統(tǒng)為詞語(yǔ)序列賦概率值,為一個(gè)詞語(yǔ)被誤拼為另一個(gè)詞語(yǔ)的情況賦概率值,以及將這些概率組合起來(lái)以確定一個(gè)詞是否被誤拼為另一個(gè)詞。
美國(guó)專利5,659,771和5,907,839公開了一種系統(tǒng),該系統(tǒng)將詞語(yǔ)與表示其上下文的特征相關(guān)聯(lián),并用機(jī)器學(xué)習(xí)算法由易被混淆集合的特定成員的特征值計(jì)算一個(gè)函數(shù)。當(dāng)一個(gè)易被混淆集合的成員出現(xiàn)在文本中,使用該函數(shù)將它分成正確的或不正確的。
喬多羅和里考克的“無(wú)人監(jiān)管檢測(cè)語(yǔ)法錯(cuò)誤的方法”(在2002年計(jì)算機(jī)語(yǔ)言學(xué)會(huì)的北美分會(huì)第一次年會(huì)的會(huì)議論文集的第140-147頁(yè))公開了使用連續(xù)詞語(yǔ)n元語(yǔ)法模型檢測(cè)錯(cuò)誤的系統(tǒng)。該系統(tǒng)能檢測(cè)以前沒有見過(guò)的類別改變和類別保存錯(cuò)誤,但是由于是連續(xù)模型,只能涵蓋一個(gè)非常有限的長(zhǎng)度。沒有討論對(duì)錯(cuò)誤的修改。
美國(guó)專利5,999,896公開一種系統(tǒng),該系統(tǒng)通過(guò)語(yǔ)法分析程序的失敗識(shí)別詞語(yǔ)使用中可能的錯(cuò)誤,并通過(guò)找出那些能使隨后的語(yǔ)法分析成功的易被混淆的詞而解決這些問(wèn)題。
在第一數(shù)據(jù)庫(kù)中的每個(gè)關(guān)聯(lián)的可能值也可以基于每個(gè)包含一個(gè)具有相同相關(guān)關(guān)系的詞語(yǔ)或短語(yǔ)的其它關(guān)聯(lián)的發(fā)生頻率。
在第一數(shù)據(jù)庫(kù)中的每個(gè)關(guān)聯(lián)的可能值也可以基于所有具有相同相關(guān)關(guān)系的其它關(guān)聯(lián)的發(fā)生頻率。
在第一數(shù)據(jù)庫(kù)中的每個(gè)關(guān)聯(lián)的可能值由互信息、T值、Z值、Yule’s Q系數(shù)和對(duì)數(shù)可能性中的至少一項(xiàng)組成的。
在步驟(e)中,所述其它詞語(yǔ)或短語(yǔ)可以是第二詞語(yǔ)或短語(yǔ),第二關(guān)聯(lián)的相關(guān)關(guān)系與第一關(guān)聯(lián)的相關(guān)關(guān)系可以相同。
步驟(b)可以包括為該文本段中一組第一詞語(yǔ)或短語(yǔ)建立一組第一關(guān)聯(lián)以及可以對(duì)每個(gè)第一關(guān)聯(lián)執(zhí)行步驟(d)、(e)和(f)。
步驟(b)可以包括建立該文本中不相鄰的詞語(yǔ)或短語(yǔ)之間的關(guān)聯(lián)。
步驟(d)可以包括選擇一個(gè)詞語(yǔ)或短語(yǔ)的集合的每一個(gè)易被混淆的詞語(yǔ)或短語(yǔ)以及可以對(duì)每個(gè)易被混淆詞語(yǔ)或短語(yǔ)執(zhí)行步驟(e)和(f)。
步驟(f)可以包括按第二似真值降序指示第二似真值。
如果第一似真值小于一個(gè)第一閾值則可以執(zhí)行步驟(d)、(e)和(f)。
步驟(f)可以包括當(dāng)所述的或每個(gè)第二似真值超過(guò)一個(gè)第二閾值時(shí)提供指示。
步驟(f)可以包括如果第二似真值大于第一似真值則提供指示。
步驟(b)可以包括依靠一個(gè)通過(guò)機(jī)器學(xué)習(xí)技術(shù)從學(xué)習(xí)者錯(cuò)誤的標(biāo)注語(yǔ)料庫(kù)及其相關(guān)的似真值中學(xué)得的函數(shù)計(jì)算第一似真值。
該方法可以包括用易被混淆詞語(yǔ)代替該文本段中第一詞語(yǔ)。
該方法可以包括通過(guò)第二語(yǔ)言翻譯生成該文本段。
該方法可以包括從印刷文檔通過(guò)光學(xué)字符識(shí)別生成該文本段。
依照本發(fā)明的第二方面,提供為計(jì)算機(jī)編程以執(zhí)行依照本發(fā)明第一方面方法的計(jì)算機(jī)程序。
依照本發(fā)明的第三方面,提供包含依照本發(fā)明第二方面的程序的存貯介質(zhì)。
該介質(zhì)可以包括計(jì)算機(jī)可讀介質(zhì)。
依照本發(fā)明第四方面,提供包含依照本發(fā)明第二方面的程序的計(jì)算機(jī)。
依照本發(fā)明第五方面,提供一種在第一語(yǔ)言的包含一組詞語(yǔ)的書面或口語(yǔ)的文本段中的第一詞語(yǔ)或短語(yǔ)選擇的修改或改進(jìn)裝置,包括第一語(yǔ)言詞語(yǔ)或短語(yǔ)之間的關(guān)聯(lián)的第一數(shù)據(jù)庫(kù),其中每個(gè)關(guān)聯(lián)至少有一個(gè)基于該關(guān)聯(lián)在大量第一語(yǔ)言文本中出現(xiàn)頻率的相關(guān)可能值;用于分析該文本段的分析器,以建立在文本段的所述第一詞語(yǔ)或短語(yǔ)與一個(gè)第二詞語(yǔ)或短語(yǔ)之間的一個(gè)第一關(guān)聯(lián),至少一個(gè)第一可能值對(duì)應(yīng)所述的關(guān)聯(lián)以及基于所述至少一個(gè)可能值的第一似真值對(duì)應(yīng)所述的第一詞語(yǔ)或短語(yǔ);以及第二數(shù)據(jù)庫(kù),其中每項(xiàng)至少有一個(gè)詞語(yǔ)或短語(yǔ)與其能夠被混淆成的詞語(yǔ)或短語(yǔ)集合聯(lián)系在一起;用于從第二數(shù)據(jù)庫(kù)中選擇或計(jì)算出一個(gè)作為該文本段中所述第一詞語(yǔ)或短語(yǔ)的候選替代的易被混淆詞語(yǔ)或短語(yǔ)的工具;用于導(dǎo)出一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的基于一個(gè)第二關(guān)聯(lián)在第一數(shù)據(jù)庫(kù)中的可能值的第二似真值,該第二關(guān)聯(lián)由易被混淆詞語(yǔ)或短語(yǔ)和該文本段中的其它詞語(yǔ)或短語(yǔ)組成;以及用于基于計(jì)算出的似真性值選擇性地提供一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的指示(25,26)的工具。
通過(guò)利用詞語(yǔ)之間關(guān)聯(lián)的可能性,有可能提供一種技術(shù),它體現(xiàn)了對(duì)那些僅僅使用詞性序列的概率的已知系統(tǒng)的改進(jìn),因?yàn)檫@樣的已知系統(tǒng)無(wú)法檢測(cè)和修改非常普通的類別保存錯(cuò)誤。
因?yàn)閺膶傩哉Z(yǔ)法能夠取得并不相鄰但仍然會(huì)直接影響其它字選擇的字之間的從屬性,通過(guò)使用連續(xù)的N元語(yǔ)法將取得改進(jìn)。原則上可將N元語(yǔ)法擴(kuò)展到覆蓋這樣的從屬性,但在實(shí)務(wù)中這會(huì)導(dǎo)致幾個(gè)數(shù)據(jù)稀散問(wèn)題。利用關(guān)聯(lián)將為統(tǒng)計(jì)可能值的計(jì)算所利用的數(shù)據(jù)集中成語(yǔ)言意義單元。三個(gè)元素相關(guān)分段幾乎總是足夠獲得有用的統(tǒng)計(jì),然而即使四個(gè)元素的N元語(yǔ)法也會(huì)遺漏許多可能的或不太可能的詞語(yǔ)組合情況。
對(duì)于語(yǔ)言意義實(shí)體統(tǒng)計(jì)的這種限制的一個(gè)重要結(jié)果是,在要求錯(cuò)誤檢測(cè)的方式中概率值更容易解釋。為了理解這一點(diǎn),考慮一個(gè)連續(xù)二元語(yǔ)法模型中相鄰詞語(yǔ)之間的轉(zhuǎn)移概率的意義。在一個(gè)成分中,例如在“a bigdog”中的“big”和“dog”之間,轉(zhuǎn)移概率可直接與形容詞和名詞的相似序列的轉(zhuǎn)移概率比較。但在“give the dog a bone”中的“dog”和“a”之間的轉(zhuǎn)移概率是相當(dāng)不令人感興趣(和不可能的)的概率,這是一個(gè)結(jié)束于“dog”的成分跟著另一個(gè)開始于“a”的成分的概率。感興趣的概率,即一個(gè)以“give”開頭的成分有一個(gè)以“bone”開頭的第二對(duì)象的概率,沒有被體現(xiàn)而且不能和可能的替代諸如“give the dog a clone”進(jìn)行比較。
也就是說(shuō),在連續(xù)N元語(yǔ)法模型中,低轉(zhuǎn)移概率既能指出語(yǔ)言上感興趣的不太可能性,也能指出語(yǔ)言上不感興趣的不太可能性。如果一個(gè)基于連續(xù)N元語(yǔ)法的系統(tǒng)將每個(gè)低概率作為錯(cuò)誤處理的觸發(fā)源,它將發(fā)現(xiàn)大量可能的“錯(cuò)誤”,其中很多不是真正的錯(cuò)誤。處理這些開銷很大而且存在把假錯(cuò)誤分類為真錯(cuò)誤的危險(xiǎn)。
這就是為什么沒有已知技術(shù)使用低轉(zhuǎn)移概率作為錯(cuò)誤處理的觸發(fā)源,而寧愿利用在文本中出現(xiàn)的一個(gè)已知易被混淆的某個(gè)詞語(yǔ),然后考慮原始序列與用替換詞語(yǔ)得到的序列的相對(duì)可能性。
相反,在本技術(shù)中,“不太可能性”是一個(gè)更可靠的錯(cuò)誤提示。
任何不太可能的關(guān)聯(lián)可以引起錯(cuò)誤處理的開始而且只有不可能的關(guān)聯(lián)才能這么做。當(dāng)然,不太可能的關(guān)聯(lián)并非總是一個(gè)錯(cuò)誤所致;不過(guò)在本技術(shù)中,這些假觸發(fā)將會(huì)少得多。
而且,當(dāng)一個(gè)文本中存在一些易被混淆集合中的元素是錯(cuò)誤處理的唯一觸發(fā)源的時(shí)候(如在許多已知技術(shù)中),向一個(gè)易被混淆集合中加入元素既增加錯(cuò)誤處理被觸發(fā)的次數(shù)又增加評(píng)價(jià)每個(gè)元素的計(jì)算成本。
在一個(gè)關(guān)聯(lián)的可能性和由一個(gè)詞語(yǔ)導(dǎo)出的似真性是錯(cuò)誤處理的觸發(fā)源的時(shí)候(如在本發(fā)明中),能辨別很大范圍的錯(cuò)誤特征。易被混淆的概念不只限于拼寫和發(fā)音的高頻率混淆。
在利用學(xué)習(xí)算法和同時(shí)利用存在已知的易被混淆的詞語(yǔ)作為錯(cuò)誤處理觸發(fā)源的已知技術(shù)中,除了應(yīng)用學(xué)習(xí)算法去區(qū)別它就沒有其它方法可以檢測(cè)一個(gè)詞語(yǔ)是一個(gè)可能的錯(cuò)誤。而且,和已知的基于N元語(yǔ)法的技術(shù)一樣,學(xué)習(xí)系統(tǒng)不能從把數(shù)據(jù)集中為語(yǔ)言意義單元中完全地獲得好處。
本技術(shù)體現(xiàn)了對(duì)于已知的基于語(yǔ)法分析失敗的技術(shù)的改進(jìn),這是因?yàn)檎Z(yǔ)法分析失敗對(duì)詞語(yǔ)錯(cuò)誤是一種非常粗糙的檢測(cè)機(jī)制(尤其是那些包括詞性相同的詞語(yǔ)的替換)。相反地,對(duì)于即使是非常小的句子分段的可能性,本技術(shù)提供非常精細(xì)的定量測(cè)定,且包括語(yǔ)法分析失敗,如缺少配屬而提示,以作為不太可能性的一個(gè)特別的極端的例子。此外,語(yǔ)法分析成功(作為一個(gè)錯(cuò)誤已經(jīng)被修改的粗糙的條件)可以用獲得改進(jìn)的精細(xì)的定量測(cè)定來(lái)代替。
本方法使用詞語(yǔ)之間的兩種關(guān)系類型。一種關(guān)系類型保持在一個(gè)單句中不同位置的兩個(gè)詞語(yǔ)之間。這些是相關(guān)關(guān)系,諸如‘subject of’、‘objectof’和‘modifier’,以及圖2中所示的例子,它說(shuō)明對(duì)句子“Love is themost important condition for marriage”的分析結(jié)果。詞語(yǔ)用它們的原型和詞性表示,即表示為詞條,因此“is”就以“be_V”出現(xiàn)。這個(gè)動(dòng)詞的主語(yǔ)等同于“l(fā)ove_N”,它的賓語(yǔ)等同于“condition_N”。后者由“the_DET”限定并被“important_ADJ”修飾。“Most_ADV”等同于修飾“important_ADJ”的副詞?!癋or_PREP”等同于修飾“condition_N”的前置詞,“marriage_N”等同于前置詞“for_PREP”的賓語(yǔ)。三元組由兩個(gè)詞條組成,聯(lián)系它們的相關(guān)關(guān)系被稱作關(guān)聯(lián)。
另一關(guān)系類型包括定義“可能的替換”的關(guān)系,即一個(gè)句子中給定位置可供選擇的詞語(yǔ)的選擇之間的關(guān)系。下面是替代關(guān)系的一些例子辭典關(guān)系,諸如同義、反義、下義、上義;導(dǎo)致出語(yǔ)言的另一些詞的拼寫錯(cuò)誤,,如“l(fā)oose”之于“l(fā)ose”,其中有一種特別的情形是同音異義,講的是發(fā)音相同但拼寫不同的詞,如“pane”和“pain”;詞源,講的是由一個(gè)單詞根而來(lái)的用不同方式構(gòu)成的詞語(yǔ)(諸如“interested”和“interesting”,或“safe”和“safety”);語(yǔ)際語(yǔ)言易混淆性,講的是另一種語(yǔ)言中一個(gè)單詞的可供選擇的翻譯詞語(yǔ)(如將法語(yǔ)“marquer”翻譯成“mark”和“brand”都是可以的);
假朋友,其中的一個(gè)詞不是其同源詞的可能翻譯(例如,“possible”和“actual”,分別是法語(yǔ)“actual”正確的和錯(cuò)誤的翻譯);以及插入或刪除錯(cuò)誤,諸如“he rang(at)the doorbell”、“we paid(for)ourmeals”,也可被認(rèn)為是一個(gè)空詞語(yǔ)的替代或被替代;當(dāng)在一個(gè)句子中詞語(yǔ)w的使用被確認(rèn)是不合適的,即是錯(cuò)誤的,不然就是非習(xí)慣用法,被稱作w的易被混淆集C(w)的詞語(yǔ)集合的每個(gè)成員可被認(rèn)為是一個(gè)可能的替代。w的易被混淆集是從與w相關(guān)的那些詞語(yǔ)中抽取出來(lái)的,條件為實(shí)際的成員資格可能隨著用戶的本國(guó)語(yǔ)言、寫作所用語(yǔ)言的能力水平以及其它因素而變化。
相關(guān)關(guān)系是廣泛使用的表示句子結(jié)構(gòu)的方法。許多被發(fā)現(xiàn)的變化在本技術(shù)的情況下在很大程度上是不重要的。一種相關(guān)關(guān)系連結(jié)被稱為相關(guān)詞和中心詞的兩個(gè)詞語(yǔ)。在一種典型模式中,沒有相關(guān)詞可以和不止一個(gè)單一中心詞相關(guān),但一個(gè)中心詞可以具有任意數(shù)量的相關(guān)詞;其它約束,如禁止循環(huán),確保一個(gè)單句中的關(guān)系構(gòu)成樹狀結(jié)構(gòu)。在本規(guī)定中,一個(gè)句子中兩個(gè)詞語(yǔ)之間的關(guān)聯(lián)(也被稱作關(guān)聯(lián))用三元組形式表示<第一詞條,關(guān)系,第二詞條>
這里詞條是一個(gè)術(shù)語(yǔ),如‘chase_V’表示動(dòng)詞“to chase”的所有形態(tài),即chase、chased、chasing。
一個(gè)關(guān)聯(lián)可以和它的強(qiáng)度或可能性的數(shù)量聯(lián)系在一起。一個(gè)關(guān)聯(lián)的頻度,即在一個(gè)經(jīng)過(guò)語(yǔ)法分析的語(yǔ)料庫(kù)中看到它的次數(shù),只是評(píng)估其強(qiáng)度的一個(gè)粗略的辦法。更準(zhǔn)確的測(cè)量方法是計(jì)算該關(guān)聯(lián)的頻度偏離根據(jù)其組成部分的頻度所預(yù)期的頻度的程度。在一些文獻(xiàn)(例如,K.卡奇拉,1999年,“Bigram Statistics Revisiteda Comparative Examination of someStatistical Measures in Morphological Analysis of Japanese KanjiSequences”,定量語(yǔ)言學(xué)雜志1999年第6期第2號(hào),第149-166頁(yè),以及埃弗特等人的“Methods for the Qualitative Evaluation of LexicalAssociation Measures”,計(jì)算機(jī)語(yǔ)上言學(xué)會(huì)的在圖盧茲如開的第30屆年會(huì)的論文集,2001年,第188-195頁(yè),它們給出在特定任務(wù)中幾種測(cè)量方法的比較評(píng)估)中公開了幾個(gè)這樣的測(cè)量方法并在詞語(yǔ)切分、語(yǔ)法分析、翻譯、信息檢索和詞典編纂中有所應(yīng)用。在這些例子中,一般只有那些與預(yù)期的頻度相比明顯地更可能的關(guān)聯(lián)會(huì)被感興趣。不過(guò)本技術(shù)也關(guān)注那些與預(yù)期的頻度相比明顯地不太可能的關(guān)聯(lián)。在文本中檢測(cè)到這樣一個(gè)關(guān)聯(lián)經(jīng)常預(yù)示著不符合語(yǔ)法或不合乎語(yǔ)言習(xí)慣的語(yǔ)言用法。
出現(xiàn)在一個(gè)或多個(gè)不太可能的關(guān)聯(lián)中的詞語(yǔ)能隨后依次用它的易被混淆集中的每個(gè)成員代替并可求出進(jìn)行每個(gè)這樣的代替得到的結(jié)果的似真值。如果該易被混淆集的一個(gè)或多個(gè)成員導(dǎo)致被充分提高的似真值,這些成員可以被建議作為替代。
作為一個(gè)預(yù)備的步驟,依照相關(guān)語(yǔ)法分析大量母語(yǔ)口語(yǔ)文本以建立詞語(yǔ)組合的可能值數(shù)據(jù)庫(kù)??墒褂萌魏芜m當(dāng)?shù)恼Z(yǔ)法分析程序,適當(dāng)?shù)膶?shí)例公開在M.考林斯的“Three Generative Lexicalised Models for StatisticalParsing”,EACL的ACL/第8會(huì)議的第35屆年會(huì)論文集,馬德里,1997年,和斯里特和坦普利的“Parsing English with a Link Grammar”,CMU-CS-91-196,卡內(nèi)基-梅隆大學(xué),計(jì)算機(jī)科學(xué)系,1991。該分析器甚至不必是一個(gè)如一般想象的語(yǔ)法分析程序,但可以使用有限狀態(tài)或增加了記錄相關(guān)性機(jī)制的相似技術(shù)。
依照一種或多種統(tǒng)計(jì)測(cè)量方法,計(jì)算每種類型關(guān)聯(lián)的頻度(諸如互信息、T值和對(duì)數(shù)可能性),對(duì)每個(gè)關(guān)聯(lián)計(jì)算可能值并將結(jié)果存入一個(gè)表中。圖3示出了在這樣的數(shù)據(jù)庫(kù)中的一些條目。
在圖3中,第一列示出關(guān)聯(lián)本身。以‘freq’為標(biāo)題的列是這個(gè)關(guān)聯(lián)在經(jīng)過(guò)語(yǔ)法分析的語(yǔ)料庫(kù)(這里是大約8千萬(wàn)個(gè)詞的英國(guó)國(guó)家語(yǔ)料庫(kù))中出現(xiàn)的次數(shù)。其余列分別是互信息、T值、Yule's Q系數(shù)和對(duì)數(shù)可能性。這些中的每一個(gè)是由下列四項(xiàng)的頻度計(jì)算出的不同度量。
<第一詞條,關(guān)系,第二詞條>
<第一詞條,關(guān)系,*>
<*,關(guān)系,第一詞條>
<*,關(guān)系,*>
這里的‘*’代表任意詞條。這種參數(shù)模式公開于D.林的“AutomaticRetrieval and Clustering of Similar Words”,COLING-ACL 98,蒙特利爾,加拿大,1998年8月。不同度量有不同的范圍并以不同的方式對(duì)四個(gè)參數(shù)的精確值敏感。不過(guò)在每種情況中,該值都與關(guān)系的可能性相關(guān)。正值說(shuō)明組合的可能性比偶然性大,負(fù)值說(shuō)明可能性小。
例如,計(jì)算<associate_V padv to_PREP>的T值的公式是[P14-2]tassociate_V.padv.to_PREP=]]>F/f(padv)-(f(associate_V·padv)f(padv·to_PREP))/f(padv)2f(associate_V·to_PREP)/f(padv)]]>tassociate_V.padv.to_PREP=]]>25/10587833-(7680×1020531)/10587833225/10587835=-143.050]]>其中f(associate_V·Padv·to_PREP)=F為了得到詞語(yǔ)組合可能性的高質(zhì)量的估計(jì)值,語(yǔ)法分析母語(yǔ)口語(yǔ)語(yǔ)料庫(kù)需要盡可能的準(zhǔn)確和覆蓋面大。可是,準(zhǔn)確的語(yǔ)法分析又需要使用詞語(yǔ)組合可能性的高質(zhì)量的估計(jì)值,而這導(dǎo)致了一個(gè)沖突。這個(gè)沖突可以通過(guò)使用迭代或步步為營(yíng)的方法解決。這基于語(yǔ)法分析算法的某些特性。
一個(gè)句子中每個(gè)獨(dú)立的關(guān)聯(lián)與一個(gè)優(yōu)先值有聯(lián)系。優(yōu)先值是句子中兩個(gè)詞語(yǔ)之間存在這樣一個(gè)關(guān)聯(lián)的可信度的測(cè)度。這種優(yōu)先值同時(shí)是句子描述系數(shù)例如詞性概率和詞語(yǔ)分離度,和語(yǔ)言廣度系數(shù)例如這些詞語(yǔ)之間關(guān)聯(lián)的強(qiáng)度的函數(shù)。
它返回一個(gè)關(guān)聯(lián)集合,它們共同滿足相關(guān)性結(jié)構(gòu)的公理(即關(guān)聯(lián)沒有交叉,每個(gè)詞語(yǔ)是不超過(guò)一個(gè)節(jié)點(diǎn)的相關(guān)詞等等);不過(guò),這個(gè)集合不要求構(gòu)成單一連接樹;通過(guò)適當(dāng)?shù)膮?shù)設(shè)置能夠改變句子描述系數(shù)和語(yǔ)言廣度系數(shù)對(duì)優(yōu)先值的相對(duì)作用;可以設(shè)置一個(gè)閾值,這樣只返回優(yōu)先值超過(guò)這個(gè)閾值的關(guān)聯(lián);語(yǔ)法分析的迭代性將就一個(gè)非常簡(jiǎn)單的短語(yǔ)“world title fight”的分析來(lái)例示。
按照語(yǔ)法“title”必須修飾“fight”,但是不清楚“world”是修飾“title”還是“fight”。在英語(yǔ)語(yǔ)法中,一個(gè)名詞序列中除了最后一個(gè)外的每個(gè)名詞都可以修飾它右邊的任意一個(gè)名詞。在本例子中,特定詞語(yǔ)組合強(qiáng)度的知識(shí)會(huì)導(dǎo)出“world”修飾“title”的結(jié)論。在其它例子中,如“plasticbaby pants”,第一個(gè)名詞修飾的不是中間跟著它的名詞而是最后一個(gè)名詞。
一個(gè)完整的語(yǔ)法分析將給出關(guān)聯(lián)
1.<title_N,mod_of,tight_N>
2.<world_N,mod_of,title_N>
在語(yǔ)法分析母語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的第一次迭代中,沒有可利用的特定詞語(yǔ)之間關(guān)聯(lián)的可能值,所以語(yǔ)言廣度系數(shù)對(duì)優(yōu)先值沒有作用。優(yōu)先值閾值設(shè)置得高,因此舉例來(lái)說(shuō)詞性是不明確的或分開很遠(yuǎn)的詞語(yǔ)不會(huì)被關(guān)聯(lián),而且關(guān)聯(lián)正確性的可信度高。按照這個(gè)例子,只有關(guān)聯(lián)1將被返回。一個(gè)序列中倒數(shù)第二個(gè)名詞肯定修飾最后一個(gè)名詞,與語(yǔ)言廣度系數(shù)無(wú)關(guān)。不過(guò),在缺乏語(yǔ)言廣度信息時(shí),在本例中,不管是關(guān)聯(lián)2還是錯(cuò)誤的<world_N,mod_of,fight_N>都不會(huì)有足夠高的優(yōu)先值而被返回。不過(guò),在該語(yǔ)料庫(kù)中沒有跟隨其它名詞的“world title”(和“world fight”)等其它實(shí)例的關(guān)聯(lián)將被返回。
然后用這些確定性高的關(guān)聯(lián)計(jì)算可能值。后面的迭代隨后可以使用這些語(yǔ)言廣度系數(shù)以確定優(yōu)先值,因此優(yōu)先值閾值可被降低。這增加了返回的關(guān)聯(lián)數(shù)量(語(yǔ)法分析的覆蓋面)并允許計(jì)算更準(zhǔn)確的可能性統(tǒng)計(jì)。按照這個(gè)例子,<world,mod_of,title>和<world,mod_of,fight>的相對(duì)頻度和/或可能性現(xiàn)在將使前者優(yōu)先于后者。然后進(jìn)一步的迭代將繼續(xù)增加語(yǔ)言廣度系數(shù)對(duì)優(yōu)先值的作用并減低優(yōu)先值閾值。這樣,可能性數(shù)據(jù)的覆蓋面和可信度能夠逐漸地加強(qiáng)。
在語(yǔ)法分析母語(yǔ)口語(yǔ)語(yǔ)料庫(kù)的每個(gè)迭代后,每種類型關(guān)聯(lián)的可能值被確定并輸入到數(shù)據(jù)庫(kù)中。
當(dāng)已經(jīng)準(zhǔn)備了或無(wú)論用什么方法得到了足夠準(zhǔn)確的數(shù)據(jù)庫(kù)時(shí),它就可以在本發(fā)明中使用。要被檢查問(wèn)題的文本要經(jīng)過(guò)這樣一個(gè)語(yǔ)法分析過(guò)程的一次迭代??梢詼p小語(yǔ)言廣度系數(shù)對(duì)這個(gè)語(yǔ)法分析的作用,而這些系數(shù),即關(guān)聯(lián)的可能值,將在下一階段中考慮。
然后通過(guò)檢查母語(yǔ)口語(yǔ)數(shù)據(jù)庫(kù)確定文本中每個(gè)關(guān)聯(lián)的可能值。對(duì)原始的母語(yǔ)口語(yǔ)語(yǔ)料庫(kù)中未見到的關(guān)聯(lián)通過(guò)假定它們有較低的頻度而賦予可能值。在一個(gè)典型的實(shí)施例中,在母語(yǔ)口語(yǔ)語(yǔ)料庫(kù)中發(fā)現(xiàn)的頻度為1的所有關(guān)聯(lián)被丟棄,極大地減小了數(shù)據(jù)量。然后假設(shè)在數(shù)據(jù)庫(kù)中找不到的一個(gè)關(guān)聯(lián)具有一個(gè)在0和2范圍內(nèi)的頻度,這是根據(jù)實(shí)驗(yàn)確定的最佳值,并相應(yīng)地計(jì)算它的可能值。
可能值低的(例如負(fù)值)關(guān)聯(lián)是可能錯(cuò)誤的指標(biāo)。一個(gè)詞語(yǔ)所在關(guān)聯(lián)的可能值被組合到該詞語(yǔ)的似真值中。非似真的詞語(yǔ)用它們的易被混淆集的成員替代,看其似真性結(jié)果是否有改進(jìn)。
圖4示出了作為一個(gè)錯(cuò)誤檢測(cè)器和修改器的本發(fā)明實(shí)施例。作為語(yǔ)法分析的實(shí)例,在步驟10中提供輸入文本,在步驟11中進(jìn)行分析。在步驟12中,分析輸入文本中關(guān)聯(lián)的可能性。在步驟13中,選擇文本中第一個(gè)詞語(yǔ)并在步驟14中計(jì)算這個(gè)詞語(yǔ)的似真性。在步驟15中檢查輸入文本以確定是否所有詞語(yǔ)都被使用過(guò),如果沒有,在步驟16中取下一個(gè)詞語(yǔ)并重復(fù)步驟14。
當(dāng)文本中所有的詞語(yǔ)均已有了計(jì)算出的似真性值時(shí),在步驟17中按似真性升序排列這些詞語(yǔ)。在步驟18中選擇最小似真性詞語(yǔ),在步驟19中如果它的似真性不比第一閾值低,在步驟20中終止本方法。否則,在步驟21中得到這個(gè)詞語(yǔ)的易被混淆集并在步驟22中選擇第一個(gè)易被混淆詞語(yǔ)。在步驟23中這個(gè)詞被易被混淆詞語(yǔ)代替并在步驟24中計(jì)算這個(gè)易被混淆詞語(yǔ)在上下文中的似真性。在步驟25中如果檢測(cè)到在似真性上的改進(jìn)大于第二閾值,則在步驟26中將這個(gè)易被混淆詞語(yǔ)報(bào)告給用戶。
步驟27檢查是否所有易被混淆詞語(yǔ)都試過(guò)了,如果沒有,在28中選擇下一個(gè)易被混淆詞語(yǔ)并控制返回到步驟23。否則,步驟29確定是否文本中所有的詞語(yǔ)都被處理過(guò)了,如果沒有,步驟30得到下一個(gè)詞語(yǔ)并返回控制到步驟19。否則,在步驟31中結(jié)束本方法。
在這個(gè)實(shí)施例中我們?yōu)槊總€(gè)詞wi(1≤i≤n,句子的長(zhǎng)度)確定它所在的關(guān)聯(lián)集D(wi)。然后我們對(duì)每個(gè)D(wi)應(yīng)用一個(gè)函數(shù)將關(guān)聯(lián)集的可能值映射為單一值,這個(gè)值被稱作該詞語(yǔ)的“似真性”λ(wi)。按似真性排序這些詞語(yǔ)。如果最小似真性詞語(yǔ)wλmin的似真性低于一個(gè)閾值,那我們就試圖尋找一個(gè)修正。我們依次用每個(gè)詞語(yǔ)ci(wλmin)(1≤j≤n,在C(wλmin)中易被混淆詞語(yǔ)的數(shù)目)代替wλmin,并計(jì)算λ(ci(wλmin))。代替后改進(jìn)該詞語(yǔ)的似真性的那些易被混淆詞語(yǔ)可以提供給用戶??梢园此鼈儺a(chǎn)生的改進(jìn)的降序顯示易被混淆詞語(yǔ)。
易被混淆集的成員可能和表示混淆可能性的混淆值有關(guān)。例如,從學(xué)習(xí)者標(biāo)注語(yǔ)料庫(kù)中我們能夠得到被錯(cuò)誤地用作另一個(gè)詞語(yǔ)的每個(gè)詞語(yǔ)的頻度合計(jì)數(shù);真實(shí)詞語(yǔ)在發(fā)音和/或拼寫中的錯(cuò)誤可能與基于編輯距離的值相聯(lián)系;基于語(yǔ)義相關(guān)性的易被混淆詞語(yǔ)可能與基于在一個(gè)分層網(wǎng)絡(luò)中的路徑距離的值相聯(lián)系。
如果使用這樣的信息,通過(guò)將混淆性和在似真性上的改進(jìn)結(jié)合成一個(gè)單一分值,即替代分值σ(wi→ci(wi)),以一個(gè)更具有幫助性的順序提出建議。
在和用戶交互過(guò)程中,最初提供的建議是用易被混淆集的一個(gè)成員代替這個(gè)詞來(lái)改進(jìn)wλmin。如果用戶接受這些詞語(yǔ)中的一個(gè),替代效果就會(huì)被傳送給與它關(guān)聯(lián)的其它詞語(yǔ)并重復(fù)新的wλmin值的計(jì)算過(guò)程。傳送過(guò)程可以包括一個(gè)替代詞語(yǔ)重附著于一個(gè)與原始詞語(yǔ)不同的詞語(yǔ)。
獨(dú)立使用時(shí)不太可能的關(guān)聯(lián)作為一個(gè)較大結(jié)構(gòu)的部分時(shí)是可能的,反之亦然。例如,“by accident”是非常強(qiáng)的搭配,而“by the accident”是不太可能的而且應(yīng)該被認(rèn)為是一個(gè)可能的錯(cuò)誤。然而存在著包括后者的較大的、可能正確的結(jié)構(gòu),如“horrified by the accident”。
相反地,孤立的“a knowledge”是一個(gè)典型的學(xué)習(xí)者錯(cuò)誤,而“aknowledge of”是合理的表達(dá)方式??傻搅恕發(fā)earn a knowledge of”卻是一個(gè)錯(cuò)誤。
這些情況能夠通過(guò)計(jì)算包含連結(jié)兩個(gè)或多個(gè)關(guān)聯(lián)的三個(gè)或更多元素的相關(guān)子圖的可能值進(jìn)行處理。實(shí)驗(yàn)觀察指出在大多數(shù)情況下不需要超過(guò)三個(gè)元素。在上述情況中,四元素短語(yǔ)的可能性能追溯至更小單元的可能性。例如,“horrified by the accident”是可能的,這是因?yàn)椤癶orrified by”是這樣的一個(gè)強(qiáng)搭配,而“l(fā)earn a knowledge of”是不太可能的,這是因?yàn)椤発nowledge”是“l(fā)earn”不太可能的賓語(yǔ),無(wú)關(guān)于其它元素。
可以用不同方法計(jì)算三元素子圖的可能值。一種方法是將其中兩個(gè)元素及它們之間的關(guān)聯(lián)作為一個(gè)短語(yǔ)單元對(duì)待,然后計(jì)算這個(gè)短語(yǔ)單元與第三元素之間的可能性度量,所用的計(jì)算方法與在兩個(gè)元素情況下進(jìn)行計(jì)算的方法完全一樣。
還可以依照不同的方案實(shí)現(xiàn)把二和三元素關(guān)聯(lián)的可能值組合成一個(gè)似真值。我們能夠使三元素短語(yǔ)的作用的權(quán)重大于二元素短語(yǔ)的權(quán)重(一種平滑方案)或者如果包含二元素短語(yǔ)的三元素短語(yǔ)不能符合有關(guān)它們的頻度和/或可能性的某個(gè)約束,就只用二元素短語(yǔ)(一種后退方案)。這些方案的參數(shù)可以由經(jīng)驗(yàn)或?qū)W習(xí)過(guò)程來(lái)確定,其中學(xué)習(xí)的要素不是在上下文中某個(gè)詞語(yǔ)的存在或不存在,而是組合的強(qiáng)度和頻度。
為了增大可以檢測(cè)和修正的錯(cuò)誤范圍,可以對(duì)基本方法進(jìn)行一些擴(kuò)充。
計(jì)算一個(gè)詞語(yǔ)的似真性可以包括一個(gè)指示那個(gè)詞對(duì)于其它任何詞語(yǔ)缺少配屬的條件。除了在可以是相關(guān)樹的根的限定動(dòng)詞(或某個(gè)在列表和標(biāo)題中的其它詞性)的情況下,獨(dú)立的詞語(yǔ)總是指示一個(gè)錯(cuò)誤(或一個(gè)錯(cuò)誤語(yǔ)法)。因此給空配屬賦予一個(gè)很低的可能值是合適的,而且這將觸發(fā)錯(cuò)誤處理。
為了確定修正,本方法隨后將需要被擴(kuò)展,如下所述。
假如如上所述,要被修正的文本的語(yǔ)法分析沒有被語(yǔ)言廣度優(yōu)先值系數(shù)強(qiáng)烈影響,如果它們的詞性合適,詞語(yǔ)一般將被附著。相反地,如果一個(gè)詞語(yǔ)不被附著,錯(cuò)誤一般不會(huì)通過(guò)置換一個(gè)有相同詞性的詞語(yǔ)而被修正。
錯(cuò)誤可能不是一個(gè)置換,而是省略。例如,一個(gè)名詞將不能作為賓語(yǔ)附著于一個(gè)不及物動(dòng)詞。在許多這樣的情形中,錯(cuò)誤可以通過(guò)一個(gè)前置詞的插入而被修正。甚至在一個(gè)名詞附著在一個(gè)弱關(guān)聯(lián)的動(dòng)詞時(shí),插入也可能是合適的。在任一情形下,插入必須伴隨新關(guān)聯(lián)的建立,其可能性將確定錯(cuò)誤是否已被修正。
缺少配屬也可能是由類別改變的替換錯(cuò)誤引起的。如果一類別的詞語(yǔ)的易被混淆集包含另一類別的一個(gè)詞語(yǔ),那么這個(gè)置換可能必需伴隨一次輸入的局部重新分析。例如,如果一位初學(xué)者寫“get out of the buildingsafety”,序列“building safety”可作為一個(gè)(不太可能的)名詞短語(yǔ)進(jìn)行分析。如果名詞“safety”的易被混淆集包括副詞“safely”,重新分析將是必需的,以確定后者是動(dòng)詞“get out”的修飾語(yǔ),“building”而非“safety”是它的賓語(yǔ)。
本方法也可以用作上下文相關(guān)的辭典,以不給每個(gè)詞語(yǔ)的似真值設(shè)置閾值為例。在這種情況下,不管似真性如何所有的詞語(yǔ)都是替代的候選。同樣地,替代不需要改善似真性??梢蕴岢隹赡艿奶娲?,例如,如果它們的似真性值超過(guò)一個(gè)閾值。
可以用任何適當(dāng)?shù)难b置執(zhí)行本方法,但是,實(shí)際上,最可能的是由一臺(tái)計(jì)算機(jī)來(lái)執(zhí)行本方法,該計(jì)算機(jī)被編制了一個(gè)控制它以執(zhí)行本方法的程序。

圖1圖示了一個(gè)適當(dāng)?shù)挠?jì)算機(jī)系統(tǒng)100,該計(jì)算機(jī)基于一個(gè)擔(dān)任控制器的中央處理器(CPU)。CPU1配備一個(gè)程序存貯器2,例如含有以磁盤或光盤形式的存貯介質(zhì)的磁盤驅(qū)動(dòng)器形式,輪流包含控制CPU1的程序。一個(gè)第一數(shù)據(jù)庫(kù)3,例如存貯在一個(gè)磁盤上,包含關(guān)聯(lián)及相關(guān)的可能值。一個(gè)第二數(shù)據(jù)庫(kù),例如也是存貯在一個(gè)或上述磁盤上,包含易被混淆集。以常用的方式配備一個(gè)讀/寫或隨機(jī)存取存貯器(RAM)5以保存參數(shù)的臨時(shí)值。
CPU配備一個(gè)輸入接口6,它允許要進(jìn)行錯(cuò)誤、不自然的表達(dá)方式等等檢測(cè)的文本輸入。例如,文本可能是手工通過(guò)鍵盤輸入或者可能已經(jīng)是機(jī)器可讀形式(例如在磁盤或光盤上)。CPU1還配備一個(gè)輸出接口7,它允許用戶監(jiān)控本方法的輸出。同樣,為了能夠與本方法交互,接口6和7為用戶提供輸入數(shù)據(jù)、命令等等以及監(jiān)控本方法的運(yùn)行的功能。例如,當(dāng)提供提高似然值的易被混淆詞語(yǔ)的選擇時(shí),可以通過(guò)構(gòu)成輸出接口7部分或全部的顯示器顯示這些,用戶可以通過(guò)適當(dāng)?shù)夭僮鳂?gòu)成輸入接口6部分或全部的鍵盤和/或鼠標(biāo)選擇一個(gè)易被混淆的詞語(yǔ)。
提供一個(gè)包含詞語(yǔ)之間的關(guān)聯(lián)及與其相聯(lián)系的可能值的數(shù)據(jù)庫(kù),它提供這種正確或慣用的關(guān)聯(lián)的可能值度量??赡苤祷谕ㄟ^(guò)分析大量文本獲得的關(guān)聯(lián)發(fā)生頻度,例如由說(shuō)母語(yǔ)的人創(chuàng)作的文本。為了檢查文本段中是否有文本段的一個(gè)或多個(gè)詞語(yǔ)的可能的錯(cuò)誤或不自然用法,首先要分析文本以確定其詞語(yǔ)之間的關(guān)聯(lián)。被分析文本中關(guān)聯(lián)的可能性由數(shù)據(jù)庫(kù)確定。計(jì)算被分析文本中每個(gè)詞語(yǔ)的似真值,這是通過(guò)把出現(xiàn)該詞語(yǔ)的關(guān)聯(lián)的可能值合成起來(lái)得到的。使用詞語(yǔ)索引另一個(gè)數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含容易被索引詞語(yǔ)混淆的詞語(yǔ)集合。依次選擇每個(gè)易被混淆詞語(yǔ)并在索引詞語(yǔ)的關(guān)聯(lián)中代替索引詞語(yǔ)。確定這些新關(guān)聯(lián)的可能值并計(jì)算這個(gè)易被混淆詞語(yǔ)的似真值。在一個(gè)錯(cuò)誤檢測(cè)實(shí)施例中,對(duì)于那些似真性落在一個(gè)閾值下面的詞語(yǔ)嘗試易被混淆詞語(yǔ),并將提高似真性的易被混淆詞語(yǔ)報(bào)告給用戶。在一個(gè)上下文相關(guān)辭典實(shí)施例中,對(duì)所有詞語(yǔ)可以嘗試易被混淆詞語(yǔ),并可以報(bào)告那些似真值超過(guò)一個(gè)第二閾值的易被混淆詞語(yǔ)。
盡管以上僅描述了一個(gè)本發(fā)明被應(yīng)用于英語(yǔ)的實(shí)施例,但是本發(fā)明并不僅限于英語(yǔ)而能夠應(yīng)用于其它語(yǔ)言。
英語(yǔ)文本段可由非英語(yǔ)的語(yǔ)言(例如日語(yǔ))翻譯生成。
可以通過(guò)使用光學(xué)字符識(shí)別系統(tǒng)閱讀印刷文檔的文字來(lái)生成文本段。
依照本發(fā)明,提供用以在用戶的寫作中檢測(cè)錯(cuò)誤和不自然的表達(dá)方式并提出能夠改進(jìn)這些語(yǔ)言用法的方式的方法和一種裝置。
依照本發(fā)明,在用戶的寫作中檢測(cè)錯(cuò)誤和不自然的表達(dá)方式并對(duì)它們提出修改是可能的。它能處理真實(shí)詞語(yǔ)拼寫錯(cuò)誤,也能處理其它各種類型的錯(cuò)誤。
權(quán)利要求
1.一種在第一語(yǔ)言的包含一組詞語(yǔ)的書面或口語(yǔ)的文本段中的第一詞語(yǔ)或短語(yǔ)選擇的修改或改進(jìn)方法,其特征在于,包括下列步驟(a)提供一個(gè)第一語(yǔ)言詞語(yǔ)或短語(yǔ)之間的關(guān)聯(lián)的第一數(shù)據(jù)庫(kù)(3),其中每個(gè)關(guān)聯(lián)至少有一個(gè)基于該關(guān)聯(lián)在大量第一語(yǔ)言文本中出現(xiàn)頻率的相關(guān)可能值;(b)分析(14)該文本段以建立在該文本段的所述第一詞語(yǔ)或短語(yǔ)與一個(gè)第二詞語(yǔ)或短語(yǔ)之間的一個(gè)第一關(guān)聯(lián),至少對(duì)應(yīng)所述關(guān)聯(lián)的第一可能值以及基于所述至少一個(gè)可能值對(duì)應(yīng)所述第一詞語(yǔ)或短語(yǔ)的第一似真值;(c)提供一個(gè)第二數(shù)據(jù)庫(kù)(4),其中每項(xiàng)至少有一個(gè)詞語(yǔ)或短語(yǔ)與其能夠被混淆成的詞語(yǔ)或短語(yǔ)集合聯(lián)系在一起;(d)從第二數(shù)據(jù)庫(kù)(4)中選擇(22)或計(jì)算出一個(gè)作為該文本段中所述第一詞語(yǔ)或短語(yǔ)的候選替代的易被混淆詞語(yǔ)或短語(yǔ);(e)導(dǎo)出(23,24)一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的在第一數(shù)據(jù)庫(kù)(3)中基于一個(gè)第二關(guān)聯(lián)的可能值的第二似真值,該第二關(guān)聯(lián)由易被混淆詞語(yǔ)或短語(yǔ)和該文本段中的其它詞語(yǔ)或短語(yǔ)組成;以及(f)基于計(jì)算出的似真性值選擇性地提供一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的指示(25,26)。
2.如權(quán)利要求1所述的方法,其特征在于,在第一數(shù)據(jù)庫(kù)(3)中的每個(gè)關(guān)聯(lián)的可能值也是基于每個(gè)包含一個(gè)具有相同相關(guān)關(guān)系的詞語(yǔ)或短語(yǔ)的其它關(guān)聯(lián)的發(fā)生頻率。
3.如權(quán)利要求1所述的方法,其特征在于,在第一數(shù)據(jù)庫(kù)(3)中的每個(gè)關(guān)聯(lián)的可能值也是基于所有具有相同相關(guān)關(guān)系的其它關(guān)聯(lián)的發(fā)生頻率。
4.如權(quán)利要求1所述的方法,其特征在于,在第一數(shù)據(jù)庫(kù)(3)中的每個(gè)關(guān)聯(lián)的可能值由互信息、T值、Yule’s Q系數(shù)和對(duì)數(shù)可能性中的至少一項(xiàng)組成的。
5.如權(quán)利要求1所述的方法,其特征在于,在步驟(e)中,所述其它詞語(yǔ)或短語(yǔ)是第二詞語(yǔ)或短語(yǔ),第二關(guān)聯(lián)的相關(guān)關(guān)系與第一關(guān)聯(lián)的相關(guān)關(guān)系相同。
6.如權(quán)利要求1所述的方法,其特征在于,步驟(b)包括為該文本段中一組第一詞語(yǔ)或短語(yǔ)建立一組第一關(guān)聯(lián)以及對(duì)每個(gè)第一關(guān)聯(lián)執(zhí)行步驟(d)、(e)和(f)。
7.如權(quán)利要求1所述的方法,其特征在于,步驟(b)包括建立該文本中不相鄰的詞語(yǔ)或短語(yǔ)之間的關(guān)聯(lián)。
8.如權(quán)利要求1所述的方法,其特征在于,步驟(d)包括選擇一個(gè)詞語(yǔ)或短語(yǔ)的集合的每一個(gè)易被混淆的詞語(yǔ)或短語(yǔ)以及對(duì)每個(gè)易被混淆詞語(yǔ)或短語(yǔ)執(zhí)行步驟(e)和(f)。
9.如權(quán)利要求8所述的方法,其特征在于,步驟(f)包括按第二似真值降序指示第二似真值。
10.如權(quán)利要求1所述的方法,其特征在于,如果第一似真值小于一個(gè)第一閾值(19)則執(zhí)行步驟(d)、(e)和(f)。
11.如權(quán)利要求1所述的方法,其特征在于,步驟(f)包括當(dāng)所述的或每個(gè)第二似真值超過(guò)一個(gè)第二閾值(25)時(shí)提供指示。
12.如權(quán)利要求1所述的方法,其特征在于,步驟(f)包括如果第二似真值大于第一似真值(25)則提供指示(26)。
13.如權(quán)利要求1所述的方法,其特征在于,步驟(b)包括依靠一個(gè)通過(guò)機(jī)器學(xué)習(xí)技術(shù)從初學(xué)者錯(cuò)誤標(biāo)注語(yǔ)料庫(kù)及其相關(guān)的似真值中學(xué)得的函數(shù)計(jì)算(14)第一似真值。
14.如權(quán)利要求1所述的方法,其特征在于,用易被混淆詞語(yǔ)代替(23)該文本段中第一詞語(yǔ)。
15.如權(quán)利要求1所述的方法,其特征在于,通過(guò)第二語(yǔ)言翻譯生成該文本段。
16.如權(quán)利要求1所述的方法,其特征在于,從印刷文檔通過(guò)光學(xué)字符識(shí)別生成該文本段。
17.為計(jì)算機(jī)編制以執(zhí)行如權(quán)利要求1所述方法的計(jì)算機(jī)程序。
18.含有如權(quán)利要求17所述程序的存貯介質(zhì)。
19.如權(quán)利要求18所述的介質(zhì),包括計(jì)算機(jī)可讀介質(zhì)。
20.含有如權(quán)利要求17所述程序的計(jì)算機(jī)。
21.一種在第一語(yǔ)言的包含一組詞語(yǔ)的書面或口語(yǔ)的文本段中的第一詞語(yǔ)或短語(yǔ)選擇的修改或改進(jìn)裝置,其特征在于,包括一個(gè)第一語(yǔ)言詞語(yǔ)或短語(yǔ)之間的關(guān)聯(lián)的第一數(shù)據(jù)庫(kù)(3),其中每個(gè)關(guān)聯(lián)至少有一個(gè)基于該關(guān)聯(lián)在大量第一語(yǔ)言文本中出現(xiàn)頻率的相關(guān)可能值;一個(gè)用于分析(14)該文本段的控制器,以確定在文本段的所述第一詞語(yǔ)或短語(yǔ)與一個(gè)第二詞語(yǔ)或短語(yǔ)之間的一個(gè)第一關(guān)聯(lián),至少一個(gè)第一可能值對(duì)應(yīng)所述的關(guān)聯(lián)以及一個(gè)基于所述的至少一個(gè)可能值的第一似真值對(duì)應(yīng)所述的第一詞語(yǔ)或短語(yǔ);以及一個(gè)第二數(shù)據(jù)庫(kù)(4),其中每項(xiàng)至少有一個(gè)詞語(yǔ)或短語(yǔ)與其能夠被混淆成的詞語(yǔ)或短語(yǔ)集合聯(lián)系在一起;其中控制器(1)從第二數(shù)據(jù)庫(kù)中選擇(22)或計(jì)算出一個(gè)作為該文本段中所述第一詞語(yǔ)或短語(yǔ)的候選替代的易被混淆詞語(yǔ)或短語(yǔ);控制器(1)導(dǎo)出(23,24)一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的基于一個(gè)第二關(guān)聯(lián)在第一數(shù)據(jù)庫(kù)(3)中的可能值的第二似真值,該第二關(guān)聯(lián)由易被混淆詞語(yǔ)或短語(yǔ)和該文本段中的其它詞語(yǔ)或短語(yǔ)組成;以及控制器基于計(jì)算出的似真性值選擇性地提供一個(gè)易被混淆詞語(yǔ)或短語(yǔ)的指示(25,26)。
全文摘要
提供一個(gè)包含詞語(yǔ)之間的關(guān)聯(lián)及與其相聯(lián)系的可能值的數(shù)據(jù)庫(kù)(3),它提供這種正確或慣用的關(guān)聯(lián)的可能值度量??赡苤祷谕ㄟ^(guò)分析大量文本獲得的關(guān)聯(lián)發(fā)生頻度,例如由說(shuō)母語(yǔ)的人創(chuàng)作的文本。為了檢查文本段中是否有文本段的一個(gè)或多個(gè)詞語(yǔ)的可能的錯(cuò)誤或不自然用法,首先要分析(11)文本以確定其詞語(yǔ)之間的關(guān)聯(lián)。被分析文本中關(guān)聯(lián)的可能性由數(shù)據(jù)庫(kù)(3)確定。計(jì)算(14)被分析文本中每個(gè)詞語(yǔ)的似真值,這是通過(guò)把出現(xiàn)該詞語(yǔ)的關(guān)聯(lián)的可能值合成起來(lái)得到的。使用詞語(yǔ)索引另一個(gè)數(shù)據(jù)庫(kù)(4),該數(shù)據(jù)庫(kù)包含容易被索引詞語(yǔ)混淆的詞語(yǔ)集合。依次選擇(13,16)每個(gè)易被混淆詞語(yǔ)并在索引詞語(yǔ)的關(guān)聯(lián)中代替索引詞語(yǔ)。確定這些新關(guān)聯(lián)的可能值并計(jì)算(14)這個(gè)易被混淆詞語(yǔ)的似真值。在一個(gè)錯(cuò)誤檢測(cè)實(shí)施例中,對(duì)于那些似真性落在一個(gè)閾值下面的詞語(yǔ)嘗試(23,24)易被混淆詞語(yǔ),并將提高似真性的易被混淆詞語(yǔ)報(bào)告(25,26)給用戶。在一個(gè)上下文相關(guān)辭典實(shí)施例中,對(duì)所有詞語(yǔ)可以嘗試易被混淆詞語(yǔ),并可以報(bào)告那些似真值超過(guò)一個(gè)第二閾值的易被混淆詞語(yǔ)。
文檔編號(hào)G06F17/21GK1460948SQ03138209
公開日2003年12月10日 申請(qǐng)日期2003年5月22日 優(yōu)先權(quán)日2002年5月22日
發(fā)明者P·J·懷特洛克, P·G·埃德蒙茲 申請(qǐng)人:夏普株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
绍兴县| 安泽县| 桐柏县| 兰州市| 榕江县| 密山市| 务川| 阳春市| 嘉祥县| 东丽区| 阳信县| 绍兴县| 临海市| 获嘉县| 宝坻区| 浙江省| 辰溪县| 积石山| 房产| 手游| 乃东县| 绥阳县| 高台县| 金堂县| 本溪| 林芝县| 乌兰察布市| 绥阳县| 遂溪县| 淮滨县| 盐城市| 深圳市| 绿春县| 长武县| 舞阳县| 安义县| 芜湖市| 平湖市| 康乐县| 股票| 游戏|