欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

大寫和無重音文本的詞典處理的方法和系統(tǒng)的制作方法

文檔序號:6412201閱讀:320來源:國知局
專利名稱:大寫和無重音文本的詞典處理的方法和系統(tǒng)的制作方法
技術(shù)領域
本發(fā)明是關(guān)于自然語言處理(“NLP”)領域,較具體說,是關(guān)于編排電子詞典和從中檢索信息的方法和系統(tǒng)。
自動自然自然語言處理的計算機系統(tǒng)采用各種大致對應于為分析輸入文本以達到機器理解自然語言的水平的詞法、句法、和語義分析的語言學領域的子系統(tǒng)。在某種水平上理解輸入文本之后,計算機系統(tǒng)就能,例如,對輸入文本提供字面和風格上的改變,回答輸入文本中提出的問題,或者有效地存貯輸入文本所表示的信息。
詞法分析識別輸入字,并對每一個字提供自然語言對話的人類能利用詞典確定的信息。這種信息可能包括一個字可起的語法作用(例如,名詞或動詞)和該字能以附加前綴或后綴來生成不同的相關(guān)的字的方式。例如,除開字“fish(魚)”外,詞典還可能列舉與字“fish”相關(guān)的和由其推演得的各種單字,包括“fishes”,“fished”,“fishing”,“fisher”,“fisherman”,“fishable”,“fishabiity”,“fishbowl”,“fisherwoman”,“fishery”,“fishhook”,“fishnet”,和“fishy”。
句語法分析作為起點利用由對輸入字作詞法分析所得的信息和定義書寫輸入的句子的語言的文法的語法規(guī)則組對各個輸入句子進行分析。下面是句法規(guī)則實例句子=名詞短語+動詞短語名詞短語=形容詞+名詞動詞短語=副詞+動詞句法分析是要取得一句法規(guī)則的有序子集,這在當應用到輸入的句子的字時,將多組字組合成短語,而后將這些短語組成完整的句子。例如考慮輸入的句子“Big dogs fiercely bite。(大狗拼命地咬。)。利用上面列舉的三個簡單規(guī)則,句法分析將識別字“Big”和“dogs”分別為一形容詞和名詞,并應用第二規(guī)則以生成名詞短語“Big dogs”。句法分析將識別字“fiercely”和“bite”分別為副詞和動詞,并應用第三規(guī)則生成動詞短語“fiereely bite”。最后,句法分析利用第一規(guī)則由先前生成的名詞短語和動詞短語形成一完整的句子。一組有序的規(guī)則和由應用它們得到的短語,包括最后的完整的句子,被稱為一種語法分析(Parse)。
但某些句子可具有幾種不同的語法分析。對于這種多語法分析的一典型的示例句子是“Time flies like an arrow(光陰似箭)”。至少有對應于這一句子的三種可能的意思的三種可能的分析。第一分析中,“time”是句子的主語,“flies”是動詞,和“Like an arrow”修飾動詞“flies”的介詞短語。但,還至少有二個意料不到的分析。在第二種分析中,“time”是修飾“flies”的形容詞,“l(fā)ike”是動詞,而“an arrow”是動詞的賓語。這一分析相應的意思是,某種類型的蠅,“time flies(時間性的蠅)”,喜歡亦即為箭所吸引。在第三種分析中,“time”為命令式動詞,“flies”是賓語,而“Like an arrow”為修飾“time”的介詞短語。這一分析相當于一個命令象對箭那樣計時來測量飛行器的時間,例如采用一秒表。
句法分析常常由建立一或多個被稱為句法分析樹的層次樹形結(jié)構(gòu)。此句法分析樹的各個葉節(jié)點表示輸入句子的一個字。應用句法規(guī)則產(chǎn)生自下連接到一個、二個、或偶然地更多已有節(jié)點的中間層節(jié)點。這些已有節(jié)點最初僅包括葉節(jié)點,但當句法分析應用句法規(guī)則時,這些已有節(jié)點將包含葉節(jié)點以及中間層節(jié)點兩者。一完整句法分析樹的單一根節(jié)點代表一整個句子。
語義分析生成一邏輯形式圖,以較之句法分析樹單獨地所能說明的更深方式來說明輸入文本的意思。語義分析首先在如前由句法分析生成了多于一個的句法分析樹時要選擇由一句法分析樹所表示的正確分析。對應于以正確分析的邏輯形式圖是以類似于由人類語言表述者所達到的水平來理解輸入文本的第一個嘗試。
邏輯形式圖具有節(jié)點和連接,但與上述的句法分析樹不同,是非層次排序的。邏輯形式圖的連接被加以標號來指明一對節(jié)點間的關(guān)系。例如,語義分析可識別句子中某一名詞為一動詞的深層主語或深層賓語。動詞深層主語是由動詞所指定的動作的執(zhí)行者而動詞的深層賓語則是此動作的對象。主動語態(tài)動詞的深層主語可以是句子的語法主語,由主動語態(tài)動詞的深層賓語可以是動詞的語法賓語。但被動語態(tài)動詞的深層主語可能被表明在一輔助子句中,而被動語態(tài)動詞的深層賓語可能是句子的語法主語。例如,考慮這樣兩個句子(1)“Dogs bite people。(狗咬人)”和(2)“Peopleare bitten by dogs.(人被狗咬)”。第一句具有一主動語態(tài)動詞,第二句具有被動態(tài)動詞。第一句的語法主語是“Dogs”,動詞“bite”的語法賓語是“people”。相反,第二句的語法主語是“people”而動詞定語“arebitten”由輔助子句“by dogs”修飾。此二句中,“dogs”均為深層主語,而“people”是句子的動詞或動詞定語的深層賓語。雖然上述對句1和2作句法分析所生成的句法分析樹將會不同,而由語義分析產(chǎn)生的邏輯形式圖則將是一樣的,因為此二句的基本意思相同。
生成邏輯形式圖之后的進一步的語義處理可憑借知識數(shù)據(jù)庫將所分析的文本關(guān)聯(lián)到現(xiàn)實的觀點以便能實現(xiàn)更深一層的理解。知識庫的一例可以是一聯(lián)機百科全書,由其可以獲取對特定字的更完善的解說和上下文的結(jié)構(gòu)信息。
下面以處理樣值輸入文本“The person whom I met wasmy friend.(我遇到此人是我的朋友)”的情況來說明此三個自然語言處理子系統(tǒng)詞法、句法和語義。

圖1為說明自然語言處理的子系統(tǒng)間信息流通的方框圖。詞法子系統(tǒng)101接收輸入文本和輸出字的標識,并檢測各單詞可被用于的各種詞類的每一種的意義。語法子系統(tǒng)102接收這一信息,應用句法規(guī)則生成語法分析樹。語義子系統(tǒng)103接收句法分析樹和生成邏輯形式圖。
圖2~5顯示存放在一電子存貯媒體上的詞典信息,在詞法分析期間對樣值輸入文本的輸入詞進行檢索。圖2顯示對輸入詞“the”201和“person”202的詞典詞條。詞條201由關(guān)鍵字“the”203和屬性/值對的表組成。第一屬性“Adj”204作為它的值具有包含在大括號205與206中的符號。這些符號包括二個更深一層的屬性/值對(1)“Lemma”/“the”和(2)“Bits”/“Sing Plur wa6 Det Art Bo Def.”。主題(lemma)是一單詞的基本的不變化的形式。因此,屬性“Lemma”指明“the”是詞典中這一詞條所代表的單詞的基本的不變化的形式。屬性“Bits”包括一組表示關(guān)于一單詞的某些詞法和句法信息的略語。這一信息指明“the”為(1)單數(shù);(2)復數(shù);(3)不可變化的;(4)限定詞;(5)冠詞;(6)普通形容詞;和(7)限定的。屬性204指明單詞“the”可用作為形容詞。屬性212指明單詞“the”可用作為副詞。屬性“Senses”207表示作為各別的定義和舉例的此單詞的各種不同的意思,其一部分包含大括號208-209內(nèi)和大括號210-211內(nèi)的屬性/值對的表中?!皌he”詞條中實際上所含的附加意義在圖2中已被省略掉,由被加以括號的措詞詞“(moresense records更多意義的記錄)”213指明。
自然語言處理的第一步,詞法子系統(tǒng)將輸入文本的每一單字和標點符號判明為一各自的記號并利用詞典信息對各記號構(gòu)成一屬性/值記錄。這些屬性包括有記號類型(例如單詞、標點)和一單詞能在自然語言句子中代表的不同的詞類。
句法子系統(tǒng)輸入樣值輸入文本的最初組的屬性/值記錄,由每一個生成一句法分析樹節(jié)點,并將句法規(guī)則加到這些初始節(jié)點以構(gòu)成代表樣值輸入文本的一可能的句法分析樹的更高層的節(jié)點。一完全的語法分析樹包括有一根節(jié)點,中間層節(jié)點,和葉節(jié)點。根節(jié)點表示樣植輸入文本的句法結(jié)構(gòu)(例如說明性句子)。中間層節(jié)點表示中間句法結(jié)構(gòu)(例如動詞、名詞、或介詞定語)。葉節(jié)點表示初始組的屬性/值記錄。
在某些NLP系統(tǒng)中,以由頂向下方式應用句法規(guī)則。這里所描述的NLP系統(tǒng)的句法子系統(tǒng)則以自底向上方式將句法規(guī)則應用到葉節(jié)點。即就是,句法子系統(tǒng)力圖將句法規(guī)則一次一個地應用于到成對葉節(jié)點、和不時地到更大組葉片節(jié)點的單個葉片節(jié)點。如果句法規(guī)則要求對之操作的二個葉節(jié)點,和一對葉節(jié)點雙方均含在符合該規(guī)則所指明的需求的屬性,那么就將此規(guī)則應用到它們以生成更高層的句法結(jié)構(gòu)。例如,詞“myfriend”表示分別為一形容詞和一名詞,它們可組合成一名詞定語的更高層句法結(jié)構(gòu)。對應于語法規(guī)則“名詞短語=形容詞+名詞”的句法規(guī)則生成一中間層名詞定語節(jié)點并連接二代表“my”和“friend”的葉節(jié)點到新生成的中間層節(jié)點。在生成每一新的中間層節(jié)點時,它即被連接到已存在的葉節(jié)點和中間層節(jié)點,并成為被應用語法規(guī)則的整個節(jié)點組的部分。將句法規(guī)則應用到成長中的節(jié)點組的過程一直繼續(xù)直到產(chǎn)生一完全的句法分析樹或者直到再沒有語法規(guī)則可以應用。一完全的句法分析樹包括有作為葉節(jié)點的輸入句子的所有單詞,并代表句子的一可能的分析。
這種句法分析的自底向上的方法生成許多中間層節(jié)點和可能不再會包含在最后的完全的句法分析樹中的子樹。
句法子系統(tǒng)可借助連續(xù)地應用規(guī)則直到再沒有另外的規(guī)則可利用為止來進行詳盡的尋求所有可能的句法分析樹。句法子系統(tǒng)還能試行各種直接推斷措施來首先生成最可能的節(jié)點。在生成一個或少量的完全的句法分析樹之后,句法子系統(tǒng)一般可結(jié)束搜尋,因為最可能要被選擇為最好地代表輸入句子的句法分析樹多半是最先生成的句法分析樹之一。如果在適當?shù)乃阉髦笪瓷赏耆木浞ǚ治鰳?,則可以由將最有希望的子樹組合進采用在應用一特定的聚集規(guī)則所產(chǎn)生的根節(jié)點的單個樹中來實現(xiàn)一拼裝的分析。
圖6表明由句法子系統(tǒng)對原先顯示在圖2~5中的詞典詞條所生成的初始葉節(jié)點。此葉節(jié)點包含有二個特殊節(jié)點601和614,分別表示句子的起始和句子的全句結(jié)束。節(jié)點602~613的每個代表句中一輸入單詞能表示的言語中的一種詞類。這些詞類存在作為詞典詞目中的屬性/值對之中。例如葉節(jié)點602和603代表單詞“The”的二種可能的詞類,如作為圖2中的屬性204和212。
圖7~22表示句法子系統(tǒng)所得的最后的句法分析樹的規(guī)則到規(guī)則的結(jié)構(gòu)。每一個圖形說明應用一單個句法規(guī)則來產(chǎn)生一句法結(jié)構(gòu)的中間層節(jié)點。僅僅只說明了產(chǎn)生組成最終的句法樹的中間層節(jié)點的規(guī)則。句法子系統(tǒng)生成許多包含在最終的句法分析樹中的不結(jié)束的中間層節(jié)點。
在圖7~14中,句法子系統(tǒng)應用生成代表簡單的動詞、名詞、和形容詞定語的中間層節(jié)點的一元句法規(guī)則。由圖15起,句法子系統(tǒng)開始應用將簡單動詞、名詞、和形容詞短語組合成多字句法結(jié)構(gòu)的二元句法規(guī)則。句法子系統(tǒng)按它們成功應用的相似性對規(guī)則進行排序,然后逐個地試著應用它們直到找到一能成功地應用到現(xiàn)有節(jié)點的規(guī)則。例如,如圖15中所示,句法子系統(tǒng)成功地應用了一規(guī)則由形容詞短語和名詞短語生成一代表一名詞短語的節(jié)點。此規(guī)則指定形容詞和名詞短語所需的特征。在此例中,形容詞短語必須是一確定的量詞。隨著指針由節(jié)點1501到節(jié)點1503,和然后訪問節(jié)點1503中所包含的詞法信息,句法子系統(tǒng)確定,節(jié)點1501是表示一確定的量詞。在定位符合規(guī)則所要求的特征的此二節(jié)點1501和1502后,句法子系統(tǒng)即應用此規(guī)則由二簡單的短語1501和1502來生成表示名詞短語“my friend”的中間層節(jié)點。圖22中,句法子系統(tǒng)應用一三元規(guī)則生成代表輸入的句子的最終的完全的句法分析樹,該三元規(guī)則將專用的Begin(開始)葉節(jié)點2201、動詞短語“The person whom I metwas my friend”2202、和代表最終的結(jié)束句點的葉節(jié)點2203相組合來形成代表說明性句子的節(jié)點2204。
語義子系統(tǒng)利用一完全的語法分析樹產(chǎn)生邏輯形式圖。一般,邏輯形式圖由句法分析樹的節(jié)點,加以它們的屬性和新的雙向連接來構(gòu)成。邏輯形式圖為加以標號的定向圖。它是輸入句子的語義表現(xiàn)。由詞法子系統(tǒng)對每一個單詞得到的信息通過由邏輯形式圖的字節(jié)內(nèi)部引用到語法分析樹的葉節(jié)點仍然是可行的。邏輯形式圖的連接的標號和方向均代表語義信息,包括用于邏輯形式圖的節(jié)點的功能作用。在其分析期間,語義子系統(tǒng)加入連接和節(jié)點以表示(1)被省略掉但隱含著的單詞;(2)缺少的或不清楚的動詞短語的自變量和附加部分;(3)介詞短語所指的賓語。
圖23說明語義子系統(tǒng)對樣值輸入句子所產(chǎn)生的完全的邏輯形式圖。語義子系統(tǒng)作為成功的應用語義規(guī)則的結(jié)果給連接2301~2306指定了有意義的標記·六個節(jié)點2307~2312連同它們間的連接表示句子的語義意思的主要組成部分。通常,邏輯形式圖大體上相當于輸入單詞,但其些詞對傳遞語義意思是不必要的,例如“The”和“Whom”,在邏輯形式圖中就不出現(xiàn),而輸入的動詞“met”和“was”則表現(xiàn)為它們的不定式“meet”和“be”。節(jié)點在計算機系統(tǒng)中被表示作為記錄,含有圖23中未表明的附加信息。動詞以單數(shù)過去時態(tài)形式輸入的情況由對應于動詞的意義的邏輯形式節(jié)點2307和2310中的附加信息指明。
句法分析樹與邏輯形式圖間的區(qū)別由圖23與圖22的比較能容易地了解。圖22中顯示的句法分析樹包括有以嚴格的層次結(jié)構(gòu)連接一起的10個葉節(jié)點和16個中間層節(jié)點,而圖23中所顯示的邏輯形式圖僅含有6個節(jié)點。與句法分析樹不同,邏輯形式圖不作層次結(jié)構(gòu)排序,這由節(jié)點2307與2308之間的具有相反方向二個連接是很顯見的。此外,如以上指出的,節(jié)點不再代表輸入詞的確切形式,而是代表它們的意義。
在語義分析之后再進行自然語言處理步驟。它們涉及到將邏輯形式圖與由知識庫取得的附加信息相組合,分析多個句子組,和概括地力圖圍繞每一邏輯形式圖裝配一接近于人類處理自然語言那樣的豐富的文體結(jié)構(gòu)環(huán)境。
在以上大寫和無重音文本的詞典處理,是將詞法子系統(tǒng)描述為對各輸入單詞提供詞典信息。詞法子系統(tǒng)利用詞典查尋該信息。對于每一輸入單詞,詞法子系統(tǒng)必須找到詞典中由之得到信息的對應詞條。這種在詞典中查找輸入單詞的處理存在有數(shù)個有關(guān)的問題,它們的解決對整個NLP的精確性和效率有很大影響。
普通應用的詞典的線索含有區(qū)別符號和在專用名詞時的大寫字母兩者。例如,在英語詞典中,動詞“resume”具有一分開的詞條,無重音符號,和名詞“resum é”,帶有重音符號。另一個例子是,英語詞典一般具有兩個基本的“polish”代表名詞“polish(光澤)”和動詞“polish(拋光)”的詞條,以及兩個帶有基本的“Polish”代表專有名詞“Polish(波蘭語)”和專有形容詞“Polish(波蘭人的)”的詞條。
不幸的是,輸入文本中字母的大、小寫和區(qū)分標記可能與對應于它們的詞典關(guān)鍵詞的大、小寫和區(qū)分標記不一致,這使得詞法分析期間查找詞點詞條的任務大為復雜。例如,在帶有全部大寫字母的輸入文本中,以及在來自電子郵件消息的輸入文本中,區(qū)分標記通常均被去除。一沒有區(qū)分標記的大寫單詞有可能表示許多小寫的正常形式中的任一個。例如法語單詞“é l ève”意思是“student(學生)”,和“é leve”意思是“raised(被抬高)”,二者均具有大寫形式“ELEVE”。如果要處理寫作大寫的文本,而法語詞典具有小寫詞條,就會不清楚應選擇哪一個小寫詞條來說明輸入的單詞“ELEVE”。
因為詞條在普通詞典中通常為小寫形式,和因為輸入單詞的字母的大、小寫常常取決于單詞的出現(xiàn)作為一句的第一個單詞或單詞出現(xiàn)在標題中,所以不從單詞的詞法功用,語法子系統(tǒng)可能在試圖將單詞與詞典中的關(guān)鍵字相匹配之前首先將輸入單詞的字母變成全部為小寫。將所有字母改變?yōu)樾懙奶幚硎且环N特定類型的大小寫規(guī)格化。由輸入單詞去除所有的區(qū)分標記是另一類型規(guī)格化的舉例。規(guī)格化處理以某些字母置換輸入單詞中的其他字母,以便消除單詞間所不希望的區(qū)別。將全部規(guī)格化成小寫,輸入的單詞“Polish”和“polish”二者均成為規(guī)格化的單詞“polish”。
雖然大小寫規(guī)格化使得詞法子系統(tǒng)易于查找到詞典關(guān)鍵詞與一僅因為它存在作為一句的第一個單詞而使其第一字母作大寫的單詞相符后,但大小寫規(guī)格化可能造成基于大寫上的詞法區(qū)別的喪失。例如,一本書中的一句可能是“I told him to polish his shoes.(我叫他把他的皮鞋擦亮)”。換句話說,也可以是“Polish your shoes,’told him.”。也許此書的標題是“POLISH YOUR SHOES!”。在此三句中的“polish”、“Polish”、和“POLISH”的規(guī)格化單詞為“polish”。但是,考慮句子“The Polish government announced newelections today.”如果在接著的分析之前將單詞“Polish”規(guī)格化成“polish”,就會喪失“Polish”與“polish”之間的詞法區(qū)別。在此最后一種情況下,單詞“Polish”以大寫字母開頭指明它與單詞“polish”的詞法上的不同,而不是它在句子或標題中的位置。
區(qū)分標記的丟失和大小寫區(qū)別的丟失雙方的基本問題在于欠缺對各個輸入單詞需要在電子詞典中搜索多個詞條的詞典查找中的實際能力。對上面給出的法語示例中,對應于輸入單詞“ELEVE”有相當大數(shù)量的可能的詞典詞條,包括在單詞的第一、第三和第五位置中不加標記和加標記字母“e”的每一種可能的組合。對應于大寫字母“E”有四個小寫字母。它們是“e”、“è”、“ê”、和“é”。因此在輸入單詞“ELEVE”內(nèi)就有這四個小寫字母的43即64種不同的可能的組合。即使利用各種正交和聲學規(guī)則來刪除某些在法語文字中不可能發(fā)生的組合,仍然余留下有36種有效的組合。詞典查找是巨大的化費。每一查找均可能涉及到一或多次磁盤訪問。在上面給出的英語文字舉例中,輸入單詞“Polish”總要求四次查找,二次查找用于具有關(guān)鍵字“polish”的二獨立的詞條,和兩次用于具有關(guān)鍵字“Polish”的二獨立的詞條。自然,如果詞法子系統(tǒng)未能詳盡地以改變大小寫或以附加可能被省略的區(qū)分標記來搜索所有與一輸入單詞有關(guān)詞條,就可能給句法和語義子系統(tǒng)提供錯誤的結(jié)果,導致一不正確的分析和邏輯形式圖。
現(xiàn)有技術(shù)電子詞典和詞法分析子系統(tǒng)無法處理大寫輸入單詞的規(guī)格化的問題。自然語言處理技術(shù)領域已經(jīng)認識到需要有一種有效的方法,來找到電子詞典中對應于一因為通過電子郵件傳輸而被由其除去區(qū)分標記的輸入單詞的,或?qū)谝淮髮戄斎雴卧~的所有詞條。
本發(fā)明是針對一種定位電子詞典中的信息的方法和系統(tǒng)。系統(tǒng)以首先由欲被貯存進詞典的單詞的典型形式生成規(guī)格化形式來生成電子詞典。一單詞的典型的、即通常的形式利用適當?shù)拇髮懞托懽帜负瓦m當?shù)膮^(qū)分標記。一單詞的典型形式是此單詞在通常的印刷詞典中作為一詞條的關(guān)鍵字出現(xiàn)所取的形式。一單詞的規(guī)格化形式具有全部小寫字母和沒有區(qū)分標記。例如,“Polish”是有關(guān)Poland(波蘭)的單詞的典型形式,和“polish”是有關(guān)“wax(蠟)”的單詞的典型形式。但是,此二單詞的規(guī)格化形式均為“polish”。然后系統(tǒng)為單詞的每一獨特的規(guī)格化形式(例如“polish”)在電子詞典中存貯一詞條。每一詞條具有一關(guān)鍵字和一記錄。關(guān)鍵字被設定到單詞的規(guī)格化形式。對于一其規(guī)格化形式等于此獨特的規(guī)格化形式的單詞的每個典型形式,系統(tǒng)在記錄中存放一子記錄。子記錄含有有關(guān)此單詞的典型形式的信息,例如該單詞的定義和該單詞的詞類。以此同一例繼續(xù)說明,一詞條的關(guān)鍵詞將為“polish”和該詞目將含有“polish”和“polish”的子記錄。為了定位信息,系統(tǒng)接收輸入單詞(例如“POLISH”)和產(chǎn)生此輸入單詞的規(guī)格化形式。然后系統(tǒng)對電子詞典檢索帶有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條。被找到的詞條含有帶有有關(guān)單詞的典型形式的信息的子記錄。按照規(guī)格化形式組織電子詞典,就可以僅搜索一詞條來找到有關(guān)一輸入單詞的信息而不管是否存在有大寫和區(qū)分標記。
所列附圖的簡單說明如下圖1為說明自然語言處理系統(tǒng)的各子系統(tǒng)之間的信息流的方框圖;圖2~5顯示為樣值輸入句子“The person Whom I met wasmy friend。(我遇到的此人是我的朋友。)”的每個單詞檢索的存貯在一電子存貯媒體上的詞典信息;圖6顯示由作為分析輸入句子的第一步由句法子系統(tǒng)產(chǎn)生的葉節(jié)點;圖7~22顯示由句法子系統(tǒng)逐個地應用句法規(guī)則以分析輸入的句子和生成句法分析樹;圖23說明由語義子系統(tǒng)生成的邏輯形式圖以表示輸入句子的意思;圖24表示一說明用于自然語言處理的優(yōu)選的計算機系統(tǒng)的方框圖;圖25表示對關(guān)鍵字“interpret”的電子詞典詞條;圖26表示對關(guān)鍵字“polish”的電子詞典詞條;圖27表示對關(guān)鍵字“eleve”和“ou”的電子詞典詞條;圖28表示在一未指定的詞典中對關(guān)鍵字“buildling”的電子詞典詞條;圖29表示在一完全相對于對應形式被指定的詞典中對關(guān)鍵字“building”的電子詞典詞條;圖30為用于子程序Normalize(規(guī)格化)的流程圖;圖31為用于簡單的詞典構(gòu)成例行程序的流程圖;圖32為子程序Lexical(詞法)的流程圖;和圖33為子程序Lookup(查找)的流程圖。
本發(fā)明是針對在一電子詞典中存貯和定位信息的方法和系統(tǒng)。在一優(yōu)選實施例中,系統(tǒng)以首先由欲被存貯在詞典中每一個單詞的典型形式生成規(guī)格化形式來產(chǎn)生電子詞典。一單詞的規(guī)格化形式具有全為小寫的字母且無區(qū)分標記。然后系統(tǒng)對一單詞的各個獨特的規(guī)格化形式在電子詞典中存入詞條。各詞條具有一關(guān)鍵字和記錄。關(guān)鍵字被設定到單詞的規(guī)格化形式。對其規(guī)格化形式等于此獨特規(guī)格化形式的單詞的各個典型形式,系統(tǒng)在此記錄中存貯一子記錄。此子記錄含有有關(guān)單詞的典型形式的信息。為了利用電子詞典定位信息,系統(tǒng)接收輸入單詞和產(chǎn)生此輸入詞的規(guī)格化形式。然后系統(tǒng)在電子詞典中尋索帶有與輸入詞的規(guī)格化形式相符合的關(guān)鍵字的詞條。被找到的詞條含有一帶有與單詞的典型形式有關(guān)的信息的子記錄。
圖24為說明用于自然語言處理系統(tǒng)的優(yōu)選的計算機系統(tǒng)的方框圖。計算機系統(tǒng)2401包含一中央處理單元,一存貯器,和一存貯裝置。自然語言處理系統(tǒng)的詞法子系統(tǒng)2406,其他子系統(tǒng)通常由可由計算機讀取的存貯器裝置如磁盤裝載進存貯器2404。利用由此自然語言處理系統(tǒng)2401提供的服務的應用程序一般也被裝載進存貯器。電子詞典2409被存放在一存貯裝置,例如磁盤2408上,詞條放讀進存貯器供詞法子系統(tǒng)利用。在一實施例中,用戶一般以在輸入裝置2404上輸入一或多個自然語言句子來響應輸出裝置2403上顯示的提示。自然語言句子由應用程序接收,通過詞法子系統(tǒng)處理,然后傳送到自然語言處理系統(tǒng)。詞法子系統(tǒng)由電子詞典提取信息,利用該信息處理被送到它的輸入文本,然后將處理過的輸入文本和詞典信息傳送給自然語言處理系統(tǒng)的其他子系統(tǒng)。而后應用程序即可以向自然語言子系統(tǒng)發(fā)送信息和從中接收信息,以便利用由自然語言處理系統(tǒng)實現(xiàn)的機器對輸入文本的理解,而最后在輸出裝置2403上輸出對用戶的應答。
本發(fā)明一優(yōu)選實施例提供為組織一電子詞典的內(nèi)容和為搜索此電子詞典的新的詞典方法和系統(tǒng)。此新的詞典系統(tǒng)設置有一詞典生成部件(“DCC”)和一詞典查找部件(“DLC”)。
DCC生成類似于普通印刷詞典中查到的詞條的一種語言單詞的詞條。圖25顯示對單詞“interpret”的電子詞典詞條的形式。此詞條具有其后跟隨一含有屬性/值對的記錄的關(guān)鍵字2501。第一屬性2502為這一單詞能在語言中表示的詞類。屬性2502的值是子記錄2503,含有一系列屬性/值對。子記錄2503中的第一屬性是“Lemma”2504。“Lemma”的值為由屬性/值對2504-2505所表示的單詞的未變化形式,在這一情況下與關(guān)鍵字2501同。屬性“Bits”2506具有值“T1 Hsubj”2507,它是指動詞“interpret(解釋)”是及物動詞和要求人類作主語。屬性“Infl”2508具有值“Verbdefault”,指明此動詞在將被指定為“Lemma”屬性2505的值的動詞形式上附加以詞尾-ed、-s和-ing缺省式中的活用形式。這一詞條的主記錄的第二屬性“Senses”2510,具有一包含單詞“interpret”的定義和舉例的子記錄值2511。子記錄屬性“Defin”2512具有解釋此詞的意義的值2513,而子記錄屬性“EXS”2514具有提供單詞應用的簡便示例的值2515。
DCC對一語言中每一大小寫規(guī)格化的和區(qū)別符規(guī)格化的單詞、或者對一子集的大小寫規(guī)格化和區(qū)別符規(guī)格化的單詞在電子詞典中生成一詞條。大小寫規(guī)格化單詞只有小寫字母,而區(qū)別符規(guī)格化單詞不含有區(qū)別符。在大小寫和區(qū)別符上的規(guī)格化在一些情況中具有將不同的單詞映射到一單個關(guān)鍵字的效果。在下面的討論中,“規(guī)格化詞”將是指一大小寫和區(qū)分符規(guī)格化的單詞。
圖26顯示對大小寫規(guī)格化關(guān)鍵字“Polish”2601的電子詞典詞條。此詞條的主記錄中有4個主屬性,2602~2605,對應于帶有大小寫規(guī)格化形式的“polish”可代表的三個詞類“Noun(名詞)”、“Verb(動詞)”、和“Adverb(副詞)”,和表示帶有大小寫規(guī)格化形式“polish”的單詞的各種意義。在表示屬性“Noun”的值的子記錄中為具有作為其值的含有二個“Lemma(詞目)”屬性2608和2609的子記錄2607的屬性“Lexemes”。這二個“Lemma”屬性,“polish”2610和“polish”2611的值為二個不同單詞的未規(guī)格化形式,也即已知的單詞的典型形式。由“Lemma”2610表示的單詞是名詞“polish”,它的一個意思是“awaxy substance that one smears on a car to protect itssurface.(一種人們涂抹在汽車上來保護其表面的蠟制材料)”。由“Lemma”2611所表示的單詞是一名詞,其一個意思是“the SlavicLanguage of the Poles.(波蘭人的斯拉夫語)”。這樣,屬性“Lexemes”即指明,作為一特定的詞類可能存在有不只一個具有規(guī)格化形式“polish”的單詞。在此詞條的整個其余部分,屬于單詞“polish”的信息由屬性/值對“Lemma”/“polish”導入,例如象定義2612,而屬于單詞“Polish”的信息則由屬性/值對“Lemma”/“Polish”導入,例如象定義2613。
圖27顯示來自法語詞典的二個詞條2701和2702,說明含有區(qū)別標記的單詞的規(guī)格化。經(jīng)規(guī)格化的關(guān)鍵字“eleve”2702代表二個不同的典型形式“é lève”2703和“é levé”。經(jīng)規(guī)格化的關(guān)鍵字“ou”2705代表二個不同的典型形式“ou”和“où”。
一電子詞典可能部分地或者完全地在詞法推演得的單詞形式上被指定的。在詞法單詞形式上完全被指定的詞典(“FSM詞典”)含有用于“hike”,“hiked”、“hiking”,和“hikes”的各個分開的詞條,而一在詞法單詞形式方面未被指定的詞典(“USM詞典”)則含有一單個詞條“hike”,它代表形式“bike”以及可由單詞“hike”推演得的形式“hiked”、“hiking”和“hikes”。FSM詞典顯然含有多得多的詞條。因為它們含有對緊密相關(guān)的單詞的分開的詞條,如在單詞“hike(徒步旅行)”的和/與其相關(guān)的形式舉例中那樣,一FSM詞典可能含有大量的冗余的定義和其他信息。“hike”、“hikes”、和“hiked”的詞目可能都含有為消遣或鍛煉而作的步行動作的基本定義。另一方面,僅有一個詞條可含有此定義,象例如“hike”的詞條那樣,而其他詞條可含有對這些定義的指針。
一般說USM詞典受到偏好,因為它們較小,而使它們能較容易被置入確定大小的存貯媒體上,并使它們能在存貯器中作更有效的快速存貯。此外,為應用詞法規(guī)則來生成一單詞的相關(guān)的形式,象例如為由單詞“hike”生成“hikes”和“hiked”的總開銷也十分小。不規(guī)則形式被包括在詞典中作為分開的詞條以避免要將詞法規(guī)則組擴大到包括大量非常專門的規(guī)則,象例如一由現(xiàn)在時態(tài)形式“Keep”推演過去時態(tài)形式“Kept”的規(guī)則。DCC正常生成在詞法推演的形式方面部分地被指定的詞條。
一詞典可被結(jié)構(gòu)成使得,如果一輸入單詞一開始就符合詞典中一關(guān)鍵字,就保證無需對輸入單詞加以詞法規(guī)則來找到可對應于輸入單詞的其他可能的形式。例如,考慮由輸入句子“I am building a bridge.(我在建一座橋)”中查找輸入單詞“building”。在這一情況下,“building”是未變化形式“build”的活用形式。有可能的情況是,在對應于關(guān)鍵字“building”的詞條中,僅找到表示未變化形式“building”的記錄,或者換句話說,表示名詞“building”的記錄。為了查找到對應于現(xiàn)在時態(tài)的單數(shù)動詞“building”的記錄,DLC在這一情況下將詞法規(guī)則應用到“building”以產(chǎn)生動詞“to build”而后查找“build”。這種類型的詞典被稱之為在對應的字形式方面未被指定的詞典(“USH詞典”)。圖28中顯示對名詞“building”的USH詞典詞條。在帶有關(guān)鍵字“building”2802的詞條中僅屬性/值對2801對應于名詞“building”。在對應單詞形式方向完全指定的詞典(“FSH詞典”)保證帶有關(guān)鍵字“building”的詞條包含有對應于動詞“to build”的屬性/值對。對于關(guān)鍵字“building”的FSH詞條如圖29中所示。如果一規(guī)格化的輸入單詞符合FSH詞典中一個關(guān)鍵字,就無需時輸入單詞應用語法規(guī)則來尋找所有相關(guān)的記錄。
FSH詞典與FSM詞典不同。在FSH詞典中無需應用任何詞法規(guī)則。在FSH詞典中,當未找到輸入單詞的符合關(guān)鍵字時應用詞法規(guī)則。例如,在一FSM詞典中將有一符合輸入單詞“buildings”的關(guān)鍵字。相反,一FSH詞典不含有關(guān)鍵字“buildings”。為了在FSH詞典中查找適當?shù)脑~目,必須應用指明“buildings”是“building”的復數(shù)的詞法規(guī)則來生成形式“building”。FSH詞典通常是在詞法形式方面被部分指定的。
在DCC構(gòu)成電子詞典時,它將一采用語言專用查找表的規(guī)格化功能應用到由前先編纂的自然語言詞典得到的每個自然語言單詞或某些其他類似的單詞來源。此語言專用查找表是該語言的各個ASCII字符與其規(guī)格化形式之間的簡單映射。一映射的一部分的舉例可以是ZABCDE
Fza abcdeef在一優(yōu)選實施例中,查找表只不過是替換字符的陣列。對應于一輸入字符的ASCII碼的小整數(shù)值被用作進入陣列的索引來找到輸入字符的替換字符。
圖30中顯示規(guī)格化的功能的流程圖。步驟3001-3004表示一通過構(gòu)成輸入單詞的所有字母的循環(huán),在此DCC在每一重復中選擇下一字母。DCC在一語言專用查找表中查找所選擇的字母(步驟3002),并以查找表中對應于被選擇字母的字母取代輸入單詞內(nèi)的被選擇字母(步驟3003)。如果所選擇的字母為大寫形式,或者被一區(qū)別標記所修飾,則查找表詞條就將含有對應于所選擇字母的小寫字母或未加標記的字母。此例行程序的結(jié)果是在大小寫和區(qū)別標記方向作完全規(guī)格化的單詞。
圖31中顯示一簡單電子詞典構(gòu)成例行程序的流程圖。這一例行程序由現(xiàn)有的不帶規(guī)則化關(guān)鍵字的源詞典生成帶規(guī)格化關(guān)鍵字的電子詞典。步驟3101~3113表示一循環(huán),在其每一重復期間DCC由源詞典選擇一詞條并將由被選擇詞條得的信息裝入電子詞典。在步驟3101,DCC選擇下一源詞條,由第一詞條開始。在步驟3102,DCC利用上述的規(guī)格化例行程序?qū)λx擇詞條的關(guān)鍵字進行規(guī)格化。在步驟3103,DCC確定電子詞典中是否已存在一對應于所選擇的源詞條的規(guī)格化關(guān)鍵字的關(guān)鍵字。如果電子詞典中沒有這樣的關(guān)鍵字,DCC即在步驟3104在電子詞典中生成具有規(guī)格化關(guān)鍵字作為其關(guān)鍵字的新詞條。如果已經(jīng)存在有這樣一個關(guān)鍵字,則由步驟3105至3111所表示的循環(huán)即經(jīng)由所選擇的源詞條中的各個詞類重復進行。所選擇的詞條可含有例如動詞的定義和名詞的定義。DCC由第一詞類開始選擇下一詞類(步驟3105)。在步驟3106DCC確定該詞類的屬性是否已存在于電子詞典詞條中,象例如圖26中的名詞屬性2602。如果不是,DCC即為該詞類加以一新的屬性(步驟3107)。如果已存在這樣的屬性,DCC即確定現(xiàn)有的屬性的值中是否有新Lexeme屬性,象例如圖26中的Lexemes屬性2606。如果沒有,DCC將Lexeme屬性加到現(xiàn)有的詞類屬性,并將現(xiàn)有詞類屬性和所選擇詞類的新屬性作為Lexeme屬性中的值(步驟3110),象例如屬性2608和2609(圖26)。如已存在有Lexeme屬性,則DCC只是將所選擇的詞類加到Lexeme屬性(步驟3109)。一旦被選擇詞條中的所有詞類均被選擇,DCC即將所選詞條的定義加到新的或現(xiàn)有的電子詞類詞條(步驟3112)。
DCC可生成FSM、FSH、或USH詞典。分析期間所用的全局變量指明詞典是類型FSM、FSH還是USH。不同的全局變量表明一電子詞典是否具有規(guī)格化關(guān)鍵字。
如上面討論詞典查閱表頭可以有數(shù)種不同的組織,它可以是一FSM詞典,在這種情況下無需應用詞法規(guī)則到輸入單詞來尋找詞典中對應的關(guān)鍵字。它可能是一FSH詞典,在此情況下僅在沒有找到符合關(guān)鍵字時需要應用詞法規(guī)則。而且,如上面討論的,為了產(chǎn)生關(guān)鍵字“building”需要將詞法規(guī)則應用到輸入單詞“buildings”,因為FSH詞典不包含帶有關(guān)鍵字“buildings”的詞條。如果詞典是USH型,則就必須總要將詞法規(guī)則應用到輸入單詞來生成所有可能的形式。例如,在這樣的詞典中,只可能以應用由“building”生成“build”的詞法規(guī)別來從輸入單詞“building”找到動詞“build”的詞條,因為USH詞典僅只在帶有關(guān)鍵字“building”的詞條中含有名詞“building”的定義。
以所有三種類型詞典,DLC首先如圖29中所說明的將規(guī)格化功能應用到輸入單詞。如果是FSM型詞典,則DLC由詞典搜索符合規(guī)格化輸入單詞的關(guān)鍵字。如找到關(guān)鍵字,DLC返回包含在具有該關(guān)鍵字的詞條中的子記錄,以指明它們所代表的典型形式是否嚴格地符合未經(jīng)規(guī)格化的輸入單詞。如未找到符合的關(guān)鍵字,則該單詞不存在在此詞典中。
如果是FSH型詞典,DLC由詞典搜尋符合規(guī)格化的輸入單詞的關(guān)鍵字。如找到一關(guān)鍵字,即返回它們包含的子記錄,以指明它們所代表的典型單詞是否嚴格符合輸入單詞。如未找到符合的關(guān)鍵字,DLC應用任何適用的詞法規(guī)則到輸入單詞以產(chǎn)生該單詞的一個或多個詞目,然后由詞典搜索任何符合所產(chǎn)生詞目的關(guān)鍵字。如DCL找到符合的關(guān)鍵字,即檢索包含在對應于符合的關(guān)鍵字的詞條中的子記錄,并返回各個帶有表明未經(jīng)規(guī)格化的輸入單詞是否嚴格符合子記錄所代表的典型形式的指示的每個子記錄。如未找到符合的關(guān)鍵字,則此詞典中不存在此單詞。
如果詞典是在對應形式方面未完全指定的,DLC即對輸入單詞應用任何適用的詞法規(guī)則,這種規(guī)則產(chǎn)生單元可做一個或多個主題,然后搜索詞典中的與輸入字或產(chǎn)生的主題的任一個符合的任何關(guān)鍵字。如果DLC找到符合關(guān)鍵字,它就檢索被包括在相應于符合關(guān)鍵字的詞條內(nèi)的子記錄,并返回每一子記錄,以指明非規(guī)格化的輸入單詞是否嚴格與子記錄所表示的典型形式一致。如果找不到關(guān)鍵字,單詞就在詞典中不存在。
DLC返回詞條中的所有子記錄,而不僅僅是其典型形式嚴格地符合此未規(guī)格化的輸入單詞的子記錄。一般說符合可以在某種程度上表明所含定義的正確性,但卻不是決定性的。再來看二個樣值句子(1)I told him topolish his shose?!焙?2)“Polish your shoes。’I told him。”對第一句,DLC將單詞“polish”規(guī)格化到“polish”,并返回代表典型形式“polish”的子記錄,帶有表明嚴格符合輸入單詞的對于“toshine”的同義詞,和帶有表明其不嚴格地符合輸入單詞的代表典型形式“Polish”的子記錄。在這種情況下,帶有嚴格符合典型形式的記錄是所要求的記錄。對第二局得到同樣的查找結(jié)果,但在這種情況下,子記錄并不具有作為所希望子記錄的嚴格符合的典型形式。
由于關(guān)鍵字的大小寫和區(qū)別符的規(guī)格化和一單個詞條中含有多個代表典型形式的子記錄,所有三種類型詞典中每次詞典查找所得結(jié)果均為較多的子記錄。由一次查找,DLC就直接得到全部大小寫和區(qū)分標記的組合。在FSH詞典的情況下,總是只需要一次查找。在FSH詞典的情況下,經(jīng)常只要求一次查找,不過如果未找到詞條,則在依靠對之應用詞法規(guī)則能由輸入單詞生成成詞條的情況下可能要求附加的查找。在USH詞典的情況下,所需的查找的數(shù)量等于一加可由對輸入單詞應用詞法規(guī)則產(chǎn)生的詞目數(shù)。
由返回各個循環(huán)的多個記錄,為對一單詞作詳盡搜索所需的查找數(shù)就會減少。這種查找的減少相應地減少磁盤存取次數(shù),而加速詞典查找過程。
圖32顯示為查找含有代表作為自變量“ilemma”通過例行程序的輸入單詞的可能的詞類和定義的記錄的電子詞典中所有詞條的詞法子程序的流程圖。在步驟3201,詞法子程序?qū)⒆兞俊皉ecord-list”的初始化為空,并將ilemma中的值指定為變量“next-lemma”。在步驟3202,詞法子程序調(diào)用顯示在圖33中的查找例行程序以便由電子詞典找到帶有對應于ilemma的關(guān)鍵字。如果在步驟3203未找到詞條,詞法子程序即確定詞典是否為FSM型。如果是,則詞法子程序返回一層的record-list(步驟3205)。如果詞典不是FSM型,詞法子程序即對ilemma應用語法規(guī)則以生成另一詞目(步驟3206)。如果在步驟3706中產(chǎn)生一新的命題,而后控制循環(huán)回到例行程序的起頭;否則詞法子程序在步驟3205返回record-list。
如果詞法子程序在步驟3203找到一記錄,詞法子程序就在步驟3208將該記錄加到record-list。而后,如果詞典是FSM或FSH型,如步驟3209和3210中所確定的,詞法子程序就在步驟3211返回record-list。否則,控制傳至步驟3206,在這里子程序詞法將力圖產(chǎn)生新的詞目。
圖23顯示查找子程序的流程圖。這一子程序搜錄作為自變量“ilemma”的帶有符合一單詞輸入的關(guān)鍵字的記錄。在步驟3301,查找子程序確定詞典是否具有在大小區(qū)和區(qū)別標記上被規(guī)格化的關(guān)鍵字。如果詞典沒有規(guī)格化的關(guān)鍵字,查找例行程序即搜索詞典的詞條以找到帶有符合ilemma的關(guān)鍵字的詞條(步驟3302)。如果詞典沒有規(guī)格化的關(guān)鍵字,那么就調(diào)用圖30中所示的子程序規(guī)格化以產(chǎn)生對應于ilemma的規(guī)格化單詞(步驟3303),而查找例行程序搜索詞典的詞條以找到帶有符合對應于ilemma的規(guī)格化單詞的關(guān)鍵字的詞條(步驟3304)。如果在步驟3302或3304中未找到詞條,查找子程序失敗而返回NULL(步驟3306)。
如果找到一詞條,查找子程序即執(zhí)行包括步驟3307~3315的循環(huán),在詞條主記錄中所含的每一詞類子記錄加以反復。如果由詞典檢索到圖29中顯示的記錄,例如,這一循環(huán)的第一反復將選擇對應于“Noun”屬性的子記錄2901,而循環(huán)的第二反復則將選擇對應于“Verb”屬性2904的子記錄2903。在步驟3308中查找子程序確定所選擇的子記錄是否含有一“Lexemes”屬性,例如象圖26中的屬性2606。如果不是這樣,則查找子程序只有在所選擇的子記錄嚴格符合ilemma時才在步驟3310中將所選擇的子記錄標作為嚴格符合,而由步驟3307~3315所代表的循環(huán)則以下一反復而繼續(xù)。
如果在被選擇的子記錄中存在“Lexemes”屬性,則由步驟3311~3314代表的一由循環(huán)即對每一循環(huán)反復由“Lexemes”屬性的值中選擇各個語義。圖26中,屬性/值對2608~2610導入第一語義,而屬性/值對2609~2611導入第二語義。如果所選擇語義的“Lemma”屬性的值嚴格符合ilemma查找子程序即標明該語義子記錄為嚴格符合(步驟3313)。因此,調(diào)用查找子程序的結(jié)果在未找到詞條時是一NULL值,或者是一帶有具有嚴格符合輸入單詞的“Lemma”屬性的子記錄的被標明為嚴格符合的詞典詞條。
雖然本發(fā)明已按一優(yōu)選實施例進行了說明,但并不是企圖將發(fā)明局限于這一實施例。對于本技術(shù)領域熟悉人士來說在本發(fā)明的精神領域之內(nèi)的修改是顯而易見的。本發(fā)明的范圍由所附權(quán)利要求加以限定。
權(quán)利要求
1.在計算機系統(tǒng)中用于電子詞典的信息定位方法,其特征是所述方法包括生成電子詞典,方法是由多個單詞各自的典型形式生成一規(guī)格化形式,此規(guī)格化形式具有全為小寫的字母和沒有區(qū)別標號,和對一單詞的各獨特的規(guī)格化形式,在電子詞典中存貯一詞條,各詞條具有一關(guān)鍵字和一記錄,關(guān)鍵字被設定為單詞的規(guī)格化形式,而對其規(guī)格化形式等于此獨特的規(guī)格化形式的單詞的各典型形式在記錄中存貯子記錄,此子記錄包含有有關(guān)單詞的典型形式的信息;接收一輸入單詞;由輸入單詞生成規(guī)格化形式;和由生成的電子詞典搜尋帶有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條,此詞條含有帶有有關(guān)單詞的典型形式的信息的子記錄。
2.權(quán)利要求1所述方法,其特征是此多個單詞包含對單詞的每一個可能的詞法形式均使得所生成的電子詞典對于詞法形式為完全指定的單詞。
3.權(quán)利要求2所述方法,其特征是在未找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時,指明所生成的電子詞典不包有輸入單詞。
4.權(quán)利要求2所述方法,其特征是在找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時,指明所找到的詞條含有此信息。
5.權(quán)利要求1所述方法,其特征是該多個單詞包含對每一可能的對應單詞所生成的電子詞典關(guān)于對應單詞是被完全指定的單詞。
6.權(quán)利要求5所述方法,其特征是在未找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時,對輸入單詞應用詞法規(guī)則生成輸入單詞的所有詞目,將所生成的詞目規(guī)格化,并由所構(gòu)成的電子詞典檢索具有符合規(guī)格化詞目的關(guān)鍵字的詞條。
7.權(quán)利要求5所述方法,其特征是在找到符合輸入單詞的規(guī)格化形式的關(guān)鍵字時,指明所找到的詞條含有此信息。
8.權(quán)利要求1所述方法,其特征是在找到符合輸入單詞規(guī)格化形式的關(guān)鍵字時,應用詞法規(guī)則到輸入單詞生成輸入單詞的所有詞目,將產(chǎn)生的詞目規(guī)格化,和由所構(gòu)成的電子詞典搜索帶有符合規(guī)格化詞目的關(guān)鍵字的詞條。
9.在計算機系統(tǒng)中生成單詞的電子詞典的方法,每一單詞具有一典型的形式,其特征是所述方法包括由多個單詞的每一個的典型形式生成一規(guī)則化形式;和對一單詞的各獨特的規(guī)格化形式,在電子詞典中存放一詞條,各詞條具有一關(guān)鍵字和一記錄,此關(guān)鍵字被設定到單詞的規(guī)格化形式;和對一其規(guī)格化形式等于此獨特的規(guī)格化形式的單詞的各個典型形式,在記錄中存貯有關(guān)此單詞的典型形式的信息。
10.權(quán)利要求9所述方法,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設置為小寫。
11.權(quán)利要求9所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標記。
12.在計算機系統(tǒng)中生成電子詞典的方法,其特征是包括對繁多單詞的多個規(guī)格化形式的每一個生成一詞條;和在各詞條中存貯有關(guān)具有相同規(guī)格化形式的每一單詞的信息,以便能由檢索一單個詞條即可檢索具有相同規(guī)格化形式的各個單詞的信息。
13.權(quán)利要求12所述方法,其特征是各詞條含有具有規(guī)格化形式連同有關(guān)典型形式信息的各個單詞的規(guī)格化形式和一典型形式。
14.權(quán)利要求12所述方法,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設定為小寫。
15.權(quán)利要求12所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標記。
16.含有促使計算機系統(tǒng)生成單詞的電子詞典的計算機指令的計算機可讀媒體,各單詞具有一典型形式,其特點是由多個單詞的每一個的典型形式產(chǎn)生規(guī)格化形式;和對一單詞的各個獨特的規(guī)格化形式在電子詞典存貯一詞條,每一詞條具有一關(guān)鍵字和一記錄,此關(guān)鍵字被設置為單詞的規(guī)格化形式;和對其規(guī)格化形式等于此獨特的規(guī)格化形式的單詞的各個典型形式,在記錄中存貯有關(guān)此單詞的典型形式的信息。
17.權(quán)利要求16所述計算機可讀媒體,其特征是規(guī)格化形式的產(chǎn)生包括將單詞的每一字母設置為小寫。
18.權(quán)利要求16所述計算機可讀媒體,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標記。
19.生成電子詞典的計算機系統(tǒng),其特征是包括為繁多單詞的多個規(guī)格化形式的每一個產(chǎn)生一詞條的設備;和為在各詞條中存貯有關(guān)具有相同的規(guī)格化形式的每個單詞的信息的設備,使得由檢索一單個詞條就能檢索到具有相同規(guī)格化形式的各單詞的信息。
20.權(quán)利要求19所述計算機系統(tǒng),其特征是每一詞條含有具有該規(guī)格化形式連同有關(guān)典型形式的信息的各個單詞的規(guī)格化形式和典型形式。
21.權(quán)利要求20所述方法,其特征是規(guī)格化型式的產(chǎn)生包括將單詞的各個字母設置為小寫。
22.權(quán)利要求20所述方法,其特征是規(guī)格化形式的產(chǎn)生包括去除區(qū)別標記。
23.在計算機系統(tǒng)中從電子詞典檢索信息的方法,所述電子詞典具有含有有關(guān)規(guī)格化形式相同的單詞的典型形式的信息的詞條,其特征是所述方法包括接收一輸入單詞;產(chǎn)生輸入單詞的規(guī)格化形式;和由電子詞典搜索對應于輸入單詞的規(guī)格化形式的詞條,其中詞條含有關(guān)于輸入單詞的信息。
24.權(quán)利要求23所述方法,其特征是電子詞典含有對單詞的每一種可能的詞法形式的詞條,以使得所生成的電子詞典在詞法形式上被完全指明。
25.權(quán)利要求24所述方法,其特征是在未找到對應于輸入單詞的規(guī)格化形式的詞條時,表明電子詞典不含有此輸入單詞。
26.權(quán)利要求24所述方法,其特征是在找到對應于輸入單詞的規(guī)格化形式的詞條時,表明所找到的詞條含有此信息。
27.權(quán)利要求23所述方法,其特征是電子詞典含有對每一可能的對應單詞的詞條,而使所生成的電子詞典在對應詞上被完全指定。
28.權(quán)利要求27所述方法,其特征是在未找到對應于輸入單詞的規(guī)格化形式的詞條時,由對輸入單詞應用詞法規(guī)則來產(chǎn)生輸入單詞的所有詞目,將所產(chǎn)生詞目加以規(guī)格化,和由所生成的電子詞典搜尋對應于規(guī)格化詞目的詞條。
29.權(quán)利要求27所述方法,其特征是在找到對應于輸入單詞的規(guī)格化形式的詞條時,表明所找到的詞條含有此信息。
30.權(quán)利要求23所述方法,其特征是在未找到對應于輸入單詞的規(guī)格化形式的詞條時,由對輸入單詞在用詞法規(guī)則來產(chǎn)生輸入單詞的所有詞目,將所產(chǎn)生詞目進行規(guī)格化,和由所生成的電子詞典搜尋對應于規(guī)格化詞目的詞條。
31.包含帶有關(guān)于一自然語言的單詞的詞法和語法信息的電子詞典的計算機可讀媒體,此電子詞典包括有一組詞條,每一詞條包括一關(guān)鍵字和一記錄,此記錄含有關(guān)于至少一個由關(guān)鍵字所代表的單詞的信息,其特征是詞典的各關(guān)鍵字被規(guī)格化;和在至少二個不同單詞具有相同的規(guī)格化形式時,具有符合規(guī)格化形式的關(guān)鍵字的電子詞典詞條含有至少一個對應于各個具有相同規(guī)格化形式的不同單詞的子記錄。
32.權(quán)利要求31所述計算機可讀媒體,其特征是電子詞典的各關(guān)鍵字在大小寫方面被加以規(guī)格化。
33.權(quán)利要求31所述計算機可讀媒體,其特征是電子詞典的各個關(guān)鍵字在區(qū)別標記方面被作規(guī)格化。
34.為尋找關(guān)于電子詞典中一單詞的信息的計算機系統(tǒng),此電子詞典含有關(guān)于一自然語言的單詞的詞法和語法信息,此電子詞典包含一組詞條,各詞條包括一關(guān)鍵字和一記錄,此記錄含有關(guān)于至少一個由關(guān)鍵字所代表的單詞的信息,其中詞典的各關(guān)鍵字均為單詞的規(guī)格化形式,其特征是所述系統(tǒng)包括為產(chǎn)生輸入單詞的規(guī)格化形式的設備;和為在電子詞典中搜尋具有符合輸入單詞的規(guī)格化形式的關(guān)鍵字的詞條的設備。
35.權(quán)利要求34所述計算機系統(tǒng),其特征是包含有用于在未找到詞條而此電子詞典是在詞法形式方面被完全指定的時返回一電子詞典不含有關(guān)于輸入單詞的信息的指示。
36.權(quán)利要求34所述計算機系統(tǒng),其特征是各記錄含有對單詞的每一典型形式的子記錄,和包括用于在找到詞條和詞典在詞法方面被完全指定的時,返回帶有指明其子記錄具有符合輸入單詞的典型形式的指示的所找到的詞條。
37.權(quán)利要求34所述計算機系統(tǒng),其特征是包含有設備,用于在搜索時未找到詞條而此電子詞典在詞法形式方面不是完全指定時,產(chǎn)生輸入單詞的不同的詞目;產(chǎn)生輸入單詞的不同詞目的規(guī)格化形式,和在電子詞典中搜索具有符合輸入單詞的不同詞目的規(guī)格化形式的關(guān)鍵字的詞條。
38.權(quán)利要求34所述計算機系統(tǒng),其特征是包含有設備,用于在找到一詞條而此電子詞典在對應形式方面未被完全指定時,產(chǎn)生輸入單詞的不同的詞目;產(chǎn)生輸入單詞的不同詞目的規(guī)格化形式;和在電子詞典中搜尋一具有符合輸入單詞的不同詞目的規(guī)格化形式的關(guān)鍵字的詞條。
39.權(quán)利要求34所述計算機系統(tǒng),其特征是包含有設備,用于在找到一詞條而電子詞典在對應形式方面被完全指定時,返回所找到的詞條和一表明詞條的子記錄具有符合詞目值的指示。
40.權(quán)利要求34所述計算機系統(tǒng),其特征是輸入單詞的規(guī)格化形式的產(chǎn)生在大小寫方面對輸入單詞規(guī)格化。
41.權(quán)利要求34所述方法,其特征是輸入單詞的規(guī)格化形式的產(chǎn)生在區(qū)別標記方面對輸入單詞作規(guī)格化。
42.計算機可讀媒體,含有為促使計算機系統(tǒng)從具有包含關(guān)于具有相同規(guī)格化形式的單詞的典型形式的信息的詞條的電子詞典中檢索信息的指令,其特征是接收輸入單詞;產(chǎn)生輸入單詞的規(guī)格化形式;和由所生成的電子詞典搜尋對應于輸入單詞的規(guī)格化形式的詞條,其中此詞條含有關(guān)于此輸入單詞的信息。
43.權(quán)利要求42所述計算機可讀媒體,其特征是此規(guī)格化形式包含全部的小寫字母。
44.權(quán)利要求42所述計算機可讀媒體,其特征是規(guī)格化形式包含無任何區(qū)別標記。
全文摘要
一種由電子詞典檢索信息的方法和系統(tǒng)。此系統(tǒng)將關(guān)于具有相同規(guī)格化形式的單詞的所有信息存貯進電子詞典。單詞的規(guī)格化形式具有全部小寫的字母和沒有區(qū)別標記。當欲對一單詞由詞曲檢索信息時,首先將單詞規(guī)格化,然后由詞典搜索對應于該規(guī)格化單詞的詞條。所找到的詞條即含有該單詞的信息。
文檔編號G06F17/30GK1180204SQ97114969
公開日1998年4月29日 申請日期1997年4月30日 優(yōu)先權(quán)日1997年4月30日
發(fā)明者約瑟夫·E·蓬瑟若達基斯, 斯蒂夫·理查德森 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
巧家县| 嘉峪关市| 沾益县| 吕梁市| 宁蒗| 宜丰县| 潍坊市| 平山县| 九龙县| 六枝特区| 买车| 旅游| 若羌县| 开封县| 凌源市| 永平县| 昌乐县| 平塘县| 赞皇县| 隆尧县| 越西县| 五寨县| 孟州市| 贵港市| 雅安市| 黄梅县| 宁德市| 石台县| 河北省| 乌鲁木齐市| 龙山县| 霍林郭勒市| 故城县| 阳山县| 黎川县| 永顺县| 安西县| 商洛市| 鹤峰县| 贡觉县| 永济市|