專利名稱:一種利用計(jì)算機(jī)對(duì)詞義進(jìn)行排歧的方法、系統(tǒng)及檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體地說(shuō),涉及一種用計(jì)算機(jī)對(duì)語(yǔ)言文字 進(jìn)行處理時(shí),對(duì)詞語(yǔ)的詞義進(jìn)行排歧的方法及詞義排歧系統(tǒng),本發(fā)明還涉及 一種檢索方法。
背景技術(shù):
在計(jì)算機(jī)檢索、語(yǔ)音識(shí)別、機(jī)器翻譯等技術(shù)領(lǐng)域,需要由計(jì)算機(jī)對(duì)文字 或語(yǔ)言進(jìn)行處理,從而達(dá)到以機(jī)器來(lái)模擬人的部分乃至全部的語(yǔ)言能力的目 的。經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展,人類的語(yǔ)言已經(jīng)形成了自身固有的客觀語(yǔ)言規(guī)律。 但是,由于自然語(yǔ)言中的詞匯存在大量的歧義,即同一詞語(yǔ)可能具有多種涵 義,因此,計(jì)算機(jī)在對(duì)語(yǔ)言進(jìn)行處理的過(guò)程中,需要根據(jù)某一詞匯上下文中 的詞例從該詞匯的諸多項(xiàng)詞義中選擇出正確的詞義,該過(guò)程稱為詞義排歧或 詞義消歧。詞義排歧作為自然語(yǔ)言處理領(lǐng)域十分重要的內(nèi)容,主要用作兩種 語(yǔ)言的機(jī)器翻譯系統(tǒng)中,也有一些應(yīng)用在信息檢索系統(tǒng)中。由于漢語(yǔ)中單個(gè)詞語(yǔ)通常具有很多的涵義,詞義排歧通常有比較大的難 度。如果不能夠很好的選擇詞語(yǔ)的詞義,那么,需要準(zhǔn)確理解文本內(nèi)容和準(zhǔn) 確理解單獨(dú)詞的詞義的目標(biāo)將難以實(shí)現(xiàn)。目前,對(duì)于歧義問(wèn)題通常有兩種基本的處理方法第一種方法是在詞義分析過(guò)程中消除非良構(gòu)詞義表示,即一 個(gè)語(yǔ)句結(jié)構(gòu)可以有兩種或兩種以上的理解方法,通過(guò)分析語(yǔ)句的句法結(jié)構(gòu), 把一個(gè)語(yǔ)句變成一顆確定的語(yǔ)法樹,使其不會(huì)有兩種或兩種以上的理解方法, 而在這個(gè)過(guò)程中,能夠消除一些詞語(yǔ)的歧義,從而產(chǎn)生的正確的詞語(yǔ)涵義; 第二種方法是在詞義分析之前獨(dú)立進(jìn)行詞義排歧。對(duì)于獨(dú)立的方法,目前有 一些數(shù)學(xué)模型可以實(shí)現(xiàn)詞義排歧。由于不同的計(jì)算機(jī)系統(tǒng)處理文本中關(guān)注的重點(diǎn)是不一樣的,如機(jī)器翻譯 領(lǐng)域需要把每個(gè)詞的詞義的選擇與文章的整體語(yǔ)境協(xié)調(diào)起來(lái);但某些系統(tǒng)只關(guān)心某些特定詞匯的詞義排歧,而不關(guān)心其他詞的詞義判斷是否準(zhǔn)確,例如 在信息檢索領(lǐng)域只關(guān)心檢索關(guān)鍵詞的詞義選擇是否正確。這樣,導(dǎo)致了現(xiàn)有 的詞義排歧方法在適應(yīng)不同的應(yīng)用時(shí)需要有不同的方法。中文切詞(或中文分詞)是中文信息處理的基礎(chǔ),即將連續(xù)的中文字序 列按一定的規(guī)范重新組合成詞的序列,例如,將"我的筆記本"切分成"我" "的""筆記本"三個(gè)詞匯單元。對(duì)中文切詞的算法主要有兩種方法。第 一種是使用詞典進(jìn)行切詞。使用詞典的方法必須有一個(gè)中文的詞庫(kù), 這個(gè)詞庫(kù)中包含中文中出現(xiàn)的幾乎所有的詞。有了詞庫(kù)的情況下就可以使用最大正向匹配,或者最大逆向匹配進(jìn)行中文切詞了。最大正向匹配的算法為(1) 將整篇文章按照標(biāo)點(diǎn)符號(hào)切分成句子;(2) 依次處理每一個(gè)句子S,設(shè)句子中字的個(gè)數(shù)為n;(3 )設(shè)置一個(gè)詞的最大長(zhǎng)度K,令K^min(m,n); (m為詞庫(kù)中詞的最大 長(zhǎng)度,min(m,n)為m和n的最小值。)(4)取句子S中的前K個(gè)字作為一個(gè)待選詞,到詞典里查找是否含有 這個(gè)詞,如果詞典里含有這個(gè)詞,那么就找到了一個(gè)詞,并把S中這前K個(gè) 字去掉,這時(shí)S的長(zhǎng)度為n-K,如果S的長(zhǎng)度變成O,那么轉(zhuǎn)到(2),處理 下一個(gè)句子,如果S的長(zhǎng)度大于O,則重復(fù)步驟(3);如果詞典中不含有 這個(gè)詞,把K減1,并重復(fù)步驟(4);直至處理完所有句子。另一種中文切詞方法是使用概率的方法。舉個(gè)例子,對(duì)"有意見(jiàn)分歧" 進(jìn)行切詞,那么,按照最大正向匹配的方法,這個(gè)句子應(yīng)該被切成"有意", "見(jiàn)","分歧,,。但實(shí)際上正確的切法應(yīng)該是"有","意見(jiàn)","分歧"。 用概率的方法就是統(tǒng)計(jì)詞在語(yǔ)言中出現(xiàn)的概率,當(dāng) 一個(gè)句子有多種切法的時(shí) 候,計(jì)算每一種切法每個(gè)詞出現(xiàn)的概率的乘積,取值最大的一種作為切詞結(jié) 果。命名實(shí)體(NamedEntity)是指文本中具有特定意義的專有名稱和數(shù)量短 語(yǔ)。命名實(shí)體是文本中比較重要的元素,命名實(shí)體對(duì)于自動(dòng)理解文本內(nèi)容和 理解文本詞義都有非常重要的作用。很多命名實(shí)體名稱中的一些詞存在歧義。例如,"聯(lián)想集團(tuán)"是一個(gè)公司實(shí)體,組成這個(gè)公司實(shí)體的一個(gè)詞"聯(lián)想"就存在著歧義。這很有可能導(dǎo) 致命名實(shí)體識(shí)別的不準(zhǔn)確,或者整個(gè)文章的計(jì)算機(jī)理解不準(zhǔn)確的問(wèn)題。當(dāng)系 統(tǒng)中關(guān)注的詞中存在著大量歧義的情況下,不解決辨別詞的歧義問(wèn)題是無(wú)法 滿足系統(tǒng)的目的和要求的。在檢索技術(shù)領(lǐng)域,有些用戶掌握不了檢索技巧,不會(huì)選擇正確的檢索關(guān) 鍵詞,因此不能檢索到準(zhǔn)確的結(jié)果。即使用戶選對(duì)了檢索關(guān)鍵詞,由于關(guān)鍵 詞可能存在歧義,而現(xiàn)有的檢索方法會(huì)忽略關(guān)鍵詞的歧義,將所有包含關(guān)鍵 詞的結(jié)果均展示給用戶,導(dǎo)致檢索結(jié)果信息量過(guò)大,用戶需要耗費(fèi)大量時(shí)間 和精力從中選擇出自已需要的信息。
一種解決辦法是輸入多個(gè)關(guān)鍵詞,例如GOOGLE中允許輸入多種類型的關(guān)鍵詞,可以是檢索結(jié)果中必須包含所有的 關(guān)鍵詞,也可以是檢索結(jié)果中包含多個(gè)關(guān)鍵詞其中之一,或者檢索結(jié)果中包 含一部分關(guān)鍵詞而不能包含另一部分關(guān)鍵詞。但是,這些檢索系統(tǒng)的這些關(guān) 鍵詞都是包含或者不包含的關(guān)系。對(duì)于檢索中經(jīng)常存在的一種情形,即真正 要搜索的是具有某個(gè)確定詞義的關(guān)鍵詞,采用這種方法,將導(dǎo)致不加其他關(guān) 鍵詞時(shí),檢索結(jié)果過(guò)大,而加上其他關(guān)鍵詞,則可能導(dǎo)致檢索結(jié)果過(guò)小。比 如,要檢索可以吃的"蘋果"的相關(guān)文章,如果只輸入"蘋果",那么會(huì)將 電腦品牌的"蘋果"和電影"蘋果,,等相關(guān)的文章都搜索出來(lái),但如果加上 "吃"、"紅色"等關(guān)鍵詞,又會(huì)導(dǎo)致與吃的"蘋果,,相關(guān)但不具有增加的 這些關(guān)鍵詞的文章搜不出來(lái)??傊荒芨鶕?jù)其實(shí)際詞義來(lái)確定一個(gè)范圍適 當(dāng)?shù)乃阉鹘Y(jié)果。另外,現(xiàn)有技術(shù)中的詞義排歧方法是針對(duì)文本中所有詞的詞義排歧,都 只關(guān)注如何進(jìn)行詞義排歧,而沒(méi)有關(guān)注如何確定哪些是所要關(guān)注的歧義詞。 由于中文中有特別多的詞,而且?guī)缀趺總€(gè)詞都存在著不同的義項(xiàng)(即詞義選 項(xiàng)),詞義的排歧系統(tǒng)不可能對(duì)所有的詞進(jìn)行排歧,這些方法不能直接應(yīng)用 于對(duì)系統(tǒng)核心關(guān)注詞的詞義排歧而有很好的效果。因此,有必要將如何確定 系統(tǒng)關(guān)注的歧義詞與詞義排歧結(jié)合起來(lái)。并且,目前現(xiàn)有的詞義排歧技術(shù)通 常比較復(fù)雜,實(shí)現(xiàn)成本高,代價(jià)大。發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問(wèn)題是提供一種用計(jì)算機(jī)對(duì)語(yǔ)言文字進(jìn)行處理的方 法及系統(tǒng),該方法和系統(tǒng)實(shí)現(xiàn)簡(jiǎn)單、處理速度快、準(zhǔn)確率高。本發(fā)明要解決 的另 一技術(shù)問(wèn)題是提供一種檢索方法。為了解決上述問(wèn)題,本發(fā)明提供了 一種計(jì)算機(jī)處理語(yǔ)言時(shí)對(duì)詞義進(jìn)行排歧的方法,包括建立包含多篇文章的文章庫(kù),根據(jù)詞語(yǔ)詞義詞典對(duì)所述文章中各詞匯的 詞義進(jìn)行標(biāo)注,每一詞匯具有一個(gè)或多個(gè)詞義選項(xiàng)即義項(xiàng);對(duì)每一詞匯,確定該詞匯的背景特征詞以及每一背景特征詞對(duì)于該詞匯 各義項(xiàng)的權(quán)重;對(duì)于待分析文本中需進(jìn)行排歧的歧義詞,確定該待分析文本中包含的該 歧義詞的背景特征詞,然后對(duì)該歧義詞的每個(gè)義項(xiàng),分別計(jì)算出所述背景特 ;f正詞對(duì)于該義項(xiàng)的;f又重之和;根據(jù)各義項(xiàng)的權(quán)重之和選擇一個(gè)義項(xiàng)作為該歧義詞的詞義。進(jìn)一步地,所述待分析文本中需進(jìn)行排歧的歧義詞由以下方法選出分 析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用,利用目標(biāo)系統(tǒng)的應(yīng)用和命名實(shí)體或詞之 間的關(guān)系,找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞, 即系統(tǒng)it心關(guān)注詞。進(jìn)一步地,從所述目標(biāo)系統(tǒng)中提取出所述系統(tǒng)核心關(guān)注詞后,首先到所 述詞語(yǔ)詞義詞典中查找所述系統(tǒng)核心關(guān)注詞的義項(xiàng),如果所述系統(tǒng)核心關(guān)注 詞的義項(xiàng)個(gè)數(shù)為多個(gè),執(zhí)行后續(xù)詞義排歧步驟;如果所述系統(tǒng)核心關(guān)注詞的 義項(xiàng)個(gè)數(shù)為一個(gè),則將所述系統(tǒng)核心關(guān)注詞對(duì)應(yīng)的唯一義項(xiàng)作為所述系統(tǒng)核 心關(guān)注詞的涵義。進(jìn)一步地,所述確定詞匯的背景特征詞的方法為在文章庫(kù)中包含所述詞匯的每條語(yǔ)料中所述詞匯的前后分別確定背景詞 的提取范圍,并提取中其中的背景詞;計(jì)算出每個(gè)背景詞對(duì)應(yīng)所述詞匯的每個(gè)義項(xiàng)的權(quán)重,所述背景詞的權(quán)重 為包含有所述詞匯的某義項(xiàng)的所有語(yǔ)料中,包含所述背景詞的語(yǔ)料所占的 比例;判斷所述背景詞的權(quán)重是否大于或等于一預(yù)先配置的第二閾值,如果大于或等于,提取該背景詞作為背景特征詞;如果小于,放棄該背景詞,不作 為背景特征詞。進(jìn)一步地,所述根據(jù)各義項(xiàng)的權(quán)重之和選擇一個(gè)義項(xiàng)作為該歧義詞的詞 義的方法為選出歧義詞的背景特征詞權(quán)重和最大的和第二大的兩個(gè)義項(xiàng),對(duì)該兩個(gè) 義項(xiàng)的權(quán)重和求差值,當(dāng)所述差值的絕對(duì)值大于或等于一預(yù)先配置的第一閾 值時(shí),將所述權(quán)重和最大的義項(xiàng)作為所述歧義詞的涵義。進(jìn)一步地,所述第一閾值的取值范圍是0.02-0.20;所述第二閾值的取 值范圍是0.03-0.15。本發(fā)明還提供了 一種計(jì)算機(jī)處理語(yǔ)言時(shí)對(duì)詞義進(jìn)行排歧的系統(tǒng),包括存儲(chǔ)單元,用于存儲(chǔ)詞語(yǔ)詞義詞典、文章庫(kù)和歧義詞分類才莫型,所述文 章庫(kù)中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類才莫型包含文章庫(kù)中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項(xiàng)中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫(kù)中提取出每 個(gè)詞匯的背景詞;背景特征詞提取單元,用于從所述背景詞提取單元所提取出的背景詞中 選取出背景特征詞,并傳送給背景詞權(quán)重計(jì)算單元;背景特征詞提取單元,用于逐一判斷每一背景詞對(duì)于相應(yīng)的每一詞匯各 義項(xiàng)的權(quán)重中是否至少有一個(gè)大于或大于等亍預(yù)先配置的第二閾值,如果是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對(duì)于該詞匯各義項(xiàng) 的權(quán)重;如此得到文章庫(kù)中全部或部分詞匯的背景特征詞及其對(duì)于相應(yīng)詞匯 各義項(xiàng)的權(quán)重,生成歧義詞分類;f莫型并保存到所述存儲(chǔ)單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對(duì)每一個(gè)具 有多個(gè)義項(xiàng)的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對(duì)該歧義詞的每個(gè)義項(xiàng), 計(jì)算出這些背景特征詞對(duì)于該義項(xiàng)的權(quán)重之和,根據(jù)各義項(xiàng)的權(quán)重之和選擇一個(gè)義項(xiàng)作為該歧義詞的詞義。進(jìn)一步地,所述詞義排歧單元包括系統(tǒng)核心關(guān)注詞選取模塊,用于分析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實(shí)體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項(xiàng)查詢模塊;背景特征詞查詢模塊,用于對(duì)每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對(duì) 于該歧義詞各義項(xiàng)的權(quán)重,然后對(duì)該歧義詞的每個(gè)義項(xiàng),計(jì)算所有背景特征 詞對(duì)于該義項(xiàng)的權(quán)重之和,如權(quán)重和最大的二個(gè)義項(xiàng)的權(quán)重和之差的絕對(duì)值 大于第一閾值,則將權(quán)重和最大的義項(xiàng)作為該歧義詞的詞義。。進(jìn)一步地,所述詞義排歧單元還包括義項(xiàng)查詢才莫塊,用于到所述詞語(yǔ)詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項(xiàng) 個(gè)數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為一個(gè),將所述系統(tǒng)核心關(guān)注詞的 該唯一義項(xiàng)作為所述歧義詞的涵義;如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為多 個(gè),通知背景特征詞查詢才莫塊對(duì)該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧。本發(fā)明對(duì)系統(tǒng)關(guān)注核心歧義詞的選取提供了一種可行的方法。同時(shí),對(duì) 詞義排歧提供了背景特征詞的選取方法,以及歧義詞詞義的判定方法。本發(fā) 明的方法其優(yōu)點(diǎn)在于實(shí)現(xiàn)方法簡(jiǎn)單且容易理解并且是十分有效的。通過(guò)實(shí)驗(yàn) 表明,對(duì)于系統(tǒng)關(guān)注的詞義排歧,平均準(zhǔn)確率可以達(dá)到90%以上。同時(shí),對(duì) 比其他歧義排除方法,此方法運(yùn)行速度很快并且系統(tǒng)容易實(shí)現(xiàn)。本發(fā)明還提供了一種檢索方法,包括建立詞語(yǔ)詞義詞典和文章庫(kù),對(duì)于文章庫(kù)中的每一個(gè)詞匯,作如下處理 選出文章庫(kù)中包含該詞匯的所有語(yǔ)料,分別標(biāo)注出該詞匯在各條語(yǔ)料中的涵 義,提取出該詞匯在各語(yǔ)料中的背景特征詞,并計(jì)算出該詞匯每個(gè)背景特征 詞在詞匯的每個(gè)義項(xiàng)中的權(quán)重,將所述背景特征詞及其權(quán)重存儲(chǔ)在所述數(shù)據(jù)庫(kù)中,所述背景特征詞的權(quán)重為包含有所迷歧義詞的某義項(xiàng)的所有語(yǔ)料中, 包含所述背景特征詞的語(yǔ)料所占的比例;接收用戶輸入的檢索語(yǔ)句,從所述檢索語(yǔ)句中提取出檢索關(guān)鍵詞,根據(jù) 所述檢索關(guān)鍵詞進(jìn)行初步檢索,將檢索到的包含有所述檢索關(guān)鍵詞的文本作 為初步檢索結(jié)果;從所述檢索語(yǔ)句中提取出該檢索關(guān)鍵詞的背景詞,到所述文章庫(kù)中查詢 該檢索關(guān)鍵詞詞所對(duì)應(yīng)的背景特征詞,根據(jù)查詢結(jié)杲從該檢索關(guān)鍵詞的背景 詞中選取出背景特征詞及每個(gè)背景特征詞在該檢索關(guān)鍵詞的每個(gè)義項(xiàng)中的權(quán) 重;計(jì)算出所述檢索關(guān)鍵詞的每個(gè)義項(xiàng)下所有背景特征詞的權(quán)重之和,選出 權(quán)重和最大的和第二大的兩個(gè)義項(xiàng),對(duì)該兩個(gè)義項(xiàng)的權(quán)重和求差值,當(dāng)所述 差值的絕對(duì)值大于或等于一預(yù)先配置的第一閾值時(shí),將所述權(quán)重和最大的義 項(xiàng)作為所述檢索關(guān)鍵詞的涵義;利用上述方法獲取出初步檢索結(jié)果中各檢索關(guān)鍵詞的涵義,將所述初步 檢索結(jié)果中檢索關(guān)鍵詞的涵義與所述檢索語(yǔ)句中檢索關(guān)鍵詞的涵義相同的文 本作為最終檢索結(jié)果展示給用戶。本發(fā)明所提供的檢索方法,無(wú)須用戶自己選擇檢索關(guān)鍵詞,用戶只需要 輸入檢索語(yǔ)句即可。用戶不需要掌握檢索技巧,檢索復(fù)雜度大大降低,因此 適于各種人群使用。另外,本發(fā)明的檢索方法將與檢索語(yǔ)句中檢索關(guān)鍵詞涵 義不同的檢索結(jié)果去除,只展示給用戶檢索關(guān)鍵詞的涵義與檢索語(yǔ)句中檢索 關(guān)鍵詞涵義相同的結(jié)果,大大減少了展示給用戶的信息量,方便用戶從中找 到自己需要的信息,提高了檢索效率。
圖l是本發(fā)明的用計(jì)算機(jī)進(jìn)行詞義排歧的方法的流程圖; 圖2是本發(fā)明的用計(jì)算機(jī)進(jìn)^^]義排歧的系統(tǒng)的示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明,以使本領(lǐng)域的技術(shù) 人員可以更好的理解本發(fā)明并能予以實(shí)施,但所舉實(shí)施例不作為對(duì)本發(fā)明的 限定。第一實(shí)施例為了實(shí)現(xiàn)對(duì)詞義的排歧,首先,要選取文章中的系統(tǒng)核心關(guān)注詞。所述 系統(tǒng)核心關(guān)注詞是指系統(tǒng)中關(guān)注的需要進(jìn)行詞義排歧的歧義詞。如圖1所示,選取系統(tǒng)核心關(guān)注詞并進(jìn)行排歧的方法為步驟101:建立一個(gè)詞語(yǔ)詞義詞典,其中包含幾乎全部漢語(yǔ)詞匯以及這 些詞匯對(duì)應(yīng)的詞義;建立一個(gè)文章庫(kù);步驟102:選出文章庫(kù)中包含某一詞匯的所有句子,每一個(gè)包含該詞匯 的句子稱為該詞匯的一條語(yǔ)料,分別標(biāo)注出該詞匯在各條語(yǔ)料中的詞義,一 個(gè)詞匯可以有多個(gè)詞義選項(xiàng)即義項(xiàng),按該方式完成對(duì)文章庫(kù)中全部或部分詞 匯的詞義的標(biāo)注;在進(jìn)行標(biāo)注時(shí),只區(qū)分系統(tǒng)需要關(guān)注的詞義。如"感冒"這個(gè)詞,可 能有多個(gè)義項(xiàng),如名詞表疾病、名詞表癥狀、動(dòng)詞和不正規(guī)語(yǔ)。如果系統(tǒng)只 希望區(qū)分一個(gè)詞"感冒"是不是疾病,那么,只需要在語(yǔ)料中標(biāo)注這個(gè)詞"是" 疾病,或"不是"疾病,而不需要關(guān)注其他詞義。步驟103:提取該詞匯的背景特征詞。某詞匯的背景詞是指語(yǔ)料中出現(xiàn) 在該詞匯周圍的詞,而背景特征詞是指語(yǔ)料中出現(xiàn)在該詞匯周圍,并且對(duì)進(jìn) 行詞義排歧有幫助的詞;該詞匯的背景特征詞提取方法為a) 在包含該詞匯的語(yǔ)料中指定背景詞的提取范圍,即該詞匯前后的位置 K,并提取出該詞匯的背景詞;b) 基于文章庫(kù),對(duì)該詞匯的每一背景詞進(jìn)行以下處理逐一計(jì)算該背景詞對(duì)于該詞匯各義項(xiàng)的權(quán)重,該背景詞對(duì)于該詞匯某義 項(xiàng)的權(quán)重等于包含該詞匯該義項(xiàng)的所有語(yǔ)料中,包含該背景詞的語(yǔ)料所占的 比例;如果該背景詞對(duì)于該詞匯的至少一個(gè)義項(xiàng)的權(quán)重大于或大于等于預(yù)先配置的第二閾值,則將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對(duì)于該詞匯各義項(xiàng)的權(quán)重;c)對(duì)該詞匯的每一背景詞,按步驟b)進(jìn)行處理后,得到該詞匯的所有背 景特征詞,以及每一背景特征詞對(duì)于該詞匯各義項(xiàng)的權(quán)重。假設(shè)該詞匯為a,詞匯的義項(xiàng)有n個(gè),每個(gè)義項(xiàng)分別為Si,S2,…,Sn,對(duì) 每個(gè)義項(xiàng)Si,它出現(xiàn)的語(yǔ)料的條目為numi個(gè);設(shè)背景詞共有m個(gè),對(duì)于每一 個(gè)背景詞w,它出現(xiàn)在該詞匯a的義項(xiàng)Si所在語(yǔ)料(即該語(yǔ)料包含歧義詞a, 且在人工標(biāo)注時(shí)a的義項(xiàng)被標(biāo)注為Si)中的個(gè)數(shù)(既包含該岐義詞a又包含這 個(gè)背景詞w的語(yǔ)料的個(gè)數(shù))記為wni;那么確定背景特征詞的方法為對(duì)于 每一個(gè)背景詞w,如果對(duì)其中某個(gè)義項(xiàng)中,Wni/numi^THRESHOLE2,那 么這個(gè)詞是背景特征詞;如果對(duì)于某個(gè)義項(xiàng)中,Wni/nunii〈THRESHOLE2, 那么這個(gè)詞不是背景特征詞。其中,wni/numi為某背景詞w在該詞匯a的某 個(gè)義項(xiàng)Si中的權(quán)重,即在包含有該義項(xiàng)Si的語(yǔ)料中,背景詞w出現(xiàn)的語(yǔ)料數(shù) 目占包含有該義項(xiàng)Si的所有語(yǔ)料數(shù)目的比例;THRESHOLE2為一預(yù)先配置的 第二閾值。判斷表達(dá)式可以描述為當(dāng)某背景詞w在該詞匯的某個(gè)義項(xiàng)Si中 的權(quán)重超過(guò)了第二閾值,則該背景詞為背景特征詞,否則該背景詞不是背景 特征詞。例如,"蘋果"這個(gè)詞存在以下三個(gè)義項(xiàng), 一是"水果,,的一種,二是 一家IT公司或者是品牌的名稱,三是范冰冰拍的一部電影的名稱。人工標(biāo)注 的語(yǔ)料中,包含第一個(gè)義項(xiàng)的語(yǔ)料有2000條,第二個(gè)義項(xiàng)的語(yǔ)料有1000條, 包含第三個(gè)義項(xiàng)的語(yǔ)料有1500條。其中的THRESH0LE2為0.1。假設(shè)在"蘋 果"這個(gè)詞周圍有這樣二個(gè)背景詞"香蕉""草碎",其中有"香蕉"出現(xiàn) 的包含第一個(gè)義項(xiàng)的語(yǔ)料有500條,有"香蕉"出現(xiàn)的包含第二個(gè)義項(xiàng)的語(yǔ) 料有30條,有"香蕉"出現(xiàn)的包含第三個(gè)義項(xiàng)中語(yǔ)料有IOO條,那么,在包 含第一個(gè)義項(xiàng)的2000條語(yǔ)料中,有"香蕉"出現(xiàn)的語(yǔ)料的數(shù)目500 > 2000 * 0.1 =200,所以,"香蕉"這個(gè)詞是背景特征詞,且其對(duì)于這個(gè)義項(xiàng)的權(quán)重為0.4。 假設(shè)有"草沖"出現(xiàn)的包含第一個(gè)義項(xiàng)的語(yǔ)料有100條,有"草坪"出現(xiàn)的 包含第二個(gè)義項(xiàng)的語(yǔ)料有50條,包含第三個(gè)義項(xiàng)的語(yǔ)料有80條,因?yàn)?00 < 2000*0.1 =200,并且50 < 1000* 0.1 = 100,并且80 < 1500*0.1 = 150,所以"草坪"這個(gè)背景詞不是"蘋果"這個(gè)歧義詞的背景特征詞。THRESH0LE2的取值0.03至0.15時(shí),選取出的背景特征詞對(duì)判斷歧義 詞的意思最有效。重復(fù)步驟102 103,選取出文章庫(kù)中所有詞匯的背景特征詞,并計(jì)算出 每一背景特征詞對(duì)于相應(yīng)詞匯各義項(xiàng)的權(quán)重,生成歧義詞分類模型并保存。某背景特征詞的相應(yīng)詞匯是指該背景特征詞是從這些詞匯的背景詞中提 取出來(lái)的, 一個(gè)背景特征詞的相應(yīng)詞匯可以有一個(gè)或多個(gè)。另外,在其他實(shí) 施例中,也可以根據(jù)需要只對(duì)文章庫(kù)中所選的部分詞匯進(jìn)行背景特征詞的選 擇和權(quán)重的計(jì)算。步驟104:分析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用,利用目標(biāo)系統(tǒng)的應(yīng)用 和命名實(shí)體或詞之間的關(guān)系,從待分析文本中找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容, 并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞,即系統(tǒng)核心關(guān)注詞;所述目標(biāo)系統(tǒng)是指本發(fā)明的方法所應(yīng)用的系統(tǒng),例如醫(yī)藥檢索系統(tǒng)等。 如目標(biāo)系統(tǒng)是針對(duì)醫(yī)藥領(lǐng)域的,則需要找出醫(yī)藥領(lǐng)域的疾病類命名實(shí)體,和 一些醫(yī)藥領(lǐng)域的名詞。如何轉(zhuǎn)化是由系統(tǒng)的使用者來(lái)指定的,例如,在涉及 計(jì)算機(jī)領(lǐng)域的應(yīng)用中,從目標(biāo)系統(tǒng)中找出了 "聯(lián)想集團(tuán)"這個(gè)詞,則需要將 "聯(lián)想集團(tuán)"轉(zhuǎn)化成"聯(lián)想"和"集團(tuán)"兩個(gè)詞,其中"聯(lián)想"這個(gè)詞就是 系統(tǒng)核心關(guān)注詞。步驟105:將每一個(gè)選出來(lái)的系統(tǒng)核心關(guān)注詞,到詞語(yǔ)詞義詞典中進(jìn)行 查找,如果這個(gè)詞只有一個(gè)義項(xiàng),那么,將不對(duì)它進(jìn)行處理;如果這個(gè)詞有 多個(gè)詞義,將這個(gè)詞作為歧義詞放入需要處理的歧義詞的列表中;步驟106:對(duì)歧義詞列表中的歧義詞進(jìn)行排歧。假設(shè)要判定的某個(gè)歧義詞有n個(gè)義項(xiàng),對(duì)該歧義詞的詞義排歧步驟為1 )從待分析文本中選取出該歧義詞周圍的背景詞,并到文章庫(kù)中去查詢 背景詞是否為背景特征詞,根據(jù)查詢結(jié)果將非背景特征詞排除;2)從文章庫(kù)中查詢出每個(gè)背景特征詞在歧義詞的每個(gè)義項(xiàng)中的權(quán)重 (weighti, weight2, ... , weightn),其中weighti = / nunii;3 )對(duì)該歧義詞的每個(gè)義項(xiàng),計(jì)算出該義項(xiàng)的所有背景特征詞的權(quán)重之和。一種計(jì)算方法是將歧義詞的不同義項(xiàng)的評(píng)分設(shè)為(sensel5 sense2, ..., sensen), 初始值都是0 (初始值的作用是計(jì)算每個(gè)背景特征值對(duì)各個(gè)義項(xiàng)貢獻(xiàn)的和); 對(duì)于每個(gè)背景特征詞,將它在每個(gè)義項(xiàng)中的權(quán)重值加到相應(yīng)義項(xiàng)的評(píng)分上, 即sensei + weighti賦值給sensei;這里可以看出sensei就A^加和每個(gè)背景特 征詞對(duì)岐義詞的不同義項(xiàng)的貢獻(xiàn)(weightl)。4 )將該歧義詞的所有義項(xiàng)下背景特征詞的權(quán)重之和進(jìn)行排序,取權(quán)重和 最大和第二大的兩個(gè)義項(xiàng),計(jì)算這兩個(gè)義項(xiàng)權(quán)重和的差值,如果該差值大于 或等于一預(yù)先配置的第一閾值THRESH0LE1,那么即判斷權(quán)重和最大的義項(xiàng) 為該歧義詞的詞義。這里,如果閾值取為零,即相當(dāng)于直接將權(quán)重和最大的義項(xiàng)作為該歧義 詞的詞義。即取出最大的兩個(gè)義項(xiàng)評(píng)分sense" sensej,如果sens^ - sensej 〉= THRESHOLE1 ,那么這個(gè)歧義詞在這句話中的意思就是snese;對(duì)應(yīng)的義項(xiàng)的 意思;如果senses sensej <THRESHOLEl,說(shuō)明這兩個(gè)義項(xiàng)區(qū)別不明顯,則 可以通過(guò)其它現(xiàn)有詞義排歧技術(shù)輔助排歧,或選取詞義表中這兩個(gè)義項(xiàng)中位 置靠前(在步驟102確定需要關(guān)注的詞義時(shí),就應(yīng)該生成了歧義詞的詞義的 表,這個(gè)表中的第一個(gè)位置應(yīng)該是默認(rèn)的詞義,既第一個(gè)位置的詞義是在判 斷不出詞義的情況下默認(rèn)選擇的詞義)的義項(xiàng)作為它的詞義。其中, THRESHOLE1取為0.02到0.20的取值范圍,可以達(dá)到識(shí)別準(zhǔn)確率在90%以 上的效果。例如仍以"蘋果,,這個(gè)詞為例。假設(shè)"蘋果"這個(gè)詞出現(xiàn)在"今天我 想吃蘋果和香蕉,不想吃西瓜"這個(gè)句子中,需要對(duì)其進(jìn)行詞義排歧。蘋果 有三個(gè)義項(xiàng),分別為"水果"、"公司"、"電影"。通過(guò)前述的方法,判 斷出"吃"和"香蕉"是背景特征詞,假定,"吃,,在這三個(gè)義項(xiàng)中的權(quán)重 (weight)值經(jīng)過(guò)計(jì)算后分別為0.13, 0.03, 0.04;"香蕉,,在這三個(gè)義項(xiàng)中 的權(quán)重(weight)值經(jīng)過(guò)計(jì)算后分別為0.11, 0.01, 0.02。那么,初始時(shí),三 個(gè)義項(xiàng)的評(píng)分都是0,將"吃"和"香蕉,,的三個(gè)義項(xiàng)的權(quán)重值分別加到三 個(gè)義項(xiàng)的評(píng)分中。"水果"義項(xiàng)的評(píng)分=0.13+0.11 =0.24; "乂>司"義項(xiàng)的評(píng) 分=0.03+0.01=0.04;"電影,,義項(xiàng)的評(píng)分=0.04+0.02=0.06。取出評(píng)分最大的個(gè)義項(xiàng)"水果"、"電影"的評(píng)分0.24和0.06,假定設(shè)置的THRESH0LE1 為0.05,由于0.24-0.06 > 0.05,所以,"蘋果"在例句中的義項(xiàng)應(yīng)為"水果"。通過(guò)上述方法,計(jì)算機(jī)可以完成對(duì)詞義的一個(gè)學(xué)習(xí)過(guò)程。上述實(shí)施例的一個(gè)應(yīng)用場(chǎng)景是比如想統(tǒng)計(jì)一個(gè)々欠食醫(yī)療的網(wǎng)站中有多 少篇文章講到水果,水果中有蘋果等其他水果,很多水果有歧義,因此,如 果想要準(zhǔn)確判斷有多少篇文章講到水果,就需要進(jìn)行詞義的排歧。對(duì)講述水 果的文章的統(tǒng)計(jì)就是一個(gè)具體的應(yīng)用系統(tǒng),水果的名稱等就是相關(guān)的命名實(shí) 體,利用詞義排歧方法,可以準(zhǔn)確的判斷出多少網(wǎng)頁(yè)中講到了水果。如圖2所示,本發(fā)明的計(jì)算機(jī)處理語(yǔ)言時(shí)對(duì)詞義進(jìn)行排歧的系統(tǒng)包括存儲(chǔ)單元,用于存儲(chǔ)詞語(yǔ)詞義詞典、文*庫(kù)和歧義詞分類才莫型,所述文 章庫(kù)中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類模型包含文章庫(kù)中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項(xiàng)中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫(kù)中提取出每 個(gè)詞匯的背景詞,并傳送給背景詞權(quán)重計(jì)算單元;背景詞權(quán)重計(jì)算單元,用于基于文章庫(kù),計(jì)算提取的每一背景詞對(duì)于相 應(yīng)詞匯各義項(xiàng)的權(quán)重并傳送給所述背景特征詞提^^莫塊,某背景詞對(duì)于某詞 匯某義項(xiàng)的權(quán)重等于包含該詞匯該義項(xiàng)的所有語(yǔ)料中,包含該背景詞的語(yǔ)料 所占的比例;背景特征詞提取單元,用于逐一判斷每一背景詞對(duì)于相應(yīng)的每一詞匯各 義項(xiàng)的權(quán)重中是否至少有一個(gè)大于或大于等于預(yù)先配置的第二閾值,如果是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對(duì)于該詞匯各義項(xiàng) 的權(quán)重;如此得到文章庫(kù)中全部或部分詞匯的背景特征詞及其對(duì)于相應(yīng)詞匯 各義項(xiàng)的權(quán)重,生成歧義詞分類模型并保存到所述存儲(chǔ)單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對(duì)每一個(gè)具 有多個(gè)義項(xiàng)的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對(duì)該歧義詞的每個(gè)義項(xiàng), 計(jì)算出這些背景特征詞對(duì)于該義項(xiàng)的權(quán)重之和,根據(jù)各義項(xiàng)的權(quán)重之和選擇一個(gè)義項(xiàng)作為該歧義詞的詞義。詞義排歧單元又包括系統(tǒng)核心關(guān)注詞選取^f莫塊,用于分析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實(shí)體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項(xiàng)查詢模塊;義項(xiàng)查詢^f莫塊,用于到所述詞語(yǔ)詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項(xiàng) 個(gè)數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為一個(gè),將所述系統(tǒng)核心關(guān)注詞的該唯一義項(xiàng)作為所述歧義詞的涵義;如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為多 個(gè),通知背景特征詞查詢才莫塊對(duì)該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧;背景特征詞查詢模塊,用于對(duì)每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的 背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對(duì) 于該歧義詞各義項(xiàng)的權(quán)重,然后對(duì)該歧義詞的每個(gè)義項(xiàng),計(jì)算所有背景特征 詞對(duì)于該義項(xiàng)的權(quán)重之和,如權(quán)重和最大的二個(gè)義項(xiàng)的權(quán)重和之差的絕對(duì)值 大于第一閾值,則將^L重和最大的義項(xiàng)作為該歧義詞的詞義。詞,第二實(shí)施例將本發(fā)明的詞義排歧方法應(yīng)用于檢索技術(shù)領(lǐng)域時(shí),其步驟如下 首先同上述步驟101~103,生成歧義詞分類模型。在檢索時(shí),接收用戶輸入的檢索語(yǔ)句,從檢索語(yǔ)語(yǔ)句中提取出檢索關(guān)鍵 此處的檢索關(guān)鍵詞同上述詞義排歧方法中的系統(tǒng)核心關(guān)注詞,提取檢索關(guān)鍵詞的方法同上述詞義排歧方法中提取系統(tǒng)核心關(guān)注詞的方法相同檢索結(jié)果。判斷檢索關(guān)鍵詞是否為歧義詞,如果是,利用上述步驟106的方法對(duì)檢 索語(yǔ)句中的檢索關(guān)鍵詞(歧義詞)進(jìn)行排歧,獲^U企索關(guān)鍵詞在檢索語(yǔ)句中 的涵義。同樣,利用上述步驟106的方法對(duì)初步檢索結(jié)果中各文本中的檢索關(guān)鍵 詞進(jìn)行排歧,獲得初步檢索結(jié)果中各文本中的檢索關(guān)鍵詞的涵義。同的文本作為最終檢索結(jié)果展示給用戶。本發(fā)明的檢索方法與現(xiàn)有技術(shù)相比,無(wú)須用戶自己選擇檢索關(guān)鍵詞,用 戶只需要輸入檢索語(yǔ)句即可。用戶不需要掌握檢索技巧,檢索復(fù)雜度大大降 低,因此適于各種人群使用。另外,本發(fā)明的檢索方法將與檢索語(yǔ)句中檢索 關(guān)鍵詞涵義不同的檢索結(jié)果去除,只展示給用戶檢索關(guān)鍵詞的涵義與4僉索語(yǔ) 句中檢索關(guān)鍵詞涵義相同的結(jié)果,大大減少了展示給用戶的信息量,方便用 戶從中找到自己需要的信息,提高了檢索效率。以用戶想在網(wǎng)絡(luò)中檢索"吃蘋果是否可以降低血壓"這個(gè)問(wèn)題為例說(shuō)明 本發(fā)明。首先,如上所述,生成歧義詞分類模型。檢索時(shí),用戶只需要輸入 "吃蘋果是否可以降低血壓?"作為檢索語(yǔ)句。本發(fā)明的方法在接收到上述檢索語(yǔ)句后,從其中提取出"蘋果"、"降 低"、"血壓,,作為檢索關(guān)鍵詞,然后從網(wǎng)絡(luò)中檢索出所有包含"蘋果,,、 "降^f氐"、"血壓"的文章作為初步檢索結(jié)果,并暫存該初步檢索結(jié)果。由于"蘋果"是一個(gè)歧義詞,在檢索語(yǔ)句中,"蘋果"的涵義是水果的 一種,但該初步檢索結(jié)果中可能包含其它涵義的結(jié)果,這些結(jié)果會(huì)增加用戶 的工作量。于是本發(fā)明根據(jù)"蘋果"在檢索語(yǔ)句中的背景特征詞"吃"的權(quán) 重,得知蘋果"在檢索語(yǔ)句中的含義是"一種水杲"。同樣,利用上述步驟 106所述方法,對(duì)初步檢索結(jié)果中所有檢索關(guān)鍵字"蘋果"進(jìn)行排歧,其結(jié) 果是,初步檢索結(jié)果中有一部分文章中的"蘋果"是"一種水果"的涵義, 而其它文章中的"蘋果"是"一家IT公司"、"一個(gè)品牌"或"一部電影" 的涵義。本發(fā)明將初步檢索結(jié)果中"蘋果,,的涵義是"一種水果"的文章提 取出來(lái)作為最終檢索結(jié)構(gòu)展示給用戶。由此,大大減少了展示給用戶的信息 量,讓用戶更容易的從檢索結(jié)果中找到自己想要的信息,提高了工作效率。第三實(shí)施例本實(shí)施例是另一檢索的實(shí)施方式,首先同上述步驟101-103,生成歧義 詞分類模型。在檢索時(shí),用戶對(duì)輸入的一檢索關(guān)鍵詞,增加用于確定該檢索關(guān)鍵詞詞義的背景特征詞,即將該檢索關(guān)鍵詞作為要進(jìn)行詞義排歧的歧義詞;從輸入的背景特征詞中選擇出在歧義詞分類模型中保存的該檢索關(guān)鍵詞 的背景特征詞,對(duì)該檢索關(guān)鍵詞的每一個(gè)義項(xiàng),計(jì)算選擇出的所有背景特征 詞對(duì)于該義項(xiàng)的權(quán)重之和,然后按上一實(shí)施例同樣的方法選擇一個(gè)義項(xiàng)作為 該檢索關(guān)鍵詞的詞義;利用現(xiàn)有的檢索方法檢索出包含有該檢索關(guān)鍵詞的所有文本,作為初步 檢索結(jié)果;按第一實(shí)施例的方法確定初步檢索結(jié)果各文本中的檢索關(guān)鍵詞的詞義, 將詞義與已確定的該檢索關(guān)鍵詞詞義相同的文本作為最終的檢索結(jié)杲輸出。在人類長(zhǎng)期的智力活動(dòng)中產(chǎn)生了語(yǔ)言,又經(jīng)過(guò)了數(shù)萬(wàn)年的演進(jìn),人類的語(yǔ) 言已經(jīng)形成了客觀固定的自然規(guī)律,例如, 一個(gè)歧義詞的周圍會(huì)伴隨有其它 相關(guān)的詞(即前述背景特征詞)出現(xiàn),這些相關(guān)的詞與歧義詞的某個(gè)義項(xiàng)相 關(guān)。有些相關(guān)的詞只與歧義詞的某個(gè)義項(xiàng)相關(guān),有些相關(guān)的詞與歧義詞的多 個(gè)義項(xiàng)相關(guān),但在各義項(xiàng)中出現(xiàn)的機(jī)率是不同的。本發(fā)明即是利用了這些規(guī) 律來(lái)對(duì)歧義詞進(jìn)行排歧的。本發(fā)明對(duì)系統(tǒng)關(guān)注核心歧義詞的選取提供了一種可行的方法。同時(shí),對(duì) 詞義排歧提供了背景特征詞的選取方法,以及歧義詞詞義的判定方法。本發(fā) 明的方法其優(yōu)點(diǎn)在于實(shí)現(xiàn)方法筒單且容易理解,并且是十分有效的。從文章 庫(kù)中重新選取包含系統(tǒng)關(guān)注歧義詞的句子,通過(guò)人工的方式標(biāo)定這些歧義詞 的義項(xiàng),與通過(guò)本系統(tǒng)自動(dòng)的標(biāo)定這些歧義詞的義項(xiàng)進(jìn)行比較,實(shí)驗(yàn)表明, 對(duì)于系統(tǒng)關(guān)注的詞義排歧,本發(fā)明的平均準(zhǔn)確率可以達(dá)到90%以上。同時(shí), 對(duì)比其他歧義排除方法,此方法運(yùn)行速度很快并且系統(tǒng)容易實(shí)現(xiàn)。以上所述實(shí)施例僅是為充分說(shuō)明本發(fā)明而所舉的較佳的實(shí)施例,本發(fā)明 的保護(hù)范圍不限于此。本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明基礎(chǔ)上所作的等同替 代或變換,均在本發(fā)明的保護(hù)范圍之內(nèi)。本發(fā)明的保護(hù)范圍以權(quán)利要求書為 準(zhǔn)。
權(quán)利要求
1、一種計(jì)算機(jī)處理語(yǔ)言時(shí)對(duì)詞義進(jìn)行排歧的方法,包括建立包含多篇文章的文章庫(kù),根據(jù)詞語(yǔ)詞義詞典對(duì)所述文章中各詞匯的詞義進(jìn)行標(biāo)注,每一詞匯具有一個(gè)或多個(gè)詞義選項(xiàng)即義項(xiàng);對(duì)每一詞匯,確定該詞匯的背景特征詞以及每一背景特征詞對(duì)于該詞匯各義項(xiàng)的權(quán)重;對(duì)于待分析文本中需進(jìn)行排歧的歧義詞,確定該待分析文本中包含的該歧義詞的背景特征詞,然后對(duì)該歧義詞的每個(gè)義項(xiàng),分別計(jì)算出所述背景特征詞對(duì)于該義項(xiàng)的權(quán)重之和;根據(jù)各義項(xiàng)的權(quán)重之和選擇一個(gè)義項(xiàng)作為該歧義詞的詞義。
2、 如權(quán)利要求1所述的方法,其特征在于,所述待分析文本中需進(jìn)行 排歧的歧義詞由以下方法選出分析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用,利用 目標(biāo)系統(tǒng)的應(yīng)用和命名實(shí)體或詞之間的關(guān)系,找出目標(biāo)系統(tǒng)中關(guān)注的內(nèi)容, 并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞,即系統(tǒng)核心關(guān)注詞。
3、 如權(quán)利要求2所述的方法,其特征在于,從所述目標(biāo)系統(tǒng)中提取出 所述系統(tǒng)核心關(guān)注詞后,首先到所述詞語(yǔ)詞義詞典中查找所述系統(tǒng)核心關(guān)注 詞的義項(xiàng),如果所迷系統(tǒng)核心關(guān)注詞的義項(xiàng)個(gè)數(shù)為多個(gè),執(zhí)行后續(xù)詞義排歧 步驟;如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)個(gè)數(shù)為一個(gè),則將所述系統(tǒng)核心關(guān)注 詞對(duì)應(yīng)的唯一義項(xiàng)作為所述系統(tǒng)核心關(guān)注詞的涵義。
4、 如權(quán)利要求1所述的方法,其特征在于,所述確定詞匯的背景特征 詞的方法為在文章庫(kù)中包含所述詞匯的每條語(yǔ)料中所述詞匯的前后分別確定背景詞 的提取范圍,并提取中其中的背景詞;計(jì)算出每個(gè)背景詞對(duì)應(yīng)所述詞匯的每個(gè)義項(xiàng)的權(quán)重,所述背景詞的權(quán)重 為包含有所述詞匯的某義項(xiàng)的所有語(yǔ)料中,包含所述背景詞的語(yǔ)料所占的 比例;判斷所迷背景詞的權(quán)重是否大于或等于一預(yù)先配置的第二閾值,如果大于或等于,提取該背景詞作為背景特征詞;如果小于,放棄該背景詞,不作 為背景特征詞。
5、 如權(quán)利要求4所述的方法,其特征在于,所迷根據(jù)各義項(xiàng)的權(quán)重之 和選擇一個(gè)義項(xiàng)作為該歧義詞的詞義的方法為選出歧義詞的背景特征詞權(quán)重和最大的和第二大的兩個(gè)義項(xiàng),對(duì)該兩個(gè) 義項(xiàng)的權(quán)重和求差值,當(dāng)所述差值的絕對(duì)值大于或等于一預(yù)先配置的第一閾 值時(shí),將所述權(quán)重和最大的義項(xiàng)作為所述歧義詞的涵義。
6、 如權(quán)利要求5所述的方法,其特征在于,所述第一閾值的取值范圍是 0.02 ~ 0.20;所述第二閾值的取值范圍是0.03 ~ 0.15。
7、 一種計(jì)算機(jī)處理語(yǔ)言時(shí)對(duì)詞義進(jìn)行排歧的系統(tǒng),其特征在于,包括存儲(chǔ)單元,用于存儲(chǔ)詞語(yǔ)詞義詞典、文章庫(kù)和歧義詞分類才莫型,所述文 章庫(kù)中所有文章中的各詞匯的詞義已被標(biāo)注,所述歧義詞分類模型包含文章 庫(kù)中所有詞匯的背景特征詞,以及這些背景特征詞在相應(yīng)詞匯的各義項(xiàng)中的 權(quán)重;背景詞提取單元,用于根據(jù)背景詞的提取范圍從所述文章庫(kù)中提取出每 個(gè)詞匯的背景詞;背景特征詞提取單元,用于從所述背景詞提取單元所提取出的背景詞中 選取出背景特征詞,并傳送給背景詞權(quán)重計(jì)算單元;背景特征詞提取單元,用于逐一判斷每一背景詞對(duì)于相應(yīng)的每一詞匯各 義項(xiàng)的權(quán)重中是否至少有一個(gè)大于或大于等于預(yù)先配置的第二閾值,如杲是, 將該背景詞作為該詞匯的背景特征詞并記錄該背景特征詞對(duì)于該詞匯各義項(xiàng) 的權(quán)重;如此得到文章庫(kù)中全部或部分詞匯的背景特征詞及其對(duì)于相應(yīng)詞匯 各義項(xiàng)的權(quán)重,生成歧義詞分類才莫型并保存到所述存儲(chǔ)單元;詞義排歧單元,用于選取待分析文本中的系統(tǒng)核心關(guān)注詞,對(duì)每一個(gè)具 有多個(gè)義項(xiàng)的系統(tǒng)核心關(guān)注詞即歧義詞,先提取出其背景詞并根據(jù)歧義詞分 類模型選出其中包含的該歧義詞的背景特征詞,然后對(duì)該歧義詞的每個(gè)義項(xiàng),計(jì)算出這些背景特征詞對(duì)于該義項(xiàng)的權(quán)重之和,根據(jù)各義項(xiàng)的權(quán)重之和選擇 一個(gè)義項(xiàng)作為該歧義詞的詞義。
8、 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述詞義排歧單元包括系統(tǒng)核心關(guān)注詞選取模塊,用于分析任務(wù)需求,針對(duì)目標(biāo)系統(tǒng)的應(yīng)用, 利用目標(biāo)系統(tǒng)的應(yīng)用和命名實(shí)體或詞之間的關(guān)系,找出待分析文本中關(guān)注的 內(nèi)容,并將這些內(nèi)容轉(zhuǎn)化為相對(duì)應(yīng)的詞,即系統(tǒng)核心關(guān)注詞,傳送到義項(xiàng)查 詢模塊;背景特征詞查詢模塊,用于對(duì)每一歧義詞,從待分析文本中提取出該歧 義詞的背景詞,并根據(jù)歧義詞分類模型選出這些背景詞中包含的該歧義詞的 背景特征詞;詞義確定模塊,用于從歧義詞分類模型查詢到該歧義詞的背景特征詞對(duì) 于該歧義詞各義項(xiàng)的權(quán)重,然后對(duì)該歧義詞的每個(gè)義項(xiàng),計(jì)算所有背景特征 詞對(duì)于該義項(xiàng)的權(quán)重之和,如權(quán)重和最大的二個(gè)義項(xiàng)的權(quán)重和之差的絕對(duì)值 大于第一閾值,則將權(quán)重和最大的義項(xiàng)作為該歧義詞的詞義。
9、 如權(quán)利要求8所述的系統(tǒng),其特征在于,所述詞義排歧單元還包括義項(xiàng)查詢4莫塊,用于到所述詞語(yǔ)詞義詞典中查詢系統(tǒng)核心關(guān)注詞的義項(xiàng) 個(gè)數(shù),如果所述系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為一個(gè),將所述系統(tǒng)核心關(guān)注詞的 該唯一義項(xiàng)作為所述歧義詞的涵義;如果所迷系統(tǒng)核心關(guān)注詞的義項(xiàng)數(shù)為多 個(gè),通知背景特征詞查詢模塊對(duì)該系統(tǒng)核心關(guān)注詞即歧義詞進(jìn)行詞義排歧。
10、 一種檢索方法,其特征在于,包括建立詞語(yǔ)詞義詞典和文章庫(kù),對(duì)于文章庫(kù)中的每一個(gè)詞匯,作如下處理 選出文章庫(kù)中包含該詞匯的所有語(yǔ)料,分別標(biāo)注出該詞匯在各條語(yǔ)料中的涵義,提取出該詞匯在各語(yǔ)料中的背景特征詞,并計(jì)算出該詞匯每個(gè)背景特征 詞在詞匯的每個(gè)義項(xiàng)中的權(quán)重,將所述背景特征詞及其權(quán)重存儲(chǔ)在所述數(shù)據(jù) 庫(kù)中,所述背景特征詞的權(quán)重為包^^有所述歧義詞的某義項(xiàng)的所有語(yǔ)料中, 包含所述背景特征詞的語(yǔ)料所占的比例;接收用戶輸入的檢索語(yǔ)句,從所述檢索語(yǔ)句中提取出檢索關(guān)鍵詞,根據(jù)所述檢索關(guān)鍵詞進(jìn)行初步檢索,將檢索到的包含有所迷檢索關(guān)鍵詞的文本作為初步檢索結(jié)果;從所述檢索語(yǔ)句中提取出該檢索關(guān)鍵詞的背景詞,到所述文章庫(kù)中查詢 該檢索關(guān)鍵詞詞所對(duì)應(yīng)的背景特征詞,根據(jù)查詢結(jié)果從該檢索關(guān)鍵詞的背景 詞中選取出背景特征詞及每個(gè)背景特征詞在該檢索關(guān)鍵詞的每個(gè)義項(xiàng)中的權(quán) 重;計(jì)算出所述檢索關(guān)鍵詞的每個(gè)義項(xiàng)下所有背景特征詞的權(quán)重之和,選出 權(quán)重和最大的和第二大的兩個(gè)義項(xiàng),對(duì)該兩個(gè)義項(xiàng)的權(quán)重和求差值,當(dāng)所述 差值的絕對(duì)值大于或等于一預(yù)先配置的第一閾值時(shí),將所述權(quán)重和最大的義 項(xiàng)作為所述檢索關(guān)鍵詞的涵義;利用上述方法獲取出初步檢索結(jié)果中各檢索關(guān)鍵詞的涵義,將所述初步 檢索結(jié)果中檢索關(guān)鍵詞的涵義與所述檢索語(yǔ)句中檢索關(guān)鍵詞的涵義相同的文 本作為最終檢索結(jié)果展示給用戶。
全文摘要
本發(fā)明公開了一種利用計(jì)算機(jī)對(duì)詞義進(jìn)行排歧的方法、系統(tǒng)及檢索方法。本發(fā)明利用歧義詞的背景特征詞對(duì)歧義詞每個(gè)義項(xiàng)的貢獻(xiàn)度來(lái)確定歧義詞的涵義,計(jì)算機(jī)可以自己對(duì)排歧進(jìn)行學(xué)習(xí)。本發(fā)明排歧的實(shí)現(xiàn)方法簡(jiǎn)單且容易理解并且是十分有效的。通過(guò)實(shí)驗(yàn)表明,對(duì)于系統(tǒng)關(guān)注的詞義排歧,平均準(zhǔn)確率可以達(dá)到90%以上。同時(shí),對(duì)比其他歧義排除方法,此方法運(yùn)行速度很快并且系統(tǒng)容易實(shí)現(xiàn)。本發(fā)明的檢索方法可以只展示給用戶與用戶輸入關(guān)鍵詞涵義相同的檢索結(jié)果,大大提高了檢索效率。
文檔編號(hào)G06F17/27GK101334768SQ20081011790
公開日2008年12月31日 申請(qǐng)日期2008年8月5日 優(yōu)先權(quán)日2008年8月5日
發(fā)明者飛 劉, 吳明輝, 潘小雙, 遲松濤 申請(qǐng)人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司