欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

同義詞挖掘方法及裝置制造方法

文檔序號(hào):6545958閱讀:136來(lái)源:國(guó)知局
同義詞挖掘方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種同義詞挖掘方法,上述方法為:提取類(lèi)似對(duì)齊語(yǔ)料;對(duì)每對(duì)類(lèi)似對(duì)齊語(yǔ)句S1、S2分別進(jìn)行分詞處理,得到詞語(yǔ)序列S1(T1[1],T1[2],…,T1[i])、S2(T2[1],T2[2],…,T2[j]);在每對(duì)詞語(yǔ)序列的S2(T2[1],T2[2],…,T2[j])中自適應(yīng)挖掘S1(T1[1],T1[2],…,T1[i])的詞語(yǔ)的同義詞,并計(jì)算S1(T1[1],T1[2],…,T1[i])的詞語(yǔ)相對(duì)S2(T2[1],T2[2],…,T2[j])的詞語(yǔ)的同義概率;對(duì)NT1[i]相對(duì)于NT2[j]的同義概率進(jìn)行迭代運(yùn)算;計(jì)算NT1[i]相對(duì)于NT2[j]的全局同義置信度,并將置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)作為同義詞輸出;本發(fā)明同時(shí)公開(kāi)了一種同義詞挖掘裝置。本發(fā)明提升了同義詞挖掘的準(zhǔn)確率,易于操作實(shí)現(xiàn)。
【專(zhuān)利說(shuō)明】同義詞挖掘方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種同義詞挖掘方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)搜索引擎已經(jīng)成為人們獲取信息的主流工具?,F(xiàn)有的搜索一般仍是基于檢索詞的搜索,即用戶(hù)輸入檢索詞讓搜索引擎進(jìn)行查詢(xún),搜索引擎返回包含這些檢索詞的相關(guān)網(wǎng)頁(yè)結(jié)果。實(shí)際上,并非每個(gè)用戶(hù)都了解搜索引擎的原理,而且用戶(hù)的教育背景、語(yǔ)言習(xí)慣、使用規(guī)范的不同,使得他們?cè)谑褂弥校?jīng)常會(huì)使用一些意思相似而表達(dá)方式不同的檢索詞,如“腹瀉”和“拉肚子”。如果搜索引擎沒(méi)有識(shí)別同義詞的功能,則當(dāng)用戶(hù)搜索“小孩腹瀉怎么辦”,一些含“小孩拉肚子”的優(yōu)質(zhì)的結(jié)果可能也就無(wú)法返回。
[0003]同義詞是自然語(yǔ)言中的一個(gè)獨(dú)特現(xiàn)象,同義詞挖掘在自然語(yǔ)言處理中是一項(xiàng)非常重要的基礎(chǔ)工作,也是一項(xiàng)非常重要有意義的工作,它的實(shí)現(xiàn)對(duì)于搜索查詢(xún)替換,改寫(xiě),豐富搜索結(jié)果,提升查詢(xún)體驗(yàn)有很大的幫助。截止目前,有關(guān)同義詞挖掘的方法,主要有以下幾種:
[0004]1、手工方式獲取,一般是基于語(yǔ)言學(xué)家的知識(shí)積累,編寫(xiě)的各類(lèi)同義詞典,如hownet,wordnet之類(lèi)的詞典。但這樣一是會(huì)耗費(fèi)很大的人力、物力、資源來(lái)收集編寫(xiě),二是在實(shí)際應(yīng)用中,使用這類(lèi)的同義詞典成本較大,因?yàn)檫@類(lèi)詞典偏學(xué)術(shù)型研究,在某些語(yǔ)境下才可同義(“泰山”和“岳父”),而無(wú)法直接應(yīng)用。
[0005]2、基于同義模板的挖掘,如在百科、文獻(xiàn)、以及各類(lèi)文章中,利用“又名”,“又稱(chēng)”等關(guān)鍵字挖掘出同類(lèi)的詞語(yǔ),準(zhǔn)確率會(huì)較高,但模板有限,挖掘出的數(shù)目也有限,且如此挖出的同義詞對(duì),不容易確定詞之間的置信等級(jí)。
[0006]3、基于語(yǔ)料庫(kù)中各詞語(yǔ)之間的相關(guān)概率計(jì)算;計(jì)算語(yǔ)料庫(kù)中各詞語(yǔ)之間的相關(guān)概率進(jìn)行同義詞挖掘,這種方式需要對(duì)語(yǔ)料庫(kù)中的詞語(yǔ)兩兩進(jìn)行計(jì)算,效率很低。
[0007]4、利用互聯(lián)網(wǎng)搜索引擎結(jié)果的挖掘,是利用互聯(lián)網(wǎng)大數(shù)據(jù),結(jié)合用戶(hù)使用習(xí)慣與實(shí)際網(wǎng)頁(yè)文章來(lái)挖掘同義詞對(duì)。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的是,提供一種同義詞挖掘方法及裝置,以改善現(xiàn)有的同義詞挖掘準(zhǔn)確性差、效率低的問(wèn)題。
[0009]本發(fā)明公開(kāi)了一種同義詞挖掘方法,上述方法周期性執(zhí)行以下步驟:
[0010]步驟A:根據(jù)搜索日志,提取類(lèi)似對(duì)齊語(yǔ)料,假設(shè)上述類(lèi)似對(duì)齊語(yǔ)料中包含Q對(duì)類(lèi)似對(duì)齊語(yǔ)句;
[0011]步驟B:對(duì)每對(duì)類(lèi)似對(duì)齊語(yǔ)句S1、S2分別進(jìn)行分詞處理,得到Q對(duì)詞語(yǔ)序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]);
[0012]步驟C:在每對(duì)詞語(yǔ)序列的S2(T2[1],T2[2],- ,T2[j])中自適應(yīng)挖掘
SI(Tl [1],Tl [2],...,Tl [i])的詞語(yǔ)的同義詞,并計(jì)算 Sl(Tl[l],Tl[2],*",Tl[i])的詞語(yǔ)相對(duì)S2(T2[l],T2[2],一,T2[j])的詞語(yǔ)的同義概率,最終得到Q個(gè)同義概率矩陣S(NTl[i],NT2[j]);
[0013]步驟D:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎(chǔ),對(duì)NTl[i]相對(duì)于NT2[j]的同義概率進(jìn)行迭代運(yùn)算;
[0014]步驟E:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎(chǔ),計(jì)算NTl [i]相對(duì)于NT2[j]的全局同義置信度,并將置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)作為同義詞輸出。
[0015]優(yōu)選地,上述步驟A具體包括以下步驟:
[0016]依次提取搜索日志中使用次數(shù)大于預(yù)設(shè)次數(shù)的檢索詞;
[0017]提取根據(jù)當(dāng)前檢索詞檢索到的網(wǎng)頁(yè)中,有點(diǎn)擊的網(wǎng)頁(yè)的標(biāo)題;[0018]當(dāng)前檢索詞與每個(gè)標(biāo)題形成一對(duì)類(lèi)似對(duì)其語(yǔ)句;
[0019]所有類(lèi)似語(yǔ)句組成類(lèi)似對(duì)齊語(yǔ)料。
[0020]優(yōu)選地,上述步驟B還對(duì)每對(duì)詞語(yǔ)序列執(zhí)行以下步驟:
[0021]為S1(T1[1],T1[2],…,Tl[i])、S2 (T2 [I],T2 [2],…,T2[j])的每個(gè)詞語(yǔ)設(shè)置初始值為O的標(biāo)記flag[i]、flag[j];
[0022]遍歷上述S1(T1[1],T1[2],…Tl[i]);
[0023]若Tl[i]為地名,則令 flag[i] = ADDRESS_LABEL ;
[0024]若Tl[i]為英文,則令 flag[i] = ENG_LABEL ;
[0025]若Tl[i]為數(shù)字,則令 flag[i] = NUM_LABEL ;
[0026]若Tl[i]未出現(xiàn)在 S2(T2[1],T2[2],...,T2[j])中,則令 flag[i] = DIFF_LABEL ;
[0027]遍歷完成后,得到標(biāo)記后的詞語(yǔ)序列SI (NT1[1],NTl [2],...,NTl [i]);
[0028]同時(shí)遍歷S2(T2[1],T2[2],…T2[j]);
[0029]若T2 [j]為地名,則令 flag[j] = ADDRESS_LABEL ;
[0030]若T2 [j]為英文,則令 flag[j] = ENG_LABEL ;
[0031]若T2[j]為數(shù)字,則令 flag[j] = NUM_LABEL ;
[0032]若丁2[」]未出現(xiàn)在51(1'1[1],1'1[2],...,11[1])中,則令flag [j] = DIFF_LABEL ;
[0033]遍歷完成后,得到標(biāo)記后的詞語(yǔ)序列S2(NT2[1],NT2[2], - ,NT2[j]) ?
[0034]優(yōu)選地,上述步驟C在對(duì)詞語(yǔ)序列進(jìn)行挖掘同義詞前,還執(zhí)行以下步驟:
[0035]刪除SI (NTl [I],NTl [2],…,NTl [i])、S2 (NT2[I],NT2[2],...,NT2[j])中標(biāo)記為 O的詞語(yǔ)及其標(biāo)記。
[0036]優(yōu)選地,上述步驟C針對(duì)每對(duì)詞語(yǔ)序列,具體執(zhí)行以下步驟:
[0037]Cl:根據(jù)最大熵原貝U,初始化NTl [i]相對(duì)于NT2[j]的同義概率P(NT2[j] INTl [i]),得到同義概率矩陣 S(NTl [i],NT2[j]);
[0038]C2:根據(jù)NTl[i]相對(duì)于NT2[j]的相似度,調(diào)整上述同義概率矩陣S(NTl[i],NT2[j])中相應(yīng)的概率值;
[0039]C3:將 SI (NTl [I] ,NTl [2],...,NTl [i])、S2 (NT2 [I],NT2 [2],...,NT2[j])中標(biāo)記為NUM_LABEL的非阿拉伯類(lèi)型的詞語(yǔ)轉(zhuǎn)換成阿拉伯類(lèi)型的詞語(yǔ);
[0040]C4:根據(jù) SI (NTl [I], NTl [2],...,NTl[i])中標(biāo)記為 NUM_LABEL 的詞語(yǔ)與
S2(NT2 [I],NT2 [2],…,NT2 [j])中標(biāo)記為NUM_LABEL的詞語(yǔ)是否相同,調(diào)整上述同義概率矩陣S(NTl [i],NT2[j])中相應(yīng)的概率值。[0041]優(yōu)選地,上述NTl [i]相對(duì)于NT2[j]的同義概率滿(mǎn)足如下公式:
[0042]
【權(quán)利要求】
1.一種同義詞挖掘方法,其特征在于,所述方法周期性執(zhí)行以下步驟: 步驟A:根據(jù)搜索日志,提取類(lèi)似對(duì)齊語(yǔ)料,假設(shè)所述類(lèi)似對(duì)齊語(yǔ)料中包含Q對(duì)類(lèi)似對(duì)齊語(yǔ)句; 步驟B:對(duì)每對(duì)類(lèi)似對(duì)齊語(yǔ)句S1、S2分別進(jìn)行分詞處理,得到Q對(duì)詞語(yǔ)序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]); 步驟C:在每對(duì)詞語(yǔ)序列的S2(T2[1],T2[2],一52^])中自適應(yīng)挖掘SI (Tl [1],Tl [2],...,Tl [i])的詞語(yǔ)的同義詞,并計(jì)算 Sl(Tl[l],Tl[2],*",Tl[i])的詞語(yǔ)相對(duì)S2(T2[l],T2[2],一,T2[j])的詞語(yǔ)的同義概率,最終得到Q個(gè)同義概率矩陣S(NTl[i],NT2[j]); 步驟0:以所有的同義概率矩陣5(階1[1],階2[」])為基礎(chǔ),對(duì)NTl [i]相對(duì)于NT2[j]的同義概率進(jìn)行迭代運(yùn)算; 步驟E:以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎(chǔ),計(jì)算NTl [i]相對(duì)于NT2[j]的全局同義置信度, 并將置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)作為同義詞輸出。
2.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟A具體包括以下步驟: 依次提取搜索日志中使用次數(shù)大于預(yù)設(shè)次數(shù)的檢索詞; 提取根據(jù)當(dāng)前檢索詞檢索到的網(wǎng)頁(yè)中,有點(diǎn)擊的網(wǎng)頁(yè)的標(biāo)題; 當(dāng)前檢索詞與每個(gè)標(biāo)題形成一對(duì)類(lèi)似對(duì)其語(yǔ)句; 所有類(lèi)似語(yǔ)句組成類(lèi)似對(duì)齊語(yǔ)料。
3.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟B還對(duì)每對(duì)詞語(yǔ)序列執(zhí)行以下步驟: 為 SI (Tl [I] ,Tl [2],…,Tl[i])、S2(T2[1],T2[2],…,T2[j])的每個(gè)詞語(yǔ)設(shè)置初始值為 O 的標(biāo)記 flag[i]、flag[j]; 遍歷所述 S1(T1[1],T1[2],…Tl[i]); 若 Tl[i]為地名,則令 flag[i] =ADDRESSJjmEL; 若 Tl[i]為英文,則令 flag[i] = ENG_LABEL ; 若 Tl[i]為數(shù)字,則令 flag[i] = NUM_LABEL ; 若 Tl[i]未出現(xiàn)在 S2(T2[l],T2[2],一,T2[j])中,則令 flag[i] = DIFF_LABEL ; 遍歷完成后,得到標(biāo)記后的詞語(yǔ)序列SI (NTl [I], NTl [2], -,NTl[i]); 同時(shí)遍歷 S2(T2[1],T2[2],…T2[j]); 若 T2[j]為地名,則令 flag[j] = ADDRESS_LABEL ; 若 T2[j]為英文,則令 flag[j] = ENG_LABEL ; 若 T2[j]為數(shù)字,則令 flag[j] = NUM_LABEL ; 若 T2[j]未出現(xiàn)在 SI (Tl [1],Tl [2],...,!! [i])中,則令 flag[j] = DIFF_LABEL ; 遍歷完成后,得到標(biāo)記后的詞語(yǔ)序列S2(NT2[1],NT2[2],…,NT2[j])。
4.如權(quán)利要求3所述的同義詞挖掘方法,其特征在于,所述步驟C在對(duì)詞語(yǔ)序列進(jìn)行挖掘同義詞前,還執(zhí)行以下步驟:
刪除 SI (NTl [I], NTl [2],...,NTl[i])、S2 (NT2[I],NT2[2],...,NT2[j])中標(biāo)記為 O 的詞語(yǔ)及其標(biāo)記。
5.如權(quán)利要求4所述的同義詞挖掘方法,其特征在于,所述步驟C針對(duì)每對(duì)詞語(yǔ)序列,具體執(zhí)行以下步驟: Cl:根據(jù)最大熵原則,初始化NTl [i]相對(duì)于NT2[j]的同義概率P(NT2[j] NTl[i]),得到同義概率矩陣3(見(jiàn)'1[丨],見(jiàn)'2[」]); C2:根據(jù)NTl[i]相對(duì)于NT2[j]的相似度,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應(yīng)的概率值;
C3:將 SI (NTl [I],NTl [2],…,NTl [i])、S2 (NT2[I],NT2[2],...,NT2[j])中標(biāo)記為 NUM_LABEL的非阿拉伯類(lèi)型的詞語(yǔ)轉(zhuǎn)換成阿拉伯類(lèi)型的詞語(yǔ); C4:根據(jù) SI (NTl [1],NTl [2],...,NT1 [i])中標(biāo)記為 NUM_LABEL 的詞語(yǔ)與S2(NT2[1],NT2[2],…,NT2[j])中標(biāo)記為NUM_LABEL的詞語(yǔ)是否相同,調(diào)整所述同義概率^^$S(NTl[i],NT2[j])中相應(yīng)的概率值。
6.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述NTl[i]相對(duì)于NT2[j]的同義概率滿(mǎn)足如下公式:

7.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述根據(jù)NTl[i]相對(duì)于NT2[j]的相似度,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應(yīng)的概率值步驟具體為: 通過(guò)如下公式計(jì)算NTl [i]相對(duì)于NT2[j]的相似度:
8.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述根據(jù)SI(NTl [I],NTl [2],…,NTl[i])中標(biāo)記為 NUM_LABEL 的詞語(yǔ)與 S2 (NT2 [I],NT2 [2],...,NT2[j])中標(biāo)記為 NUM_LABEL的詞語(yǔ)是否相同,調(diào)整所述同義概率矩陣S(NTl[i],NT2[j])中相應(yīng)的概率值步驟具體為: 判斷 SI (NTl [I], NTl [2],...,NT1 [i])中標(biāo)記為 NUM_LABEL 的詞語(yǔ) NTl[k]與S2(NT2[1],NT2[2],...,NT2[j])中標(biāo)記為 NUM_LABEL 的詞語(yǔ) NT2[h]是否相同; 若相同,則 為同義概率矩陣3(見(jiàn)'1[丨],見(jiàn)'2[」])中NTl[k]相對(duì)于NT2[h]的同義概率值加上Pl ;為同義概率矩陣 S (NTl [i],NT2 [j])中 NTl [k]相對(duì)于 S2 (NT2 [I],NT2 [2],...,NT2 [j])中NT2[h]以外的詞語(yǔ)的同義概率值減去Pl/(I NS2 1-1); 為同義概率矩陣3(見(jiàn)1[丨],見(jiàn)'2[].])中,SI (NTl [1],NTl [2],...,NTl[i]) Φ NTl [k]以外的詞語(yǔ)相對(duì)于NT2[h]的同義概率值減去Pl/(INSl |-1); 為同義概率矩陣3(見(jiàn)'1[丨],見(jiàn)'2[」])中,SI (NTl [1],NTl [2],...,NTl[i]) Φ NTl [k]以外的詞語(yǔ)相對(duì)于S2(NT2[1],NT2[2],…,NT2[j])中NT2[h]以外的詞語(yǔ)的同義概率值加上P1/(|NS1|-1)/(|NS2|-1)。
9.如權(quán)利要求5所述的同義詞挖掘方法,其特征在于,所述步驟D包括以下步驟: 步驟Dl:設(shè)置迭代次數(shù); 步驟D2:通過(guò)如下公式計(jì)算從類(lèi)似對(duì)齊語(yǔ)料中挖掘出的NTl [i]相對(duì)于NT2[j]的同義概率 P(NT2[j] NTl [i])之和:
10.如權(quán)利要求1所述的同義詞挖掘方法,其特征在于,所述步驟E具體包括如下步驟: 以所有的同義概率矩陣S(NTl[i],NT2[j])為基礎(chǔ),通過(guò)如下公式計(jì)算NTl[i]相對(duì)于NT2[j]的全局同義置信度:
conf(NT2[j]I NTl[i]) = Pgl(NT2[j]|NTl[i])/M 其中,M為從類(lèi)似對(duì)齊語(yǔ)料中挖掘出的NTl [i]相對(duì)于NT2[j]的次數(shù); 提取并保存置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)的上下文; 將所述詞對(duì)作為同義詞輸出,同時(shí)輸出其同義替換語(yǔ)境及語(yǔ)境等級(jí)。
11.一種同義詞挖掘裝置,其特征在于,所述裝置包括類(lèi)似對(duì)齊語(yǔ)料提取模塊、分詞處理模塊、自適應(yīng)挖掘模塊、迭代模塊以及同義詞對(duì)輸出模塊,所述 類(lèi)似對(duì)齊語(yǔ)料提取模塊,用于根據(jù)搜索日志,提取類(lèi)似對(duì)齊語(yǔ)料; 分詞處理模塊,用于對(duì)類(lèi)似對(duì)齊語(yǔ)句S1、S2進(jìn)行分詞處理,得到詞語(yǔ)序列SI (Tl [I] ,Tl [2],...,Tl[i])、S2(T2[l],T2[2],...,T2[j]); 自適應(yīng)挖掘模塊,用于在S2(T2[1],T2[2],一52^])中自適應(yīng)挖掘Sl(Tl[l],Tl[2],-,Tl[i])的詞語(yǔ)的同義詞,并計(jì)算 Sl(Tl[l],Tl[2],一,Tl[i])的詞語(yǔ)相對(duì)S2(T2[1],T2[2],…T2[j])的詞語(yǔ)的同義概率,得到同義概率矩陣S(NTl[i],NT2[j]); 迭代模塊,用于對(duì)NTl [i]相對(duì)于NT2[j]的同義概率進(jìn)行迭代運(yùn)算; 同義詞對(duì)輸出模塊,用于計(jì)算NTl[i]相對(duì)于NT2[j]的全局同義置信度,并將置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)作為同義詞輸出。
12.如權(quán)利要求11所述的同義詞挖掘裝置,其特征在于, 所述分詞處理模塊,用于對(duì)詞語(yǔ)序列SI (Tl [I],Tl [2],…,Tl [i])、S2 (T2 [I],T2 [2],…,T2[j])的每個(gè)詞語(yǔ)設(shè)置初始值為O的標(biāo)記flag[i]、flag[j],并遍歷所述S1(T1[1],T1[2],...,Tl[i])及 S2(T2[1],T2[2],...,T2[j]);將 SI (Tl [I],Tl [2],…,Tl [i])中為地名的詞語(yǔ)的標(biāo)記flag[i]置為ADDRESS_LABEL ;為英文的詞語(yǔ)的flag[i]置為ENG_LABEL ;為數(shù)字的詞語(yǔ)的flag[i]置為NUM_LABEL ;將未出現(xiàn)在S2(T2[1],T2[2],…,T2[j])中的詞語(yǔ)的標(biāo)記flag[i]置為DIFF_LABEL,得到標(biāo)記后的詞語(yǔ)序列 SI (NTl [I], NTl [2],...,NTl[i]);將 S2 (T2 [I],T2 [2],...,T2[j])中為地名的詞語(yǔ)的標(biāo)記flag[j]置為ADDRESS_LABEL ;為英文的詞語(yǔ)的flag[j]置為ENG_LABEL ;為數(shù)字的詞語(yǔ)的flag[j]置為NUM_LABEL ;將未出現(xiàn)在SI (Tl [I],Tl [2],…,Tl[i])中的詞語(yǔ)的標(biāo)記flag[j]置為 DIFF_LABEL,得到標(biāo)記后的詞語(yǔ)序列 S2 (NT2 [I],NT2 [2],...,NT2[j]); 所述自適應(yīng)挖掘模塊,用于刪除S1(NT1[1],NT1[2],".,ΝΤ1[?])、S2(NT2[1],NT2[2],…,NT2[j])中標(biāo)記為O的詞語(yǔ)及其標(biāo)記;并根據(jù)最大熵原則,初始化NTl [i]相對(duì)于NT2[j]的同義概率P(NT2[j]|NTl[i]);計(jì)算NTl[i]相對(duì)于NT2[j]的相似度,并根據(jù)所述相似度,調(diào)整NTl [i]相對(duì)于NT2[j]的概率值;將SI (NTl [I],NTl [2],...,NTl[i])、S2(NT2[1],NT2[2],...,NT2[j])中標(biāo)記為 NUM_LABEL 的非阿拉伯類(lèi)型的詞語(yǔ)轉(zhuǎn)換成阿拉伯類(lèi)型的詞語(yǔ);根據(jù)SI (NTl [I], NTl [2],...,NTl [i])中標(biāo)記為NUM_LABEL的詞語(yǔ)與S2(NT2[1],NT2[2],…,NT2[j])中標(biāo)記為NUM_LABEL的詞語(yǔ)是否相同,調(diào)整相應(yīng)的概率值; 所述迭代模塊,用于保存預(yù)設(shè)的迭代次數(shù);計(jì)算從類(lèi)似對(duì)齊語(yǔ)料中挖掘出的NTl [i]相對(duì)于NT2[j]的同義概率P(NT2[j] NTl [i])之和Pgl(NT2[j] NTl [i]);并根據(jù)Pgl(NT2[j] |NTl[i]),計(jì)算 NTl[i]相對(duì)于 NT2[j]的全局同義概率 Pg (NT2 [ j] NTl[i]);并在當(dāng)前迭代不是最后一次迭代時(shí),將NTl [i]相對(duì)于NT2[j]的同義概率值初始化為本次迭代得到的NTl [i]相對(duì)于NT2[j]的全局同義概率值; 所述同義詞對(duì)輸出模塊,用于提取并保存置信度大于預(yù)設(shè)的置信度閾值的詞對(duì)的上下文,以及在輸出同義詞對(duì)的同時(shí),輸出其同義替換語(yǔ)境及語(yǔ)境等級(jí)。
【文檔編號(hào)】G06F17/30GK103942339SQ201410193704
【公開(kāi)日】2014年7月23日 申請(qǐng)日期:2014年5月8日 優(yōu)先權(quán)日:2014年5月8日
【發(fā)明者】車(chē)天文, 王更生, 劉捷, 雷大偉 申請(qǐng)人:深圳市宜搜科技發(fā)展有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
延庆县| 共和县| 新竹县| 禹城市| 望都县| 玉龙| 内江市| 通山县| 西贡区| 靖远县| 郎溪县| 三明市| 广饶县| 凤阳县| 垣曲县| 铜梁县| 台北市| 赣榆县| 九龙坡区| 太白县| 渝北区| 平阳县| 平远县| 阿荣旗| 临漳县| 浮梁县| 佳木斯市| 上思县| 桂林市| 鹿泉市| 合肥市| 长汀县| 陈巴尔虎旗| 林周县| 红原县| 中超| 呼和浩特市| 丹东市| 正镶白旗| 武义县| 留坝县|