一種中文語句識(shí)別方法和裝置制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種中文語句的識(shí)別方法和裝置,方法為:接收用戶輸入的待識(shí)別中文語句;獲取待識(shí)別中文語句的歧義鏈;根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,根據(jù)所述歧義鏈的最終切分結(jié)果對所述待識(shí)別中文語句進(jìn)行切分。本發(fā)明考慮不同切分方式下得到的分詞結(jié)果中分詞的詞頻、分詞間詞性標(biāo)注的移轉(zhuǎn)概率來計(jì)算得到歧義鏈的最終結(jié)果,使得對待識(shí)別中文語句中的歧義鏈部分進(jìn)行切分的結(jié)果更準(zhǔn)確,更符合用戶真實(shí)的語義表達(dá),提高中文語句的識(shí)別準(zhǔn)確率,從而提高了根據(jù)該中文語句進(jìn)行查詢的成功率。
【專利說明】一種中文語句識(shí)別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,具體涉及一種中文語句識(shí)別方法和裝置。
【背景技術(shù)】
[0002]“中文語句識(shí)別”,顧名思義,就是對存在多個(gè)語義的中文語句進(jìn)行識(shí)別,從而識(shí)別出最符合人類語言表述特點(diǎn)、用戶意圖的語義。而語義即是對于一個(gè)中文語句進(jìn)行不同的切分時(shí),由于切分方式不同而產(chǎn)生的含義。在對中文語句處理較多的地理信息領(lǐng)域,是通過地址處理系統(tǒng)處理各種地址的描述信息,為上層應(yīng)用提供數(shù)據(jù)支撐。例如地名索引、地名相似度計(jì)算、地圖導(dǎo)航等,經(jīng)常需要對用戶輸入的地址進(jìn)行切分處理,然后再根據(jù)切分結(jié)果進(jìn)行相應(yīng)的地址查詢操作。
[0003]目前,在對用戶輸入的中文地址信息進(jìn)行切分時(shí),完全基于字典或自然語言來處理,如對于中文地址信息“平頂山西服務(wù)區(qū)”,根據(jù)前述方式既可以切分成“平頂/山西/服務(wù)區(qū)”也可以切分成“平頂山/西/服務(wù)區(qū)”,采用這種切分方式對包含有多種理解的中文地址信息將可能會(huì)切分成多種結(jié)果,如何克服中文地址信息中的歧義,找到最符合用戶意圖的切分方式,將直接影響地址查詢的準(zhǔn)確性。若切分不準(zhǔn)確,根據(jù)切分結(jié)果進(jìn)行地址查詢將可能會(huì)導(dǎo)致查詢不成功或查詢不準(zhǔn)確的問題。
[0004]在地理信息領(lǐng)域中,如何有效的對用戶輸入的中文地址信息進(jìn)行切分處理,以得到準(zhǔn)確的、符合用戶意圖的結(jié)果,目前還沒有提出較為有效的解決方案。
【發(fā)明內(nèi)容】
[0005]為了解決中文語句的識(shí)別問題,本發(fā)明提供了一種中文語句識(shí)別方法和裝置。
[0006]本發(fā)明提供一種中文語句的識(shí)別方法,其特征在于,所述方法包括:
[0007]接收用戶輸入的待識(shí)別中文語句;
[0008]獲取所述待識(shí)別中文語句的歧義鏈,所述歧義鏈為所述待識(shí)別中文語句中含有歧義的部分語句;
[0009]根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,所述移轉(zhuǎn)概率是指從當(dāng)前分詞的前一個(gè)或前多個(gè)分詞的詞性標(biāo)注轉(zhuǎn)移到當(dāng)前分詞的詞性標(biāo)注的概率;
[0010]根據(jù)所述歧義鏈的最終切分結(jié)果對所述待識(shí)別中文語句進(jìn)行切分。
[0011]優(yōu)選地,根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,包括:
[0012]根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,得到每種切分方式對應(yīng)的切分結(jié)果;
[0013]針對每種切分結(jié)果,根據(jù)該切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率;
[0014]將組合概率最大的切分結(jié)果確定為所述歧義鏈的最終切分結(jié)果。[0015]優(yōu)選地,根據(jù)切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率,根據(jù)下式得到:
[0016]
【權(quán)利要求】
1.一種中文語句的識(shí)別方法,其特征在于,所述方法包括: 接收用戶輸入的待識(shí)別中文語句; 獲取所述待識(shí)別中文語句的歧義鏈,所述歧義鏈為所述待識(shí)別中文語句中含有歧義的部分語句; 根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,所述移轉(zhuǎn)概率是指從當(dāng)前分詞的前一個(gè)或前多個(gè)分詞的詞性標(biāo)注轉(zhuǎn)移到當(dāng)前分詞的詞性標(biāo)注的概率; 根據(jù)所述歧義鏈的最終切分結(jié)果對所述待識(shí)別中文語句進(jìn)行切分。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,包括: 根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,得到每種切分方式對應(yīng)的切分結(jié)果; 針對每種切分結(jié)果,根據(jù)該切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率; 將組合概率最大的切分結(jié)果確定為所述歧義鏈的最終切分結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率,根據(jù)下式得到:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率,根據(jù)下式得到:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述RpiiI P丨根據(jù)下式得到:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,包括: 步驟1、采用多種切分方式1對歧義鏈進(jìn)行切分,得到多種切分方式對應(yīng)的第一首分詞,將多種切分方式對應(yīng)的第一首分詞中詞頻最高的首分詞,確定為當(dāng)前歧義鏈的最終首分詞; 步驟2、將所述最終首分詞從歧義鏈中刪除,得到第二歧義鏈,采用多種切分方式對第二歧義鏈進(jìn)行切分,得到多種切分方式對應(yīng)的第二首分詞,計(jì)算從所述最終首分詞的詞性標(biāo)注分別移轉(zhuǎn)到多種切分方式對應(yīng)的第二首分詞的詞性標(biāo)注的移轉(zhuǎn)概率,將移轉(zhuǎn)概率最大的第二首分詞確定為所述歧義鏈的最終第二分詞; 步驟3、將所述最終第二分詞從所述第二歧義鏈中刪除,得到第三歧義鏈,針對第三歧義鏈重復(fù)執(zhí)行步驟2,得到所述歧義鏈的最終第三分詞; 依此類推,得到所述歧義鏈的所有最終分詞,將得到的所有最終分詞確定為對所述歧義鏈進(jìn)行切分的最終切分結(jié)果。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其特征在于,所述待識(shí)別中文語句為C1C2…Cn,獲取所述待識(shí)別中文語句的歧義鏈,包括: 步驟1、以Cl為首字,查找待識(shí)別中文語句中以Cl為詞頭的第一最長組合為Cb-Ck,其中k小于η,將所述第一最長組合Cb^Ck確定為歧義鏈; 步驟2、依次選擇C2、…、Ck為首字,分別查找待識(shí)別中文語句中以C2、…、Ck為詞頭的所有組合,并選擇組合中最長的組合作為第二最長組合,第二最長組合為Ci為詞頭、Cm為詞尾的組合,其中i大于I且小于k,m大于i ; 步驟3、對第一最長組合和第二最長組合進(jìn)行合并處理,若m小于或等于k,則合并得到的第三最長組合與第一最長組合相同,結(jié)束流程,并將歧義鏈確定為所述待識(shí)別中文語句的歧義鏈;若111大于k,則合并得到的第三最長組合為C1C2…Cm,并將所述歧義鏈調(diào)整為第三最長組合,并執(zhí)行步驟4; 步驟4、對Ck、…、Cm重復(fù)執(zhí)行步驟2-步驟3,直到以Cj為首字查找待識(shí)別中文語句中以Cj為詞頭的組合為單字時(shí)為止,以得到所述待識(shí)別中文語句的歧義鏈Cl-Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于η ; 步驟5、判斷所述Cs是否為Cn,若不是則以Cs為首字重復(fù)執(zhí)行步驟1-步驟4,以得到所述待識(shí)別中文語句的其他歧義鏈,否則結(jié)束流程。
8.一種中文語句的識(shí)別裝置,其特征在于,所述裝置包括: 接收模塊,用于接收用戶輸入的待識(shí)別中文語句; 獲取模塊,用于獲取所述待識(shí)別中文語句的歧義鏈,所述歧義鏈為所述待識(shí)別中文語句中含有歧義的部分語句; 確定模塊,用于根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,并根據(jù)切分得到的分詞的詞頻、詞性標(biāo)注以及分詞之間的移轉(zhuǎn)概率,確定所述歧義鏈的最終切分結(jié)果,所述移轉(zhuǎn)概率是指從當(dāng)前分詞的前一個(gè)或前多個(gè)分詞的詞性標(biāo)注轉(zhuǎn)移到當(dāng)前分詞的詞性標(biāo)注的概率; 識(shí)別模塊,用于根據(jù)所述歧義鏈的最終切分結(jié)果對所述待識(shí)別中文語句進(jìn)行切分。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊,包括: 切分子模塊,用于根據(jù)不同的切分方式對所述歧義鏈進(jìn)行切分,得到每種切分方式對應(yīng)的切分結(jié)果; 第一獲取子模塊,用于針對所述切分子模塊得到的每種切分結(jié)果,根據(jù)該切分結(jié)果中各分詞的詞頻、詞性標(biāo)注和分詞之間的移轉(zhuǎn)概率,得到該種切分結(jié)果的組合概率; 第一確定子模塊,用于將組合概率最大的切分結(jié)果確定為所述歧義鏈的最終切分結(jié)果O
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一獲取子模塊,具體用于: 根據(jù)下式得到所述切分結(jié)果的組合概率:
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一獲取子模塊,具體用于: 根據(jù)下式得到所述切分結(jié)果的組合概率:
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第一獲取子模塊,包括: 第一計(jì)算子模塊,用于根據(jù)下式得到
13.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述確定模塊,包括: 第二確定子模塊,用于采用多種切分方式對歧義鏈進(jìn)行切分,得到多種切分方式對應(yīng)的第一首分詞,將多種切分方式對應(yīng)的第一首分詞中詞頻最高的第一首分詞,確定為當(dāng)前歧義鏈的最終首分詞; 第三確定子模塊,用于將所述最終首分詞從歧義鏈中刪除,得到第二歧義鏈,采用多種切分方式對第二歧義鏈進(jìn)行切分,得到多種切分方式對應(yīng)的第二首分詞,計(jì)算從所述最終首分詞的詞性標(biāo)注分別移轉(zhuǎn)到多種切分方式對應(yīng)的第二首分詞的詞性標(biāo)注的移轉(zhuǎn)概率,將移轉(zhuǎn)概率最大的第二首分詞確定為所述歧義鏈的最終第二分詞; 第一觸發(fā)子模塊,用于將所述最終第二分詞從所述第二歧義鏈中刪除,得到第三歧義鏈,針對第三歧義鏈重復(fù)觸發(fā)所述第三確定子模塊,得到所述歧義鏈的最終第三分詞; 第四確定子模塊,用于在根據(jù)所述第二確定子模塊和第三確定子模塊得到所述歧義鏈的所有最終分詞后,將得到的所有最終分詞確定為對所述歧義鏈進(jìn)行切分的最終切分結(jié)果O
14.根據(jù)權(quán)利要求8-13任一項(xiàng)所述的裝置,其特征在于,所述獲取模塊,包括: 第五確定子模塊,用于在所述待識(shí)別中文語句為C1C2…Cn時(shí),以Cl為首字,查找待識(shí)別中文語句中以Cl為詞頭的第一最長組合為Cl...Ck,其中k小于n,將所述第一最長組合CL...Ck確定為歧義鏈; 第六確定子模塊,用于依次選擇C2、…、Ck為首字,分別查找待識(shí)別中文語句中以C2、…、Ck為詞頭的所有組合,并選擇組合中最長的組合作為第二最長組合,第二最長組合為Ci為詞頭、Cm為詞尾的組合,其中i大于I且小于k,m大于i ; 第一判斷子模塊,用于判斷m是否小于或等于k ;若是則啟動(dòng)第七確定子模塊,否則啟動(dòng)第八確定子模塊; 第七確定子模塊,用于對第一最長組合與第二最長組合進(jìn)行合并處理,得到的第三最長組合與第一最長組合相同; 第八確定子模塊,用于對第一最長組合與第二最長組合進(jìn)行合并處理,合并得到的第三最長組合為C1C2…Cm,并將所述歧義鏈調(diào)整為第三最長組合; 第二觸發(fā)子模塊,用于對Ck、…、Cm重復(fù)觸發(fā)所述第六確定子模塊和所述第一判斷子模塊,直到以Cj為首字查找待識(shí)別中文語句中以Cj為詞頭的組合為單字時(shí)為止,以得到所述待識(shí)別中文語句的歧義鏈CL...Cs,其中j大于或等于k,且j小于或等于m,s大于或等于m,且s小于或等于n ; 第二判斷子模塊,用于判斷所述Cs是否為Cn ; 第三觸發(fā)子模塊,用于在所述第二判斷子模塊結(jié)果為否時(shí),觸發(fā)第五確定子模塊,以得到所述待識(shí)別中文語句的其他歧義鏈。
【文檔編號(hào)】G06F17/30GK103902521SQ201210568325
【公開日】2014年7月2日 申請日期:2012年12月24日 優(yōu)先權(quán)日:2012年12月24日
【發(fā)明者】郭濤 申請人:高德軟件有限公司