本發(fā)明涉及自然語言處理,特別涉及一種基于機器學(xué)習(xí)的關(guān)鍵詞識別方法。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)及internet的逐漸成熟,傳統(tǒng)的單一關(guān)鍵詞方式已不能滿足當(dāng)前海量信息的內(nèi)容獲取需求,如何設(shè)計好問答系統(tǒng)成為網(wǎng)絡(luò)搜索需要解決的一個重要技術(shù)。從現(xiàn)有的問答系統(tǒng)來看,中文由于其分詞的復(fù)雜性和語義識別等方面的限制,成形產(chǎn)品技術(shù)相對較落后,例如,由于現(xiàn)有分詞方法必須首先設(shè)定一個匹配詞長的初始值,詞長過長則算法的時間復(fù)雜度提高;詞長過短則切分正確率降低。對于二義字段的處理也不能滿足實際用戶需要。
技術(shù)實現(xiàn)要素:
為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于機器學(xué)習(xí)的關(guān)鍵詞識別方法,包括:
采用散列樹詞典建立數(shù)據(jù)檢索結(jié)構(gòu),
利用統(tǒng)計方法消除分詞過程中出現(xiàn)的二義字段。
優(yōu)選地,所述散列樹詞典用于存儲字符串,實現(xiàn)字符串的快速查找;所述散列樹由首字索引和散列樹節(jié)點兩部分組成,在對被切分語句的一次掃描過程中,沿著樹鏈的根節(jié)點逐字匹配。
優(yōu)選地,所述散列樹根據(jù)中文編碼標(biāo)準(zhǔn)的分區(qū)數(shù)a和每分區(qū)字?jǐn)?shù)b,在散列樹節(jié)點中存儲b個數(shù)據(jù)單元,裝載中文分詞詞典,建立的數(shù)據(jù)檢索結(jié)構(gòu)如下:
首字索引,根據(jù)字的區(qū)位碼采用以下公式直接定位:
pos=(c1-176)×b+(c2-161)
pos為詞在首字索引節(jié)點中的位置,c1為詞首字第一個字節(jié)的無符號數(shù),c2為第二個字節(jié)的無符號數(shù)。
優(yōu)選地,所述首字索引節(jié)點包含如下數(shù)據(jù):
屬性:單字是否匹配為詞,是否存在子樹,索引字作為首字的最長詞的長度;
子樹大小:存在子樹時,首字為索引字的兩字詞的個數(shù),否則為0;
子樹指針:存在子樹時,指針指向子樹,否則指針為空;
首字索引的一個單元是所對應(yīng)字的散列樹的根節(jié)點。
優(yōu)選地,所述散列樹節(jié)點包含單一關(guān)鍵字、是否存在子樹的標(biāo)識,根節(jié)點到當(dāng)前節(jié)點關(guān)鍵字是否匹配為詞,根節(jié)點到當(dāng)前節(jié)點關(guān)鍵字為前綴的最長詞的長度、子樹大小,存在子樹時,根節(jié)點到當(dāng)前關(guān)鍵字為前綴的詞的個數(shù),否則為0;子樹指針:存在子樹時,指針指向子樹,否則指針為空。
優(yōu)選地,所述方法還包括:
把語句中的第n個詞作為緊接其前面的n-1個詞的馬爾可夫過程的狀態(tài)轉(zhuǎn)移,利用這些詞間的同現(xiàn)概率作為狀態(tài)間的轉(zhuǎn)移來進(jìn)行詞性標(biāo)注,通過語料訓(xùn)練來提取各種概率參數(shù),根據(jù)概率參數(shù)來計算出一個給定的詞可能對應(yīng)的標(biāo)記串的概率,然后按照預(yù)定義標(biāo)準(zhǔn)選擇適當(dāng)?shù)臉?biāo)記串作為輸出。
本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
本發(fā)明提出了一種基于機器學(xué)習(xí)的關(guān)鍵詞識別方法,改進(jìn)了對分詞的二義字段處理的過程,具備更理想的時間復(fù)雜度和切分正確率。
附圖說明
圖1是根據(jù)本發(fā)明實施例的基于機器學(xué)習(xí)的關(guān)鍵詞識別方法的流程圖。
具體實施方式
下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié),并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
本發(fā)明的一方面提供了一種基于機器學(xué)習(xí)的關(guān)鍵詞識別方法。圖1是根據(jù)本發(fā)明實施例的基于機器學(xué)習(xí)的關(guān)鍵詞識別方法流程圖。
本發(fā)明采用散列樹詞典建立數(shù)據(jù)檢索結(jié)構(gòu),利用統(tǒng)計方法消除分詞過程中出現(xiàn)的二義字段。散列樹詞典用于存儲字符串,實現(xiàn)字符串的快速查找。所述散列樹由首字索引和散列樹節(jié)點兩部分組成,在對被切分語句的一次掃描過程中,沿著樹鏈的根節(jié)點逐字匹配。根據(jù)中文編碼標(biāo)準(zhǔn)的分區(qū)數(shù)a和每分區(qū)字?jǐn)?shù)b,在散列樹節(jié)點中存儲b個數(shù)據(jù)單元,裝載中文分詞詞典。數(shù)據(jù)結(jié)構(gòu)如下:
首字索引,根據(jù)字的區(qū)位碼采用以下公式直接定位:
pos=(c1-176)×b+(c2-161)
pos為詞在首字索引節(jié)點中的位置,c1為詞首字第一個字節(jié)的無符號數(shù),c2為第二個字節(jié)的無符號數(shù)。
首字索引節(jié)點包含如下數(shù)據(jù):屬性:單字是否匹配為詞,是否存在子樹,索引字作為首字的最長詞的長度;子樹大?。捍嬖谧訕鋾r,首字為索引字的兩字詞的個數(shù),否則為0;子樹指針:存在子樹時,指針指向子樹,否則指針為空。首字索引的一個單元是所對應(yīng)字的散列樹的根節(jié)點。
散列樹節(jié)點包含單一關(guān)鍵字、是否存在子樹的標(biāo)識,根節(jié)點到當(dāng)前節(jié)點關(guān)鍵字是否匹配為詞,根節(jié)點到當(dāng)前節(jié)點關(guān)鍵字為前綴的最長詞的長度、子樹大小,存在子樹時,根節(jié)點到當(dāng)前關(guān)鍵字為前綴的詞的個數(shù)。否則為0、子樹指針:存在子樹時,指針指向子樹,否則指針為空。
把語句中的第n個詞作為緊接其前面的n-1個詞的馬爾可夫過程的狀態(tài)轉(zhuǎn)移,利用這些詞間的同現(xiàn)概率作為狀態(tài)間的轉(zhuǎn)移來進(jìn)行詞性標(biāo)注,通過語料訓(xùn)練來提取各種概率參數(shù),根據(jù)概率參數(shù)來計算出一個給定的詞可能對應(yīng)的標(biāo)記串的概率,然后按照預(yù)定義標(biāo)準(zhǔn)選擇適當(dāng)?shù)臉?biāo)記串作為輸出。
在散列樹詞典的基礎(chǔ)上,首先根據(jù)斷句表,將中文句子切分為短句,然后在進(jìn)行匹配分詞的同時保存匹配過程中字符串的匹配信息,通過字符串的匹配信息以及逐詞掃描的方法來判斷是否存在二義字段,最后將預(yù)切分的中間結(jié)果交給細(xì)分過程進(jìn)行處理。由于每個字都有被作為詞的首字進(jìn)行匹配的過程,所以可以找出所有的二義字段。經(jīng)過上述改進(jìn)的分詞算法處理之后,預(yù)切分結(jié)果中包含了二義字段的所有切分路徑。根據(jù)訓(xùn)練語料庫中的詞頻信息,利用統(tǒng)計模型計算出所有切分路徑中詞的概率,概率最大的詞即是最優(yōu)詞。
具體描述如下:
步驟1:對搜索語句進(jìn)行初步分詞預(yù)處理,即首先根據(jù)斷句表將搜索語句預(yù)切分為多個子串并保存;
步驟2:取預(yù)切分子串s=c0c1…cn-1,n為子串的長度,并初始化變量temp=n,p=0;q=1000000;
步驟3:取s的第j個字符cj,獲得cj在首字索引中的位置;
步驟4:讀取當(dāng)前節(jié)點的數(shù)據(jù),包括是否匹配為詞,是否存在子樹,最長詞長,如果存在子樹,讀取子樹指針和子樹大小;
步驟5:取i=j(luò)+1,如果最長詞長<n,轉(zhuǎn)步驟11;
步驟6:取s的第i個字符ci,讀取子樹指針中各個散列樹節(jié)點數(shù)據(jù):關(guān)鍵字,是否匹配為詞的屬性,最長詞長,子樹指針和子樹大小。利用二分法在以每個關(guān)鍵字為起點、子樹大小為距離的區(qū)間中匹配ci,如果匹配失敗,則ci-1ci不形成詞;
此時,如果i-1>q,則保存cpcp+1...ci-1的相關(guān)信息到二義字段集合中,并將s右移i-p個字,同時,令n=temp-(i-p),轉(zhuǎn)步驟3;
否則如果i-1≤q,保存cpcp+1...ci-1成詞信息,將s從p處右移i-j個字,令n=temp-(i-j+1),轉(zhuǎn)步驟3;
步驟7:讀取子樹指針中各個散列樹節(jié)點數(shù)據(jù),包括關(guān)鍵字,是否匹配為詞,最長詞長,子樹指針,子樹大小;
步驟8:如果最大詞長為n且匹配為詞,則保存匹配后的詞ci+1-nci+2-n...ci;
步驟9:如果該詞是第一次匹配成功,記p=i+1-n,q=i,j=p+1,轉(zhuǎn)步驟3;否則,j=i,轉(zhuǎn)步驟3;
步驟10:i=i+1,轉(zhuǎn)步驟6;
步驟11:s左移一個字,n=n-1,轉(zhuǎn)步驟3;
步驟12:如果二義字段集合不為空,則進(jìn)行消歧處理;否則,分詞結(jié)束。
上述消歧處理進(jìn)一步包括:
設(shè)置三個參數(shù),詞性狀態(tài)矩陣a、b、π;
其中詞性狀態(tài)矩陣a即為詞性狀態(tài)矩陣,把41個詞性之間的狀態(tài)轉(zhuǎn)移矩陣(41×41)轉(zhuǎn)化為表的形式存儲其中。矩陣a的元素aij為:
aij=n(ti,tj)/n(ti)
其中n(ti,tj)是在訓(xùn)練中詞性標(biāo)記tj緊跟在ti后出現(xiàn)的次數(shù),n(ti)是標(biāo)記ti出現(xiàn)的次數(shù)。
其中符號概率分布矩陣b,把每個詞對應(yīng)不同的詞性概率存儲在其中。對詞性表中的概率,由以下公式得到詞性概率分布bjk:
bjk=n(wk,tj)/n(ti)
其中n(wk,tj)是在訓(xùn)練中詞匯wk的詞性標(biāo)注為tj出現(xiàn)的次數(shù)。
參數(shù)π表示初始狀態(tài)概率分布。
輸入?yún)?shù)集λ=(a,b,π),對于給定句子確定出每個詞的詞性。令w=w1w2λwm為一個句子,wi為句子中的一個詞。又令q=q1q2λqm為句子w一個可能詞性標(biāo)注序列,qi為詞wi的一個詞性標(biāo)注結(jié)果。將問題轉(zhuǎn)化為在一個模型λ尋求一個詞性序列使得它能最好解釋句子w,本發(fā)明采用hmm評價標(biāo)準(zhǔn),選用單個最可能狀態(tài)qt,這個評價標(biāo)準(zhǔn)使得達(dá)到正確狀態(tài)的數(shù)目的期望值最大。
對于每一種可能的預(yù)切分路徑,首先初始化:
δ1(i)=πibi(o1)初始化時bi(o1)
歸納計算并保存回溯
δt(j)=max1<i<n[δt(j)aij]×bj(ot),2≤t≤t,1≤j≤n
其中t為時刻,aij為狀態(tài)轉(zhuǎn)移概率即詞性轉(zhuǎn)移,j為詞性狀態(tài),δt(j)是t時刻狀態(tài)為j,輸出為o1,o2,…,ot的最大概率,該變量保存到達(dá)每個結(jié)點的最有可能的路徑的概率。利用動態(tài)規(guī)劃算法計算整個網(wǎng)格的最佳路徑。
最后結(jié)束并產(chǎn)生路徑(帶回溯)
p=max1<i<n[δt(j)]
至此,求得最優(yōu)路徑狀態(tài)序列及最優(yōu)權(quán)值。
對于每一種可能的預(yù)切分路徑都將計算p值,比較所有預(yù)切分路徑的p值,選擇一種最大概率p,作為輸出結(jié)果。
綜上所述,本發(fā)明提出了一種基于機器學(xué)習(xí)的關(guān)鍵詞識別方法,改進(jìn)了對分詞的二義字段處理的過程,具備更理想的時間復(fù)雜度和切分正確率。
顯然,本領(lǐng)域的技術(shù)人員應(yīng)該理解,上述的本發(fā)明的各模塊或各步驟可以用通用的計算系統(tǒng)來實現(xiàn),它們可以集中在單個的計算系統(tǒng)上,或者分布在多個計算系統(tǒng)所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算系統(tǒng)可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲系統(tǒng)中由計算系統(tǒng)來執(zhí)行。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
應(yīng)當(dāng)理解的是,本發(fā)明的上述具體實施方式僅僅用于示例性說明或解釋本發(fā)明的原理,而不構(gòu)成對本發(fā)明的限制。因此,在不偏離本發(fā)明的精神和范圍的情況下所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。此外,本發(fā)明所附權(quán)利要求旨在涵蓋落入所附權(quán)利要求范圍和邊界、或者這種范圍和邊界的等同形式內(nèi)的全部變化和修改例。