1.基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法的具體步驟如下:
Step1、首先構(gòu)建初始訓(xùn)練語(yǔ)料、擴(kuò)展語(yǔ)料和測(cè)試語(yǔ)料;
Step2、然后利用構(gòu)建的初始訓(xùn)練語(yǔ)料基于改進(jìn)的Nivre算法訓(xùn)練出兩個(gè)依存分析弱學(xué)習(xí)器S1和S2作為兩個(gè)充分冗余的視圖;
Step3、再利用訓(xùn)練出的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型;
Step4、最后利用構(gòu)建的越南語(yǔ)依存樹庫(kù)模型對(duì)測(cè)試語(yǔ)料進(jìn)行依存分析測(cè)試并最終構(gòu)建出越南語(yǔ)依存樹庫(kù)。
2.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先利用爬蟲程序爬取若干新聞粗語(yǔ)料,得到越南語(yǔ)文本級(jí)語(yǔ)料樣本;
Step1.2、然后人工對(duì)Step1.1得到的越南語(yǔ)文本級(jí)語(yǔ)料樣本進(jìn)行反復(fù)加工處理,得到標(biāo)準(zhǔn)的越南語(yǔ)句子,從而形成越南語(yǔ)句子級(jí)語(yǔ)料樣本;
Step1.3、其次通過(guò)分析越南語(yǔ)語(yǔ)法,制定出符合越南語(yǔ)語(yǔ)言特點(diǎn)的14種依存關(guān)系標(biāo)記規(guī)范表,該依存關(guān)系標(biāo)記規(guī)范表包含兩個(gè)內(nèi)容:一是在一個(gè)越南語(yǔ)句子中,哪些詞語(yǔ)之間會(huì)存在依存關(guān)系;二是如何定義它們的依存關(guān)系類型;
Step1.4、然后利用Step1.3中得到的越南語(yǔ)依存關(guān)系標(biāo)記規(guī)范表將Step1.2中得到的一部分越南語(yǔ)句子級(jí)語(yǔ)料樣本人工地進(jìn)行越南語(yǔ)依存關(guān)系標(biāo)記,并進(jìn)行反復(fù)校對(duì),得到初始訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,將剩下的一部分未標(biāo)記的越南語(yǔ)句子級(jí)語(yǔ)料樣本用作實(shí)驗(yàn)擴(kuò)展語(yǔ)料;
Step1.5、最后進(jìn)行特征的選??;選取當(dāng)前詞W0、其前一個(gè)詞W-1、前兩個(gè)詞W-2、后一個(gè)詞W1、后兩個(gè)詞W2,以及當(dāng)前詞的詞性POS0、其前一個(gè)詞的詞性POS-1、前兩個(gè)詞的詞性POS-2、后一個(gè)詞的詞性POS1、后兩個(gè)詞的詞性POS2作為特征。
3.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step3的具體步驟為:
Step3.1、首先從Step1得到的擴(kuò)展語(yǔ)料中隨機(jī)抽取少量越南語(yǔ)句子作為集合A和集合B, 再分別用Step2訓(xùn)練得到的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)集合A和集合B中的越南語(yǔ)句子進(jìn)行依存預(yù)測(cè);
Step3.2、然后從擴(kuò)展語(yǔ)料中選取100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位,先用弱學(xué)習(xí)器S1對(duì)這100個(gè)句子進(jìn)行預(yù)測(cè),然后采用公式1挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記,接著再把這些已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S2中訓(xùn)練更新;
其中,H1為K-Best結(jié)果中任意兩個(gè)不同結(jié)果的分值差的和的倒數(shù),scorei和scorej是弱學(xué)習(xí)器S1對(duì)第i個(gè)和第j個(gè)句子預(yù)測(cè)結(jié)果的得分;
Step3.3、其次再繼續(xù)以新的100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位,用弱學(xué)習(xí)器S2進(jìn)行預(yù)測(cè),再根據(jù)公式1從中挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記,接著再將這20個(gè)已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S1中訓(xùn)練更新;
Step3.4、如此反復(fù)循環(huán)Step3.2和Step3.3,直到弱學(xué)習(xí)器S1和弱學(xué)習(xí)器S2的參數(shù)不變?yōu)橹梗创龢?gòu)建的越南語(yǔ)依存樹庫(kù)模型的參數(shù)收斂為止;
Step3.5、再利用兩個(gè)弱學(xué)習(xí)器對(duì)Step1得到的擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型。
4.根據(jù)權(quán)利要求3所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step3.5中,兩個(gè)弱學(xué)習(xí)器需要對(duì)擴(kuò)展語(yǔ)料中的句子進(jìn)行預(yù)測(cè),進(jìn)而得到句子相應(yīng)的預(yù)測(cè)結(jié)果,因?yàn)轭A(yù)測(cè)結(jié)果是否一致是判斷依存分析結(jié)果是否正確的前提;其求取預(yù)測(cè)結(jié)果的具體步驟如下所示:
在構(gòu)建越南語(yǔ)依存樹庫(kù)模型的過(guò)程中,若兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果一致,則認(rèn)為依存分析的結(jié)果是正確的;若結(jié)果不一致,則用公式2和公式3來(lái)計(jì)算置信度;
其中,公式2中:score1表示弱學(xué)習(xí)器對(duì)第1個(gè)句子預(yù)測(cè)結(jié)果的得分,score2表示弱學(xué)習(xí)器對(duì)第2個(gè)句子預(yù)測(cè)結(jié)果的得分,H2表示K-Best置信度判別方法中score1相對(duì)于score2的增長(zhǎng)率的倒數(shù);公式3中:表示scorei相對(duì)于k個(gè)句子預(yù)測(cè)結(jié)果得分總和的比值;其中,scorei表示弱學(xué)習(xí)器對(duì)第i個(gè)句子預(yù)測(cè)結(jié)果的得分,scorej表示弱學(xué)習(xí)器對(duì)第j個(gè)句子預(yù) 測(cè)結(jié)果的得分,k表示句子的個(gè)數(shù),H3表示k個(gè)結(jié)果的熵;
Step3.6、最后用公式1、公式2和公式3分別對(duì)兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果打取平均分,并選取分值較高的作為正確的預(yù)測(cè)結(jié)果。