基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法與流程

文檔序號(hào)：12470055閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法與流程

技術(shù)特征：

1.基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法，其特征在于：所述基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法的具體步驟如下：

Step1、首先構(gòu)建初始訓(xùn)練語(yǔ)料、擴(kuò)展語(yǔ)料和測(cè)試語(yǔ)料；

Step2、然后利用構(gòu)建的初始訓(xùn)練語(yǔ)料基于改進(jìn)的Nivre算法訓(xùn)練出兩個(gè)依存分析弱學(xué)習(xí)器S1和S2作為兩個(gè)充分冗余的視圖；

Step3、再利用訓(xùn)練出的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型；

Step4、最后利用構(gòu)建的越南語(yǔ)依存樹庫(kù)模型對(duì)測(cè)試語(yǔ)料進(jìn)行依存分析測(cè)試并最終構(gòu)建出越南語(yǔ)依存樹庫(kù)。

2.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法，其特征在于：所述步驟Step1的具體步驟為：

Step1.1、首先利用爬蟲程序爬取若干新聞粗語(yǔ)料，得到越南語(yǔ)文本級(jí)語(yǔ)料樣本；

Step1.2、然后人工對(duì)Step1.1得到的越南語(yǔ)文本級(jí)語(yǔ)料樣本進(jìn)行反復(fù)加工處理，得到標(biāo)準(zhǔn)的越南語(yǔ)句子，從而形成越南語(yǔ)句子級(jí)語(yǔ)料樣本；

Step1.3、其次通過(guò)分析越南語(yǔ)語(yǔ)法，制定出符合越南語(yǔ)語(yǔ)言特點(diǎn)的14種依存關(guān)系標(biāo)記規(guī)范表，該依存關(guān)系標(biāo)記規(guī)范表包含兩個(gè)內(nèi)容：一是在一個(gè)越南語(yǔ)句子中，哪些詞語(yǔ)之間會(huì)存在依存關(guān)系；二是如何定義它們的依存關(guān)系類型；

Step1.4、然后利用Step1.3中得到的越南語(yǔ)依存關(guān)系標(biāo)記規(guī)范表將Step1.2中得到的一部分越南語(yǔ)句子級(jí)語(yǔ)料樣本人工地進(jìn)行越南語(yǔ)依存關(guān)系標(biāo)記，并進(jìn)行反復(fù)校對(duì)，得到初始訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料，將剩下的一部分未標(biāo)記的越南語(yǔ)句子級(jí)語(yǔ)料樣本用作實(shí)驗(yàn)擴(kuò)展語(yǔ)料；

Step1.5、最后進(jìn)行特征的選??；選取當(dāng)前詞W0、其前一個(gè)詞W-1、前兩個(gè)詞W-2、后一個(gè)詞W1、后兩個(gè)詞W2，以及當(dāng)前詞的詞性POS0、其前一個(gè)詞的詞性POS-1、前兩個(gè)詞的詞性POS-2、后一個(gè)詞的詞性POS1、后兩個(gè)詞的詞性POS2作為特征。

3.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法，其特征在于：所述步驟Step3的具體步驟為：

Step3.1、首先從Step1得到的擴(kuò)展語(yǔ)料中隨機(jī)抽取少量越南語(yǔ)句子作為集合A和集合B，再分別用Step2訓(xùn)練得到的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)集合A和集合B中的越南語(yǔ)句子進(jìn)行依存預(yù)測(cè)；

Step3.2、然后從擴(kuò)展語(yǔ)料中選取100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位，先用弱學(xué)習(xí)器S1對(duì)這100個(gè)句子進(jìn)行預(yù)測(cè)，然后采用公式1挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記，接著再把這些已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S2中訓(xùn)練更新；

其中，H1為K-Best結(jié)果中任意兩個(gè)不同結(jié)果的分值差的和的倒數(shù)，score_i和score_j是弱學(xué)習(xí)器S1對(duì)第i個(gè)和第j個(gè)句子預(yù)測(cè)結(jié)果的得分；

Step3.3、其次再繼續(xù)以新的100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位，用弱學(xué)習(xí)器S2進(jìn)行預(yù)測(cè)，再根據(jù)公式1從中挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記，接著再將這20個(gè)已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S1中訓(xùn)練更新；

Step3.4、如此反復(fù)循環(huán)Step3.2和Step3.3，直到弱學(xué)習(xí)器S1和弱學(xué)習(xí)器S2的參數(shù)不變?yōu)橹梗创龢?gòu)建的越南語(yǔ)依存樹庫(kù)模型的參數(shù)收斂為止；

Step3.5、再利用兩個(gè)弱學(xué)習(xí)器對(duì)Step1得到的擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型。

4.根據(jù)權(quán)利要求3所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法，其特征在于：所述步驟Step3.5中，兩個(gè)弱學(xué)習(xí)器需要對(duì)擴(kuò)展語(yǔ)料中的句子進(jìn)行預(yù)測(cè)，進(jìn)而得到句子相應(yīng)的預(yù)測(cè)結(jié)果，因?yàn)轭A(yù)測(cè)結(jié)果是否一致是判斷依存分析結(jié)果是否正確的前提；其求取預(yù)測(cè)結(jié)果的具體步驟如下所示：

在構(gòu)建越南語(yǔ)依存樹庫(kù)模型的過(guò)程中，若兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果一致，則認(rèn)為依存分析的結(jié)果是正確的；若結(jié)果不一致，則用公式2和公式3來(lái)計(jì)算置信度；

其中，公式2中：score₁表示弱學(xué)習(xí)器對(duì)第1個(gè)句子預(yù)測(cè)結(jié)果的得分，score₂表示弱學(xué)習(xí)器對(duì)第2個(gè)句子預(yù)測(cè)結(jié)果的得分，H2表示K-Best置信度判別方法中score₁相對(duì)于score₂的增長(zhǎng)率的倒數(shù)；公式3中：表示scorei相對(duì)于k個(gè)句子預(yù)測(cè)結(jié)果得分總和的比值；其中，score_i表示弱學(xué)習(xí)器對(duì)第i個(gè)句子預(yù)測(cè)結(jié)果的得分，score_j表示弱學(xué)習(xí)器對(duì)第j個(gè)句子預(yù) 測(cè)結(jié)果的得分，k表示句子的個(gè)數(shù)，H3表示k個(gè)結(jié)果的熵；

Step3.6、最后用公式1、公式2和公式3分別對(duì)兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果打取平均分，并選取分值較高的作為正確的預(yù)測(cè)結(jié)果。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

改進(jìn)的vibe算法相關(guān)技術(shù)

vibe算法改進(jìn)相關(guān)技術(shù)

改進(jìn)4.0算法相關(guān)技術(shù)

改進(jìn)遺傳算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法與流程