欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法與流程

文檔序號(hào):12470055閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法的具體步驟如下:

Step1、首先構(gòu)建初始訓(xùn)練語(yǔ)料、擴(kuò)展語(yǔ)料和測(cè)試語(yǔ)料;

Step2、然后利用構(gòu)建的初始訓(xùn)練語(yǔ)料基于改進(jìn)的Nivre算法訓(xùn)練出兩個(gè)依存分析弱學(xué)習(xí)器S1和S2作為兩個(gè)充分冗余的視圖;

Step3、再利用訓(xùn)練出的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型;

Step4、最后利用構(gòu)建的越南語(yǔ)依存樹庫(kù)模型對(duì)測(cè)試語(yǔ)料進(jìn)行依存分析測(cè)試并最終構(gòu)建出越南語(yǔ)依存樹庫(kù)。

2.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step1的具體步驟為:

Step1.1、首先利用爬蟲程序爬取若干新聞粗語(yǔ)料,得到越南語(yǔ)文本級(jí)語(yǔ)料樣本;

Step1.2、然后人工對(duì)Step1.1得到的越南語(yǔ)文本級(jí)語(yǔ)料樣本進(jìn)行反復(fù)加工處理,得到標(biāo)準(zhǔn)的越南語(yǔ)句子,從而形成越南語(yǔ)句子級(jí)語(yǔ)料樣本;

Step1.3、其次通過(guò)分析越南語(yǔ)語(yǔ)法,制定出符合越南語(yǔ)語(yǔ)言特點(diǎn)的14種依存關(guān)系標(biāo)記規(guī)范表,該依存關(guān)系標(biāo)記規(guī)范表包含兩個(gè)內(nèi)容:一是在一個(gè)越南語(yǔ)句子中,哪些詞語(yǔ)之間會(huì)存在依存關(guān)系;二是如何定義它們的依存關(guān)系類型;

Step1.4、然后利用Step1.3中得到的越南語(yǔ)依存關(guān)系標(biāo)記規(guī)范表將Step1.2中得到的一部分越南語(yǔ)句子級(jí)語(yǔ)料樣本人工地進(jìn)行越南語(yǔ)依存關(guān)系標(biāo)記,并進(jìn)行反復(fù)校對(duì),得到初始訓(xùn)練語(yǔ)料和測(cè)試語(yǔ)料,將剩下的一部分未標(biāo)記的越南語(yǔ)句子級(jí)語(yǔ)料樣本用作實(shí)驗(yàn)擴(kuò)展語(yǔ)料;

Step1.5、最后進(jìn)行特征的選??;選取當(dāng)前詞W0、其前一個(gè)詞W-1、前兩個(gè)詞W-2、后一個(gè)詞W1、后兩個(gè)詞W2,以及當(dāng)前詞的詞性POS0、其前一個(gè)詞的詞性POS-1、前兩個(gè)詞的詞性POS-2、后一個(gè)詞的詞性POS1、后兩個(gè)詞的詞性POS2作為特征。

3.根據(jù)權(quán)利要求1所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step3的具體步驟為:

Step3.1、首先從Step1得到的擴(kuò)展語(yǔ)料中隨機(jī)抽取少量越南語(yǔ)句子作為集合A和集合B, 再分別用Step2訓(xùn)練得到的兩個(gè)弱學(xué)習(xí)器S1和S2對(duì)集合A和集合B中的越南語(yǔ)句子進(jìn)行依存預(yù)測(cè);

Step3.2、然后從擴(kuò)展語(yǔ)料中選取100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位,先用弱學(xué)習(xí)器S1對(duì)這100個(gè)句子進(jìn)行預(yù)測(cè),然后采用公式1挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記,接著再把這些已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S2中訓(xùn)練更新;

其中,H1為K-Best結(jié)果中任意兩個(gè)不同結(jié)果的分值差的和的倒數(shù),scorei和scorej是弱學(xué)習(xí)器S1對(duì)第i個(gè)和第j個(gè)句子預(yù)測(cè)結(jié)果的得分;

Step3.3、其次再繼續(xù)以新的100個(gè)未標(biāo)記的越南語(yǔ)句子為一個(gè)單位,用弱學(xué)習(xí)器S2進(jìn)行預(yù)測(cè),再根據(jù)公式1從中挑選出20個(gè)置信度高的句子進(jìn)行標(biāo)記,接著再將這20個(gè)已標(biāo)記過(guò)的句子加入到弱學(xué)習(xí)器S1中訓(xùn)練更新;

Step3.4、如此反復(fù)循環(huán)Step3.2和Step3.3,直到弱學(xué)習(xí)器S1和弱學(xué)習(xí)器S2的參數(shù)不變?yōu)橹梗创龢?gòu)建的越南語(yǔ)依存樹庫(kù)模型的參數(shù)收斂為止;

Step3.5、再利用兩個(gè)弱學(xué)習(xí)器對(duì)Step1得到的擴(kuò)展語(yǔ)料進(jìn)行依存分析并構(gòu)建越南語(yǔ)依存樹庫(kù)模型。

4.根據(jù)權(quán)利要求3所述的基于改進(jìn)的Nivre算法構(gòu)建越南語(yǔ)依存樹庫(kù)的方法,其特征在于:所述步驟Step3.5中,兩個(gè)弱學(xué)習(xí)器需要對(duì)擴(kuò)展語(yǔ)料中的句子進(jìn)行預(yù)測(cè),進(jìn)而得到句子相應(yīng)的預(yù)測(cè)結(jié)果,因?yàn)轭A(yù)測(cè)結(jié)果是否一致是判斷依存分析結(jié)果是否正確的前提;其求取預(yù)測(cè)結(jié)果的具體步驟如下所示:

在構(gòu)建越南語(yǔ)依存樹庫(kù)模型的過(guò)程中,若兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果一致,則認(rèn)為依存分析的結(jié)果是正確的;若結(jié)果不一致,則用公式2和公式3來(lái)計(jì)算置信度;

其中,公式2中:score1表示弱學(xué)習(xí)器對(duì)第1個(gè)句子預(yù)測(cè)結(jié)果的得分,score2表示弱學(xué)習(xí)器對(duì)第2個(gè)句子預(yù)測(cè)結(jié)果的得分,H2表示K-Best置信度判別方法中score1相對(duì)于score2的增長(zhǎng)率的倒數(shù);公式3中:表示scorei相對(duì)于k個(gè)句子預(yù)測(cè)結(jié)果得分總和的比值;其中,scorei表示弱學(xué)習(xí)器對(duì)第i個(gè)句子預(yù)測(cè)結(jié)果的得分,scorej表示弱學(xué)習(xí)器對(duì)第j個(gè)句子預(yù) 測(cè)結(jié)果的得分,k表示句子的個(gè)數(shù),H3表示k個(gè)結(jié)果的熵;

Step3.6、最后用公式1、公式2和公式3分別對(duì)兩個(gè)弱學(xué)習(xí)器的預(yù)測(cè)結(jié)果打取平均分,并選取分值較高的作為正確的預(yù)測(cè)結(jié)果。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
浪卡子县| 红安县| 肥东县| 永安市| 康定县| 巴南区| 大埔区| 闻喜县| 吴忠市| 安阳市| 渑池县| 黄梅县| 封丘县| 兴义市| 堆龙德庆县| 文化| 武山县| 揭东县| 汤原县| 且末县| 将乐县| 乐业县| 漾濞| 河间市| 全椒县| 红原县| 阜新| 东乌| 郁南县| 灵石县| 新竹县| 南华县| 盐亭县| 张家界市| 兴文县| 府谷县| 深泽县| 常宁市| 大埔县| 黎平县| 新津县|