欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種中文分詞增量學(xué)習(xí)方法

文檔序號(hào):9349930閱讀:460來(lái)源:國(guó)知局
一種中文分詞增量學(xué)習(xí)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及中文分詞領(lǐng)域。
【背景技術(shù)】
[0002] 詞是最小的具有獨(dú)立意義的語(yǔ)言成分,漢語(yǔ)是以字為基本的書寫單位,詞與詞之 間沒(méi)有明顯的區(qū)分標(biāo)記。因此,中文分詞是中文信息處理的基礎(chǔ)與關(guān)鍵,信息檢索、文本挖 掘等任務(wù)中廣泛使用。
[0003] 近年來(lái),基于統(tǒng)計(jì)的中文分詞方法在新聞?lì)I(lǐng)域已經(jīng)取得了很好的性能。但隨著互 聯(lián)網(wǎng)、社交媒體與移動(dòng)平臺(tái)的迅猛發(fā)展,當(dāng)前中文分詞模型處理的數(shù)據(jù)不單局限于新聞?lì)I(lǐng) 域,越來(lái)越多的開(kāi)放領(lǐng)域數(shù)據(jù)的加入,對(duì)中文分詞模型提出了新的要求?,F(xiàn)有的研究表明在 新聞?lì)I(lǐng)域訓(xùn)練的中文分詞模型切換到諸如論壇、微博、小說(shuō)等領(lǐng)域時(shí),性能往往嚴(yán)重下降。
[0004] 這種訓(xùn)練與測(cè)試領(lǐng)域不一致致使模型性能下降的問(wèn)題可歸納為領(lǐng)域適應(yīng)問(wèn)題。在 使用新聞?lì)I(lǐng)域訓(xùn)練的分詞模型處理開(kāi)放領(lǐng)域時(shí),新聞?lì)I(lǐng)域?yàn)樵搭I(lǐng)域,開(kāi)放領(lǐng)域?yàn)槟繕?biāo)領(lǐng)域。 出現(xiàn)這種問(wèn)題主要有兩點(diǎn)原因,一是不同領(lǐng)域數(shù)據(jù)文體不一致,例如小說(shuō)與新聞;二是不同 領(lǐng)域間領(lǐng)域詞典不一致,如金融領(lǐng)域與新聞?lì)I(lǐng)域?!禪nsupervised Domain Adaptation for Joint Segmentation and POS-Tagging》在分詞詞性標(biāo)注聯(lián)合模型上通過(guò)聚類的方式捕捉 原始領(lǐng)域與目標(biāo)領(lǐng)域的相似性,得以解決文體差異過(guò)大問(wèn)題。《Type-supervised domain adaptation for joint segmentation and pos-tagging》將目標(biāo)領(lǐng)域詞典融入模型,避免 了源領(lǐng)域與目標(biāo)領(lǐng)域詞典差異過(guò)大?!禗omain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations》提出了一種利用自然存在分詞邊界的網(wǎng)絡(luò)文本方 法,在基于CRF模型的分詞系統(tǒng)上提高了領(lǐng)域適應(yīng)性。
[0005] 上述研究表明,使用目標(biāo)領(lǐng)域切分?jǐn)?shù)據(jù)處理領(lǐng)域適應(yīng)問(wèn)題是一種高精度的方法。 同時(shí),在源領(lǐng)域切分?jǐn)?shù)據(jù)的基礎(chǔ)上加入目標(biāo)領(lǐng)域數(shù)據(jù)這類混合訓(xùn)練數(shù)據(jù)的方法可以進(jìn)一步 提高切分中文分詞準(zhǔn)確率。然而,多方面因素限制了這一類方法的適用性。其一,大規(guī)模切 分?jǐn)?shù)據(jù)往往很難公開(kāi)共享,使得混合訓(xùn)練數(shù)據(jù)的方法難以應(yīng)用于實(shí)際場(chǎng)景;其二,為了從混 合的數(shù)據(jù)中學(xué)習(xí)模型,每次數(shù)據(jù)混合需要重新訓(xùn)練模型,使得這種方法很難快速獲得模型 并部署。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明為了解決現(xiàn)有的在源領(lǐng)域切分?jǐn)?shù)據(jù)的基礎(chǔ)上加入目標(biāo)領(lǐng)域數(shù)據(jù)混合訓(xùn)練 數(shù)據(jù)的方法存在的每次數(shù)據(jù)混合都需要重新訓(xùn)練模型和數(shù)據(jù)處理量非常大時(shí)導(dǎo)致的運(yùn)算 時(shí)間長(zhǎng)、對(duì)硬件要求高的問(wèn)題。進(jìn)而提出了一種中文分詞增量學(xué)習(xí)方法。
[0007] -種中文分詞增量學(xué)習(xí)方法,包括下述步驟:
[0008] 步驟1 ;設(shè)中文語(yǔ)句集合中有N個(gè)語(yǔ)句;對(duì)中文語(yǔ)句集合中的語(yǔ)句Xn進(jìn)行人工標(biāo)注 標(biāo)記,語(yǔ)句Xn人工標(biāo)注標(biāo)記結(jié)果為y n;將已進(jìn)行人工標(biāo)記的語(yǔ)句(xn,yn)記為訓(xùn)練集,n為 語(yǔ)句的序號(hào),n= (1,2,…,吣;
[0009] 步驟2 :對(duì)中文語(yǔ)句集合中特征的權(quán)重向量W進(jìn)行初始化,將初始化的權(quán)重向量標(biāo) 記為W1= (WuWd-^Wm);其中WpW2,…,w M分別為中文語(yǔ)句集合中各個(gè)特征對(duì)應(yīng)的權(quán)重;M 表示中文語(yǔ)句集合中所有特征的個(gè)數(shù);
[0010] 步驟3 :針對(duì)中文語(yǔ)句集合中的N個(gè)語(yǔ)句,計(jì)算每個(gè)語(yǔ)句權(quán)重向量Wn;
[0011] 步驟4 :重復(fù)步驟3,進(jìn)行T次迭代操作,然后計(jì)算權(quán)重向量平均值按權(quán)重向量 W中元素求平均),
[0013] 其中,Wn't表示第t次迭代操作中第n個(gè)的語(yǔ)句對(duì)應(yīng)的權(quán)重向量;
[0014] 步驟5:當(dāng)原來(lái)的中文語(yǔ)句集合中引入增量中文語(yǔ)句集合時(shí),單獨(dú)提取出增量中 文語(yǔ)句集合,按照步驟1至步驟4的操作,求出增量中文語(yǔ)句集合的權(quán)重向量平均值:
[0016] 其中,帶有角標(biāo)add的參數(shù)均表示增量中文語(yǔ)句集合中語(yǔ)句的相應(yīng)參數(shù);
[0017] 步驟6 :根據(jù)步驟4和步驟5,按照如下公式求得中文分詞增量權(quán)重參數(shù)
[0019] 得到中文分詞增量權(quán)重參數(shù)#a即完成了中文分詞增量的學(xué)習(xí)。
[0020] 本發(fā)明具有以下有益效果:
[0021] 本發(fā)明針通過(guò)在已有模型的基礎(chǔ)上繼續(xù)訓(xùn)練,可以在不需要源領(lǐng)域切分?jǐn)?shù)據(jù)的情 況下,利用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)獲得與混合模型相近的性能,不用每次都對(duì)混合數(shù)據(jù)模 型重新訓(xùn)練,在保證性能的基礎(chǔ)上大大節(jié)省了運(yùn)算處理數(shù)據(jù)的總量,減輕了對(duì)內(nèi)存和處理 器等硬件的壓力,所以本發(fā)明對(duì)內(nèi)存和處理器等硬件的要求不高,而且也大幅度縮短運(yùn)算 處理數(shù)據(jù)的時(shí)間,相比每次數(shù)據(jù)混合都需要重新訓(xùn)練模型的方法,本發(fā)明可以節(jié)約50%以 上的處理時(shí)間,而且新增的目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)越大效果越明顯。
[0022] 同時(shí)本發(fā)明針對(duì)增量訓(xùn)練提出了一種優(yōu)化的實(shí)現(xiàn)方法,使得訓(xùn)練代價(jià)顯著降低。 并且本發(fā)明的分詞器能夠在https ://xxx開(kāi)源。
【附圖說(shuō)明】
[0023] 圖1為本發(fā)明的流程圖。
【具體實(shí)施方式】
【具體實(shí)施方式】 [0024] 一:結(jié)合圖1說(shuō)明本實(shí)施方式,
[0025] 一種中文分詞增量學(xué)習(xí)方法,包括下述步驟:
[0026] 步驟1 ;設(shè)中文語(yǔ)句集合中有N個(gè)語(yǔ)句;對(duì)中文語(yǔ)句集合中的語(yǔ)句Xn進(jìn)行人工標(biāo)注 標(biāo)記,語(yǔ)句Xn人工標(biāo)注標(biāo)記結(jié)果為y n;將已進(jìn)行人工標(biāo)記的語(yǔ)句(xn,yn)記為訓(xùn)練集,n為 語(yǔ)句的序號(hào),n= (1,2,*",N);
[0027] 步驟2 :對(duì)中文語(yǔ)句集合中特征的權(quán)重向量W進(jìn)行初始化,將初始化的權(quán)重向量標(biāo) 記為W1= (WuWd-^Wm);其中WpW2,…,w M分別為中文語(yǔ)句集合中各個(gè)特征對(duì)應(yīng)的權(quán)重;M 表示中文語(yǔ)句集合中所有特征的個(gè)數(shù);
[0028] 步驟3 :針對(duì)中文語(yǔ)句集合中的N個(gè)語(yǔ)句,計(jì)算每個(gè)語(yǔ)句權(quán)重向量Wn;
[0029] 步驟4 :重復(fù)步驟3,進(jìn)行T次迭代操作,然后計(jì)算權(quán)重向量平均值P (按權(quán)重向量 W中元素求平均),
[0031] 其中,Wn't表示第t次迭代操作中第n個(gè)的語(yǔ)句對(duì)應(yīng)的權(quán)重向量;
[0032] 步驟5:當(dāng)原來(lái)的中文語(yǔ)句集合中引入增量中文語(yǔ)句集合時(shí),單獨(dú)提取出增量中 文語(yǔ)句集合,按照步驟1至步驟4的操作,求出增量中文語(yǔ)句集合的權(quán)重向量平均值;
[0034] 其中,帶有角標(biāo)add的參數(shù)均表示增量中文語(yǔ)句集合中語(yǔ)句的相應(yīng)參數(shù);
[0035] 步驟6 :根據(jù)步驟4和步驟5,按照如下公式求得中文分詞增量權(quán)重參數(shù)A、;
[0037] 得到中文分詞增量權(quán)重參數(shù):?即完成了中文分詞增量的學(xué)習(xí)。
[0038] 將此學(xué)習(xí)結(jié)果應(yīng)用于開(kāi)放的領(lǐng)域數(shù)據(jù)的分詞過(guò)程,取得了良好的性能。
[0039] 本發(fā)明針通過(guò)在已有模型的基礎(chǔ)上繼續(xù)訓(xùn)練,可以在不需要源領(lǐng)域切分?jǐn)?shù)據(jù)的情 況下,利用少量目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)獲得與混合模型相近的性能,不用每次都對(duì)混合數(shù)據(jù)模 型重新訓(xùn)練,在保證性能的基礎(chǔ)上大大節(jié)省了運(yùn)算處理數(shù)據(jù)的總量,減輕了對(duì)內(nèi)存和處理 器等硬件的壓力,所以本發(fā)明對(duì)內(nèi)存和處理器等硬件的要求不高,而且也大幅度縮短運(yùn)算 處理數(shù)據(jù)的時(shí)間,相比每次數(shù)據(jù)混合都需要重新訓(xùn)練模型的方法,本發(fā)明可以節(jié)約50%以 上的處理時(shí)間,而且新增的目標(biāo)領(lǐng)域標(biāo)注數(shù)據(jù)越大效果越明顯。
[0040] 同時(shí)本發(fā)明針對(duì)增量訓(xùn)練提出了一種優(yōu)化的實(shí)現(xiàn)方法,使得訓(xùn)練代價(jià)顯著降低。 并且本發(fā)明的分詞器能夠在https ://xxx開(kāi)源。
【具體實(shí)施方式】 [0041] 二:
[0042] 本實(shí)施方式步驟3所述的針對(duì)中文語(yǔ)句集合中的N個(gè)語(yǔ)句計(jì)算每個(gè)語(yǔ)句權(quán)重向量 Wn的具體步驟如下:
[0043] 步驟3. 1 :按照中文分詞的方式對(duì)語(yǔ)句\進(jìn)行切分,切分過(guò)程有多種切分方式,每 種切分方式記作一種可能出現(xiàn)的標(biāo)記結(jié)果y' n;
[0044] 針對(duì)標(biāo)記結(jié)果yn,根據(jù)特征抽取函數(shù)? (xn, y ' n),抽取特征向量(A, f2,… ,fM);
[0045] 步驟3. 2 :根據(jù)如下公式,計(jì)算語(yǔ)句xn被切分為標(biāo)記結(jié)果y' "時(shí)的分?jǐn)?shù)score ;
[0046] score =W1 ? !^+W2 ? f2+."+wM? fM=Wn?C> (xn,y ' n)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
临海市| 延边| 韶关市| 积石山| 藁城市| 塘沽区| 渭南市| 松江区| 福鼎市| 永登县| 临高县| 繁昌县| 宝兴县| 桃源县| 义马市| 滨州市| 休宁县| 集安市| 建水县| 廊坊市| 麻城市| 高尔夫| 阳信县| 布尔津县| 滦南县| 蒙城县| 秭归县| 虎林市| 安达市| 固安县| 景宁| 凤台县| 基隆市| 宝兴县| 页游| 蒙自县| 延长县| 定西市| 牡丹江市| 屏南县| 玉门市|