欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法

文檔序號(hào):6490046閱讀:284來源:國(guó)知局
一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法
【專利摘要】本發(fā)明公開了一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法,涉及機(jī)器學(xué)習(xí)領(lǐng)域和縮略詞識(shí)別任務(wù)。本發(fā)明將傳統(tǒng)的縮略詞與擴(kuò)展解釋對(duì)的識(shí)別任務(wù)建模成一個(gè)序列標(biāo)記任務(wù),并采用條件隨機(jī)場(chǎng)這一結(jié)構(gòu)化模型來識(shí)別縮略詞的擴(kuò)展解釋。針對(duì)縮略詞識(shí)別任務(wù)的具體特點(diǎn),發(fā)明設(shè)計(jì)并抽取了三類特征,包括拼寫特征、與縮略詞的對(duì)應(yīng)特征、上下文相關(guān)特征,并對(duì)模型進(jìn)行了改進(jìn)。所設(shè)計(jì)的模型考慮了縮略詞擴(kuò)展解釋的上下文信息和結(jié)構(gòu)信息,并具有潛在稀疏特征學(xué)習(xí)能力,發(fā)明進(jìn)一步設(shè)計(jì)了多種特征函數(shù)及其組合方法,從而更好地從文本序列中識(shí)別出可能的擴(kuò)展解釋。
【專利說明】一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域和縮略詞識(shí)別任務(wù),尤其涉及一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法。
【背景技術(shù)】
[0002]目前,針對(duì)英文縮略詞及其解釋的自動(dòng)識(shí)別與抽取方法主要有基于規(guī)則的方法和全監(jiān)督的機(jī)器學(xué)習(xí)方法。這些方法通常要求在文本中必須出現(xiàn)縮略詞,然后設(shè)計(jì)不同的規(guī)則和特征在該縮略詞附近某窗口大小內(nèi)匹配可能出現(xiàn)的擴(kuò)展解釋候選。
[0003]發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)方法中至少存在以下缺點(diǎn)和不足:
[0004]I)歸納縮略詞抽取規(guī)則復(fù)雜,耗費(fèi)人力資源。
[0005]2)忽略了大多數(shù)的縮略詞及其擴(kuò)展解釋并不成對(duì)出現(xiàn)這一現(xiàn)象。若是爬取的源數(shù)據(jù)中未包含同時(shí)出現(xiàn)的縮略詞與擴(kuò)展解釋,或縮略詞與擴(kuò)展解釋并未在小窗口中同時(shí)出現(xiàn),則將遺漏可能的擴(kuò)展解釋。
[0006]3)另外,傳統(tǒng)方法通常采用特征定義的方式利用這一上下文語境信息,而從未使用模型來表示文本的上下文關(guān)系。

【發(fā)明內(nèi)容】

[0007]本發(fā)明提供了一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別方法。本發(fā)明將傳統(tǒng)的縮略詞與擴(kuò)展解釋對(duì)的識(shí)別任務(wù)建模成一個(gè)序列標(biāo)記任務(wù),并采用條件隨機(jī)場(chǎng)(CRF,Conditional Random Fields)來識(shí)別縮略詞的擴(kuò)展解釋。CRF模型考慮了縮略詞擴(kuò)展解釋的上下文信息和結(jié)構(gòu)信息,可更好地從文本序列中識(shí)別出可能的擴(kuò)展解釋。所述方法包括將縮略詞擴(kuò)展解釋識(shí)別任務(wù)建模為序列識(shí)別問題;利用CRF來識(shí)別縮略詞擴(kuò)展解釋;具有潛在稀疏特征學(xué)習(xí)能力的條件隨機(jī)場(chǎng)的方法;研究多種特征函數(shù)的設(shè)計(jì)及其組合方法;縮略詞與其對(duì)應(yīng)的拓展解釋的三類特征的設(shè)計(jì)及應(yīng)用。詳見下文描述:
[0008]所述將縮略詞擴(kuò)展解釋識(shí)別任務(wù)建模為序列識(shí)別問題,包括縮略詞的擴(kuò)展解釋識(shí)別任務(wù),序列標(biāo)注模型,序列識(shí)別標(biāo)簽設(shè)計(jì)。
[0009]所述縮略詞的擴(kuò)展解釋識(shí)別任務(wù),是指在序列文本中識(shí)別出解釋某縮略詞的短語的過程。因?yàn)閱为?dú)識(shí)別出擴(kuò)展解釋短語中的一個(gè)或部分詞,并不能完整地解釋縮略詞,而只有全部識(shí)別出擴(kuò)展解釋,才能解釋縮略詞的意義,所以該任務(wù)可認(rèn)為是序列識(shí)別的過程。由于縮略詞的擴(kuò)展解釋具有上下文的序列特征,因此本發(fā)明將其建模為序列標(biāo)注模型,而不是簡(jiǎn)單的對(duì)單個(gè)詞進(jìn)行標(biāo)注。
[0010]所述序列標(biāo)注模型定義為,給定一個(gè)縮略詞q和一個(gè)包含序列單詞X = (X1,...,χη)的句子,從所有可能的序列標(biāo)注中挑選出最有可能的序列標(biāo)注y = (yi,...,yn)。因此,將從解得的標(biāo)簽序列y中得知是否該句子包含與縮略詞對(duì)應(yīng)的候選解釋,無需縮略詞與擴(kuò)展解釋在文中成對(duì)出現(xiàn)。
[0011]所述序列識(shí)別標(biāo)簽設(shè)計(jì),在自然語言任務(wù)中,常用兩種NP標(biāo)簽來表示一個(gè)連續(xù)的短語(chunk):短語的開始(B-NP),短語的其他詞(1-NP)。在本發(fā)明中,發(fā)明人也用“B”來表示擴(kuò)展解釋的開始,“I”來表示擴(kuò)展解釋中的其他詞,而其他不相干的詞則標(biāo)記為“O”。
[0012]所述利用CRF來識(shí)別縮略詞擴(kuò)展解釋,指CRF在建模時(shí)考慮了數(shù)據(jù)的內(nèi)容信息和數(shù)據(jù)之間標(biāo)簽的結(jié)構(gòu)和動(dòng)態(tài)變化等信息,在序列標(biāo)注任務(wù)中,CRF要學(xué)習(xí)一個(gè)從觀測(cè)序列X = (X1,..., χη)到標(biāo)注序列y = (Y1,..., yn)的函數(shù)映射關(guān)系
【權(quán)利要求】
1.一種基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別系統(tǒng),其特征在于:將傳統(tǒng)的縮略詞與擴(kuò)展解釋對(duì)的識(shí)別任務(wù)建模成一個(gè)序列標(biāo)記任務(wù),并采用條件隨機(jī)場(chǎng)(CRF, ConditionalRandom Fields)來識(shí)別縮略詞的擴(kuò)展解釋。所述方法包括將縮略詞擴(kuò)展解釋識(shí)別任務(wù)建模為序列識(shí)別問題,用NP標(biāo)簽來標(biāo)注一個(gè)序列文本,用“B”來表示擴(kuò)展解釋的開始,“ I ”來表示擴(kuò)展解釋中的其他詞,而其他不相干的詞則標(biāo)記為“O” ;所述利用CRF來識(shí)別縮略詞擴(kuò)展解釋,學(xué)習(xí)從觀測(cè)文本序列的特征矩陣X = (X1,...,Xn)到標(biāo)注序列向量I = (Υι?...,yn)的函數(shù)映射關(guān)系
2.根據(jù)權(quán)利要求1所述的基于條件隨機(jī)場(chǎng)的縮略詞擴(kuò)展解釋識(shí)別系統(tǒng),其特征在于將傳統(tǒng)的縮略詞與擴(kuò)展解釋對(duì)的識(shí)別任務(wù)建模成一個(gè)序列標(biāo)記任務(wù)。 所述對(duì)縮略詞的擴(kuò)展解釋識(shí)別任務(wù)建模成序列標(biāo)注任務(wù),是指將從序列文本中識(shí)別出解釋某縮略詞的短語這一過程建模為從文本中抽取序列特征,為序列特征自動(dòng)標(biāo)注標(biāo)簽。縮略詞的序列標(biāo)注模型定義為,給定一個(gè)縮略詞q和一個(gè)包含序列單詞X= (X1,..., Xn)的句子,從所有可能的序列標(biāo)注中挑選出最有可能的序列標(biāo)注y= (yi,...,yn)。所述序列識(shí)別標(biāo)簽設(shè)計(jì),用“B”來表示擴(kuò)展解釋的開始,“ I ”來表示擴(kuò)展解釋中的其他詞,而其他不相干的詞則標(biāo)記為“O”。
3.根據(jù)權(quán)利要求1所述的利用CRF來識(shí)別縮略詞擴(kuò)展解釋,其特征在于, 學(xué)習(xí)從觀測(cè)文本序列的特征矩陣X = (X1,...,χη)到標(biāo)注序列向量I = (Y1,...,yn)的函數(shù)映射關(guān)系,從中學(xué)習(xí)最能識(shí)別出縮略詞擴(kuò)展解釋的參數(shù),

4.根據(jù)權(quán)利要求1所述具有潛在稀疏特征學(xué)習(xí)能力的條件隨機(jī)場(chǎng)模型SNCRF,其特征在于,在CRF中引入了神經(jīng)網(wǎng)絡(luò)算子,從稀疏的原始數(shù)據(jù)特征中學(xué)習(xí)到潛在的有效特征。 SNCRF在CRF中引入一個(gè)神經(jīng)網(wǎng)絡(luò)算子δ (xt ;α),以便從稀疏的原始數(shù)據(jù)特征中學(xué)習(xí)到潛在的有效特征。具體方法如下, 考慮一組序列觀測(cè)值
5.根據(jù)權(quán)利要求1所述多種特征函數(shù)的設(shè)計(jì)及其組合方法,其特征在于,本地的狀態(tài)特征函數(shù),邊的轉(zhuǎn)移特征函數(shù),同時(shí)考慮邊和節(jié)點(diǎn)的特征函數(shù)及其組合。 所述狀態(tài)特征函數(shù)僅計(jì)算單個(gè)節(jié)點(diǎn)的特征值,如下公式所示,

6.根據(jù)權(quán)利要求1所述縮略詞與其對(duì)應(yīng)的拓展解釋的三類特征,其特征在于文本序列的拼寫特征,與縮略詞的對(duì)應(yīng)特征,上下文相關(guān)特征。 拼寫特征描述的是一個(gè)需標(biāo)注的目標(biāo)單詞本身的拼寫結(jié)構(gòu)特征,如單詞中是否存在大寫字母,是否存在數(shù)字,或者是否存在除字母數(shù)字外的特殊符號(hào)。這類特征非常重要,因?yàn)槿藗兂S眠@類拼寫信息來強(qiáng)調(diào)縮略詞的擴(kuò)展解釋。 與縮略詞的對(duì)應(yīng)特征是描述需標(biāo)注的單詞與給定縮略詞之間的對(duì)應(yīng)關(guān)系,如該詞的首字母是否出現(xiàn)在縮略詞中,該詞的大寫字母或特殊字母是否出現(xiàn)在縮略詞中。 上下文相關(guān)特征描述的是需標(biāo)注單詞周圍的其他單詞與縮略詞的對(duì)應(yīng)關(guān)系,本發(fā)明設(shè)置了窗口大小為3的文本窗口,包括需標(biāo)注的目標(biāo)單詞本身,該詞的前一個(gè)單詞,該詞的后一個(gè)單詞。判斷當(dāng)目標(biāo)單詞的首字母或大寫字母在縮略詞t位置中時(shí)它的前一個(gè)單詞的首字母或大寫字母是否在縮略詞中t-Ι的位置;判斷當(dāng)目標(biāo)單詞的首字母或大寫字母在縮略詞t位置中時(shí)它的后一個(gè)單詞的首字母或大寫字母是否在縮略詞中t+Ι的位置。 以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同`替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【文檔編號(hào)】G06F17/30GK103778142SQ201210404108
【公開日】2014年5月7日 申請(qǐng)日期:2012年10月23日 優(yōu)先權(quán)日:2012年10月23日
【發(fā)明者】劉杰, 陳季夢(mèng), 黃亞樓, 劉天筆, 王嫄 申請(qǐng)人:南開大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
花莲县| 呼和浩特市| 甘南县| 都匀市| 禹州市| 尼勒克县| 称多县| 阆中市| 吉水县| 文化| 凤台县| 临武县| 东乡县| 小金县| 岳池县| 保亭| 巴中市| 宜兰市| 两当县| 乌海市| 襄垣县| 丰顺县| 乌鲁木齐县| 孟村| 合阳县| 图片| 天镇县| 德兴市| 那坡县| 灵山县| 阆中市| 余江县| 栾城县| 盐源县| 米脂县| 莫力| 定边县| 定西市| 伊吾县| 西林县| 阿鲁科尔沁旗|