欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于混合模型的命名實(shí)體識(shí)別方法與流程

文檔序號(hào):11155020閱讀:493來(lái)源:國(guó)知局
一種基于混合模型的命名實(shí)體識(shí)別方法與制造工藝

本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,具體涉及一種基于混合模型的命名實(shí)體識(shí)別方法。



背景技術(shù):

伴隨著互聯(lián)網(wǎng)、云計(jì)算、移動(dòng)媒體和物聯(lián)網(wǎng)等新興網(wǎng)絡(luò)的應(yīng)用,催生了大量用戶創(chuàng)造內(nèi)容的Web2.0技術(shù),使Web應(yīng)用進(jìn)入大數(shù)據(jù)時(shí)代,搜索引擎、電子商務(wù)、社交網(wǎng)站等一系列互聯(lián)網(wǎng)衍生業(yè)務(wù)迅速發(fā)展?,F(xiàn)時(shí)代的大數(shù)據(jù)具有4個(gè)特點(diǎn),分別為數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)多樣性,數(shù)據(jù)產(chǎn)生的快,具有很高的商業(yè)價(jià)值。針對(duì)大量數(shù)據(jù),并不是所有信息都是有用的數(shù)據(jù)。這就導(dǎo)致大量無(wú)效數(shù)據(jù)與有價(jià)值的數(shù)據(jù)并存的現(xiàn)象出現(xiàn)。因此,在大數(shù)據(jù)時(shí)代如何從龐大的數(shù)據(jù)集合中找尋出有價(jià)值的數(shù)據(jù)成為目前信息技術(shù)的主要挑戰(zhàn)。信息抽取技術(shù)正是在這個(gè)背景下產(chǎn)生的。

信息抽取技術(shù)的起源可以追溯到上個(gè)世紀(jì)70年代,第一個(gè)商用信息抽取系統(tǒng)JASPER應(yīng)用于路透社公司,可以為金融交易員提供實(shí)時(shí)財(cái)經(jīng)新聞。20世紀(jì)80年代末開(kāi)始,消息理解系列會(huì)議的召開(kāi)使得信息抽取研究迅速發(fā)展,使得信息抽取技術(shù)從特定領(lǐng)域走向了開(kāi)放領(lǐng)域,從特定格式的數(shù)據(jù)類型到無(wú)結(jié)構(gòu)化的文本數(shù)據(jù)類型,從新聞、郵件、論文到所有普通的網(wǎng)頁(yè)中信息,從手工建模到利用機(jī)器學(xué)習(xí)等統(tǒng)計(jì)方法建?!,F(xiàn)在信息抽取已經(jīng)融入到了我們的生活當(dāng)中,而在信息抽取中,最重要的部分之一就是命名實(shí)體識(shí)別。

在實(shí)際的命名實(shí)體識(shí)別工作中,由于實(shí)體大部分都不在分詞系統(tǒng)詞典收錄的詞中,所以識(shí)別命名實(shí)體的困難主要在于:(1)命名實(shí)體數(shù)量巨大,同時(shí)在文字的創(chuàng)造中,新的名稱不斷出現(xiàn),命名實(shí)體不可能全部都在收錄的詞典中;(2)在不同場(chǎng)景和領(lǐng)域下,命名實(shí)體的意義有所不同;(3)某些類型的實(shí)體名稱不斷變化,并且沒(méi)有嚴(yán)格的規(guī)律可以遵循,其中以機(jī)構(gòu)名最為復(fù)雜;(4)命名實(shí)體總有縮寫形式出現(xiàn);(5)實(shí)體類型存在歧義性;(6)命名實(shí)體表達(dá)形式多樣;(7)實(shí)體名和普通名詞之間存在歧義性等。對(duì)上述難點(diǎn)進(jìn)行了優(yōu)化、解決后,可將成熟的實(shí)體識(shí)別技術(shù)帶到學(xué)術(shù)領(lǐng)域、商品搜索領(lǐng)域等。

對(duì)于很多命名實(shí)體來(lái)說(shuō),命名實(shí)體本身并不是孤立的,命名實(shí)體間存在著互相嵌套的特點(diǎn)。例如:地名中嵌套著一些名人的人名,人名中嵌套著地名,特別是在機(jī)構(gòu)名中嵌套著大量的人名、地名和機(jī)構(gòu)名等。這種命名實(shí)體中相互嵌套的現(xiàn)象極大的提升了識(shí)別復(fù)雜命名實(shí)體的難度。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提出的一種基于混合模型的命名實(shí)體識(shí)別方法,在人名實(shí)體、地名實(shí)體和機(jī)構(gòu)名實(shí)體識(shí)別準(zhǔn)確率和識(shí)別召回率方面都有顯著的提高。

本發(fā)明的技術(shù)方案如下:

一種基于混合模型的命名實(shí)體識(shí)別方法,包括以下步驟:

步驟1:預(yù)處理:對(duì)已識(shí)別語(yǔ)料和待識(shí)別語(yǔ)料均進(jìn)行分詞和詞性標(biāo)注處理,并將已識(shí)別語(yǔ)料分為訓(xùn)練語(yǔ)料和不重疊測(cè)試語(yǔ)料;

步驟2:利用自適應(yīng)的選擇方式,在隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型中,選擇出F值較高的作為自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行初步的命名實(shí)體識(shí)別,得到初步的命名實(shí)體識(shí)別結(jié)果;

步驟2-1:利用隱馬爾科夫模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到隱馬爾科夫模型的參數(shù)庫(kù),即確定了隱馬爾科夫模型;利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到條件隨機(jī)場(chǎng)模型的參數(shù)庫(kù),即確定了條件隨機(jī)場(chǎng)模型;

步驟2-2:采用數(shù)理統(tǒng)計(jì)中的系統(tǒng)抽樣調(diào)查方法,對(duì)不重疊測(cè)試語(yǔ)料進(jìn)行抽樣;

步驟2-3:利用步驟2-1中確定的隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型,分別對(duì)步驟2-2中抽樣得到的不重疊測(cè)試語(yǔ)料進(jìn)行測(cè)試,得到隱馬爾科夫模型的測(cè)試結(jié)果和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果,針對(duì)隱馬爾科夫模型的測(cè)試結(jié)果和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果分別計(jì)算F值;

步驟2-4:根據(jù)步驟2-3中的隱馬爾科夫模型的測(cè)試結(jié)果的F值和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果的F值,自適應(yīng)地在隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型中選擇出F值較高的作為自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行基于自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的命名實(shí)體識(shí)別,得到基于自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的初步的命名實(shí)體識(shí)別結(jié)果。

步驟3:構(gòu)建用于命名實(shí)體識(shí)別的知識(shí)庫(kù),在知識(shí)庫(kù)的基礎(chǔ)上制定識(shí)別規(guī)則,并構(gòu)成識(shí)別規(guī)則庫(kù),由知識(shí)庫(kù)和識(shí)別規(guī)則庫(kù)構(gòu)成基礎(chǔ)詞典;利用構(gòu)建的基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)初步的命名實(shí)體識(shí)別結(jié)果進(jìn)行二次識(shí)別,分析得到的二次識(shí)別結(jié)果的F值,并更新基礎(chǔ)詞典;

步驟3-1:構(gòu)建用于命名實(shí)體識(shí)別的知識(shí)庫(kù),知識(shí)庫(kù)包括人名知識(shí)庫(kù)、地名知識(shí)庫(kù)和機(jī)構(gòu)名知識(shí)庫(kù),分別存儲(chǔ)了常用的人名、地名和機(jī)構(gòu)名;在知識(shí)庫(kù)的基礎(chǔ)上制定識(shí)別規(guī)則,識(shí)別規(guī)則即知識(shí)庫(kù)中的人名、地名和機(jī)構(gòu)名與對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行識(shí)別后的初步的命名實(shí)體識(shí)別結(jié)果之間的對(duì)應(yīng)關(guān)系,由這些識(shí)別規(guī)則構(gòu)成識(shí)別規(guī)則庫(kù),識(shí)別規(guī)則庫(kù)包括人名識(shí)別規(guī)則庫(kù)、地名識(shí)別規(guī)則庫(kù)和機(jī)構(gòu)名識(shí)別規(guī)則庫(kù),由知識(shí)庫(kù)和識(shí)別規(guī)則庫(kù)構(gòu)成基礎(chǔ)詞典;

步驟3-2:利用構(gòu)建的基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)初步的命名實(shí)體識(shí)別結(jié)果進(jìn)行二次識(shí)別,得到二次識(shí)別結(jié)果;

步驟3-3:計(jì)算二次識(shí)別結(jié)果的F值,若二次識(shí)別結(jié)果的F值沒(méi)有達(dá)到設(shè)定的要求,則提出新的識(shí)別規(guī)則或者修改原有的識(shí)別規(guī)則,添加到基礎(chǔ)詞典中,對(duì)基礎(chǔ)詞典進(jìn)行更新,并返回步驟3-1進(jìn)行再次識(shí)別;若二次識(shí)別結(jié)果的F值達(dá)到了設(shè)定的要求,則保存基礎(chǔ)詞典。

步驟4:構(gòu)建基于基礎(chǔ)詞典和自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的混合模型,在混合模型中,利用基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的待識(shí)別語(yǔ)料進(jìn)行識(shí)別,得到待識(shí)別語(yǔ)料中的人名實(shí)體、地名實(shí)體和機(jī)構(gòu)名實(shí)體,將識(shí)別出的識(shí)別結(jié)果補(bǔ)充到基礎(chǔ)詞典的知識(shí)庫(kù)中,更新基礎(chǔ)詞典,供下一次識(shí)別使用。

本發(fā)明的有益效果如下:

本發(fā)明是一種基于混合模型的命名實(shí)體識(shí)別方法。在相同的訓(xùn)練集下,基于本發(fā)明方法的人名實(shí)體、地名實(shí)體和機(jī)構(gòu)名實(shí)體識(shí)別結(jié)果與基于目前原有的識(shí)別方法的識(shí)別結(jié)果,即基于前人提出的規(guī)則與隱馬爾科夫模型相結(jié)合的模型的識(shí)別結(jié)果、規(guī)則與條件隨機(jī)場(chǎng)相結(jié)合的模型的識(shí)別結(jié)果、基于層疊的隱馬爾科夫識(shí)別模型識(shí)別的識(shí)別結(jié)果等方面,在識(shí)別準(zhǔn)確率和識(shí)別召回率方面都有顯著的提高。

附圖說(shuō)明

圖1為本發(fā)明具體實(shí)施方式中的基于混合模型的命名實(shí)體識(shí)別方法的流程圖;

圖2為本發(fā)明具體實(shí)施方式中的預(yù)處理過(guò)程示意圖,(a)為已識(shí)別語(yǔ)料預(yù)處理過(guò)程示意圖,(b)為待識(shí)別語(yǔ)料預(yù)處理過(guò)程示意圖;

圖3為本發(fā)明具體實(shí)施方式中的初步的命名實(shí)體識(shí)別過(guò)程示意圖;

圖4為本發(fā)明具體實(shí)施方式中的基礎(chǔ)詞典的構(gòu)建過(guò)程圖;

圖5為本發(fā)明具體實(shí)施方式中的以人名實(shí)體識(shí)別過(guò)程為例的混合模型識(shí)別過(guò)程圖。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式做詳細(xì)說(shuō)明。

本發(fā)明提出的一種基于混合模型的命名實(shí)體識(shí)別方法,在人名實(shí)體、地名實(shí)體和機(jī)構(gòu)名實(shí)體識(shí)別準(zhǔn)確率和識(shí)別召回率方面都有顯著的提高。

識(shí)別準(zhǔn)確率和識(shí)別召回率是用來(lái)評(píng)價(jià)命名實(shí)體識(shí)別結(jié)果的質(zhì)量的,識(shí)別準(zhǔn)確率是指檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是檢索系統(tǒng)的查準(zhǔn)率;識(shí)別召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫(kù)中所有的相關(guān)文檔數(shù)的比率,衡量的是檢索系統(tǒng)的查全率;F值是識(shí)別準(zhǔn)確率和識(shí)別召回率的加權(quán)調(diào)和平均值,即

由此可知,F(xiàn)值是綜合了識(shí)別準(zhǔn)確率和識(shí)別召回率的結(jié)果,當(dāng)F值較高時(shí),則說(shuō)明試驗(yàn)方法比較有效。

一種基于混合模型的命名實(shí)體識(shí)別方法,如圖1所示,包括以下步驟:

步驟1:預(yù)處理:對(duì)已識(shí)別語(yǔ)料和待識(shí)別語(yǔ)料均進(jìn)行分詞和詞性標(biāo)注處理,并將已識(shí)別語(yǔ)料分為訓(xùn)練語(yǔ)料和不重疊測(cè)試語(yǔ)料;如圖2所示,其中圖2(a)為已識(shí)別語(yǔ)料預(yù)處理過(guò)程示意圖,圖2(b)為待識(shí)別語(yǔ)料預(yù)處理過(guò)程示意圖,在分詞和詞性標(biāo)注過(guò)程中可以利用目前現(xiàn)有的自然語(yǔ)言處理工具,如:中科院ICTCLAS分詞軟件等。

步驟2:利用自適應(yīng)的選擇方式,在隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型中,選擇出F值較高的作為自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行初步的命名實(shí)體識(shí)別,得到初步的命名實(shí)體識(shí)別結(jié)果;如圖3所示,步驟2具體包括如下步驟:

步驟2-1:利用隱馬爾科夫模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到隱馬爾科夫模型的參數(shù)庫(kù),即確定了隱馬爾科夫模型;利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)練,得到條件隨機(jī)場(chǎng)模型的參數(shù)庫(kù),即確定了條件隨機(jī)場(chǎng)模型;

步驟2-2:采用數(shù)理統(tǒng)計(jì)中的系統(tǒng)抽樣調(diào)查方法,對(duì)不重疊測(cè)試語(yǔ)料進(jìn)行抽樣;

步驟2-3:利用步驟2-1中確定的隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型,分別對(duì)步驟2-2中抽樣得到的不重疊測(cè)試語(yǔ)料進(jìn)行測(cè)試,得到隱馬爾科夫模型的測(cè)試結(jié)果和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果,針對(duì)隱馬爾科夫模型的測(cè)試結(jié)果和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果分別計(jì)算F值;

步驟2-4:根據(jù)步驟2-3中的隱馬爾科夫模型的測(cè)試結(jié)果的F值和條件隨機(jī)場(chǎng)模型的測(cè)試結(jié)果的F值,自適應(yīng)地在隱馬爾科夫模型和條件隨機(jī)場(chǎng)模型中選擇出F值較高的作為自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行基于自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的命名實(shí)體識(shí)別,得到基于自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的初步的命名實(shí)體識(shí)別結(jié)果。

步驟3:構(gòu)建用于命名實(shí)體識(shí)別的知識(shí)庫(kù),在知識(shí)庫(kù)的基礎(chǔ)上制定識(shí)別規(guī)則,并構(gòu)成識(shí)別規(guī)則庫(kù),由知識(shí)庫(kù)和識(shí)別規(guī)則庫(kù)構(gòu)成基礎(chǔ)詞典;利用構(gòu)建的基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)初步的命名實(shí)體識(shí)別結(jié)果進(jìn)行二次識(shí)別,分析得到的二次識(shí)別結(jié)果的F值,并更新基礎(chǔ)詞典;如圖4所示,步驟3具體包括以下步驟:

步驟3-1:構(gòu)建用于命名實(shí)體識(shí)別的知識(shí)庫(kù),知識(shí)庫(kù)包括人名知識(shí)庫(kù)、地名知識(shí)庫(kù)和機(jī)構(gòu)名知識(shí)庫(kù),分別存儲(chǔ)了常用的人名、地名和機(jī)構(gòu)名;在知識(shí)庫(kù)的基礎(chǔ)上制定識(shí)別規(guī)則,識(shí)別規(guī)則即知識(shí)庫(kù)中的人名、地名和機(jī)構(gòu)名與對(duì)預(yù)處理后的已識(shí)別語(yǔ)料進(jìn)行識(shí)別后的初步的命名實(shí)體識(shí)別結(jié)果之間的對(duì)應(yīng)關(guān)系,由這些識(shí)別規(guī)則構(gòu)成識(shí)別規(guī)則庫(kù),識(shí)別規(guī)則庫(kù)包括人名識(shí)別規(guī)則庫(kù)、地名識(shí)別規(guī)則庫(kù)和機(jī)構(gòu)名識(shí)別規(guī)則庫(kù),由知識(shí)庫(kù)和識(shí)別規(guī)則庫(kù)構(gòu)成基礎(chǔ)詞典;

步驟3-2:利用構(gòu)建的基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)初步的命名實(shí)體識(shí)別結(jié)果進(jìn)行二次識(shí)別,得到二次識(shí)別結(jié)果;

步驟3-3:計(jì)算二次識(shí)別結(jié)果的F值,若二次識(shí)別結(jié)果的F值沒(méi)有達(dá)到設(shè)定的要求,則提出新的識(shí)別規(guī)則或者修改原有的識(shí)別規(guī)則,添加到基礎(chǔ)詞典中,對(duì)基礎(chǔ)詞典進(jìn)行更新,并返回步驟3-1進(jìn)行再次識(shí)別;若二次識(shí)別結(jié)果的F值達(dá)到了設(shè)定的要求,則保存基礎(chǔ)詞典。

步驟4:構(gòu)建基于基礎(chǔ)詞典和自適應(yīng)的統(tǒng)計(jì)識(shí)別模型的混合模型,在混合模型中,利用基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的待識(shí)別語(yǔ)料進(jìn)行識(shí)別,得到待識(shí)別語(yǔ)料中的人名實(shí)體、地名實(shí)體和機(jī)構(gòu)名實(shí)體,將識(shí)別出的識(shí)別結(jié)果補(bǔ)充到基礎(chǔ)詞典的知識(shí)庫(kù)中,更新基礎(chǔ)詞典,供下一次識(shí)別使用。以人名實(shí)體識(shí)別過(guò)程為例的混合模型識(shí)別過(guò)程圖如圖5所示,在人名實(shí)體識(shí)別過(guò)程中,利用基礎(chǔ)詞典,采用自適應(yīng)的統(tǒng)計(jì)識(shí)別模型,對(duì)預(yù)處理后的待識(shí)別語(yǔ)料進(jìn)行識(shí)別,得到人名實(shí)體,將識(shí)別出來(lái)的人名實(shí)體補(bǔ)充到基礎(chǔ)詞典的人名知識(shí)庫(kù)中,更新基礎(chǔ)詞典,作為下一次識(shí)別的基礎(chǔ)詞典。

雖然以上描述了本發(fā)明的具體實(shí)施方式,但是本領(lǐng)域內(nèi)的熟練的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說(shuō)明,本發(fā)明是一種基于混合模型的命名實(shí)體識(shí)別方法,因此舉例說(shuō)明僅僅是為了說(shuō)明識(shí)別機(jī)制的核心思想。在之后的研究中可以對(duì)這些實(shí)施方式做出多種變更或者修改,而不背離本發(fā)明的原理和實(shí)質(zhì)。本發(fā)明的范圍僅由所附權(quán)利要求書限定。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长海县| 太湖县| 商城县| 平武县| 闽侯县| 连州市| 黄龙县| 沾化县| 永新县| 博白县| 罗山县| 达拉特旗| 松桃| 稷山县| 千阳县| 杂多县| 灵宝市| 雷波县| 乌兰察布市| 宜昌市| 枝江市| 吴桥县| 都兰县| 万年县| 都江堰市| 余江县| 隆尧县| 常州市| 普格县| 丰台区| 凯里市| 房山区| 南丹县| 永康市| 翁牛特旗| 萨迦县| 娱乐| 昌都县| 光山县| 鄂托克旗| 黔东|