欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于模式的自舉中文實(shí)體抽取方法與流程

文檔序號(hào):12271304閱讀:263來(lái)源:國(guó)知局
本發(fā)明涉及中文自然語(yǔ)言處理技術(shù),特別是涉及一種基于模式的自舉中文實(shí)體抽取方法。
背景技術(shù)
:命名實(shí)體識(shí)別(又稱(chēng)為實(shí)體抽取)是自然語(yǔ)言處理的一個(gè)基礎(chǔ)任務(wù),廣泛應(yīng)用于信息抽取、問(wèn)答、機(jī)器翻譯等應(yīng)用中,于1996年舉辦的第六屆MUC會(huì)議被首次提出。最初,其目的在于識(shí)別語(yǔ)料中人名、地名、組織機(jī)構(gòu)名等命名實(shí)體,隨著應(yīng)用領(lǐng)域的擴(kuò)展,實(shí)體類(lèi)別的定義和擴(kuò)展帶來(lái)了很大的挑戰(zhàn)。命名實(shí)體識(shí)別的主要技術(shù)方法分為:基于模式的方法、基于統(tǒng)計(jì)的方法、兩者結(jié)合的方法?;诮y(tǒng)計(jì)的方法在學(xué)術(shù)界被廣泛研究,通常用于領(lǐng)域無(wú)關(guān)的實(shí)體抽?。换谀J降姆椒ㄊ钱a(chǎn)業(yè)界應(yīng)用的主流,但通常需要大量人工構(gòu)建的規(guī)則,且在領(lǐng)域間的可移植性差;自舉實(shí)體抽取是一種從少量人工標(biāo)注的實(shí)體出發(fā),從未標(biāo)注文本中迭代式學(xué)習(xí)更多的實(shí)體和規(guī)則的方法,它僅需要少量的人工參與,且具備較好的領(lǐng)域間遷移能力。自舉實(shí)體抽取的核心在于模式與實(shí)體的評(píng)分,在特定的領(lǐng)域,同屬一個(gè)類(lèi)型的實(shí)體通常滿(mǎn)足某些約束,且內(nèi)部遵從某種模式。然而,現(xiàn)有技術(shù)中的自舉中文實(shí)體抽取方法無(wú)法利用實(shí)體內(nèi)部模式進(jìn)行評(píng)分,且對(duì)無(wú)法標(biāo)注實(shí)體進(jìn)行評(píng)分時(shí)所提取的特征沒(méi)有充分考慮中文分詞的特性。技術(shù)實(shí)現(xiàn)要素:發(fā)明目的:本發(fā)明的目的是提供一種能夠克服現(xiàn)有技術(shù)在實(shí)體內(nèi)部模式利用和實(shí)體特征選擇上存在的不足的基于模式的自舉中文實(shí)體抽取方法。技術(shù)方案:本發(fā)明所述的基于模式的自舉中文實(shí)體抽取方法,對(duì)于每種實(shí)體類(lèi)型進(jìn)行實(shí)體識(shí)別和規(guī)則庫(kù)構(gòu)建,包括以下步驟:S1:用戶(hù)給定如下輸入:a.正向種子實(shí)體和反向種子實(shí)體;b.正向種子實(shí)體和反向種子實(shí)體各自的內(nèi)部約束、內(nèi)部模式及置信程度;c.正向種子實(shí)體和反向種子實(shí)體各自的外部約束,即正向種子實(shí)體和反向種子實(shí)體各自出現(xiàn)的上下文信息;d.原始未標(biāo)注文本;在以上四類(lèi)輸入信息中,a、d不可為空,b、c可以為空;S2:對(duì)原始文本進(jìn)行領(lǐng)域無(wú)關(guān)的分詞、詞性標(biāo)注、句法解析和實(shí)體識(shí)別,生成基礎(chǔ)語(yǔ)料;將正向種子實(shí)體加入最終實(shí)體庫(kù);S3:依據(jù)最終實(shí)體庫(kù)中的正向?qū)嶓w,在基礎(chǔ)語(yǔ)料中進(jìn)行標(biāo)注,并對(duì)被標(biāo)注的正向?qū)嶓w抽取其上下文信息,形成待選外部模式,加入待選外部模式庫(kù);S4:對(duì)待選外部模式庫(kù)進(jìn)行評(píng)分:將待選外部模式對(duì)原文進(jìn)行重新標(biāo)注,依據(jù)最終實(shí)體庫(kù),統(tǒng)計(jì)每個(gè)待選外部模式抽取出的正向?qū)嶓w、反向?qū)嶓w和無(wú)法確定實(shí)體類(lèi)型的實(shí)體,對(duì)待選外部模式庫(kù)中的每個(gè)待選外部模式進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選外部模式庫(kù)中選擇前K個(gè)待選外部模式加入最終外部模式庫(kù);S5:用新生成的最終外部模式庫(kù)對(duì)原文進(jìn)行實(shí)體抽取,生成待選實(shí)體庫(kù),對(duì)待選實(shí)體庫(kù)中的每個(gè)待選實(shí)體進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選實(shí)體庫(kù)中選擇前K個(gè)待選實(shí)體加入最終實(shí)體庫(kù);S6:對(duì)S5中生成的K個(gè)待選實(shí)體抽取內(nèi)部模式,形成待選內(nèi)部模式庫(kù);S7:對(duì)待選內(nèi)部模式庫(kù)中的每個(gè)待選內(nèi)部模式進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選內(nèi)部模式庫(kù)中選擇前K個(gè)待選內(nèi)部模式加入最終內(nèi)部模式庫(kù);S8:如果迭代次數(shù)已經(jīng)到達(dá)上限,或者沒(méi)有新的實(shí)體被發(fā)現(xiàn),則迭代結(jié)束,否則返回步驟S3;S9:輸出生成的最終實(shí)體庫(kù)、最終外部模式庫(kù)和最終內(nèi)部模式庫(kù)。進(jìn)一步,所述步驟S1中,正向種子實(shí)體和反向種子實(shí)體各自的內(nèi)部約束包括:正向種子實(shí)體和反向種子實(shí)體各自的長(zhǎng)度范圍、是否只包含漢字、是否允許出現(xiàn)特殊符號(hào)、是否允許出現(xiàn)字母和數(shù)字以及已知的實(shí)體中心詞。進(jìn)一步,所述步驟S1中,正向種子實(shí)體和反向種子實(shí)體各自的內(nèi)部模式為正向種子實(shí)體和反向種子實(shí)體各自遵從的模式,用基礎(chǔ)的實(shí)體類(lèi)型進(jìn)行泛化。進(jìn)一步,所述步驟S3中,形成待選外部模式庫(kù)的方法為:對(duì)正向種子實(shí)體本身的詞性和實(shí)體類(lèi)型,以及特定窗口內(nèi)元素的實(shí)體類(lèi)型進(jìn)行統(tǒng)計(jì),并形成待選外部模式;對(duì)于窗口內(nèi)的每一個(gè)元素,如果具有實(shí)體類(lèi)型,則采用實(shí)體類(lèi)型作為該元素的特征標(biāo)簽,否則將詞表含義作為特征標(biāo)簽。進(jìn)一步,所述步驟S4中,對(duì)待選外部模式進(jìn)行評(píng)分按照以下步驟來(lái)進(jìn)行:S4.1:用待選外部模式在基礎(chǔ)語(yǔ)料中進(jìn)行抽?。喝绻摯x外部模式無(wú)法獲取更多實(shí)體,則將該待選外部模式從待選外部模式庫(kù)中刪除,且該待選外部模式不再參與評(píng)分,過(guò)程結(jié)束;否則,繼續(xù)進(jìn)行步驟S4.2;S4.2:如果該待選外部模式抽取出的實(shí)體存在于正向?qū)嶓w庫(kù)中,則判斷該實(shí)體為正向?qū)嶓w,該實(shí)體得分為1;如果該待選外部模式抽取出的實(shí)體存在于反向?qū)嶓w庫(kù)中,則判斷該實(shí)體為反向?qū)嶓w,該實(shí)體得分為0;如果該待選外部模式抽取出的實(shí)體的實(shí)體類(lèi)型無(wú)法判斷,則進(jìn)行步驟S4.3;S4.3:對(duì)于無(wú)法確定實(shí)體類(lèi)型的實(shí)體e,通過(guò)如下步驟來(lái)計(jì)算實(shí)體e的得分score(e):S4.31:計(jì)算內(nèi)部模式匹配程度innerPat(e);將現(xiàn)有的內(nèi)部模式應(yīng)用于實(shí)體e,如果實(shí)體e符合內(nèi)部模式,則將模式的置信概率作為innerPat(e)的得分:如果模式置信概率為1,則實(shí)體e最終得分為1,不再計(jì)算其他特征,直接跳至步驟S4.4;如果實(shí)體e符合多項(xiàng)內(nèi)部模式,則將置信概率進(jìn)行累加,最多不超過(guò)1;如果實(shí)體e不符合任何內(nèi)部模式,則innerPat(e)=0;S4.32:計(jì)算語(yǔ)義距離sem(e);計(jì)算實(shí)體e與現(xiàn)有實(shí)體庫(kù)中正向?qū)嶓w的距離,以及實(shí)體e與現(xiàn)有實(shí)體庫(kù)中反向?qū)嶓w的距離:如果實(shí)體e與現(xiàn)有實(shí)體庫(kù)中正向?qū)嶓w的距離較大且高于閾值,則sem(e)=1,否則,sem(e)=0;如語(yǔ)義距離無(wú)法計(jì)算,則抽取實(shí)體e的中心詞,計(jì)算實(shí)體e的中心詞與已有中心詞集合的word2vec距離:如果高于閾值,則sem(e)=1,否則,sem(e)=0;S4.33:計(jì)算編輯距離editDist(e):計(jì)算實(shí)體e與正向?qū)嶓w的編輯距離,以及實(shí)體e和反向?qū)嶓w的編輯距離:如果實(shí)體e與某個(gè)正向?qū)嶓w的距離小于閾值,且與所有反向?qū)嶓w的編輯距離均大于閾值,則editDist(e)=1,否則,editDist(e)=0;S4.34:計(jì)算成詞概率phraseProb(e):為實(shí)體e內(nèi)部凝固度與鄰字信息熵分別設(shè)立閾值,如果實(shí)體e同時(shí)滿(mǎn)足內(nèi)部凝固度的閾值和鄰字信息熵的閾值,則phraseProb(e)=1,否則,phraseProb(e)=0;其中,內(nèi)部凝固度通過(guò)式(1)進(jìn)行計(jì)算:式(1)中,TS(t)為構(gòu)成實(shí)體e的所有可能的劃分token的集合,TS(t)中的每一個(gè)元素稱(chēng)為S(t),P(t)為S(t)中的第t個(gè)token在文件中出現(xiàn)的概率,NumTokens為基礎(chǔ)語(yǔ)料中所有token的數(shù)量;freq(e)為實(shí)體e在基礎(chǔ)語(yǔ)料中出現(xiàn)的個(gè)數(shù);S4.35:計(jì)算領(lǐng)域特殊性度量tfidf(e);首先,計(jì)算原始領(lǐng)域特殊性度量TFIDFe,由以下公式計(jì)算得到:式(2)中,tfe為實(shí)體e在基礎(chǔ)語(yǔ)料中出現(xiàn)的頻次,N為領(lǐng)域無(wú)關(guān)的海量新聞?wù)Z料中文檔的數(shù)量,dfe為包含實(shí)體e的文檔的個(gè)數(shù);然后,將原始領(lǐng)域特殊性度量TFIDFe歸一化到0~1之間,得到領(lǐng)域特殊性度量tfidf(e);S4.36:取內(nèi)部模式匹配程度innerPat(e)、語(yǔ)義距離sem(e)、編輯距離editDist(e)、成詞概率phraseProb(e)和領(lǐng)域特殊性度量tfidf(e)的平均值,作為實(shí)體e的得分score(e);S4.4:根據(jù)式(3)計(jì)算待選外部模式的得分:式(3)中,Pr為待選外部模式抽取出的正向種子實(shí)體的集合,Nr為待選外部模式抽取出反向種子實(shí)體的集合,|.|為集合中元素的個(gè)數(shù),Ur為無(wú)法確定實(shí)體類(lèi)型的實(shí)體的集合,score(e)為無(wú)法確定實(shí)體類(lèi)型的實(shí)體e的得分。進(jìn)一步,所述步驟S5中,對(duì)每個(gè)待選實(shí)體進(jìn)行評(píng)分的規(guī)則如下:E.如果待選實(shí)體不滿(mǎn)足內(nèi)部約束條件,則將待選實(shí)體從待選實(shí)體庫(kù)中刪除;F.如果待選實(shí)體屬于常見(jiàn)詞或停止詞,則將待選實(shí)體從待選實(shí)體庫(kù)中刪除;G.如果待選實(shí)體滿(mǎn)足置信度為1的內(nèi)部模式,則將待選實(shí)體加入最終實(shí)體庫(kù);H.如果待選實(shí)體不屬于以上三種情況,首先計(jì)算待選實(shí)體的內(nèi)部模式匹配程度innerPat(e)、語(yǔ)義距離sem(e)、編輯距離editDist(e)、成詞概率phraseProb(e)和領(lǐng)域特殊性度量tfidf(e)這五項(xiàng)特征值;然后將抽取出待選實(shí)體的所有模式得分進(jìn)行累加,歸一化到0~1之間,將歸一化后的數(shù)值作為第六項(xiàng)特征值;最后對(duì)這六項(xiàng)特征值加權(quán)平均,得到待選實(shí)體的最終得分。進(jìn)一步,所述步驟S6中,對(duì)最終實(shí)體庫(kù)中的實(shí)體抽取內(nèi)部模式的規(guī)則如下:如果實(shí)體內(nèi)部包含連續(xù)的字母串、數(shù)字、漢語(yǔ)數(shù)字、日期、地名、人名和中心詞,則抽取泛化的內(nèi)部模式。進(jìn)一步,所述步驟S7中,對(duì)待選內(nèi)部模式NP進(jìn)行評(píng)分的公式為:式(4)中PNr為符合待選內(nèi)部模式NP的最終正向?qū)嶓w的集合,NNr為符合待選內(nèi)部模式NP的反向?qū)嶓w的集合,|.|表示集合中元素的個(gè)數(shù),score(e)為對(duì)待選內(nèi)部模式NP進(jìn)行評(píng)分得到的分?jǐn)?shù)。有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:1)無(wú)需大量的人工標(biāo)注語(yǔ)料或人工編寫(xiě)規(guī)則,只需提供少量種子實(shí)體和規(guī)則,即可自動(dòng)完成更多實(shí)體和規(guī)則庫(kù)構(gòu)建過(guò)程,且系統(tǒng)在領(lǐng)域間的可移植性強(qiáng),具有較好的可遷移性;2)使實(shí)體的內(nèi)部模式和約束參與模式評(píng)分,從多維度提取實(shí)體特征,可顯著提升實(shí)體識(shí)別的效果。附圖說(shuō)明圖1為本發(fā)明具體實(shí)施方式方法的流程示意圖。具體實(shí)施方式下面結(jié)合附圖和具體實(shí)施方式,對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步的介紹。本發(fā)明公開(kāi)了一種基于模式的自舉中文實(shí)體抽取方法,對(duì)于每種實(shí)體類(lèi)型進(jìn)行實(shí)體識(shí)別和規(guī)則庫(kù)構(gòu)建,包括以下步驟:S1:用戶(hù)給定如下輸入:a.正向種子實(shí)體和反向種子實(shí)體;b.正向種子實(shí)體和反向種子實(shí)體各自的內(nèi)部約束、內(nèi)部模式及置信程度;c.正向種子實(shí)體和反向種子實(shí)體各自的外部約束,即正向種子實(shí)體和反向種子實(shí)體各自出現(xiàn)的上下文信息;d.原始未標(biāo)注文本;在以上四類(lèi)輸入信息中,a、d不可為空,b、c可以為空;S2:對(duì)原始文本進(jìn)行領(lǐng)域無(wú)關(guān)的分詞、詞性標(biāo)注、句法解析和實(shí)體識(shí)別,生成基礎(chǔ)語(yǔ)料;將正向種子實(shí)體加入最終實(shí)體庫(kù);S3:依據(jù)最終實(shí)體庫(kù)中的正向?qū)嶓w,在基礎(chǔ)語(yǔ)料中進(jìn)行標(biāo)注,并對(duì)被標(biāo)注的正向?qū)嶓w抽取其上下文信息,形成待選外部模式,加入待選外部模式庫(kù);S4:對(duì)待選外部模式庫(kù)進(jìn)行評(píng)分:將待選外部模式對(duì)原文進(jìn)行重新標(biāo)注,依據(jù)最終實(shí)體庫(kù),統(tǒng)計(jì)每個(gè)待選外部模式抽取出的正向?qū)嶓w、反向?qū)嶓w和無(wú)法確定實(shí)體類(lèi)型的實(shí)體,對(duì)待選外部模式庫(kù)中的每個(gè)待選外部模式進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選外部模式庫(kù)中選擇前K個(gè)待選外部模式加入最終外部模式庫(kù);S5:用新生成的最終外部模式庫(kù)對(duì)原文進(jìn)行實(shí)體抽取,生成待選實(shí)體庫(kù),對(duì)待選實(shí)體庫(kù)中的每個(gè)待選實(shí)體進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選實(shí)體庫(kù)中選擇前K個(gè)待選實(shí)體加入最終實(shí)體庫(kù);S6:對(duì)S5中生成的K個(gè)待選實(shí)體抽取內(nèi)部模式,形成待選內(nèi)部模式庫(kù);S7:對(duì)待選內(nèi)部模式庫(kù)中的每個(gè)待選內(nèi)部模式進(jìn)行評(píng)分,并按照分?jǐn)?shù)從高到低排序,從待選內(nèi)部模式庫(kù)中選擇前K個(gè)待選內(nèi)部模式加入最終內(nèi)部模式庫(kù);S8:如果迭代次數(shù)已經(jīng)到達(dá)上限,或者沒(méi)有新的實(shí)體被發(fā)現(xiàn),則迭代結(jié)束,否則返回步驟S3;S9:輸出生成的最終實(shí)體庫(kù)、最終外部模式庫(kù)和最終內(nèi)部模式庫(kù)。本發(fā)明是一種統(tǒng)計(jì)與模式相結(jié)合的方式,優(yōu)點(diǎn)在于無(wú)需依賴(lài)大量的人工標(biāo)注語(yǔ)料或領(lǐng)域模式庫(kù),與現(xiàn)有的模式自舉的方法相比,本發(fā)明基于對(duì)特定領(lǐng)域?qū)嶓w類(lèi)型模式的觀察,將實(shí)體內(nèi)部模式和特征用于對(duì)候選模式及無(wú)法準(zhǔn)確標(biāo)注的實(shí)體進(jìn)行分?jǐn)?shù)評(píng)估,進(jìn)而提升模式和實(shí)體評(píng)分的精確程度,適用于特定領(lǐng)域?qū)嶓w抽取和知識(shí)庫(kù)構(gòu)建。本具體實(shí)施方式的流程圖如圖1所示:步驟S1中,對(duì)于“飛機(jī)”類(lèi)的實(shí)體,用戶(hù)給定種子實(shí)體:殲-20。用戶(hù)給定實(shí)體約束見(jiàn)表1:表1用戶(hù)給定的實(shí)體約束約束項(xiàng)約束值Length{2,10}NumAllowedtrueAlphabetallowedtrueSpecialSymbolAllowedtrueHeadwords飛機(jī),戰(zhàn)斗機(jī),機(jī),巡邏機(jī),加油機(jī)用戶(hù)給定內(nèi)部模式見(jiàn)表2:表2用戶(hù)給定的內(nèi)部模式用戶(hù)給定外部模式見(jiàn)表3:表3用戶(hù)給定的外部模式步驟S2中,對(duì)原始文本進(jìn)行分詞、詞性標(biāo)注、實(shí)體識(shí)別等預(yù)處理采用開(kāi)源的工具,方案如下:分詞和詞性標(biāo)注采用Ansj工具,實(shí)體識(shí)別采用StanfordNER自帶的中文分類(lèi)器來(lái)識(shí)別GPE、PERSON、ORGANIZATION、LOCATION,并用StanfordTokensregex工具撰寫(xiě)中文的日期(DATE)、時(shí)間(TIME)、數(shù)量(NUMBER)識(shí)別規(guī)則。最終,實(shí)體識(shí)別可提供GPE、PERSON、LOCATION、ORGANIZATION、DATE、TIME、NUMBER七種類(lèi)型的標(biāo)注。步驟S3中,首先用已有的正向?qū)嶓w對(duì)經(jīng)過(guò)預(yù)處理的原始語(yǔ)料進(jìn)行標(biāo)注,并且提取上下文窗口內(nèi)的外部模式。如對(duì)于“殲-20戰(zhàn)斗機(jī)代號(hào)威龍,F(xiàn)-22戰(zhàn)斗機(jī)代號(hào)猛禽。殲-20由中國(guó)研發(fā),F(xiàn)-22由美國(guó)研發(fā),蘋(píng)果手機(jī)由美國(guó)研發(fā)”,用種子實(shí)體“殲-20”在文中匹配,在窗口為2~3的情況下,可抽取出以下外部模式:1.(?$term[]{1,3})[{word:/戰(zhàn)斗機(jī)/}][{word:/代號(hào)/}]2.(?$term[]{1,3})[{word:/戰(zhàn)斗機(jī)/}][{word:/代號(hào)/}][{word:/威龍/}]3.(?$term[]{1,3})[{word:/由/}][{ner:/GPE/}]4.(?$term[]{1,3})[{word:/由/}][{ner:/GPE/}][{word:/研發(fā)/}]步驟S4中,對(duì)每一個(gè)候選模式進(jìn)行評(píng)分,以模式1為例,應(yīng)用于原始語(yǔ)料中,可以抽取出F-22。對(duì)F-22進(jìn)行評(píng)價(jià):檢查F-22是否滿(mǎn)足內(nèi)部約束。預(yù)先由海量無(wú)標(biāo)注軍事語(yǔ)料訓(xùn)練word2vec模型。將F-22輸入word2vec,計(jì)算與殲-20之間的距離,如距離高于某閾值(如0.6),則認(rèn)為兩者語(yǔ)義相近,sem(e)=1;用內(nèi)部模式對(duì)F-22進(jìn)行匹配,發(fā)現(xiàn)F-22符合內(nèi)部模式3,置信度為0.8,則innerPat(e)=0.8;計(jì)算編輯距離,對(duì)數(shù)字進(jìn)行泛化后可以計(jì)算出兩者編輯距離為33%,editDist(e)=1;計(jì)算成詞概率,假定內(nèi)部凝固度和臨字信息熵不滿(mǎn)足閾值要求,則得到phraseProb(e)=0(此處計(jì)算過(guò)程較為復(fù)雜,不再具體展現(xiàn))。基于海量領(lǐng)域無(wú)關(guān)的新聞?wù)Z料計(jì)算的ngram,計(jì)算領(lǐng)域特殊性度量,假設(shè)tfidf(e)歸一化的結(jié)果為0.8,則該實(shí)體最終得分0.74。根據(jù)以下公式,獲得模式的最終得分3.84。根據(jù)以上步驟,對(duì)每一個(gè)候選的外部模式都進(jìn)行分?jǐn)?shù)計(jì)算,模式2由于無(wú)法識(shí)別出更多的實(shí)體而被丟棄。在分?jǐn)?shù)相同時(shí),選擇較為復(fù)雜的規(guī)則。排序后選擇top2模式加入最終規(guī)則庫(kù),假設(shè)最終選擇模式1和模式4。步驟S5中,用外部模式1和外部模式4進(jìn)行抽取,形成待選實(shí)體庫(kù){F-22,蘋(píng)果手機(jī)},對(duì)兩個(gè)實(shí)體進(jìn)行評(píng)分,“F-22”評(píng)分結(jié)果優(yōu)于“蘋(píng)果手機(jī)”,選擇top1加入最終實(shí)體庫(kù),目前最終實(shí)體庫(kù)中有{殲-20,F(xiàn)-22}。步驟S6中,對(duì)新添加的實(shí)體庫(kù)提取模式,然而由于F-22已經(jīng)滿(mǎn)足其中的一個(gè)內(nèi)部模式,無(wú)法再生成新的內(nèi)部模式。因此,跳過(guò)步驟S7,直接進(jìn)行步驟S8。步驟S8中,返回步驟S3,用{殲-20,F(xiàn)-22}為種子實(shí)體重新對(duì)原始語(yǔ)料進(jìn)行標(biāo)注,生成外部模式庫(kù),重新執(zhí)行步驟S4~步驟S7。步驟S9中,由于沒(méi)有新的模式生成,則迭代結(jié)束,輸出最終實(shí)體庫(kù)、最終外部模式庫(kù)和最終內(nèi)部模式庫(kù)。最終實(shí)體庫(kù):{殲-20,F(xiàn)-22}最終外部模式庫(kù):(?$term[]{1,3})[{word:/戰(zhàn)斗機(jī)/}][{word:/代號(hào)/}](?$term[]{1,3})[{word:/由/}][{ner:/GPE/}][{word:/研發(fā)/}](?$term[]{2,3}[word:$PLANETYPE])[{word:/在|于/}][{ner:DATE}][{word:/降落|起飛/}]最終內(nèi)部模式庫(kù):$PLANETYPE="/戰(zhàn)機(jī)|飛機(jī)|直升機(jī)|教練機(jī)|巡邏機(jī)|加油機(jī)|航測(cè)機(jī)|巡邏機(jī)|教練機(jī)|轟炸機(jī)|偵察機(jī)|研究機(jī)|戰(zhàn)斗機(jī)|噴氣機(jī)/"([{word:/殲|蘇|伊爾|美|波音|米格|米|空客/}])([{word:"-"}]{0,1})([{ner:NUMBER}]))(([({word:/\d+/}&{ner:NUMBER})|{word:/[a-zA-Z]+/}]+)(([{word:"-"}])([({word:/\d+/}&{ner:NUMBER})|{word:/[a-zA-Z]+/}]+))+[word:$PLANETYPE]*)當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
揭阳市| 集贤县| 泸西县| 小金县| 小金县| 中宁县| 巢湖市| 瑞丽市| 英吉沙县| 古蔺县| 天峻县| 沿河| 萨迦县| 永定县| 漾濞| 徐汇区| 东丽区| 贡觉县| 右玉县| 吴堡县| 克东县| 安溪县| 吉首市| 西充县| 玉树县| 满洲里市| 望谟县| 道孚县| 克东县| 葫芦岛市| 焦作市| 鄂州市| 宁晋县| 玛曲县| 龙口市| 阜宁县| 广河县| 德格县| 双辽市| 武安市| 张家界市|