欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于關系關鍵詞擴展的元組精化的控制方法

文檔序號:6377235閱讀:268來源:國知局
專利名稱:一種基于關系關鍵詞擴展的元組精化的控制方法
技術(shù)領域
本發(fā)明涉及知識庫擴展、網(wǎng)絡抓取、淺層語言處理技術(shù)(實體識別、分詞)、數(shù)值統(tǒng)計等技術(shù)領域,具體的說是一種基于關系關鍵詞擴展的元組精化方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的快速發(fā)展,如何從海量的無結(jié)構(gòu)的數(shù)據(jù)里抽取出結(jié)構(gòu)化的數(shù)據(jù)成為當前的研究熱點,目前信息抽取的主要研究方向是命名實體識別、指代消解、實體關系抽取等,其中實體關系抽取是當前的重要的研究內(nèi)容。而當前實體關系抽取有基于知識工程的方法和基于機器學習的方法。但是基于知識工程的方法需要大量人力同時需要構(gòu)建專業(yè)知識,使得領域的可移植性差,而基于機器學習的方法需要使用大量深層語言處理技術(shù), 比如基于SVM方法在構(gòu)造特征向量時需要用到句法分析和語義分析、基于kernel的方法通過引入依存樹來構(gòu)建最短樹核、弱監(jiān)督的自舉方法需要詞法分析中的命名實體識別技術(shù)等,僅從抽取方法上改進很難進一步提高實體關系的效果,本發(fā)明提出了一種元組精化方法以提聞實體關系抽取的準確率。
當前實體關系抽取中元組精化方法集中在可信度評估,snowball方法在沒有人工干預的情況下評估模式和元組,僅僅保留最可信(超過閾值T)的模式和元組進入下一輪迭代。但其可信度評估僅僅依賴關系的一個關鍵屬性擴展性小。哈工大方法設計了元組的可信度自動評估方法,哈工大方法僅僅利用種子元組可信度來評估其它元組,并未考慮到元組和模式的多樣性,使得準確率不高。本文提出了一種基于關系關鍵詞擴展的元組精化方法,利用關系的多樣性和網(wǎng)絡信息的冗余性,根據(jù)實體和關鍵詞共現(xiàn)特征和就近原則從網(wǎng)絡中提取實體,從而對實體關系抽取中的元組進行精化。此精化方法獨立于抽取方法,使得本發(fā)明的方法可移植性強,且準確率高。發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的缺陷,本發(fā)明的目的是提供一種基于關系關鍵詞擴展的元組精化方法。
根據(jù)本發(fā)明的關系關鍵詞擴展,提供了一種基于知識庫擴展的關系關鍵詞擴展方法,利用關系的多樣性,利用《同義詞詞林擴展版》將實體關系關鍵詞進行初步擴展,然后再手工去掉一些停用詞和錯誤詞,這樣擴展后的詞語就能更好的表示關系的多樣性。
首先根據(jù)本發(fā)明的方法,需要用戶采取某種實體關系抽取方法(未經(jīng)精化)抽取元組,作為待評估元組。然后,利用待評估元組構(gòu)造初始元組,再利用實體和關鍵詞共現(xiàn)的特性,從網(wǎng)絡中就近抽取預先已定義類型的另一實體,從而達到元組精化的目的。
本方法中僅利用淺層語言處理技術(shù)(分詞、實體識別)等,避免了深層語言技術(shù)當前無可避免的噪音問題。
根據(jù)本發(fā)明的一個方面,提供一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟a.擴展待評估元組的關系關鍵詞;b.獲取與所述關系關鍵詞相適應的共現(xiàn)句集合;c.根據(jù)所述共現(xiàn)句集合抽取候選實體集合;以及d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。
根據(jù)本發(fā)明的另一個方面,還提供一種基于關系關鍵詞擴展的元組精化方法,其特征在于,包括如下步驟a.關系關鍵詞擴展;b.抓取共現(xiàn)句集合;c.抽取候選實體集合; d.數(shù)值統(tǒng)計抽取實體。
優(yōu)選地,所述步驟a包括如下步驟al.構(gòu)建初始元組(el, k, r_type),利用某一實體關系抽取出待評估元組(el, e2, k, r_type),初始元組來源于待評估元組;a2.構(gòu)建關系擴展表{ (k,ki)},利用關系的多樣性,首先用《同義詞詞林擴展版》對關系關鍵詞進行同義詞擴展,再手工去掉一些停用詞和不常用詞;a3.構(gòu)建關系擴展元組集合{ (el,ki,r_ type) },利用初始元組和關系關鍵詞擴展表對關系關鍵詞進行擴展,構(gòu)成關系關鍵詞擴展后的元組集合。
優(yōu)選地,所述步驟通過構(gòu)建實體一與關系關鍵詞共現(xiàn)的句子集合SS,利用網(wǎng)絡信息的冗余性,抽取關系擴展元組集合中的實體一和關系關鍵詞共現(xiàn)的句子集合。
優(yōu)選地,所述步驟c包括如下步驟cl.對共現(xiàn)句集合SS進行實體識別和分詞等淺層語言處理;c2.利用就近原則和預先定義的實體類型從共現(xiàn)句集合中抽取候選實體集口 ο
優(yōu)選地,所述步驟d利用數(shù)值統(tǒng)計從候選實體集合中抽取統(tǒng)計值最高的詞作為實體二。
本發(fā)明公開了一種基于實體關鍵詞擴展的元組精化方法,不需要深層語言處理技術(shù),也不需要依賴實體關系抽取方法。當用戶通過實體關系抽取方法抽出實體后(未經(jīng)精化),利用關系關鍵詞擴展技術(shù)對實體關系關鍵詞進行擴展,再利用網(wǎng)絡信息的冗余性,利用實體和關鍵詞共現(xiàn)特征從共現(xiàn)句集合中就近抽取出候選實體,取候選實體集中統(tǒng)計值最優(yōu)的詞作為實體,從而對元組進行精化。針對當前實體關系抽取準確率低,使用本方法可避免深層語言處理帶來的噪音,同時盡量獨立于實體關系抽取方法且獨立于抽取過程,期待能提聞實體關系抽取的效果。


通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、 目的和優(yōu)點將會變得更明顯
圖I示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法的流程圖2示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法擴展關系關鍵詞的流程圖3示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法根據(jù)擴展關系關鍵詞替換元組實體的流程圖;以及
圖4示出根據(jù)本發(fā)明的一個具體實施方式
的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法的流程圖。
具體實施方式
本發(fā)明公開了一種基于實體關鍵詞擴展的元組精化方法,不需要深層語言處理技術(shù),也不需要依賴實體關系抽取方法。
當用戶通過實體關系抽取方法抽出實體后(未經(jīng)精化),利用關系關鍵詞擴展技術(shù)對實體關系關鍵詞進行擴展,再利用網(wǎng)絡信息的冗余性,利用實體和關鍵詞共現(xiàn)特征從共現(xiàn)句集合中就近抽取出候選實體,取候選實體集中統(tǒng)計值最優(yōu)的詞作為實體,從而對元組進行精化。
針對當前實體關系抽取準確率低,使用本方法可避免深層語言處理帶來的噪音, 同時盡量獨立于實體關系抽取方法且獨立于抽取過程,提高實體關系抽取的效果。
本方法包含了一種關系關鍵詞擴展的方法。該方法結(jié)合了基于知識工程的自動擴展和手工擴展方法,充分利用了關系的多樣性。
本方法也利用了網(wǎng)絡信息的冗余性,通過實體和關系關鍵詞共現(xiàn)特征,從網(wǎng)絡中提取共現(xiàn)句集合,通過淺層語言處理技術(shù)就近提取實體,最后取統(tǒng)計值最優(yōu)的詞作為實體, 從而對待評估元組進行精化。
本方法利用關系多樣性和網(wǎng)絡信息冗余性,實現(xiàn)了一種基于關系關鍵詞擴展的元組精化方法,避免使用深層語言處理技術(shù),采用數(shù)值統(tǒng)計的方法就近抽取實體。本方法獨立于實體關系抽取方法,避免使用深層語言處理技術(shù)。使得實體關系抽取可移植性好抽取效果好。
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、 目的和優(yōu)點將會變得更明顯
圖I示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法的流程圖。具體地,本領域技術(shù)人員理解,本發(fā)明提供的基于關系關鍵詞擴展的方法適用于關系詞明確的實體關系抽取方法中。例如StatSnowbalI種子元祖由(el,e2, k)組成,其中el代表實體一,e2代表實體二,k代表關系詞。則可利用關系關鍵詞擴展對StatSnowball方法進行元祖精化。更具體地,圖I示出了四個步驟。首先是步驟S201,擴展待評估元組的關系關鍵詞。然后是步驟S202獲取與所述關系關鍵詞相適應的共現(xiàn)句集合。步驟S203根據(jù)所述共現(xiàn)句集合抽取候選實體集合。最后執(zhí)行步驟S204 確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。本領域技術(shù)人員理解,所述待評估元組至少包括實體一,實體二,待評估關系關鍵詞以及待評估關系類型。本發(fā)明對所述待評估元組中的關系關鍵詞進行同義詞擴展,并進一步獲取與所述待評估元組中某一實體具有類似關系的,出現(xiàn)頻率最高的實體以對待評估元組進行精化,使得最后確定的用于替換的實體比原實體更加適用于原關系關鍵詞。本發(fā)明基于上述四個步驟針對當前實體關系抽取準確率低,可避免深層語言處理帶來的噪音,同時盡量獨立于實體關系抽取方法且獨立于抽取過程,提高實體關系抽取的效果。
圖2示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法擴展關系關鍵詞的流程圖。具體地,本圖示出了五個步驟。 首先是步驟S301獲取待評估元組。然后是步驟S302根據(jù)待評估元組生成初始元組。步驟 S303將所述初始關系關鍵詞進行同義詞擴展。步驟S304去除停用詞和不常用詞。最后為步驟S305生成擴展后的關系關鍵詞集合。具體地,本領域技術(shù)人員理解,所述待評估元組至少包括實體一,實體二,待評估關系關鍵詞以及待評估關系類型。所述初始元組包括初始實體,初始關系關鍵詞以及初始關系類型。其中,所述初始實體從所述實體一、實體二中選擇,所述初始關系關鍵詞與待評估關系關鍵詞相同,所述初始關系類型與所述待評估關系類型相同。當所述初始實體任取所述待評估元組中所述實體一以及實體二中任意一個實體時,需要注意的是實體關系類型的變化。例如(奧巴馬,美國,總統(tǒng)),如果取(奧妾(巴)馬, 總統(tǒng))則實體關系類型為“人物與國家”,如果取(美國,總統(tǒng)),則實體關系類型為“國家與人物”。更進一步地,本領域技術(shù)人員理解,所述關系關鍵詞優(yōu)選地,根據(jù)《同義詞詞林擴展版》進行擴展。由于《同義詞詞林》著作時間較為久遠,且之后沒有更新,所以原書中的某些詞語成為生僻詞,而很多新詞又沒有加入。有鑒于此,哈爾濱工業(yè)大學信息檢索實驗室利用眾多詞語相關資源,并投入大量的人力和物力,完成了一部具有漢語大詞表的《哈工大信息檢索研究室同義詞詞林擴展版》。擴展版剔除了原版中的14,706個罕用詞和非常用詞,最終的詞表包含77,343條詞語。擴展后的《同義詞詞林》,含有比較豐富的語義信息。但是目前由于種種原因,《同義詞詞林》完整版并沒有共享,而只是共享了其中的詞典文件。期待著哈工大信息檢索實驗室能夠在不久的將來能夠?qū)⑼暾孢M行共享,以滿足研究和實際應用的需要。所述關系關鍵詞基于所述《同義詞詞林擴展版》擴展后生成關系關鍵詞集合,本發(fā)明提供的基于關系關鍵詞擴展的兀組精化的方法根據(jù)生成的關系關鍵詞集合以及初始兀組中的實體對待評估元組進行精化。
圖3示出根據(jù)本發(fā)明的第一實施例的,一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法根據(jù)擴展關系關鍵詞替換元組實體的流程圖。首先是步驟 S401獲取所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞的所述共現(xiàn)句集合。之后為步驟S402對所述共現(xiàn)句集合中每一個共現(xiàn)句進行實體識別以及分詞處理。分詞處理完畢后,執(zhí)行步驟S403提取所述共現(xiàn)句集合中與所述初始實體以及所述擴展后的關系關鍵詞最近的實體。步驟S404根據(jù)預先定義的實體類型抽取候選實體集合。上述步驟S402 至步驟S404基于就近原則完成候選實體集合的抽取。具體地,本領域技術(shù)人員理解,所述預先定義的實體類型是根據(jù)待評估元組中的關系類型推理出來的。例如所述關系類型為 “人物與國家”,則實體一表示是人物類型,實體二表示是國家類型。所述初始元組選擇了實體一,則“國家"類型即是預定義的要提取的實體類型。之后執(zhí)行步驟S405,記錄所述候選實體集合中每一個實體的頻數(shù)。步驟S406將所述頻數(shù)最高的候選實體以及所述初始實體作為待評估實體中的實體一以及實體二。最后執(zhí)行步驟S407,將替換后的待評估元組作為精化后的元組。上述步驟S405至步驟S407確定替換的實體,并將該實體替換并未被選作初始實體的所述待評估元組中的實體,生成精化的元組。
更進一步地,本領域技術(shù)人員理解,所述共現(xiàn)句集合優(yōu)選地,通過如下步驟進行抽取,首先,將所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞作為搜索關鍵詞輸入搜索引擎,并根據(jù)所述搜索結(jié)果各項標題和摘要獲取共現(xiàn)句集合。在本實施例的一個變化例中,所述共現(xiàn)句集合通過如下步驟進行抽取,將所述初始實體與所述關系關鍵詞集合中每一個關系關鍵詞作為關鍵詞輸入語料庫,并根據(jù)所述語料庫搜索結(jié)果獲取共現(xiàn)句集入口 ο
本方法需要采用一種實體關系抽取方法抽取待評估元組,下面以哈工大抽取方法為例,結(jié)合附圖對本發(fā)明做進一步說明。
圖4為本發(fā)明的流程圖。具體地,在圖4示出的實施例中,利用關系擴展表對實體CN 102982063 A書明說5/5頁
關系進行擴展,利用實體和關鍵詞共現(xiàn)特性,從網(wǎng)絡中抽取大量實體關系句,利用淺層語言處理技術(shù)對共現(xiàn)句進行處理,利用就近原則從中提取出符合預先定義實體類型的詞作為候選實體,再取最大統(tǒng)計詞作為實體,從而對待評估元組進行精化。
具體的方法流程圖如下
I.利用哈工大實體關系抽取方法抽取待評估元組(el,e2, k, r_type),其中el代表實體一,e2代表實體二,k代表關系關鍵詞,r_type代表關系類型。再根據(jù)待評估元組構(gòu)造初始元組(el, k, r_type).其中,el, k, r_type來源于待評估元組。
2.構(gòu)建關系擴展表,首先利用《同義詞詞林擴展版》對關系關鍵詞k進行同義詞擴展,然后再手工去掉一些停用詞和不常用詞,擴展后的關系擴展表為 KeywordsList{(k, ki)}.
3.構(gòu)建關系關鍵詞擴展元組集合,利用關系擴展表對關系進行擴展,從而將初始元組擴展成為一個關系擴展的元組集合{(el, ki, r_type)}.
4.抽取實體與擴展后的關系關鍵詞共現(xiàn)的句子集合SS { (el,ki)}·
5.從共現(xiàn)句集合中抽取候選實體集合。利用淺層語言技術(shù),對共現(xiàn)句集合進行實體識別和分詞等處理,應用就近原則和預先定義的實體類型抽取候選實體結(jié)合。
6.從候選實體集合中取統(tǒng)計值最高的詞作為實體二。
本發(fā)明公開了一種基于關系關鍵詞擴展的元組精化方法,其通過對實體關系抽取的結(jié)果做進一步精化以提高實體關系抽取的效果,本發(fā)明中的方法完全獨立于任何實體關系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術(shù),避免了深層語言當前無法控制的噪音問題。本發(fā)明公開的方法包含一種基于關系關鍵詞擴展的元組精化方法,其中關系關鍵詞擴展,通過利用實體關系的多樣性,提出了一種基于知識庫自動擴展結(jié)合手工擴展方法,本發(fā)明利用實體和關系關鍵詞共現(xiàn)特性,從共現(xiàn)句中就近抽取預定定義類型的詞作為候選實體,最后利用數(shù)值統(tǒng)計從候選實體中取最優(yōu)值作為實體。 本發(fā)明充分利用網(wǎng)絡信息的冗余性和實體關系的多樣性,對實體關系抽取的結(jié)果做進一步精化,提高實體關系抽取的效果。
以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。8
權(quán)利要求
1.ー種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟 a.擴展待評估兀組的關系關鍵詞; b.獲取與所述關系關鍵詞相適應的共現(xiàn)句集合; c.根據(jù)所述共現(xiàn)句集合抽取候選實體集合;以及 d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a還包括如下步驟 al.獲取待評估元組; a2.根據(jù)待評估元組生成初始元組。
3.根據(jù)權(quán)利要求I或2所述的控制方法,所述待評估元組至少包括實體一,實體ニ,待評估關系關鍵詞以及待評估關系類型。
4.根據(jù)權(quán)利要求I至3任一項所述的控制方法,所述初始元組包括初始實體,初始關系關鍵詞以及初始關系類型。
5.根據(jù)權(quán)利要求I至4任一項所述的控制方法,所述初始實體從所述實體一、實體ニ中選擇,所述初始關系關鍵詞與待評估關系關鍵詞相同,所述初始關系類型與所述待評估關系類型相同。
6.根據(jù)權(quán)利要求I至5任一項所述的控制方法,其特征在于,所述步驟a2之后還包括如下步驟 a3.將所述初始關系關鍵詞進行同義詞擴展; a4.去除停用詞和不常用詞;以及 a5.生成擴展后的關系關鍵詞集合。
7.根據(jù)權(quán)利要求I至6任一項所述的控制方法,其特征在于,所述步驟b包括 bl.獲取所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞的所述共現(xiàn)句集ロ ο
8.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll.將所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞作為搜索關鍵詞輸入搜索引擎;以及 bl2.根據(jù)所述捜索結(jié)果各項標題和摘要獲取共現(xiàn)句集合。
9.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,獲取所述步驟bl包括如下步驟 bll'.將所述初始實體與所述關系關鍵詞集合中每ー個關系關鍵詞作為關鍵詞輸入語料庫;以及 bl2".根據(jù)所述語料庫捜索結(jié)果獲取共現(xiàn)句集合。
10.根據(jù)權(quán)利要求I至7任一項所述的控制方法,其特征在于,所述步驟C包括 Cl.對所述共現(xiàn)句集合中每ー個共現(xiàn)句進行實體識別以及分詞處理; c2.提取所述共現(xiàn)句集合中與所述初始實體以及所述擴展后的關系關鍵詞左右兩邊取最近的ー個詞,中間部分取全部的實體詞;以及 c3.根據(jù)預先定義的實體類型抽取候選實體集合。
11.根據(jù)權(quán)利要求8所述的控制方法,其特征在于,所述預先定義的實體類型根據(jù)所述待評估關系類型由初始實體確定。
12.根據(jù)權(quán)利要求I至9任一項所述的控制方法,其特征在于,所述步驟d包括 dl.記錄所述候選實體集合中姆ー個實體的頻數(shù); d2.將所述頻數(shù)最高的候選實體以及所述初始實體作為待評估實體中的實體ー以及實體ニ;以及 d3.將替換后的待評估元組作為精化后的元組。
全文摘要
本發(fā)明提供一種在自然語言處理系統(tǒng)中基于關系關鍵詞擴展的元組精化的控制方法,其特征在于,包括如下步驟a.擴展待評估元組的關系關鍵詞;b.獲取與所述關系關鍵詞相適應的共現(xiàn)句集合;c.根據(jù)所述共現(xiàn)句集合抽取候選實體集合;以及d.確定用于替換的實體,將所述替換實體作為所述待評估元組中的實體。本發(fā)明中的方法完全獨立于任何實體關系抽取方法,也適用于自舉方法任一輪迭代后,而且本方法僅使用淺層語言處理技術(shù),避免了深層語言當前無法控制的噪音問題。
文檔編號G06F17/30GK102982063SQ20121034975
公開日2013年3月20日 申請日期2012年9月18日 優(yōu)先權(quán)日2012年9月18日
發(fā)明者楊小玲, 楊靜 申請人:華東師范大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
全州县| 伊川县| 滁州市| 阿合奇县| 弥渡县| 怀安县| 巩义市| 周至县| 佳木斯市| 井研县| 尼玛县| 迭部县| 瓮安县| 蕲春县| 枣强县| 许昌市| 额济纳旗| 疏勒县| 景德镇市| 曲周县| 涟源市| 凉城县| 本溪市| 丹阳市| 都昌县| 保康县| 周宁县| 习水县| 平顶山市| 荥阳市| 定安县| 宜州市| 林周县| 栖霞市| 岢岚县| 镇平县| 长沙市| 珲春市| 广平县| 色达县| 德钦县|