一種基于依存樹(shù)的語(yǔ)義分析方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理中的語(yǔ)義分析方法,具體涉及一種基于依存樹(shù)的語(yǔ)義分析方法。
【背景技術(shù)】
[0002]自然語(yǔ)言中存在大量的數(shù)據(jù)信息,通過(guò)語(yǔ)義分析工具,旨在挖掘自然語(yǔ)言中所包含的內(nèi)在關(guān)聯(lián)。根據(jù)不同的數(shù)據(jù)樣本、研究目標(biāo),結(jié)合現(xiàn)有的漢語(yǔ)語(yǔ)法、語(yǔ)義/語(yǔ)用的內(nèi)在規(guī)律,借助句法依存樹(shù)來(lái)構(gòu)造文本中不同句子成分之間的依存關(guān)系,自然語(yǔ)言處理,尤其是語(yǔ)義分析,一直是文本挖掘的難點(diǎn)。英文文本的語(yǔ)義分析已經(jīng)有一定的研究成果,但是對(duì)于博大精深的漢語(yǔ)語(yǔ)義分析,則沒(méi)有較為理想的工具。
[0003]作為一個(gè)在人工智能和計(jì)算語(yǔ)言學(xué)的方法,語(yǔ)義分析為知識(shí)推理和語(yǔ)言分析提供了一個(gè)結(jié)構(gòu)和過(guò)程。社會(huì)網(wǎng)絡(luò)中節(jié)點(diǎn)間的信息交流都是通過(guò)各種語(yǔ)言進(jìn)行的,通過(guò)人工智能的方法,對(duì)目標(biāo)信息進(jìn)行語(yǔ)義挖掘一直是技術(shù)瓶頸,沒(méi)有一個(gè)統(tǒng)一的挖掘工具給予支持。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的技術(shù)任務(wù)是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于依存樹(shù)的語(yǔ)義分析方法。將英文依存樹(shù)優(yōu)化、改造成為漢語(yǔ)依存樹(shù),對(duì)語(yǔ)料進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等步驟之后,抽取文本中的實(shí)體,結(jié)合句型、特征詞及依存關(guān)系類型,挖掘?qū)嶓w間的關(guān)聯(lián)關(guān)系。
[0005]本發(fā)明解決其技術(shù)問(wèn)題所采用的技術(shù)方案是:
一種基于依存樹(shù)的語(yǔ)義分析方法,以分詞、詞性標(biāo)注、依存關(guān)系處理為基礎(chǔ),以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),對(duì)不同專業(yè)領(lǐng)域的文本信息進(jìn)行語(yǔ)義分析,提取文本信息中的關(guān)聯(lián)關(guān)系Ο
[0006]以文本分詞、詞性標(biāo)注和依存關(guān)系處理為基礎(chǔ),對(duì)不同專業(yè)領(lǐng)域的文本信息挖掘提供統(tǒng)一的分析流程。
[0007]以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),通過(guò)中英文的無(wú)縫對(duì)應(yīng),將英文語(yǔ)義分析切實(shí)的應(yīng)用到漢語(yǔ)語(yǔ)義分析中,并加以改造,提高了語(yǔ)義分析的準(zhǔn)確率。
[0008]借鑒英文的語(yǔ)義分析思想,以依存樹(shù)為基礎(chǔ),將中英文語(yǔ)法、語(yǔ)義等對(duì)應(yīng),將英文依存樹(shù)優(yōu)化、改造成為漢語(yǔ)依存樹(shù),對(duì)語(yǔ)料進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等步驟之后,抽取文本中的實(shí)體,結(jié)合句型、特征詞及依存關(guān)系類型,挖掘?qū)嶓w間的關(guān)聯(lián)關(guān)系。
[0009]依存樹(shù)有五種重要特性:
(1)一個(gè)句子中只有一個(gè)成分是獨(dú)立的;
(2)其它成分直接依存于某一成分;
(3)任何一個(gè)成分都不能依存與兩個(gè)或兩個(gè)以上的成分;
(4)如果Α成分直接依存于B成分,而C成分在句中位于A和B之間,那么C或者直接依存于B,或者直接依存于A和B之間的某一成分;
(5)中心成分左右兩面的其它成分相互不發(fā)生關(guān)系。
[0010]本發(fā)明的一種基于依存樹(shù)的語(yǔ)義分析方法與現(xiàn)有技術(shù)相比,所產(chǎn)生的有益效果是:
(1)借鑒英文語(yǔ)義分析思想,結(jié)合漢語(yǔ)分詞、詞性標(biāo)注、句法、語(yǔ)法、語(yǔ)義及語(yǔ)用實(shí)際進(jìn)行方法改造,有一定的實(shí)踐標(biāo)準(zhǔn)。
[0011](2)分詞系統(tǒng)、詞性標(biāo)注習(xí)慣的漢化,依存關(guān)系的對(duì)應(yīng),較現(xiàn)有中文語(yǔ)義分析工具,在準(zhǔn)確性方面有明顯的提尚。
[0012](3)鑒于中文句型的多樣性和復(fù)雜性,對(duì)不同的句型有不同的處理方法。
[0013](4)不同的研究目標(biāo),只需更換專業(yè)詞庫(kù),即可進(jìn)行語(yǔ)義分析處理,有較高的通用性。
【附圖說(shuō)明】
[0014]附圖1是本發(fā)明的句法分析依存樹(shù)實(shí)例圖。
【具體實(shí)施方式】
[0015]下面結(jié)合附圖對(duì)本發(fā)明的一種基于依存樹(shù)的語(yǔ)義分析方法作以下詳細(xì)地說(shuō)明。
[0016]一種基于依存樹(shù)的語(yǔ)義分析方法,以分詞、詞性標(biāo)注、依存關(guān)系處理為基礎(chǔ),以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),對(duì)不同專業(yè)領(lǐng)域的文本信息進(jìn)行語(yǔ)義分析,提取文本信息中的關(guān)耳關(guān)關(guān)系Ο
[0017]以文本分詞、詞性標(biāo)注和依存關(guān)系處理為基礎(chǔ),對(duì)不同專業(yè)領(lǐng)域的文本信息挖掘提供統(tǒng)一的分析流程。
[0018]以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),通過(guò)中英文的無(wú)縫對(duì)應(yīng),將英文語(yǔ)義分析切實(shí)的應(yīng)用到漢語(yǔ)語(yǔ)義分析中,并加以改造,提高了語(yǔ)義分析的準(zhǔn)確率。
[0019]借鑒英文的語(yǔ)義分析思想,以依存樹(shù)為基礎(chǔ),將中英文語(yǔ)法、語(yǔ)義等對(duì)應(yīng),將英文依存樹(shù)優(yōu)化、改造成為漢語(yǔ)依存樹(shù),對(duì)語(yǔ)料進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等步驟之后,抽取文本中的實(shí)體,結(jié)合句型、特征詞及依存關(guān)系類型,挖掘?qū)嶓w間的關(guān)聯(lián)關(guān)系。
[0020]下面以設(shè)備故障現(xiàn)象文本信息為樣本進(jìn)行語(yǔ)義分析。
[0021]技術(shù)方案:
1、構(gòu)造設(shè)備庫(kù)。
[0022]根據(jù)業(yè)務(wù)目標(biāo),需要提取出設(shè)備件之間的關(guān)聯(lián)關(guān)系。因此,應(yīng)首先構(gòu)建包含所有設(shè)備件的設(shè)備庫(kù),即將所有的設(shè)備名稱所構(gòu)成的信息作為設(shè)備庫(kù)。如“應(yīng)急液壓油栗”、“柱塞式液壓栗”、“艙環(huán)控管處”、“TPU”、“起落架”、“液壓系統(tǒng)II”等等,且這些設(shè)備件之間可以標(biāo)識(shí)層次關(guān)系。應(yīng)該說(shuō)明的是,首先應(yīng)該規(guī)定好需要進(jìn)行語(yǔ)義分析的設(shè)備件層級(jí),如“液壓栗”由“栗體”、“油箱”等部分構(gòu)成,而“栗體”也有不同的組成部分,需指明需要進(jìn)行語(yǔ)義分析的設(shè)備件層次,并提供不同設(shè)備件之間的層級(jí)關(guān)系。
[0023]把含有“設(shè)備件”的句子稱為關(guān)系樣例,無(wú)特殊說(shuō)明,關(guān)系樣例都是指句子?!霸O(shè)備件”間的關(guān)系是建立在每對(duì)“設(shè)備件”之間的。鑒于語(yǔ)義分析對(duì)象的特殊性(部分信息只包含一種設(shè)備件),舍棄分析對(duì)象中“設(shè)備件個(gè)數(shù)< 1”的關(guān)系樣例(或句子)。
[0024]2、構(gòu)造特征詞庫(kù)。
[0025]特征詞是指示某些設(shè)備之間特殊關(guān)系的詞,如“導(dǎo)致”、“致使”等可以指示句子中設(shè)備i與設(shè)備j的之間故障關(guān)聯(lián)的詞。
[0026]現(xiàn)有的分析對(duì)象中,很少有類似于上述特征詞,但大部分都包含有“發(fā)現(xiàn)”、“反映”,或直接敘述“‘設(shè)備’ + ‘正常/非正常狀態(tài)’”。設(shè)備件與特征詞是緊密相關(guān)的,若設(shè)備件與特征詞都存在,則不難提取設(shè)備件的關(guān)聯(lián)關(guān)系,因此仍有必要構(gòu)建特征詞庫(kù)。
[0027]3、提供“指代”詞典。
[0028]分析對(duì)象中的同一個(gè)設(shè)備件名稱有不同的描述方法或簡(jiǎn)稱,須提供同一設(shè)備件不同名稱的詞典,以完成更好的設(shè)備識(shí)別。
[0029]4、句型分類。
[0030]分析對(duì)象的描述方法有很強(qiáng)的規(guī)律性,可以據(jù)此將所有的分析對(duì)象做分類處理,不同類型的句式結(jié)構(gòu)可以應(yīng)用不同的關(guān)系抽取規(guī)則。
[0031]5、借助斯坦福Parser生成依存樹(shù)。
[0032]Parser可以找出句子中詞語(yǔ)之間的“依存”關(guān)聯(lián)信息,并且以“依存”格式輸出,包括有向圖及樹(shù)等形式,為了能更直觀的看到詞語(yǔ)之間的依存關(guān)系,一般選取依存樹(shù)。Parser提供分詞、詞性標(biāo)注和語(yǔ)法分析過(guò)程,鑒于其對(duì)中文的處理能力不能滿足現(xiàn)代漢語(yǔ)語(yǔ)法、語(yǔ)義分析的目標(biāo)要求,可以將其分詞程序更換為適用的中文分詞工具。同樣的,也可以將詞性標(biāo)注進(jìn)行調(diào)整。需要注意的是,使用漢語(yǔ)詞性標(biāo)注工具時(shí),需要做好詞性標(biāo)注集合的匹配和對(duì)接,如Parser中“人名”、“組織機(jī)構(gòu)名”等的詞性標(biāo)注為“NR”,中文的“人名”實(shí)體標(biāo)注為“nr”,這時(shí)需要將中文的“組織機(jī)構(gòu)名” “nt”與“nr” 一起對(duì)應(yīng)英文的“NR”。
[0033]Parser的輸入信息是句子,輸出信息是該句子的依存關(guān)系集合。輸入分析對(duì)象(句子),選取適當(dāng)?shù)姆治瞿P椭螅@示相應(yīng)的分析結(jié)果,如“安全整頓大檢查時(shí)發(fā)現(xiàn)油箱的指示燈不亮?!钡囊来鏄?shù)如附圖1所示。
[0034]對(duì)于較復(fù)雜的句子,可以制定詳細(xì)的關(guān)系抽取規(guī)則,規(guī)則的制定需要根據(jù)詞語(yǔ)(設(shè)備件)之間的依存路徑。詞語(yǔ)(設(shè)備件)之間的依存路徑指的是句中任意兩個(gè)詞之間的依存關(guān)系及經(jīng)過(guò)結(jié)點(diǎn)的有序路徑,最簡(jiǎn)單的依存路徑就是相鄰結(jié)點(diǎn)之間的依存關(guān)系。如本例中,“檢查”和“指示燈”之間的依存路徑為(檢查-dobj-整頓-loc-發(fā)現(xiàn)-ccomp-亮-nsubj-指示燈),當(dāng)然,這兩個(gè)詞在本例中無(wú)特殊語(yǔ)義關(guān)系可以提取。
【主權(quán)項(xiàng)】
1.一種基于依存樹(shù)的語(yǔ)義分析方法,其特征在于以分詞、詞性標(biāo)注、依存關(guān)系處理為基礎(chǔ),以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),對(duì)不同專業(yè)領(lǐng)域的文本信息進(jìn)行語(yǔ)義分析,提取文本信息中的關(guān)聯(lián)關(guān)系。2.根據(jù)權(quán)利要求1所述的一種基于依存樹(shù)的語(yǔ)義分析方法,其特征在于以文本分詞、詞性標(biāo)注和依存關(guān)系處理為基礎(chǔ),對(duì)不同專業(yè)領(lǐng)域的文本信息挖掘提供統(tǒng)一的分析流程。3.根據(jù)權(quán)利要求1所述的一種基于依存樹(shù)的語(yǔ)義分析方法,其特征在于以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),通過(guò)中英文的無(wú)縫對(duì)應(yīng),將英文語(yǔ)義分析切實(shí)的應(yīng)用到漢語(yǔ)語(yǔ)義分析中,并加以改造,提高了語(yǔ)義分析的準(zhǔn)確率。
【專利摘要】本發(fā)明提供一種基于依存樹(shù)的語(yǔ)義分析方法,以分詞、詞性標(biāo)注、依存關(guān)系處理為基礎(chǔ),以漢語(yǔ)句法、語(yǔ)法、語(yǔ)義為基準(zhǔn),對(duì)不同專業(yè)領(lǐng)域的文本信息進(jìn)行語(yǔ)義分析,提取文本信息中的關(guān)聯(lián)關(guān)系。本發(fā)明可以作為一個(gè)通用型工具,只需構(gòu)造相應(yīng)的專業(yè)詞庫(kù)、特征詞庫(kù)等,即可對(duì)目標(biāo)信息進(jìn)行語(yǔ)義分析。
【IPC分類】G06F17/27
【公開(kāi)號(hào)】CN105302796
【申請(qǐng)?zhí)枴緾N201510809638
【發(fā)明人】于曉晨, 邵兵, 婁海鳳, 郝偉
【申請(qǐng)人】浪潮軟件股份有限公司
【公開(kāi)日】2016年2月3日
【申請(qǐng)日】2015年11月23日