欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語義單元抽取方法和語義單元抽取設備的制作方法

文檔序號:6488487閱讀:349來源:國知局
語義單元抽取方法和語義單元抽取設備的制作方法
【專利摘要】本發(fā)明公開了一種語義單元抽取方法和語義單元抽取設備。所述語義單元抽取方法包括:輸入經(jīng)過分詞的目標語言的句子;獲得與目標語言的句子對應的參考語言的句子;對參考語言的句子進行詞性標注;獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
【專利說明】語義單元抽取方法和語義單元抽取設備
【技術領域】
[0001]本發(fā)明一般地涉及自然語言處理領域。更具體地說,本發(fā)明涉及用于抽取語義單元的方法和設備。
【背景技術】
[0002]在自然語言處理中,以漢語為代表的一些語言存在著分詞和詞性標注不準確的問題。例如,當以語料進行訓練并基于訓練結果進行分詞和詞性標注時,如果訓練語料中不包含特定的專有名詞,則該專有名詞很可能不會被正確地分為一個詞。并且,不同的人對分詞有著不同的標準,難以以統(tǒng)一標準進行分詞。分詞和詞性標注結果的不準確以及標準不統(tǒng)一不利于針對漢語文獻進行自然語言處理及相關應用處理,諸如句法分析、文本分析、文本改寫、機器翻譯、數(shù)據(jù)挖掘、主題詞獲取、搜索等。

【發(fā)明內(nèi)容】

[0003]在下文中給出了關于本發(fā)明的簡要概述,以便提供關于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0004]本發(fā)明的發(fā)明人意識到現(xiàn)有技術中分詞及詞性標注技術的相關不足可以在語義層次上進行克服??梢栽诜衷~處理后的詞的基礎上,進行語義單元抽取處理,抽取出的語義單元從語義的角度出發(fā),故而具有統(tǒng)一的標準,并且準確地符合句子的語義。
[0005]本發(fā)明的目的是提供一種語義單元抽取方法和設備,其能夠抽取出句子中的語義單元,使得基于詞的處理可以變?yōu)榛谡Z義單元的處理,從而提高了句法分析、文本分析、文本改寫、機器翻譯、數(shù)據(jù)挖掘、主題詞獲取、搜索等自然語言處理及相關應用處理的效果。
[0006]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供一種語義單元抽取方法,包括:輸入經(jīng)過分詞的目標語言的句子;獲得與目標語言的句子對應的參考語言的句子;對參考語言的句子進行詞性標注;獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0007]根據(jù)本發(fā)明的另一方面,提供一種語義單元抽取設備,包括:目標語言輸入單元,被配置為輸入經(jīng)過分詞的目標語言的句子;參考語言獲取單元,被配置為獲得與目標語言的句子對應的參考語言的句子;詞性標注單元,被配置為對參考語言的句子進行詞性標注;詞對齊關系獲取單元,被配置為獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及抽取單元,被配置為根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0008]另外,根據(jù)本發(fā)明的另一方面,還提供了 一種存儲介質(zhì)。所述存儲介質(zhì)包括機器可讀的程序代碼,當在信息處理設備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0009]此外,根據(jù)本發(fā)明的再一方面,還提供了 一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行的指令,當在信息處理設備上執(zhí)行所述指令時,所述指令使得所述信息處理設備執(zhí)行根據(jù)本發(fā)明的上述方法。
[0010]在下面的說明書部分中給出本發(fā)明的其他方面,其中,詳細說明用于充分地公開本發(fā)明的優(yōu)選實施例,而不對其施加限定。
【專利附圖】

【附圖說明】
[0011]參照下面結合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。附圖中:
[0012]圖1是示出根據(jù)本發(fā)明的語義單元抽取方法的流程圖;
[0013]圖2是示出根據(jù)本發(fā)明的語義單元抽取方法的抽取語義單元步驟的詳細流程圖;
[0014]圖3是示出根據(jù)本發(fā)明的語義單元抽取設備的示例結構的圖;
[0015]圖4是示出根據(jù)本發(fā)明的語義單元抽取設備的抽取單元的示例結構的圖;以及
[0016]圖5是示出個人計算機的示例性結構的框圖。
【具體實施方式】
[0017]在下文中將結合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與設備及業(yè)務相關的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內(nèi)容的本領域技術人員來說,這種開發(fā)工作僅僅是例行的任務。
[0018]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關的裝置結構和/或處理步驟,而省略了與本發(fā)明關系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y合。
[0019]如上所述,現(xiàn)有技術中存在分詞標準不統(tǒng)一、詞性標注不準確的問題。本發(fā)明的發(fā)明人提出了語義單元的概念,通過將句子的組成元素抽象為語義單元,可以抽取出例如專有名詞等原本并不知曉的句子組成元素,并且使得句子的結構更加明晰,組成句子的元素數(shù)更少。這樣的句子進行句法分析,顯然速度更快,結果更準?;诶鐚S忻~的語義單元的文本分析、文本改寫、機器翻譯、數(shù)據(jù)挖掘、主題詞獲取、搜索等相關技術的效果更好。
[0020]這里,語義單元被定義為在詞之上的結構單元,其具有特定的語法特征,如詞性特征(下文中簡稱為語義單元的詞性),既可以是單個詞,也可以是詞組、專有名詞等多詞單元??梢?,語義單元有別于作為分詞結果的詞。
[0021]然而,直接根據(jù)分詞的結果進行語義單元的抽取,難免受到現(xiàn)有分詞技術不準確的影響,發(fā)明人考慮可以借助于參考語言來抽取語義單元。
[0022]參考語言的要求是不需要分詞或分詞準確率高,并且參考語言的詞性標注準確率高。這樣,可以借助于參考語言的分詞和詞性標注的結果,提取目標語言(即待處理的語言)的句子中的語義單元。
[0023]參考語言例如是英語、法語、德語等。目標語言例如是漢語、日語等。
[0024]下面參照圖1詳細描述根據(jù)本發(fā)明的語義單元抽取方法的細節(jié)。
[0025]圖1示出了根據(jù)本發(fā)明的語義單元抽取方法的流程圖。
[0026]根據(jù)本發(fā)明的語義單元抽取方法包括:輸入經(jīng)過分詞的目標語言的句子(步驟SI);獲得與目標語言的句子對應的參考語言的句子(步驟S2);對參考語言的句子進行詞性標注(步驟S3);獲得目標語言的句子和參考語言的句子之間的詞對齊關系(步驟S4);以及根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元(步驟S5)。
[0027]在步驟SI中,輸入要從中抽取語義單元的目標語言的句子。
[0028]這樣的句子應先進行初步的分詞,以作為后續(xù)處理的基礎。分詞為本領域技術人員所熟知,此處可以采用任何針對目標語言的現(xiàn)有分詞方法。
[0029]分詞之后的句子的組成元素是詞,詞可以分為單字詞、雙字詞、多字詞等。
[0030]在步驟S2中,獲得與目標語言的句子對應的參考語言的句子。
[0031]此處的獲取方法可以是最初即獲得作為雙語句對的目標語言的句子和對應的參考語言的句子,也可以通過將目標語言的句子借助于人工翻譯或機器翻譯來翻譯為參考語言的句子。也可以采用其它適當?shù)姆椒?,只要能獲得與目標語言的句子對應的參考語言的句子即可。
[0032]優(yōu)選地,采用統(tǒng)計機器翻譯方法獲得與目標語言的句子對應的參考語言的句子。采用統(tǒng)計機器翻譯的方法,可以在獲得目標語言的句子對應的參考語言的句子的同時,獲得它們之間的詞對齊關系。
[0033]這是因為統(tǒng)計機器翻譯的必要步驟是進行詞對齊,而且統(tǒng)計機器翻譯的詞與詞之間的翻譯準確率較高、詞對齊效果較好。因此,在此基礎上進行本發(fā)明的后續(xù)處理能取得更好的效果,并且不必進行單獨的詞對齊處理以獲得詞對齊關系。
[0034]在步驟S3中,對參考語言的句子進行詞性標注。
[0035]這一步驟是為了將來借助于參考語言的詞的詞性標注結果抽取目標語言的句子中的語義單元并確定語義單元的詞性。
[0036]此外,如上所述,參考語言選取不需要分詞或分詞準確率高、并且詞性標注準確率高的語言。如果參考語言需要分詞,則在對參考語言的句子進行詞性標注之前,還需對參考語言的句子進行分詞。
[0037]類似地,參考語言的分詞和詞性標注可以采用能夠?qū)崿F(xiàn)此功能的任何方法。
[0038]在步驟S4中,獲得目標語言的句子和參考語言的句子之間的詞對齊關系。
[0039]詞對齊關系是連接目標語言的句子的組成元素和參考語言的句子的組成元素之間的橋梁,通過詞對齊可以確定目標語言的句子的組成元素和參考語言的句子的組成元素之間的對齊關系,從而借助于參考語言抽取目標語言的句子中的語義單元。
[0040]如上所述,當采用統(tǒng)計機器翻譯方法獲得與目標語言的句子對應的參考語言的句子的情況下,可以從中獲取句子之間的詞對齊關系來執(zhí)行步驟S4。
[0041]當然,前提是能夠從統(tǒng)計機器翻譯系統(tǒng)中獲得作為中間結果的詞對齊關系。如果統(tǒng)計機器翻譯系統(tǒng)沒有提供這樣的輸出或接口,則可通過其他詞對齊技術對目標語言的句子和通過統(tǒng)計機器翻譯獲得的參考語言的句子進行詞對齊處理,以獲得詞對齊關系。
[0042]對于并不具有現(xiàn)成的詞對齊關系的目標語言和參考語言的雙語句對,可以利用任何適當?shù)脑~對齊技術來對目標語言的句子和參考語言的句子進行詞級對齊,以獲得詞對齊關系。
[0043]目前較為常見的詞對齊技術是GIZA++。GIZA++是單向的詞對齊技術,采用GIZA++對雙語句對進行詞對齊時,需要從目標語言到參考語言執(zhí)行一次處理,再從參考語言到目標語言執(zhí)行一次處理,然后將兩次處理的對齊結果進行整合,以獲得雙語句對的詞對齊關系O
[0044]此外,在詞對齊處理中,可能會出現(xiàn)這樣的情形,即目標語言句子中的某個詞,并沒有在詞對齊處理中找到參考語言句子中與之對齊的詞。如上所述,借助于對齊關系,利用參考語言的句子的組成元素來抽取目標語言的句子中的語義單元。如果目標語言的句子中的詞沒有與之對齊的參考語言詞,則可能會導致它周圍的詞本應卻不能被抽取到一個語義單元中,因為它將本應屬于同一個語義單元的兩個或更多個詞“隔開”。
[0045]為了解決這樣的問題,以抽取出更大跨度的語義單元,在詞對齊步驟中,還進行如下可選的處理:對于目標語言的句子中的、參考語言句子中沒有與之對齊的詞的、且不屬于停詞表的詞,在參考語言句子中與這樣的詞的左鄰詞對齊的詞的右側,創(chuàng)建名詞詞性的空節(jié)點與這樣的詞對齊。
[0046]停詞表定義了不需要對其創(chuàng)建空節(jié)點的詞的集合。排除了停詞表中的詞是為了避免增加一些不必要的空節(jié)點,以免抽出錯誤的語義單元。以漢語為例,停詞表包括虛詞以及明顯不是名詞的實詞。虛詞包括助詞、介詞、連詞等。實詞包括名詞、形容詞、副詞、動詞等。明顯不是名詞的實詞,例如是作為副詞的“就”、作為動詞的“進行”等,這樣的詞顯然不會作為語義單元的一部分連接語義單元的另外兩個部分。
[0047]對于符合上述條件的目標語言詞,可在參考語言句子中為其創(chuàng)建與之對齊的空節(jié)點。空節(jié)點的位置可選擇為與這樣的目標語言詞的左鄰目標語言詞對齊的參考語言詞的右偵牝即這樣的目標語言詞的左鄰目標語言詞與創(chuàng)建的空節(jié)點的左鄰參考語言詞對齊。并且,將空節(jié)點均設置為名詞詞性。
[0048]在步驟S5中,根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0049]圖2示出了抽取語義單元步驟的詳細流程圖。
[0050]參考語言的句子和目標語言的句子之間的詞對齊關系可能是一個參考語言詞對齊一個目標語言詞(下文中簡稱為一對一)、一個參考語言詞對齊多個目標語言詞(下文中簡稱為一對多)、多個參考語言詞對齊多個目標語言詞(下文中簡稱為多對多)、多個參考語言詞對齊一個目標語言詞(下文中簡稱為多對一)。
[0051]由于本發(fā)明主要是為了抽取目標語言的句子的語義單元,語義單元可以是一個詞或多個詞。因此,通常不考慮上述多對一的情況,在下面針對其它三種情況進行語義單元的抽取。
[0052]在步驟S21中,針對一對多的情況進行一對多抽取。
[0053]一對多抽取是針對一對多對齊關系的參考語言詞和目標語言詞抽取語義單元。具體地,對于詞對齊關系表明一個參考語言詞對應于連續(xù)的多個目標語言詞、所述多個目標語言詞僅對應于該參考語言詞(即所述多個目標語言詞不與其它參考語言詞對應),且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,將該語義單元的詞性確定為該參考語言詞的詞性,并將該語義單元視為目標語言的句子中的一個詞。
[0054]由于參考語言詞為一個詞,而與之對應的目標語言詞是多個連續(xù)詞,因此,容易推斷這些連續(xù)的目標語言詞更可能是一個有機的整體。由于作為實詞的名詞、形容詞、副詞在句子中的地位較為重要,對齊關系準確率、高,其信息可覆蓋句子大部分含義,因此,重點抽取這三種詞性的語義單元。
[0055]故將僅與一個詞性為名詞、形容詞或副詞的參考語言詞對齊的連續(xù)的多個目標語言詞確定為一個語義單元。
[0056]又因為本發(fā)明借助于參考語言來推斷目標語言,因此,將該語義單元的詞性確定為該參考語言詞的詞性。
[0057]語義單元被抽取出來之后,可將其視為目標語言的句子中的一個詞,以便于后續(xù)處理。準確地說,語義單元是句子的組成單位。本發(fā)明從句子中抽取語義單元,使得在語義單元的層次上處理和分析句子。
[0058]應注意,詞對齊關系通常通過分詞后的詞的序號來表征,由于一對多抽取以及后面的多對多抽取會導致被合成為一個語義單元的多個詞變?yōu)橐粋€整體,相應地會使用一個序號來標記該語義單元,因此,還需對目標語言和參考語言的句子中的各個詞或語義單元的序號進行適應性的調(diào)整,并且適應性地調(diào)整對齊關系中標記的序號,保持之前獲得的詞對齊關系。也就是說詞對齊關系并未因語義單元抽取而變化,但表征詞對齊關系的序號需要在每次一對多抽取和多對多抽取后進行適應性調(diào)整。
[0059]經(jīng)過步驟S21,可以抽取出一部分語義單元。下面,在步驟S22中,針對多對多的情況進行多對多抽取。
[0060]多對多抽取是對于詞對齊關系表明連續(xù)的多個參考語言詞對應于連續(xù)的多個目標語言詞、且所述多個參考語言詞符合預定義模板的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,根據(jù)所述多個參考語言詞的詞性確定該語義單元的詞性,并將該語義單元視為目標語言的句子中的一個詞。
[0061]多對多對齊關系相對比較復雜,因為對齊的目標語言詞并不是一個詞,故對齊的多個參考語言詞并不一定是一個語義單元。因此,需要借助于預定義模板來定義何種結構的多個連續(xù)參考語言詞構成一個參考語言句子中的語義單元,并且其對應的多個連續(xù)目標語言詞構成一個目標語言句子中的語義單元。只有符合預定義模板的多個連續(xù)參考語言詞對齊的多個連續(xù)目標語言詞才應被確定為一個語義單元。
[0062]可見,預定義模板對于多對多對齊關系情況下的語義單元抽取的數(shù)量和質(zhì)量比較重要??梢曰趨⒖颊Z言的語法定義預定義模板。符合預定義模板的多個詞構成符合參考語言語法的名詞詞組、形容詞詞組、副詞詞組或?qū)S忻~。本領域技術人員能夠根據(jù)語言學的知識和本發(fā)明的要求,構建適當?shù)念A定義模板。
[0063]同樣,因為名詞、形容詞、副詞、專有名詞是句子中的重要部分,重點抽取這三種類型的語義單元,故預定義模板應主要定義這三方面的模式。[0064]作為示例,給出其中的一種模式:“JJNN+”。JJ表示形容詞,NN表示名詞,JJNN表示連續(xù)的一個形容詞和一個名詞。JJNN+表示連續(xù)的一個形容詞和連續(xù)的多個名詞。
[0065]作為示例,假設分詞、詞性標注和詞對齊的結果表明:“solid/JJform/NN固體形式39:5040:51”。其中,“39:5040:51”通過序號表明詞對齊關系。作為參考語言的英文“solid”是形容詞,與作為目標語言的漢語“固體”對齊(39:50),“form”是名詞,與“形式”對齊(40:51)。
[0066]可見,上述參考語言詞和目標語言詞符合上述預定義的模式。因此,將“固體形式”抽取為一個語義單元。
[0067]在多對多抽取中,根據(jù)多個參考語言詞的詞性確定抽取出的語義單元的詞性。例如,JJNN模式中名詞為主干詞,因此,將JJNN模式抽取出的語義單元的詞性確定為名詞。
[0068]下面,針對上面提到的空節(jié)點的作用進行解釋說明。
[0069]作為示例,假設分詞、詞性標注和詞對齊的結果表明:“p0lyVinyl/NN”對應“聚乙烯”, “pyrrolidone/NN” 對應“咯燒酮”,“polyvinyl” 與 “pyrrolidone” 連續(xù),但是“聚乙烯”和“咯烷酮”之間還有“基吡”。實際上“聚乙烯基吡咯烷酮”應該是一個語義單元,但是“基吡”并沒有與之對齊的英文詞。這樣就無法抽取出本應抽取出的語義單元“聚乙烯基吡咯烷酮”。
[0070]但是,由于上述步驟S4中設置了空節(jié)點,形成了 “polyvinyl/JJEMPTY/NNpyrroIidone/NN”結構,這符合預定義模板中的“ JJNN+ ”模式,因此,可以從中抽取出“聚乙烯基吡咯烷酮”這一語義單元。
[0071]應注意,在步驟S21中針對一對多的情況進行一對多抽取,并且抽取出來的語義單元會被視為一個詞,這個詞可能與其前后的詞(含被視為詞的語義單元)符合預定義模板中的模式,從而參與到步驟S22中的多對多抽取中,形成更大的語義單元的一部分。
[0072]作為示例,假設分詞、詞性標注、詞對齊的結果是“antimicrobial/JJ”與兩個連續(xù)的漢語詞“抗”和“微生物”相對齊,因此,可以在步驟S21中,以一對多抽取方式抽取出語義單元“抗微生物”。
[0073]然而,“抗微生物”后還有一個詞“劑”,其與“antimicrobial/JJ”后面的“agent/NN”對應。事實上,“抗微生物劑”應被作為一個更大的語義單元抽取出來。
[0074]因此,在步驟S21中通過一對多抽取將“抗微生物”抽取為一個語義單元并將其視為一個詞后,“antimicrobial/JJ agent/NN”與“抗微生物劑”形成了多對多的“ JJNN”模式,故可在步驟S22中抽取出“抗微生物劑”這一語義單元。
[0075]應注意,上述步驟S21和步驟S22的執(zhí)行順序是先進行一對多抽取,再進行多對多抽取,其中的一種情形是一對多抽取出的語義單元參與到了后續(xù)的多對多抽取中,形成為更大的語義單元的一部分。但是,步驟S21和步驟S22的順序可以互換,即可以先執(zhí)行步驟S22的多對多抽取,再執(zhí)行步驟S21的一對多抽取。
[0076]仍以“antimicrobial/JJagent/NN”與“抗微生物劑”為例?!癮ntimicrobial/JJ”與兩個連續(xù)的漢語詞“抗”和“微生物”相對齊,“ agent/NN”與“劑”相對齊,“antimicrobial/JJ agent/NN”形成多對多的“ JJNN”模式,符合預定義的模板,“抗微生物劑”形成連續(xù)的三個漢語詞,故“antimicrobial/JJ agent/NN”與“抗微生物劑”符合本發(fā)明的多對多抽取條件。[0077]因此,可在先執(zhí)行的步驟S22中,將“antimicrobial agent”抽取為一個英語語義單元,將與之對應的“抗微生物劑”抽取為一個漢語語義單元。
[0078]而在后執(zhí)行的步驟S21中,可以針對其它一對多對應關系,按上面詳細描述的方式進行一對多抽取。
[0079]經(jīng)上述步驟S21和S22抽取出的語義單元反映了句子結構中原本單個詞不能體現(xiàn)出的句子結構,將部分單個詞合并為語義單元作為更高層次的句子組成元素。這有利于后續(xù)進行各種自然語言處理和相關處理,因為句子的結構更加明晰,表征句子內(nèi)容的元素更為準確。
[0080]為了便于之后統(tǒng)一以語義單元為單位進行處理,可以針對一對一的情況,進行可選的步驟S23。
[0081]在步驟S23中,對于詞對齊關系表明一個參考語言詞對應于一個目標語言詞、且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將該目標語言詞確定為一個語義單元,將該語義單元的詞性確定為該參考語言詞的詞性。
[0082]由于在本發(fā)明中假設參考語言的詞性標注更為準確,利用參考語言的句子的分詞和詞性標注結果對目標語言的句子進行修正,因此,當一個參考語言詞與一個目標語言詞對齊時,認為該目標語言詞構成的語義單元的詞性是相應的參考語言詞的詞性。
[0083]經(jīng)過上述處理,抽取出的語義單元可能存在一定的不符合目標語言語法的結構,例如“的氨基核苷酸”。因此,進行可選的步驟S24。
[0084]在步驟S24中,按照目標語言的語法,對抽取出的語義單元進行調(diào)整。
[0085]這里的調(diào)整是在參照參考語言抽取語義單元后,從目標語言本身的角度,對抽取出的語義單元進行的調(diào)整,例如去除“的氨基核苷酸”中的“的”。本領域技術人員可以根據(jù)目標語言的語法進行任何適當?shù)恼{(diào)整處理。
[0086]本領域技術人員可以理解,抽取出語義單元后,句子的結構變得更加明晰。此外,現(xiàn)有的分詞方法依賴于標注好的訓練語料,如果語料中沒有專有名詞或沒有標注出專有名詞,則分詞處理無法得到句子中的專有名詞。而專有名詞數(shù)量大、領域廣、很難窮舉,因此,很難針對所有的專有名詞進行訓練。然而,根據(jù)本發(fā)明的語義單元抽取方法,可以將專有名詞作為一個語義單元抽取出來,因此句子的組成元素更加準確。相對于詞而言,語義單元能夠在較高的層次上幫助對句子進行分析和處理。
[0087]因此,可以預見,在對句子、段落、文獻進行根據(jù)本發(fā)明的語義單元抽取之后,再在語義單元的基礎上進行數(shù)據(jù)挖掘、主題詞獲取、搜索、句法分析、機器翻譯等工作時,效果將有顯者提聞。
[0088]因此,本發(fā)明還提供了如下的數(shù)據(jù)挖掘方法,包括:利用根據(jù)本發(fā)明的語義單元抽取方法對待處理的文獻抽取語義單元,以及基于所抽取的語義單元,進行數(shù)據(jù)挖掘。
[0089]本發(fā)明還提供了如下的主題詞獲取方法,包括:利用根據(jù)本發(fā)明的語義單元抽取方法對待處理的文獻抽取語義單元,以及基于所抽取的語義單元,獲取文獻的主題詞。獲得的文獻主題詞可以用于計算文獻的相似度,對文獻進行聚類等。
[0090]本發(fā)明還提供了如下的搜索方法,包括:利用根據(jù)本發(fā)明的語義單元抽取方法對可被搜索的文獻抽取語義單元,以及基于所抽取的語義單元,對文獻進行搜索。在使用某一領域的專有名詞對大量文獻進行搜索時,如果可被搜索的文獻基于語義單元標記,則更容易被搜索到。反之,如果專有名詞被割裂為2個甚至更多的詞,則可能搜索不到相關文獻。
[0091]本發(fā)明還提供了如下的句法分析方法,包括:利用根據(jù)本發(fā)明的語義單元抽取方法對待處理的文獻抽取語義單元,以及基于所抽取的語義單元,進行句法分析。例如,科技文獻中存在大量專有名詞,加大了句法分析的難度,然而如果專有名詞作為語義單元被抽取出來,則句子的結構將會被簡化,句法分析的效果更好。
[0092]本發(fā)明還提供了如下的機器翻譯方法,包括:利用根據(jù)本發(fā)明的語義單元抽取方法對訓練語料抽取語義單元,以及基于所抽取的語義單元,訓練機器翻譯設備。由于這樣的語料包含例如專有名詞,因此機器翻譯的效果會得到提高。
[0093]下面將參照圖3簡述根據(jù)本發(fā)明的語義單元抽取設備。
[0094]圖3示出了根據(jù)本發(fā)明的語義單元抽取設備的示例結構圖。
[0095]語義單元抽取設備30包括:目標語言輸入單元31,被配置為輸入經(jīng)過分詞的目標語言的句子;參考語言獲取單元32,被配置為獲得與目標語言的句子對應的參考語言的句子;詞性標注單元33,被配置為對參考語言的句子進行詞性標注;詞對齊關系獲取單元34,被配置為獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及抽取單元35,被配置為根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0096]在一個示例中,語義單元抽取設備30還包括:分詞單元36,被配置為對參考語言的句子進行分詞。
[0097]在一個示例中,詞對齊關系獲取單元34包括:詞對齊單元,被配置為對目標語言的句子和參考語言的句子進行詞級對齊,以獲得詞對齊關系。
[0098]在一個示例中,參考語言獲取單元32被進一步配置為從機器翻譯設備獲得與目標語言的句子對應的參考語言的句子,詞對齊關系獲取單元34被進一步配置為從機器翻譯設備獲得目標語言的句子和參考語言的句子之間的詞對齊關系。機器翻譯設備可以是基于統(tǒng)計的機器翻譯設備,可以設置于語義單元抽取設備30之內(nèi)或之外。
[0099]在一個示例中,詞對齊關系獲取單元34包括:空節(jié)點創(chuàng)建單元,被配置為對于目標語言的句子中的、參考語言句子中沒有與之對齊的詞的、且不屬于停詞表的詞,在參考語言句子中與這樣的詞的左鄰詞對齊的詞的右側,創(chuàng)建名詞詞性的空節(jié)點與這樣的詞對齊。
[0100]圖4示出了根據(jù)本發(fā)明的語義單元抽取設備的抽取單元的示例結構圖。
[0101]在一個示例中,抽取單元35包括:一對多抽取單元351,被配置為對于詞對齊關系表明一個參考語言詞對應于連續(xù)的多個目標語言詞、所述多個目標語言詞僅對應于該參考語言詞,且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,并將該語義單元的詞性確定為該參考語言詞的詞性。
[0102]在一個示例中,抽取單元35還包括:多對多抽取單元352,被配置為對于詞對齊關系表明連續(xù)的多個參考語言詞對應于連續(xù)的多個目標語言詞、且所述多個參考語言詞符合預定義模板的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,并根據(jù)所述多個參考語言詞的詞性確定該語義單元的詞性。
[0103]在一個示例中,抽取單元35還包括:一對一抽取單元353,被配置為對于詞對齊關系表明一個參考語言詞對應于一個目標語言詞、且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將該目標語言詞確定為一個語義單元,并將該語義單元的詞性確定為該參考語言詞的詞性。
[0104]在一個示例中,抽取單元35還包括:調(diào)整單元354,被配置為按照目標語言的語法,對抽取出的語義單元進行調(diào)整。
[0105]另外,還應該指出的是,上述系統(tǒng)中各個組成模塊、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領域技術人員所熟知,在此不再贅述。在通過軟件和/或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡向具有專用硬件結構的計算機,例如圖5所示的通用個人計算機500安裝構成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等等。
[0106]在圖5中,中央處理單元(CPU) 501根據(jù)只讀存儲器(ROM) 502中存儲的程序或從存儲部分508加載到隨機存取存儲器(RAM) 503的程序執(zhí)行各種處理。在RAM 503中,也根據(jù)需要存儲當CPU 501執(zhí)行各種處理等等時所需的數(shù)據(jù)。
[0107]CPU 501、ROM 502和RAM 503經(jīng)由總線504彼此連接。輸入/輸出接口 505也連接到總線504。
[0108]下述部件連接到輸入/輸出接口 505:輸入部分506,包括鍵盤、鼠標等等;輸出部分507,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚聲器等等;存儲部分508,包括硬盤等等;和通信部分509,包括網(wǎng)絡接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分509經(jīng)由網(wǎng)絡比如因特網(wǎng)執(zhí)行通信處理。
[0109]根據(jù)需要,驅(qū)動器510也連接到輸入/輸出接口 505??刹鹦督橘|(zhì)511比如磁盤、光盤、磁光盤、半導體存儲器等等根據(jù)需要被安裝在驅(qū)動器510上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分508中。
[0110]在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)511安裝構成軟件的程序。
[0111]本領域的技術人員應當理解,這種存儲介質(zhì)不局限于圖5所示的其中存儲有程序、與設備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)511??刹鹦督橘|(zhì)511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器?;蛘?,存儲介質(zhì)可以是ROM 502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設備一起被分發(fā)給用戶。
[0112]本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。
[0113]相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等
坐寸ο
[0114]在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。
[0115]應該強調(diào),術語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或多個其它特征、要素、步驟或組件的存在或附加。
[0116]此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術范圍構成限制。
[0117]雖然已經(jīng)詳細說明了本發(fā)明及其優(yōu)點,但是應當理解在不脫離由所附的權利要求所限定的本發(fā)明的精神和范圍的情況下可以進行各種改變、替代和變換。而且,本申請的術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0118]艦
[0119]1.一種語義單元抽取方法,包括:
[0120]輸入經(jīng)過分詞的目標語言的句子;
[0121]獲得與目標語言的句子對應的參考語言的句子;
[0122]對參考語言的句子進行詞性標注;
[0123]獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及
[0124]根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0125]2.如附記I所述的語義單元抽取方法,其中,通過對目標語言的句子進行機器翻譯,獲得與目標語言的句子對應的參考語言的句子以及它們之間的詞對齊關系。
[0126]3.如附記I所述的語義單元抽取方法,還包括:在對參考語言的句子進行詞性標注之前,對參考語言的句子進行分詞。
[0127]4.如附記I所述的語義單元抽取方法,其中,所述獲得詞對齊關系包括:
[0128]對目標語言的句子和參考語言的句子進行詞級對齊,以獲得詞對齊關系。
[0129]5.如附記I所述的語義單元抽取方法,其中,所述獲得詞對齊關系包括:
[0130]對于目標語言的句子中的、參考語言句子中沒有與之對齊的詞的、且不屬于停詞表的詞,在參考語言句子中與這樣的詞的左鄰詞對齊的詞的右側,創(chuàng)建名詞詞性的空節(jié)點與這樣的詞對齊。
[0131]6.如附記I所述的語義單元抽取方法,其中,所述抽取步驟包括:
[0132]對于詞對齊關系表明一個參考語言詞對應于連續(xù)的多個目標語言詞、所述多個目標語言詞僅對應于該參考語言詞,且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,將該語義單元的詞性確定為該參考語言詞的詞性,并將該語義單元視為目標語言的句子中的一個詞。
[0133]7.如附記I或6所述的語義單元抽取方法,其中,所述抽取步驟還包括:
[0134]對于詞對齊關系表明連續(xù)的多個參考語言詞對應于連續(xù)的多個目標語言詞、且所述多個參考語言詞符合預定義模板的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,根據(jù)所述多個參考語言詞的詞性確定該語義單元的詞性,并將該語義單元視為目標語言的句子中的一個詞。 [0135]8.如附記7所述的語義單元抽取方法,其中,所述預定義模板基于參考語言的語法,符合預定義模板的多個詞構成符合參考語言語法的名詞詞組、形容詞詞組、副詞詞組或?qū)S忻~。
[0136]9.如附記6-8之一所述的語義單元抽取方法,其中,所述抽取步驟還包括:
[0137]在上述語義單元確定步驟之后,
[0138]對于詞對齊關系表明一個參考語言詞對應于一個目標語言詞、且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將該目標語言詞確定為一個語義單元,將該語義單元的詞性確定為該參考語言詞的詞性。
[0139]10.如附記6-9之一所述的語義單元抽取方法,其中,所述抽取步驟還包括:
[0140]按照目標語言的語法,對抽取出的語義單元進行調(diào)整。
[0141]11.一種語義單元抽取設備,包括:
[0142]目標語言輸入單元,被配置為輸入經(jīng)過分詞和詞性標注的目標語言的句子;
[0143]參考語言獲取單元,被配置為獲得與目標語言的句子對應的參考語言的句子;
[0144]詞性標注單元,被配置為對參考語言的句子進行詞性標注;
[0145]詞對齊關系獲取單元,被配置為獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及
[0146]抽取單元,被配置為根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
[0147]12.如附記11所述的語義單元抽取設備,其中,所述詞對齊關系獲取單元包括:
[0148]空節(jié)點創(chuàng)建單元,被配置為對于目標語言的句子中的、參考語言句子中沒有與之對齊的詞的、且不屬于停詞表的詞,在參考語言句子中與這樣的詞的左鄰詞對齊的詞的右側,創(chuàng)建名詞詞性的空節(jié)點與這樣的詞對齊。
[0149]13.如附記11所述的語義單元抽取設備,其中,所述抽取單元包括:
[0150]一對多抽取單元,被配置為對于詞對齊關系表明一個參考語言詞對應于連續(xù)的多個目標語言詞、所述多個目標語言詞僅對應于該參考語言詞,且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,并將該語義單元的詞性確定為該參考語言詞的詞性。
[0151]14.如附記11-13之一所述的語義單元抽取設備,其中,所述抽取單元還包括:
[0152]多對多抽取單元,被配置為對于詞對齊關系表明連續(xù)的多個參考語言詞對應于連續(xù)的多個目標語言詞、且所述多個參考語言詞符合預定義模板的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,并根據(jù)所述多個參考語言詞的詞性確定該語義單元的詞性。
[0153]15.如附記13或14所述的語義單元抽取設備,其中,所述抽取單元還包括:
[0154]調(diào)整單元,被配置為按照目標語言的語法,對抽取出的語義單元進行調(diào)整。
[0155]16.—種主題詞獲取方法,包括:
[0156]利用如附記1-10之一所述的語義單元抽取方法對待處理的文獻抽取語義單元,以及
[0157]基于所抽取的語義單元,獲取文獻的主題詞。
[0158]17.—種搜索方法,包括:
[0159]利用如附記1-10之一所述的語義單元抽取方法對可被搜索的文獻抽取語義單元,以及[0160]基于所抽取的語義單元,對文獻進行搜索。
[0161]18.—種句法分析方法,包括:
[0162]利用如附記1-10之一所述的語義單元抽取方法對待處理的文獻抽取語義單元,以及
[0163]基于所抽取的語義單元,進行句法分析。
[0164]19.一種機器翻譯方法,包括:
[0165]利用如附記1-10之一所述的語義單元抽取方法對訓練語料抽取語義單元,以及
[0166]基于所抽取的語義單元,訓練機器翻譯設備。
[0167]20.一種數(shù)據(jù)挖掘方法,包括:
[0168]利用如附記1-10之一所述的語義單元抽取方法對待處理的文獻抽取語義單元,以及
[0169]基于所抽取的語義單元,進行數(shù)據(jù)挖掘。
【權利要求】
1.一種語義單元抽取方法,包括: 輸入經(jīng)過分詞的目標語言的句子; 獲得與目標語言的句子對應的參考語言的句子; 對參考語言的句子進行詞性標注; 獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及 根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義單元。
2.如權利要求1所述的語義單元抽取方法,其中,通過對目標語言的句子進行機器翻譯,獲得與目標語言的句子對應的參考語言的句子以及它們之間的詞對齊關系。
3.如權利要求1所述的語義單元抽取方法,其中,所述獲得詞對齊關系包括: 對于目標語言的句子中的、參考語言句子中沒有與之對齊的詞的、且不屬于停詞表的詞,在參考語言句子中與這樣的詞的左鄰詞對齊的詞的右側,創(chuàng)建名詞詞性的空節(jié)點與這樣的詞對齊。
4.如權利要求1所述的語義單元抽取方法,其中,所述抽取步驟包括: 對于詞對齊關系表明一個參考語言詞對應于連續(xù)的多個目標語言詞、所述多個目標語言詞僅對應于該參考語言詞,且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,將該語義單元的詞性確定為該參考語言詞的詞性,并將該語義單元視為目標語言的句子中的一個詞。
5.如權利要求1或4所述的語義單元抽取方法,其中,所述抽取步驟包括: 對于詞對齊關系表明連續(xù)的多個參考語言詞對應于連續(xù)的多個目標語言詞、且所述多個參考語言詞符合預定義模板的情況,將所述連續(xù)的多個目標語言詞確定為一個語義單元,根據(jù)所述多個參考語言詞的詞性確定該語義單元的詞性,并將該語義單元視為目標語言的句子中的一個詞。
6.如權利要求5所述的語義單元抽取方法,其中,所述預定義模板基于參考語言的語法,符合預定義模板的多個詞構成符合參考語言語法的名詞詞組、形容詞詞組、副詞詞組或?qū)S忻~。
7.如權利要求5所述的語義單元抽取方法,其中,所述抽取步驟還包括: 在上述語義單元確定步驟之后, 對于詞對齊關系表明一個參考語言詞對應于一個目標語言詞、且該參考語言詞的詞性是名詞、形容詞或副詞的情況,將該目標語言詞確定為一個語義單元,并將該語義單元的詞性確定為該參考語言詞的詞性。
8.一種主題詞獲取方法,包括: 利用如權利要求1-7之一所述的語義單元抽取方法對待處理的文獻抽取語義單元,以及 基于所抽取的語義單元,獲取文獻的主題詞。
9.一種機器翻譯方法,包括: 利用如權利要求1-7之一所述的語義單元抽取方法對訓練語料抽取語義單元,以及 基于所抽取的語義單元,訓練機器翻譯設備。
10.一種語義單元抽取設備,包括:目標語言輸入單元,被配置為輸入經(jīng)過分詞的目標語言的句子; 參考語言獲取單元,被配置為獲得與目標語言的句子對應的參考語言的句子; 詞性標注單元,被配置為對參考語言的句子進行詞性標注; 詞對齊關系獲取單元,被配置為獲得目標語言的句子和參考語言的句子之間的詞對齊關系;以及 抽取單元,被配置為根據(jù)參考語言的句子的詞性標注結果,借助于詞對齊關系,抽取目標語言的句子的語義 單元。
【文檔編號】G06F17/28GK103678270SQ201210320606
【公開日】2014年3月26日 申請日期:2012年8月31日 優(yōu)先權日:2012年8月31日
【發(fā)明者】葛乃晟, 付亦雯, 鄭仲光, 孟遙, 于浩 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
开平市| 泉州市| 安岳县| 嘉定区| 舟曲县| 扶风县| 响水县| 灯塔市| 玛沁县| 修文县| 磐安县| 郑州市| 讷河市| 高邑县| 融水| 西华县| 铜山县| 千阳县| 宝鸡市| 崇文区| 铅山县| 盐源县| 吴堡县| 大方县| 津南区| 泾源县| 福建省| 苏尼特左旗| 历史| 大方县| 桃园市| 武隆县| 讷河市| 开封县| 红安县| 三亚市| 石城县| 新巴尔虎左旗| 城固县| 崇明县| 高州市|