欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本含意辨認(rèn)裝置、文本含意辨認(rèn)方法和計(jì)算機(jī)可讀記錄介質(zhì)的制作方法

文檔序號:6397122閱讀:231來源:國知局
專利名稱:文本含意辨認(rèn)裝置、文本含意辨認(rèn)方法和計(jì)算機(jī)可讀記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于確定特定文本是否暗指另一文本的文本含意辨認(rèn)裝置和文本含意辨認(rèn)方法,以及計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于實(shí)現(xiàn)上述裝置和方法的程序。
背景技術(shù)
近年來,已經(jīng)注意到文本含意辨認(rèn)以便實(shí)現(xiàn)用于處理自然語言的大量復(fù)雜應(yīng)用,例如檢索具有意義的自然語句。文本含意辨認(rèn)是指一種任務(wù),當(dāng)給定文本T和文本H時(shí),確定是否“能夠從文本T推導(dǎo)出文本H”。例如,當(dāng)給定“文本T:N公司具有500億日元的利潤”和“文本H:N公司盈利”時(shí),可以從文本T推導(dǎo)出文本H,并確定文本T暗指文本H。原因在于認(rèn)為“500億日元的利潤”足以意味著“盈利”。例如,非專利文獻(xiàn)I公開了一種傳統(tǒng)文本含意辨認(rèn)系統(tǒng)的示例。非專利文獻(xiàn)I中公開的文本含意辨認(rèn)系統(tǒng)首先解析文本T和文本H中的每一個(gè),并針對每個(gè)文本創(chuàng)建樹結(jié)構(gòu),在所述樹結(jié)構(gòu)中動詞是根部(頂部節(jié)點(diǎn)),動詞的論元(argument)(主語、賓語等)中包括的字詞是子節(jié)點(diǎn)或?qū)O節(jié)點(diǎn)。接下來,非專利文獻(xiàn)I中公開的含意確定系統(tǒng)對文本T執(zhí)行字詞替換和語法解釋,并嘗試在文本T的子樹中創(chuàng)建與文本H的樹結(jié)構(gòu)相匹配的樹結(jié)構(gòu)。然后,如果能夠在文本T的子樹中創(chuàng)建上述樹結(jié)構(gòu),則含意確定系統(tǒng)確定文本T暗指文本H。此外,利用非專利文獻(xiàn)I中公開的含意確定系統(tǒng),除了是否存在理想匹配的匹配確定以外,還可以在對樹結(jié)構(gòu)執(zhí)行匹配確定時(shí)執(zhí)行近似匹配確定。具體地,在創(chuàng)建上述樹結(jié)構(gòu)之后,含意確定系統(tǒng)根據(jù)創(chuàng)建的樹結(jié)構(gòu)來創(chuàng)建被稱作VAS(動詞論元結(jié)構(gòu))的數(shù)據(jù)。VAS是一種所謂的謂語論元結(jié)構(gòu),包括用作樹結(jié)構(gòu)根部的動詞和針對每個(gè)論元類型分離創(chuàng)建的字詞集。例如,在非專利文獻(xiàn)I中,從語句“Casey Sheehan在伊拉克被殺害”生成VAS “〈殺害,(賓語:Casey, Sheehan),(其他:伊拉克)>”。非專利文獻(xiàn)I還公開了一種方法,其中如果根部是動詞“是”且論元類型之間無差異,則根據(jù)子節(jié)點(diǎn)和孫節(jié)點(diǎn)的整體性來創(chuàng)建字詞集。然后,非專利文獻(xiàn)I中公開的含意確定系統(tǒng)針對從文本T和文本H創(chuàng)建的兩個(gè)VAS,確定相同論元的字詞集之間字詞覆蓋的百分比。隨后,如果上述字詞覆蓋的百分比大于或等于預(yù)定覆蓋,則含意確定系統(tǒng)確定兩個(gè)VAS的論元內(nèi)容匹配,如果論元匹配程度大于或等于固定比率,則還確定兩個(gè)VAS的原始樹結(jié)構(gòu)也匹配。因此,在生成VAS的情況下,不僅可以實(shí)現(xiàn)動詞論元的字符串之間的理想匹配,還可以確定近似匹配。引用列表非專利文獻(xiàn)非專利文獻(xiàn) I:Asher Stern et al., " Rule Chaining and Approximate Matchin textual inference " , Text Analysis Conference2010, (Online Proceedings),http://www.nist.gov/tac/publications/2010/participant.papers/BIU.proceedings,pdf

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題如上所述,非專利文獻(xiàn)I中公開的上述含意確定系統(tǒng)能夠確定兩個(gè)感興趣自然語句中的一個(gè)是否暗指另一個(gè),因此例如能夠令人信服地檢索自然語句。然而,非專利文獻(xiàn)I中公開的上述含意確定系統(tǒng)存在的問題在于:如果謂語的論元結(jié)構(gòu)不同則不能執(zhí)行含意確定。原因在于該含意確定系統(tǒng)在謂語的論元結(jié)構(gòu)相同的假設(shè)下執(zhí)行文本之間的核對。例如,假設(shè)存在“文本T:A公司從個(gè)人計(jì)算機(jī)商業(yè)領(lǐng)域撤出”和“文本H:來自A公司的個(gè)人計(jì)算機(jī)將消失”。非專利文獻(xiàn)I中公開的上述含意確定系統(tǒng)從文本T中提取“撤出(主語:A公司,賓語:個(gè)人計(jì)算機(jī),商業(yè)領(lǐng)域)”作為VAS,并從文本H中提取“消失(主語:A公司,從,個(gè)人計(jì)算機(jī))”。在提取上述VAS的情況下,“撤出”和“消失”是不同的動詞。結(jié)果,在非專利文獻(xiàn)I中公開的上述含意確定系統(tǒng)中,即使文本T暗指文本H,仍確定文本T不暗指文本H。此外,在含意確定系統(tǒng)中,即使在上述情況下認(rèn)為所有動詞都是相同的,“消失”的主語不同于“撤出”的主語和賓語,因此,在這種情況下仍確定文本T沒有含意文本H。本發(fā)明的目的本發(fā)明的目的示例在于解決上述技術(shù)問題并提供一種文本含意辨認(rèn)裝置、文本含意辨認(rèn)方法和計(jì)算機(jī)可讀記錄介質(zhì),即使在謂語的論元結(jié)構(gòu)不同的情況下,也能夠?qū)M(jìn)行確定的多個(gè)文本進(jìn)行含意確定。解決技術(shù)問題的技術(shù)手段根據(jù)本發(fā)明的一方面,為了實(shí)現(xiàn)上述目的,提供了一種文本含意辨認(rèn)裝置,用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)裝置包括:矢量生成單元,獲取第一文本和第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)謂語論元結(jié)構(gòu)的矢量;組合識別單元,將針對第一文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量與針對第二文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別第一文本的所述謂語論元結(jié)構(gòu)與第二文本的所述謂語論元結(jié)構(gòu)的組合;以及含意確定單元,針對識別的每個(gè)組合獲得特征量,并根據(jù)獲得的所述特征量來確定第一文本是否暗指第二文本。此外,根據(jù)本發(fā)明的一方面,為了實(shí)現(xiàn)上述目的,提供了一種文本含意辨認(rèn)方法,用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)方法包括:(a)獲取第一文本和第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并使用除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)謂語論元結(jié)構(gòu)的矢量;(b)將針對第一文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別第一文本的謂語論元結(jié)構(gòu)與第二文本的謂語論元結(jié)構(gòu)的組合;以及(c)針對識別的每個(gè)組合獲得特征量,并根據(jù)獲得的特征量來確定第一文本是否暗指第二文本。此外,根據(jù)本發(fā)明的一方面,為了實(shí)現(xiàn)上述目的,提供了一種計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于計(jì)算機(jī)確定第一文本是否暗示第二文本的程序,所述程序包括使所述計(jì)算機(jī)執(zhí)行以下步驟的指令:(a)獲取第一文本和第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并使用除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)謂語論元結(jié)構(gòu)的矢量;(b)將針對第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別第一文本的謂語論元結(jié)構(gòu)與第二文本的謂語論元結(jié)構(gòu)的組合;以及(C)針對識別的所述每個(gè)組合獲得特征量,并根據(jù)獲得的特征量來確定第一文本是否暗指第二文本。發(fā)明的技術(shù)效果如上所述,根據(jù)本發(fā)明,即使在謂語的論元結(jié)構(gòu)不同的情況下,也能夠?qū)?jīng)歷確定的多個(gè)文本進(jìn)行含意確定。


圖1是示出了根據(jù)本發(fā)明實(shí)施例的含意確定裝置的配置的方框圖。圖2是示出了根據(jù)本發(fā)明實(shí)施例的含意確定裝置的操作的流程圖。圖3是示出了從文本中提取謂語論元結(jié)構(gòu)的示例的圖。圖4是示出了從圖3所示謂語論元結(jié)構(gòu)中生成矢量的圖。圖5是示出了在本實(shí)施例中執(zhí)行的組合識別處理的示例的圖。圖6是示出了在本實(shí)施例中執(zhí)行的含意確定處理的示例的圖。圖7是示出了根據(jù)本發(fā)明實(shí)施例用于實(shí)現(xiàn)含意確定裝置的計(jì)算機(jī)示例的方框圖。
具體實(shí)施例方式實(shí)施例下文中,將參考圖1到7來描述根據(jù)本發(fā)明實(shí)施例的含意確定裝置、含意確定方法和程序。裝置的配置首先,參考圖1來描述根據(jù)本發(fā)明實(shí)施例的含意確定裝置的配置。圖1是示出了根據(jù)本發(fā)明實(shí)施例的含意確定裝置的配置的方框圖。圖1所示根據(jù)本實(shí)施例的含意確定裝置2是一種用于確定第一文本是否暗指第二文本的裝置。如圖1所示,含意確定裝置2包括矢量生成單元21、組合識別單元22和含意確定單元23。其中,矢量生成單元21首先獲取第一文本和第二文本的相應(yīng)謂語論元結(jié)構(gòu)。然后,對于第一文本和第二文本中的每一個(gè),矢量生成單元21通過使用除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,生成針對每一個(gè)謂語論元結(jié)構(gòu)的矢量。組合識別單元22將針對第一文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量與針對第二文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別第一文本的謂語論元結(jié)構(gòu)與第二文本的謂語論元結(jié)構(gòu)的組合。含意確定單元23針對識別的每個(gè)組合計(jì)算特征量,并根據(jù)獲得的所述特征量來確定第一文本是否暗指第二文本。因此,利用含意確定裝置2,從忽略論元結(jié)構(gòu)的矢量比較結(jié)果中識別經(jīng)歷確定的謂語論元結(jié)構(gòu)的組合,并根據(jù)識別的組合確定文本之間的含意。因此,利用含意確定裝置2,即使在謂語的論元結(jié)構(gòu)不同的情況下,也能夠?qū)?jīng)歷確定的多個(gè)文本進(jìn)行含意確定。接下來,將更詳細(xì)地描述本發(fā)明中含意確定裝置2的配置。首先,在本實(shí)施例中,含意確定裝置2是一種在程序控制下操作并通過在計(jì)算機(jī)上執(zhí)行下述程序來實(shí)現(xiàn)的裝置。此外,在本實(shí)施例中,“謂語論元結(jié)構(gòu)”至少包括文本中包含的謂語(動詞)、用作謂語論元的字詞和對論元的類型加以指示的字詞(標(biāo)簽)(參見下述圖3)。因此,在本實(shí)施例中,“除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞”是指謂語(動詞)和用作論元的字詞。如圖1所示,在本實(shí)施例中,輸入裝置1、存儲在含意確定裝置2中使用的各種數(shù)據(jù)的存儲裝置3和用于輸出結(jié)果的輸出裝置4與含意確定裝置2相連。含意確定裝置2與輸入裝置1、存儲裝置3和輸出裝置4構(gòu)成含意確定系統(tǒng)。輸入裝置I將經(jīng)歷含意確定裝置2執(zhí)行的含意確定的兩個(gè)文本(即,第一文本和第二文本)輸入到含意確定裝置2中。注意在以下描述中,可以將第一文本稱作“文本T”,或簡稱“T”,可以將第二文本稱作“文本H”,或簡稱“H”。在本實(shí)施例中,經(jīng)歷含意確定的文本T和文本H可以是由給定方法定義的任意單位文本。經(jīng)歷含意確定的文本T和文本H的示例包括構(gòu)成文本文件的部分或所有文本、通過鏈接由解析獲得的任意子樹中包括的字符串創(chuàng)建的文本、和通過鏈接謂語論元結(jié)構(gòu)中的字符串創(chuàng)建的文本。輸出裝置4輸出含意確定裝置2針對從輸入裝置I輸入的文本T和文本H執(zhí)行的含意確定的結(jié)果。輸出裝置4的具體示例包括顯示裝置和打印機(jī)。存儲裝置3包括字詞核對規(guī)則存儲單元30和謂語論元結(jié)構(gòu)核對規(guī)則存儲單元31。在本實(shí)施例中,含意確定裝置2可以使用存儲在存儲裝置3中的信息,因此與沒有連接存儲裝置3的情況相比較,能夠?qū)崿F(xiàn)含意確定準(zhǔn)確度的提高。字詞核對規(guī)則存儲單元30存儲字詞之間建立的含意規(guī)則(字詞核對規(guī)則),例如同義詞、下義詞、部分詞和派生詞。字詞核對規(guī)則的示例包括“日本電氣株式會社一NEC”,“跑一移動”,“東京一日本”,以及“制造商一制造”。謂語論元結(jié)構(gòu)核對規(guī)則存儲單元31存儲在含意確定期間要核對的謂語論元結(jié)構(gòu)之間的論元關(guān)系(謂語論元結(jié)構(gòu)核對規(guī)則)。謂語論元結(jié)構(gòu)核對規(guī)則的示例包括“撤出(主語:x,賓語:Y)—消失(主語:x的Y)”和“殺害(賓語:x)—死亡(主語:x)”。在本實(shí)施例中,除了上述矢量生成單元21、組合識別單元22和含意確定單元23以夕卜,含意確定裝置2還包括謂語論元結(jié)構(gòu)分析單元20。謂語論元結(jié)構(gòu)分析單元20分析由輸入裝置I輸入的文本,根據(jù)解析結(jié)果從每個(gè)文本中提取謂語論元結(jié)構(gòu)。此外,謂語論元結(jié)構(gòu)分析單元20向矢量生成單元21輸出提取的謂語論元結(jié)構(gòu)。在本實(shí)施例中,如上所述,矢量生成單元21提取除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞(即,謂語、用作謂語論元的字詞),并使用這些字詞生成矢量。此外,矢量生成單元21針對每個(gè)文本中的每個(gè)謂語論元結(jié)構(gòu)生成矢量,即,在每個(gè)文本包括多個(gè)謂語論元結(jié)構(gòu)的情況下針對每個(gè)謂語論元結(jié)構(gòu)。矢量生成單元21將生成的矢量輸出到組合識別單元22。在本實(shí)施例中,組合識別單元22可以從字詞核對規(guī)則存儲單元30和謂語論元結(jié)構(gòu)核對規(guī)則存儲單元31的每一個(gè)中讀取核對規(guī)則,并參考核對規(guī)則來識別組合。此外,組合識別單元22向含意確定單元23輸出識別的組合。同樣,在本實(shí)施例中,組合識別單元22計(jì)算針對文本T的每個(gè)謂語論元結(jié)構(gòu)生成的矢量與針對文本H的每個(gè)謂語論元結(jié)構(gòu)生成的矢量之間的相似度。然后,組合識別單元22根據(jù)計(jì)算的相似度識別文本T的謂語論元結(jié)構(gòu)和文本H的謂語論元結(jié)構(gòu)的組合。具體地,例如假定文本T僅包括單個(gè)謂語論元結(jié)構(gòu)。在這種情況下,組合識別單元22針對文本H的每個(gè)謂語論元結(jié)構(gòu)識別謂語論元結(jié)構(gòu)和文本T的單個(gè)謂語論元結(jié)構(gòu)的組合。換句話說,識別與文本H的謂語論元結(jié)構(gòu)數(shù)目相對應(yīng)數(shù)目的組合。另一方面,假定文本T包括多個(gè)謂語論元結(jié)構(gòu)。在這種情況下,組合識別單元22針對從文本H的謂語論元結(jié)構(gòu)生成的矢量和從文本T的謂語論元結(jié)構(gòu)生成的矢量的所有可能配對來計(jì)算相似度。然后,組合識別單元22指定相似度大于或等于閾值的任意配對,或具有最高相似度的配對,并識別被創(chuàng)建了指定配對的兩個(gè)謂語論元結(jié)構(gòu)。在本實(shí)施例中,含意確定單元23根據(jù)除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞(謂語和用作論元的字詞)來計(jì)算特征量。特征量的示例包括文本T的謂語論元結(jié)構(gòu)和文本H的謂語論元結(jié)構(gòu)之間的字詞覆蓋程度和僅針對用作論元的字詞的字詞匹配程度。例如,含意確定單元23可以針對特征量設(shè)置閾值,如果特征量大于或等于所設(shè)閾值,則確定文本T暗指文本H。此外,在本實(shí)施例中,除了特征量以外,含意確定單元23還可以使用謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來執(zhí)行確定。之后,含意確定單元23向輸出裝置4輸出含意確定結(jié)果。注意到本實(shí)施例中,關(guān)于在含意確定中使用的確定準(zhǔn)則并無限制,可以使用常規(guī)已經(jīng)使用的任意確定規(guī)則。裝置的操作接下來,將參考圖2來描述根據(jù)本發(fā)明實(shí)施例的含意確定裝置2的操作。圖2是示出了根據(jù)本發(fā)明實(shí)施例的含意確定裝置的操作的流程圖。在以下描述中,必要時(shí)將參考圖1。此外,在本實(shí)施例中,通過操作含意確定裝置2來執(zhí)行含意確定方法。因此,含意確定裝置2的以下描述可以替代本發(fā)明中含意確定方法的描述。 用于提取謂語論元結(jié)構(gòu)的處理首先,如圖2所示,謂語論元結(jié)構(gòu)分析單元20從輸入裝置I接收文本T和文本H的輸入,并從作為輸入接收的文本T和文本H中提取謂語論元結(jié)構(gòu)(步驟SI)。本文中,將參考圖3來描述謂語論元結(jié)構(gòu)的具體示例。圖3是示出了從文本中提取謂語論元結(jié)構(gòu)的示例的圖。在圖3所示示例中,示出了文本T和文本H,文本T包括兩個(gè)文本,即文本Tl和文本T2。當(dāng)輸入如圖3的文本Tl和T2以及文本H時(shí),含意確定裝置2確定文本Tl是否暗指文本H,以及文本T2是否暗指文本H。此外,在圖3的示例中,由于謂語是“證實(shí)”,謂語論元結(jié)構(gòu)分析單元20從文本“Tl:股東大會證實(shí)B先生是A公司(東京)的董事長”中提取“證實(shí)(主語:股東大會,賓語:B先生,目標(biāo):A公司(東京)的董事長)”作為謂語論元結(jié)構(gòu)。此外,由于謂語是“就職”和“居住”,謂語論元結(jié)構(gòu)分析單元20從文本“T2:居住東京的B先生就職為A公司(東京)的董事長”中提取“就職(主語:B先生,目標(biāo):A公司(東京)的董事長)”和“居住(主語:B先生,地點(diǎn):東京)”作為謂語論元結(jié)構(gòu)。此外,由于謂語是“成為”和“位于”,謂語論元結(jié)構(gòu)分析單元20從文本“H:B先生成為位于東京的A公司的董事長”中提取“成為(主語:B先生,目標(biāo):位于東京的A公司的董事長)”和“位于(主語:A公司,地點(diǎn):東京)”作為謂語論元結(jié)構(gòu)。注意在圖3所示示例中,當(dāng)確定Tl暗指H而T2沒有暗指H時(shí),給出校正答案。這是因?yàn)閺腡2中不能讀出信息“A公司位于東京”。用于生成謂語論元結(jié)構(gòu)矢量的處理接下來,矢量生成單元21獲取在步驟SI中提取的每個(gè)文本的謂語論元結(jié)構(gòu),針對每個(gè)文本創(chuàng)建矢量(以下稱作“謂語論元結(jié)構(gòu)矢量”),所述每個(gè)謂語論元結(jié)構(gòu)的分量是謂語論元結(jié)構(gòu)中的謂語和用作謂語論元的字詞。圖4示出了從圖3所示謂語論元結(jié)構(gòu)中生成的矢量。如圖4所示,矢量生成單元21僅使用例如謂語和用作謂語論元的字詞之類的內(nèi)容字詞來生成謂語論元結(jié)構(gòu)矢量。在本實(shí)施例中,謂語論元結(jié)構(gòu)包括除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞作為其分量就足夠了。具體地,如圖4所示,矢量生成單元21從Tl中提取的謂語論元結(jié)構(gòu)“證實(shí)(主語:股東大會,賓語:B先生,目標(biāo):A公司(東京)的董事長)”中生成(證實(shí),股東,大會,B先生,A公司,東京,董事長)作為謂語論元結(jié)構(gòu)矢量。此外,矢量生成單元21從T2中提取的謂語論元結(jié)構(gòu)“就職(主語:B先生,目標(biāo):A公司(東京)的董事長)”和“居住(主語:B先生,地點(diǎn):東京)”中生成(就職,B先生,A公司,董事長)和(居住,B先生,東京)。此外,矢量生成單元21從H中提取的謂語論元結(jié)構(gòu)“成為(主語:B先生,目標(biāo) 位于東京的A公司的董事長)”和“位于(主語:A公司,地點(diǎn):東京)”中生成(成為,B先生,東京,A公司,董事長)和(位于,A公司,東京)。在本實(shí)施例中,矢量生成單元21還將例如從論元結(jié)構(gòu)中獲取的任意信息(以下稱作“結(jié)構(gòu)信息”,例如“predicate_type of argument_word”)添加到謂語論元結(jié)構(gòu)矢量中。在這種情況下,例如矢量生成單元21可以生成矢量(證實(shí),股東,大會,B先生,A公司,東京,董事長,謂語:證實(shí),approve_subject_stockholder, approve_subject_generalmeeting, approve_object_Mr.B,...)。識別謂語論元結(jié)構(gòu)的組合的處理接下來,組合識別單元22計(jì)算從文本Tl和文本T2的每個(gè)謂語論元結(jié)構(gòu)獲取的矢量相對于從文本H的謂語論元結(jié)構(gòu)獲取的每個(gè)矢量的相似度,并根據(jù)相似度識別謂語論元結(jié)構(gòu)的組合(步驟S3)。 例如,組合識別單元22指定相似度大于或等于閾值的任意配對,或具有最高相似度的配對,并識別被創(chuàng)建了指定配對的兩個(gè)謂語論元結(jié)構(gòu)。為了計(jì)算相似度,將要計(jì)算的兩個(gè)謂語論元結(jié)構(gòu)矢量轉(zhuǎn)換為維度數(shù)目等于從兩個(gè)矢量的字符創(chuàng)數(shù)目的總值減去共同字符串的數(shù)目而獲得的值的矢量。此時(shí),將其中存在字符串的分量設(shè)為“ I ”,將其中不存在字符串的分量設(shè)為“O”。例如,針對文本T2的(居住,B先生,東京)和文本H的(成為,B先生,東京,A公司,位于,董事長)給出示例。在這種情況下,維度的數(shù)目是7( = 3+6-2)。此外,將前者轉(zhuǎn)換為(1,1,1,0,0,0,0),將后者轉(zhuǎn)換為(0,1,1,1,1,1,1)。此外,可以將以特定方式估計(jì)的
權(quán)重值添加到每個(gè)轉(zhuǎn)換矢量的分量。本文中,參考圖5來描述步驟S3的處理的特定示例。圖5是示出了在本實(shí)施例中執(zhí)行的組合識別處理的示例的圖。在圖5的示例中,將相似度的閾值設(shè)為0.5,使用以下表達(dá)式I來計(jì)算余弦相似度sim。在以下表達(dá)式I中,X和y表示要計(jì)算的兩個(gè)轉(zhuǎn)換矢量。此夕卜,在以下表達(dá)式I中,(X *y)表示矢量X和矢量y的內(nèi)積,X表示矢量χ的長度,Iy I表不矢量I的長度。表達(dá)式Isim = (χ.y)/(|x| |yI)如圖5所示,首先假定對Tl和H進(jìn)行含意確定。由于Tl僅包括一個(gè)謂語論元結(jié)構(gòu),因此自動識別Tl的謂語論元結(jié)構(gòu)和H的“位于(主語:A公司,地點(diǎn):東京)”的組合與Tl的同一謂語論元結(jié)構(gòu)和H的“成為(主語:B先生,目標(biāo):位于東京的A公司的董事長)”的組合。另一方面,假定對T2和H進(jìn)行含意確定,針對所有的可能矢量配對計(jì)算相似度。根據(jù)以上表達(dá)式1,將H的謂語論元結(jié)構(gòu)矢量“位于(主語:A公司,地點(diǎn):東京)”和T2的“居住(主語:B先生,地點(diǎn):東京)”之間的相似度計(jì)算為0.333。此外,將H的謂語論元結(jié)構(gòu)矢量“位于(主語:A公司,地點(diǎn):東京)”和T2的“就職(主語:B先生,目標(biāo):A公司的董事長)”之間的相似度計(jì)算為0.289。盡管在這種情況下兩個(gè)相似度均沒有超過閾值,但是將具有最大相似度的“居住(主語:B先生,地點(diǎn):東京)”識別為要針對H的“位于(主語:A公司,地點(diǎn):東京)”進(jìn)行確定的謂語論元結(jié)構(gòu)。類似地,對于H的“成為(主語:B先生,目標(biāo):位于東京的A公司的董事長)”,將相對于T2的“就職(主語:B先生,目標(biāo):A公司的董事長)”的謂語論元結(jié)構(gòu)矢量的相似度計(jì)算為0.617,并將相對于T2的“居住(主語:B先生,地點(diǎn):東京)”的謂語論元結(jié)構(gòu)矢量的相似度計(jì)算為0.471。在這種情況下,后一個(gè)相似度低于閾值,因此僅將具有最大相似度的“就職(主語:B先生,目標(biāo):A公司的董事長)”識別為要經(jīng)歷確定的謂語論元結(jié)構(gòu)。同樣,在本實(shí)施例中,識別組合單元22可以參考存儲在字詞核對規(guī)則存儲單元30中的字詞核對規(guī)則,并計(jì)算將字詞核對規(guī)則中定義的兩個(gè)字詞視為匹配時(shí)的相似度。例如,在字詞核對規(guī)則中預(yù)先確定了動詞和具有派生關(guān)系的名詞的情況下,組合識別單元22可以計(jì)算將動詞和名詞視為匹配字詞時(shí)的相似度。結(jié)果,能夠更適當(dāng)?shù)刈R別要經(jīng)歷確定的謂語論元結(jié)構(gòu),而不會受到謂語論元結(jié)構(gòu)的限制。此外,在本實(shí)施例中,如果將步驟S2的描述中所述的結(jié)構(gòu)信息添加到謂語論元結(jié)構(gòu)矢量中,則組合識別單元22參考存儲在謂語論元結(jié)構(gòu)核對規(guī)則存儲單元31中的謂語論元結(jié)構(gòu)核對規(guī)則。然后,在這種情況下,組合識別單元22計(jì)算當(dāng)將謂語論元結(jié)構(gòu)核對規(guī)則中定義的兩個(gè)謂語論元結(jié)構(gòu)的相應(yīng)論元視為匹配字詞時(shí)的相似度。備選地,當(dāng)確定論元之間的匹配時(shí),組合識別單元22可以參考字詞核對規(guī)則。在步驟S3,在相似度計(jì)算期間,組合識別單元22可以根據(jù)每個(gè)論元結(jié)構(gòu)矢量中包括的信息量來執(zhí)行歸一化處理,以便識別不包括冗余信息的謂語論元結(jié)構(gòu)。謂語論元結(jié)構(gòu)矢量中包括的信息量的示例包括矢量中非0(零)分量的數(shù)目和分量的權(quán)重。此外,在執(zhí)行歸一化處理之后計(jì)算的相似度的示例包括余弦相似度和jaccard系數(shù)。例如,考慮謂語論元結(jié)構(gòu)“宣布(主語:董事長,意圖:B先生成為主席)”。在這種情況下,謂語論元結(jié)構(gòu)“成為(主語B先生,目的:主席)”是謂語論元結(jié)構(gòu)的“意圖”所固有的。因此,當(dāng)將共同字詞的數(shù)目用作相似度,針對謂語論元結(jié)構(gòu)“成為(主語B先生,目的:主席)”嘗試識別要經(jīng)歷確定的謂語論元結(jié)構(gòu)時(shí),與前一種謂語論元結(jié)構(gòu)的相似度是三個(gè)字詞,與前一種中固有的后一種謂語論元結(jié)構(gòu)的相似度是兩個(gè)字詞。結(jié)果,如果將共同字詞的數(shù)目用作相似度,則傾向于選擇前一種作為要經(jīng)歷確定的謂語論元結(jié)構(gòu)。然而,由于前一種謂語論元結(jié)構(gòu)包括字詞“董事長”,即使這并不意味著B先生是董事長,因此根據(jù)下述含意確定單元23的確定準(zhǔn)則,可能導(dǎo)致以下錯(cuò)誤含意確定:“成為(主語B先生,目的:主席)”暗指前一種謂語論元結(jié)構(gòu)。因此,例如能夠通過以下方式來執(zhí)行歸一化:將每個(gè)謂語論元結(jié)構(gòu)矢量的共同字詞的數(shù)目除以兩個(gè)謂語論元結(jié)構(gòu)矢量的相應(yīng)字詞數(shù)目中較大的一個(gè)。在這種情況下,前一種謂語論元結(jié)構(gòu)的相似度是0.6 ( = 3/5),后一種謂語論元結(jié)構(gòu)的相似度是0.66 ( = 2/3),因此趨向于選擇后一種作為要經(jīng)歷確定的謂語論元結(jié)構(gòu)。這樣,當(dāng)在相似度計(jì)算期間執(zhí)行上述歸一化處理時(shí),趨向于選擇不包括冗余信息的謂語論元結(jié)構(gòu)。因此,能夠減小錯(cuò)誤含意確定的可能性。含意確定處理最后,含意確定單元23針對在步驟S3被組合識別單元22識別為要經(jīng)歷確定的H側(cè)謂語論元結(jié)構(gòu)和T側(cè)謂語論元結(jié)構(gòu)的每一種組合獲取特征量,并根據(jù)特征量確定T是否暗指H(步驟S4)。同樣,在本實(shí)施例中,含意確定單元23例如根據(jù)所獲取的特征量,計(jì)算T和H之間的含意分?jǐn)?shù),并在含意分?jǐn)?shù)大于或等于給定值的情況下確定T暗指H。具體地,含意確定單元23根據(jù)除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞(謂語和用作謂語論元的字詞),獲取謂語論元結(jié)構(gòu)之間的字詞覆蓋程度或僅針對用作論元的字詞的字詞匹配程度,作為特征量。此外,利用組合識別單元22,含意確定單元23能夠使用字詞核對規(guī)則和謂語論元結(jié)構(gòu)核對規(guī)則之一或二者來獲取特征量。本文中,參考圖6來描述步驟S4中處理的特定示例。圖6是示出了在本實(shí)施例中執(zhí)行的含意確定處理的示例的圖。在圖6的示例中,獲取謂語論元結(jié)構(gòu)之間的字詞覆蓋程度(覆蓋的百分比)作為特征量。具體地,當(dāng)“a”表示H的謂語論元結(jié)構(gòu)矢量與Tl或T2的謂語論元結(jié)構(gòu)矢量的匹配分量數(shù)目,且b表示識別的組合中謂語論元結(jié)構(gòu)的分量總數(shù)時(shí),使用以下表達(dá)式2來計(jì)算覆蓋的百分比。表達(dá)式2覆蓋的百分比=a/b
此外,在圖6的示例中,計(jì)算Tl或T2與H之間計(jì)算的特征量的平均值,并將該平均值用作含意分?jǐn)?shù)。然后,如果該含意分?jǐn)?shù)大于或等于0.50,則確定Tl或T2暗指H。如圖6所示,在Tl和H的含意確定中,根據(jù)以上表達(dá)式2,H的“位于(主語:A公司,地點(diǎn):東京)”和Tl的“證實(shí)(主語:股東大會,賓語:B先生,目標(biāo):A公司(東京)的董事長)”之間的覆蓋百分比是0.66 ( = 2/3)。根據(jù)以上表達(dá)式2,H的“成為(主語:B先生,目標(biāo):位于東京的A公司的董事長)”和Tl的“證實(shí)(主語:股東大會,賓語:B先生,目標(biāo):A公司(東京)的董事長)”之間的覆蓋百分比是0.66 ( = 4/6)。因此,Tl和H之間的含意分?jǐn)?shù)是0.66( = (0.66+0.66)/2)。結(jié)果,含意分?jǐn)?shù)大于或等于作為閾值的0.50,因此含意確定單元23確定“Tl暗指H”。另一方面,根據(jù)以上表達(dá)式2,在T2和H之間的含意確定中,H的“位于(主語:A公司,地點(diǎn):東京)”和T2的“居住(主語:B先生,地點(diǎn):東京)”之間的覆蓋百分比是0.33=(1/3)。此外,根據(jù)以上表達(dá)式2,H的“成為(主語:B先生,目標(biāo):位于東京的A公司的董事長)”和T2的“就職(主語:B先生,目標(biāo):A公司的董事長)”之間的覆蓋百分比是0.5=(3/6)。因此,T2和H之間的含意分?jǐn)?shù)是0.415( = (0.33+0.5)/2)。結(jié)果,含意分?jǐn)?shù)大于或等于作為閾值的0.50,含意確定單元23確定“T2沒有暗指H”。此外,在本實(shí)施例中,含意確定單元23可以根據(jù)通過機(jī)器學(xué)習(xí)獲取的數(shù)據(jù)項(xiàng),當(dāng)確定特征量時(shí)向特征量添加權(quán)重。具體地,在已經(jīng)通過機(jī)器學(xué)習(xí)了被確定為暗指的兩個(gè)文本的大量組合的情況下,含意確定單元23可以根據(jù)學(xué)習(xí)的數(shù)據(jù)校正計(jì)算的特征量。機(jī)器學(xué)習(xí)的特定示例包括判決樹、感知器和支持矢量機(jī)。在上述圖6的示例中,含意確定單元23使用根據(jù)謂語論元結(jié)構(gòu)中包括的謂語和用作論元的字詞確定的特征量,針對每個(gè)組合執(zhí)行含意確定,但是本發(fā)明并不局限于此。在本實(shí)施例中,除了上述特征量以外,含意確定單元23還可以使用每個(gè)文本的謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來確定T是否暗指H。本文中,結(jié)構(gòu)特征的示例包括是否存在添加到謂語論元結(jié)構(gòu)的信息,包括“否定”和“模態(tài)(例如推論、可能性)”以及謂語論元的類型。具體地,假定Tl的“證實(shí)”是“未證實(shí)”,將“否定”作為信息添加到謂語論元結(jié)構(gòu)。在這情況下,假定沒有向H側(cè)添加“否定”,即使覆蓋百分比較高,含意確定單元23也根據(jù)“否定”被添加到T側(cè)這一事實(shí)確定T沒有暗指H。因此,在本實(shí)施例中,除了根據(jù)謂語和用作謂語論元的字詞確定的特征量以外,在含意確定中還使用謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征,因此即使僅使用其中之一難以執(zhí)行含意確定,也能夠執(zhí)行準(zhǔn)確的含意確定。此外,在除了特征量以外還是用謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征的情況下,含意確定單元23能夠根據(jù)T的謂語論元結(jié)構(gòu)和H的謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度,優(yōu)先考慮特征量和特征結(jié)構(gòu)之一來執(zhí)行含意確定。本文中,例如根據(jù)謂語之間的相似程度或根據(jù)謂語論元結(jié)構(gòu)中包括的論元類型之間相似程度來指定“結(jié)構(gòu)相似度”。例如,假定將“是(主語:A先生,目的,東京的立法會員)”和“被選舉(主語:A先生,賓語:立法會員,地點(diǎn):東京)”進(jìn)行比較,在這種情況下,兩個(gè)謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度較低,因此謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征在含意確定中無效。因此,含意確定單元23優(yōu)先考慮特征量來執(zhí)行含意確定。另一方面,例如假定將“說服(主語:A先生,賓語:B先生)”和“描述(主語:B先生,賓語:A先生)”相比較,在這種情況下,兩個(gè)謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度較高,因此謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征在含意確定中有效。此外,在該示例中,如果僅使用上述特征量來執(zhí)行確定,則確定T暗指H的可能性較大。然而實(shí)際中,由于例如論元類型和用作論元的字詞的組合之類的結(jié)構(gòu)特征并不匹配,因此T不暗指H。因此,在該示例中,含意確定單元23優(yōu)先考慮結(jié)構(gòu)特征來執(zhí)行含意確定。實(shí)施例的技術(shù)效果本文中,考慮簡單使用文本中字詞集的覆蓋百分比作為含意分?jǐn)?shù)來執(zhí)行含意確定的情況。參考圖3的示例,Tl和T2均包括H的六個(gè)內(nèi)容字詞中的四個(gè)字詞(A公司,B先生,東京,董事長)。因此,這些文本中相對于H的字詞集覆蓋百分比均為0.66 ( = 4/6)。這意味著不可能在暗指和非暗指之間進(jìn)行區(qū)分。相反,在本實(shí)施例中,從忽略論元結(jié)構(gòu)的矢量比較結(jié)果中識別經(jīng)歷確定的謂語論元結(jié)構(gòu)的組合,并根據(jù)識別的組合確定文本之間的含意。因此,如關(guān)于使用圖6的步驟S6所述,確定Tl暗指H,而T2不暗指H。根據(jù)本實(shí)施例,即使在謂語的論元結(jié)構(gòu)不同的情況下,也能夠?qū)?jīng)歷確定的多個(gè)文本進(jìn)行含意確定。程序根據(jù)本實(shí)施例的程序可以是使計(jì)算機(jī)執(zhí)行圖2所示的步驟S1-S4的任意程序??梢酝ㄟ^在計(jì)算機(jī)中安裝程序并執(zhí)行程序來實(shí)現(xiàn)根據(jù)本實(shí)施例的含意確定裝置2和含意確定方法。在這種情況下,計(jì)算機(jī)的CPU(中央處理單元)用作謂語論元結(jié)構(gòu)分析單元20、矢量生成單元21、組合識別單元22和含意確定單元23,并執(zhí)行處理。此外,在本實(shí)施例中,例如在計(jì)算機(jī)中設(shè)置的硬盤之類的存儲裝置可以用作存儲裝置3。本文中,參考圖7來描述通過執(zhí)行程序來實(shí)現(xiàn)根據(jù)本實(shí)施例的含意確定裝置2的計(jì)算機(jī)。圖7是示出了根據(jù)本發(fā)明實(shí)施例的用于實(shí)現(xiàn)含意確定裝置的計(jì)算機(jī)示例的方框圖。如圖7所示,計(jì)算機(jī)100包括CPU111、主存儲器112、存儲裝置113、輸入接口 114、顯示控制器115、數(shù)據(jù)讀取器/寫入器116和通信接口 117。這些組件經(jīng)由總線121彼此相連,以便能夠進(jìn)行數(shù)據(jù)通信。CPUlll通過以下方式來執(zhí)行各種計(jì)算:在主存儲器112中擴(kuò)展存儲在存儲裝置113中的根據(jù)本實(shí)施例的程序(代碼),并按照預(yù)定序列執(zhí)行程序。主存儲器112典型是易失性存儲裝置,例如DRAM (動態(tài)隨機(jī)讀取存儲器)。按照存儲在計(jì)算機(jī)可讀記錄介質(zhì)120中的狀態(tài)來提供根據(jù)本實(shí)施例的程序。注意,可以經(jīng)由通信接口 117在因特網(wǎng)上分發(fā)根據(jù)本實(shí)施例的程序。除了硬盤以外,存儲裝置113的特定示例還包括例如快閃存儲器之類的半導(dǎo)體存儲器。輸入接口 114傳遞CPUlll與例如鍵盤和鼠標(biāo)之類的輸入設(shè)備118之間的數(shù)據(jù)傳輸。顯示控制器115與顯示裝置119相連并控制顯示裝置119上的顯示。數(shù)據(jù)讀取器/寫入器116傳遞CPUl 11和記錄介質(zhì)120之間的數(shù)據(jù)傳輸,從記錄介質(zhì)120讀取程序并將計(jì)算機(jī)110中執(zhí)行的處理結(jié)果寫入到記錄介質(zhì)120。通信接口 117傳遞CPUlll和其他計(jì)算機(jī)之間的數(shù)據(jù)傳輸。記錄介質(zhì)120的特定示例包括例如CF(緊致快閃(注冊商標(biāo)))和SD(安全數(shù)字)的通用半導(dǎo)體存儲器件、例如軟盤的磁存儲介質(zhì)和例如CD-R0M(只讀存儲器緊致盤)的光學(xué)存儲介質(zhì)。盡管以下描述的(補(bǔ)充注釋I)到(補(bǔ)充注釋24)部分或完全表示了上述實(shí)施例,但是本發(fā)明并不局限于以下描述。(補(bǔ)充注釋I)一種文本含意辨認(rèn)裝置,用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)裝置包括:矢量生成單元,獲取第一文本和第二文本中的每一個(gè)的謂語論元結(jié)構(gòu),使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量;組合識別單元,所述組合識別單元將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及含意確定單元,所述含意確定單元針對識別的所述每個(gè)組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋2)根據(jù)補(bǔ)充注釋I所述的文本含意辨認(rèn)裝置,其中謂語論元結(jié)構(gòu)包括在所述第一文本或所述第二文本中包含的謂語、用作謂語的論元的字詞以及對所述論元的類型加以指示的字詞,并且矢量生成單元使用所述謂語和所述用作謂語的論元的字詞來生成所述矢量。(補(bǔ)充注釋3)根據(jù)補(bǔ)充注釋I或2所述的文本含意辨認(rèn)裝置,其中組合識別單元計(jì)算針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量之間的相似度,并根據(jù)計(jì)算的相似度來識別所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)的組合。(補(bǔ)充注釋4)根據(jù)補(bǔ)充注釋3所述的文本含意辨認(rèn)裝置,其中組合識別單元根據(jù)所述矢量的信息量在相似度的計(jì)算期間執(zhí)行歸一化處理。(補(bǔ)充注釋5)根據(jù)補(bǔ)充注釋I到4之一所述的文本含意辨認(rèn)裝置,其中含意確定單元針對所述每個(gè)組合,根據(jù)除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞來獲得所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的字詞覆蓋程度和僅針對用作所述論元的字詞的字詞匹配程度之一,作為所述特征量。(補(bǔ)充注釋6)根據(jù)補(bǔ)充注釋5所述的文本含意辨認(rèn)裝置,其中除了所述特征量以外,所述含意確定單元還使用所述謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋7)根據(jù)補(bǔ)充注釋6所述的文本含意辨認(rèn)裝置,其中含意確定單元根據(jù)所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度,優(yōu)先考慮所述謂語論元結(jié)構(gòu)的特征量和結(jié)構(gòu)特征之一來執(zhí)行所述確定。(補(bǔ)充注釋8)根據(jù)補(bǔ)充注釋5-7之一所述的文本含意辨認(rèn)裝置,其中當(dāng)獲得所述特征量時(shí),含意確定單元根據(jù)通過機(jī)器學(xué)習(xí)獲得的數(shù)據(jù)向所述特征量添加權(quán)重。(補(bǔ)充注釋9)一種文本含意辨認(rèn)方法,用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)方法包括:(a)獲取第一文本和第二文本中的每一個(gè)的謂語論元結(jié)構(gòu),使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量;(b)將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及(C)針對識別的所述每個(gè)組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋10)根據(jù)補(bǔ)充注釋9所述的文本含意辨認(rèn)方法,其中所述謂語論元結(jié)構(gòu)包括在所述第一文本或所述第二文本中包含的謂語、用作謂語的論元的字詞以及對所述論元的類型加以指示的字詞,并且在所述步驟(a)中,將所述謂語和所述用作謂語的論元的字詞用于生成所述矢量。(補(bǔ)充注釋11)根據(jù)補(bǔ)充注釋9或10所述的文本含意辨認(rèn)方法,其中在所述步驟(b)中,計(jì)算針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量之間的相似度,并根據(jù)計(jì)算的相似度來識別所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)的組合。(補(bǔ)充注釋12)根據(jù)補(bǔ)充注釋11所述的文本含意辨認(rèn)方法,其中在所述步驟(b)中,根據(jù)所述矢量的信息量在所述相似度的計(jì)算期間執(zhí)行歸一化處理。(補(bǔ)充注釋13)根據(jù)補(bǔ)充注釋9到12之一所述的文本含意辨認(rèn)方法,其中在所述步驟(C)中,針對所述每個(gè)組合,根據(jù)除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,來獲得所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的字詞覆蓋程度和僅針對用作所述論元的字詞的字詞匹配程度之一,作為所述特征量。(補(bǔ)充注釋14)根據(jù)補(bǔ)充注釋13所述的文本含意辨認(rèn)方法,其中在所述步驟(C)中,除了所述特征量以外,還使用所述謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋15)根據(jù)補(bǔ)充注釋14所述的文本含意辨認(rèn)方法,其中在所述步驟(C)中,根據(jù)所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度,優(yōu)先考慮所述謂語論元結(jié)構(gòu)的特征量和結(jié)構(gòu)特征之一來執(zhí)行所述確定。(補(bǔ)充注釋16)根據(jù)補(bǔ)充注釋13-15之一所述的文本含意辨認(rèn)方法,其中在所述步驟(C)中,當(dāng)獲得所述特征量時(shí),根據(jù)通過機(jī)器學(xué)習(xí)獲得的數(shù)據(jù)向所述特征量添加權(quán)重。(補(bǔ)充注釋17)一種計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于計(jì)算機(jī)確定第一文本是否暗指第二文本的程序,所述程序包括使所述計(jì)算機(jī)執(zhí)行以下步驟的指令:(a)獲取第一文本和第二文本中的每一個(gè)的謂語論元結(jié)構(gòu),使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一文本和第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量;(b)將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及(C)針對識別的所述每個(gè)組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋18)根據(jù)補(bǔ)充注釋17所述的計(jì)算機(jī)可讀記錄介質(zhì),其中所述謂語論元結(jié)構(gòu)包括在所述第一文本或所述第二文本中包含的謂語、用作謂語的論元的字詞以及對所述論元的類型加以指示的字詞,并且在所述步驟(a)中,所述謂語和所述用作謂語的論元的字詞用于生成所述矢量。(補(bǔ)充注釋19)根據(jù)補(bǔ)充注釋17或18所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(b)中,計(jì)算針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的矢量之間的相似度,并根據(jù)計(jì)算的相似度來識別所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)的組合。(補(bǔ)充注釋20)根據(jù)補(bǔ)充注釋19所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(b)中,根據(jù)所述矢量的信息量在所述相似度的計(jì)算期間執(zhí)行歸一化處理。(補(bǔ)充注釋21)根據(jù)補(bǔ)充注釋17-20之一所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(C)中,針對所述每個(gè)組合,根據(jù)除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,來獲得所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的字詞覆蓋程度和僅針對用作所述論元的字詞的字詞匹配程度之一,作為所述特征量。(補(bǔ)充注釋22)
根據(jù)補(bǔ)充注釋21所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(C)中,除了所述特征量以外,還使用所述謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來確定所述第一文本是否暗指所述第二文本。(補(bǔ)充注釋23)根據(jù)補(bǔ)充注釋22所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(C)中,根據(jù)所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度,優(yōu)先考慮所述謂語論元結(jié)構(gòu)的特征量和結(jié)構(gòu)特征之一來執(zhí)行所述確定。(補(bǔ)充注釋24)根據(jù)補(bǔ)充注釋21-23之一所述的計(jì)算機(jī)可讀記錄介質(zhì),其中在所述步驟(C)中,當(dāng)獲得所述特征量時(shí),根據(jù)通過機(jī)器學(xué)習(xí)獲得的數(shù)據(jù)向所述特征量添加權(quán)重。盡管以上已經(jīng)參考實(shí)施例描述了本發(fā)明,本發(fā)明并不局限于上述實(shí)施例。本領(lǐng)域技術(shù)人員可以在本發(fā)明的范圍內(nèi)對本發(fā)明的配置和細(xì)節(jié)進(jìn)行各種修改。本申請要求2011年10月20日遞交的日本專利申請N0.2011-230773的優(yōu)先權(quán),其公開一并在此作為參考。工業(yè)實(shí)用性如上所述,根據(jù)本發(fā)明,即使在謂語的論元結(jié)構(gòu)不同的情況下,也能夠?qū)?jīng)歷確定的多個(gè)文本進(jìn)行含意確定。因此,本發(fā)明可用于例如信息檢索系統(tǒng)中的自然語句的語義檢索之類的應(yīng)用中。本發(fā)明還可以用于例如文本挖掘中觀點(diǎn)聚類分析之類的應(yīng)用中。參考數(shù)字的描述I 輸入裝置2 含意確定裝置3 存儲裝置4 輸出裝置20 謂語論元結(jié)構(gòu)分析單元21 矢量生成單元22 組合識別單元23 含意確定單元30 字詞核對規(guī)則存儲單元31 謂語論元結(jié)構(gòu)核對規(guī)則存儲單元110計(jì)算機(jī)111 CPU112主存儲器113存儲裝置114 輸入接口115顯示控制器116數(shù)據(jù)讀取器/寫入器117 通信接口118輸入設(shè)備119顯示裝置
120記錄介質(zhì)121 總線
權(quán)利要求
1.一種文本含意辨認(rèn)裝置,所述文本含意辨認(rèn)裝置用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)裝置包括: 矢量生成單元,所述矢量生成單元獲取所述第一文本和所述第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并通過使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于所述第一文本和所述第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量; 組合識別單元,所述組合識別單元將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及 含意確定單元,所述含意確定單元針對識別的每個(gè)所述組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。
2.根據(jù)權(quán)利要求1所述的文本含意辨認(rèn)裝置,其中所述謂語論元結(jié)構(gòu)包括在所述第一文本或所述第二文本中包含的謂語、用作所述謂語的論元的字詞以及對所述論元的類型加以指示的字詞,并且 所述矢量生成單元使用所述謂語和用作所述謂語的論元的所述字詞來生成所述矢量。
3.根據(jù)權(quán)利要求1或2所述的文本含意辨認(rèn)裝置,其中所述組合識別單元計(jì)算針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量 之間的相似度,并根據(jù)計(jì)算的所述相似度來識別所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)的組合。
4.根據(jù)權(quán)利要求3所述的文本含意辨認(rèn)裝置,其中所述組合識別單元根據(jù)所述矢量的信息量在所述相似度的計(jì)算期間執(zhí)行歸一化處理。
5.根據(jù)權(quán)利要求1-4之一所述的文本含意辨認(rèn)裝置,其中所述含意確定單元針對所述組合中的每一個(gè),根據(jù)除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,來獲得所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的字詞覆蓋程度和僅針對用作所述論元的字詞的字詞匹配程度之一,作為所述特征量。
6.根據(jù)權(quán)利要求5所述的文本含意辨認(rèn)裝置,其中除了所述特征量以外,所述含意確定單元還使用所述謂語論元結(jié)構(gòu)的結(jié)構(gòu)特征來確定所述第一文本是否暗指所述第二文本。
7.根據(jù)權(quán)利要求6所述的文本含意辨認(rèn)裝置,其中所述含意確定單元根據(jù)所述第一文本的所述謂語論元結(jié)構(gòu)和所述第二文本的所述謂語論元結(jié)構(gòu)之間的結(jié)構(gòu)相似度,優(yōu)先考慮所述謂語論元結(jié)構(gòu)的所述特征量和所述結(jié)構(gòu)特征之一來執(zhí)行確定。
8.根據(jù)權(quán)利要求5-7之一所述的文本含意辨認(rèn)裝置,其中當(dāng)獲得所述特征量時(shí),所述含意確定單元根據(jù)通過機(jī)器學(xué)習(xí)獲得的數(shù)據(jù)向所述特征量添加權(quán)重。
9.一種文本含意辨認(rèn)方法,所述文本含意辨認(rèn)方法用于確定第一文本是否暗指第二文本,所述文本含意辨認(rèn)方法包括: (a)獲取所述第一文本和所述第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于所述第一文本和所述第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量; (b)將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量與針對所述第二文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及 (C)針對識別的每個(gè)所述組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。
10.一種計(jì)算機(jī)可讀記錄介質(zhì),其上記錄有用于通過計(jì)算機(jī)確定第一文本是否暗指第二文本的程序,所述程序包括使所述計(jì)算機(jī)執(zhí)行以下步驟的指令: (a)獲取所述第一文本和所述第二文本中每一個(gè)的謂語論元結(jié)構(gòu),并使用除對所述謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于所述第一文本和所述第二文本中的每一個(gè)生成針對每個(gè)所述謂語論元結(jié)構(gòu)的矢量; (b)將針對所述第一文本的每個(gè)所述謂語論元結(jié)構(gòu)生成的所述矢量與針對所述第二文本的每個(gè)所述謂語論 元結(jié)構(gòu)生成的所述矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別所述第一文本的所述謂語論元結(jié)構(gòu)與所述第二文本的所述謂語論元結(jié)構(gòu)的組合;以及 (C)針對識別的每個(gè)所述組合獲得特征量,并根據(jù)獲得的所述特征量來確定所述第一文本是否暗指所述第二文本。
全文摘要
一種文本含意辨認(rèn)裝置(2)包括矢量生成單元(21),使用除對謂語論元結(jié)構(gòu)中的謂語論元的類型加以指示的字詞以外的字詞,對于第一和第二文本中的每一個(gè)生成針對每個(gè)謂語論元結(jié)構(gòu)的矢量;組合識別單元(22),將針對第一文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量與針對第二文本的每個(gè)謂語論元結(jié)構(gòu)生成的矢量進(jìn)行比較,并根據(jù)比較結(jié)果識別第一文本的謂語論元結(jié)構(gòu)與第二文本的謂語論元結(jié)構(gòu)的組合;以及含意確定單元(23),針對識別的每個(gè)組合獲得特征量,并根據(jù)獲得的特征量來確定第一文本是否暗指第二文本。
文檔編號G06F17/27GK103221947SQ201280003691
公開日2013年7月24日 申請日期2012年10月4日 優(yōu)先權(quán)日2011年10月20日
發(fā)明者土田正明, 石川開, 大西貴士 申請人:日本電氣株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
仲巴县| 临高县| 观塘区| 福泉市| 自贡市| 双牌县| 牡丹江市| 吉林市| 巫溪县| 永福县| 新竹市| 子洲县| 东乡| 东明县| 清水县| 共和县| 镇巴县| 肥城市| 永靖县| 临夏市| 莱芜市| 固安县| 应用必备| 富民县| 沂南县| 修文县| 贵阳市| 和政县| 多伦县| 湘潭市| 高清| 仙游县| 安顺市| 新竹县| 镇原县| 汉川市| 张家口市| 南部县| 通辽市| 黄龙县| 秭归县|