專利名稱:在問(wèn)答期間在多個(gè)候選答案之間的證據(jù)擴(kuò)散的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)一般涉及計(jì)算機(jī)和計(jì)算機(jī)應(yīng)用,且更具體而言涉及人工智能和自然語(yǔ)言處理。
背景技術(shù):
隨著在所有形式的自然語(yǔ)言文檔中捕獲到豐富的企業(yè)關(guān)鍵信息,只精讀包含用戶的兩個(gè)或三個(gè)關(guān)鍵詞的前10或20篇最知名的文檔的問(wèn)題變得越來(lái)越明顯。在知名程度(popularity)并非很重要的相關(guān)性指標(biāo)的企業(yè)中,情況尤其是這樣。本公開(kāi)的發(fā)明人認(rèn)識(shí)至IJ,企業(yè)計(jì)算機(jī)系統(tǒng)應(yīng)深入分析相關(guān)內(nèi)容的廣度,以更精確地回答自然語(yǔ)言問(wèn)題并證明所述答案是正當(dāng)?shù)?。開(kāi)域問(wèn)答(QA)問(wèn)題是計(jì)算機(jī)科學(xué)和人工智能領(lǐng)域中最有挑戰(zhàn)性的問(wèn)題之一,需要信息檢索、自然語(yǔ)言處理、知識(shí)表示和推理、機(jī)器學(xué)習(xí)以及人機(jī)接口的綜合。QA系統(tǒng)典型地對(duì)一給定問(wèn)題產(chǎn)生若干個(gè)可能的候選答案,并使用各種算法基于其證據(jù)來(lái)對(duì)候選進(jìn)行評(píng)級(jí)和評(píng)分。但是,QA系統(tǒng)典型地認(rèn)為答案是互相獨(dú)立的,且即使有也很少探索候選者本身之間的關(guān)系。
發(fā)明內(nèi)容
提供了一種用于在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù)的方法和系統(tǒng)。在一方面,該方法可以包括識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分。該方法還可以包括基于識(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案。該方法還可以包括基于傳遞的證據(jù)來(lái)計(jì)算第二候選答案的新的置信度評(píng)分。在一方面,一種在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù)的系統(tǒng)可以包括證據(jù)擴(kuò)散模塊,其可操作以識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分,該證據(jù)擴(kuò)散模塊還可操作以基于識(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案,該證據(jù)擴(kuò)散模塊還可操作以基于傳遞的證據(jù)來(lái)計(jì)算第二候選答案的新的置信度評(píng)分。還可以提供一種存儲(chǔ)程序指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序指令可被機(jī)器執(zhí)行,以執(zhí)行這里描述的一種或多種方法。下面參考附圖來(lái)更詳細(xì)地描述其他特征以及各個(gè)實(shí)施例的結(jié)構(gòu)和操作。在圖中,相同的參考標(biāo)號(hào)表示相 同或功能類似的元素。
圖1是示出本公開(kāi)的方法在一個(gè)實(shí)施例中的流程圖。圖2是可以實(shí)現(xiàn)本公開(kāi)的一個(gè)實(shí)施例中的證據(jù)擴(kuò)散系統(tǒng)的示例性計(jì)算機(jī)或處理系統(tǒng)的不意圖。圖3是示出本公開(kāi)的一個(gè)實(shí)施例中的用于證據(jù)擴(kuò)散的功能組件或模塊的框圖。圖4示出了本公開(kāi)的一個(gè)實(shí)施例中的QA系統(tǒng)的高級(jí)架構(gòu)。
具體實(shí)施例方式在美國(guó)臨時(shí)專利公開(kāi)號(hào)20110066587A1中描述了問(wèn)答(QA)系統(tǒng)的例子。在本公開(kāi)的一個(gè)實(shí)施例中,可以展示檢驗(yàn)候選答案之間的聯(lián)系和/或關(guān)系的方法和/或系統(tǒng)。例如,QA系統(tǒng)或方法可以自動(dòng)地確定候選答案。本公開(kāi)的方法和/或系統(tǒng)可以使用該信息來(lái)確定正確的答案。一旦候選答案之間的關(guān)系已被確定,本公開(kāi)的方法和/或系統(tǒng)在一個(gè)實(shí)施例中可以在候選者之間傳遞證據(jù)并使用該信息來(lái)對(duì)候選者進(jìn)行重新評(píng)級(jí)。例如,考慮下列問(wèn)題:a.如果你降落在ABC國(guó)際機(jī)場(chǎng),你降落在這個(gè)國(guó)家(正確答案:XYZ)問(wèn)題中提到的機(jī)場(chǎng)位于城市X,該城市在國(guó)家XYZ中。結(jié)果,可能存在用于城市X的大量文本證據(jù),其可能淹沒(méi)用于國(guó)家XYZ的基于類型的證據(jù),從而使得QA系統(tǒng)回答出X,即使這是錯(cuò)誤的類型。即,X是城市類型而XYZ是國(guó)家類型;且答案應(yīng)該是國(guó)家的名字,因?yàn)樵搯?wèn)題所問(wèn)的是國(guó)家而不是城市。為了解決上述問(wèn)題,本公開(kāi)的方法和/或系統(tǒng)在一個(gè)實(shí)施例中可以識(shí)別候選答案例如X和XYZ之間的一個(gè)或多個(gè)關(guān)系。識(shí)別的關(guān)系可以是“首都”、“位于”等。例如,X是XYZ的首都,X位于XYZ中, 或可以識(shí)別的任意其他關(guān)系。基于該信息,來(lái)自類型不正確的候選的證據(jù)可被傳遞到類型正確的候選者,由此提高正確答案的置信度評(píng)分。圖1是示出本公開(kāi)的方法在一個(gè)實(shí)施例中的流程圖。在102,例如由QA系統(tǒng)自動(dòng)生成的兩個(gè)或更多個(gè)候選答案之間的一個(gè)或多個(gè)關(guān)系被識(shí)別。識(shí)別候選答案之間的關(guān)系可以包括在104詢問(wèn)結(jié)構(gòu)化知識(shí)庫(kù)。這可以包括映射候選答案。例如,參考上述例子,這可以包括將實(shí)體字符串“X”和“ΧΥΖ”映射到結(jié)構(gòu)化知識(shí)庫(kù)中的相應(yīng)資源,這本身是不簡(jiǎn)單(non-trivial)的消除歧義的任務(wù)。例如,“X”可能還以是某個(gè)其他實(shí)體(例如漫畫(huà)、餐飲連鎖等)的名字,且本公開(kāi)的系統(tǒng)和/或方法在一個(gè)實(shí)施例中可以查看更大的上下文(例如包含候選答案的支持段落),以確定該實(shí)體的正確含義。識(shí)別關(guān)系的另一方法可以是在106使用從非結(jié)構(gòu)化文本中提取的淺詞法知識(shí)(shallow lexical knowledge),該淺詞法知識(shí)例如是使用一個(gè)或多個(gè)本體(ontology)提取的。例如,本公開(kāi)的系統(tǒng)和/或方法可以在大型語(yǔ)料庫(kù)中查詢聯(lián)系實(shí)體X和XYZ的文本短語(yǔ)和/或關(guān)系(例如“首都”、“最大城市”等),并基于其頻率來(lái)對(duì)短語(yǔ)排序,以獲得最常見(jiàn)的關(guān)系??墒褂闷渌椒ㄗR(shí)別候選答案之間的關(guān)系。在108,問(wèn)題可被分析,并考慮答案類型信息以及線索和答案中的實(shí)體之間的關(guān)系,以確定在候選者之間傳遞或擴(kuò)散證據(jù)的方向。僅為了解釋的目的來(lái)使用上述例子,因?yàn)閱?wèn)題問(wèn)的是國(guó)家,而機(jī)場(chǎng)位于城市中,本公開(kāi)的方法可以將證據(jù)從機(jī)場(chǎng)所在的城市傳遞到相應(yīng)的國(guó)家。本公開(kāi)的方法在一個(gè)實(shí)施例中可以基于在106找到的關(guān)系以及在108進(jìn)行的分析將證據(jù)從候選者X擴(kuò)散或傳遞到XYZ。證據(jù)擴(kuò)散可以以若干種方式來(lái)執(zhí)行。例如,可以通過(guò)在候選者之間傳遞特征評(píng)分來(lái)進(jìn)行證據(jù)擴(kuò)散。例如,針對(duì)候選答案計(jì)算的一個(gè)特征可以是“段落-文本-證據(jù)”。給定問(wèn)題和候選答案,本公開(kāi)的方法在一個(gè)實(shí)施例中可以度量找到多少支持候選答案是問(wèn)題的答案的段落文本證據(jù)。該特征評(píng)分可以是數(shù)值一評(píng)分越高,候選者的文本證據(jù)越強(qiáng)。如果已針對(duì)證據(jù)擴(kuò)散確定了一對(duì)候選答案Cl、C2,特征評(píng)分一在上述例子中是“段落-文本-證據(jù)”評(píng)分一可以從一個(gè)或候選者(例如Cl) “傳遞”到另一候選者(例如C2)。特征評(píng)分的“傳遞”可以以若干種方式來(lái)進(jìn)行,例如,Cl上的較高特征評(píng)分可以簡(jiǎn)單地覆蓋C2上的相應(yīng)特征評(píng)分;或者來(lái)自Cl的特征評(píng)分可以被加到C2上的相應(yīng)評(píng)分。特征評(píng)分的其他“傳遞”也是可能的。在線索(clue)的上下文中合適的特征子集可被傳遞。在上述例子中,將類型匹配的特征評(píng)分從X傳遞到XYZ沒(méi)有意義,而主要是位置特定的特征。本公開(kāi)的方法還可以使用試探法基于在候選者之間發(fā)現(xiàn)的關(guān)系的類型和強(qiáng)度確定是按原樣傳遞整個(gè)特征評(píng)分,還是傳遞評(píng)分的某部分。例如,在X和XYZ之間可存在很強(qiáng)的地理關(guān)系,這形成用于擴(kuò)散的較強(qiáng)理由,在該情形下整個(gè)特征評(píng)分可被傳遞。從一個(gè)候選答案向另一候選答案擴(kuò)散或傳遞證據(jù)的另一方法可以是向候選者添加新特征以指示已經(jīng)進(jìn)行證據(jù)擴(kuò)散,且特征評(píng)分基于擴(kuò)散的量。這可以用上述例子來(lái)說(shuō)明。繼續(xù)上述例子,除了特征“段落-文本-證據(jù)”,可以為每個(gè)候選者創(chuàng)建被稱為“已傳遞-段落-文本-證據(jù)”的另一特征。于是,在證據(jù)擴(kuò)散過(guò)程中,本公開(kāi)的方法可以使用后一特征來(lái)對(duì)傳遞了多少證據(jù)進(jìn)行評(píng)分(例如,而不是如上所述將評(píng)分復(fù)制到前一特征)。例如,假設(shè)兩個(gè)候選者具有以下特征評(píng)分:在證據(jù)擴(kuò)散 之前:
權(quán)利要求
1.一種計(jì)算機(jī)實(shí)現(xiàn)的方法,用于在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù),包括: 由處理器識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分; 基于識(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案;以及 基于傳遞的證據(jù)來(lái)計(jì)算第二候選答案的新置信度評(píng)分。
2.如權(quán)利要求1所述的方法,其中,基于與候選答案相關(guān)的問(wèn)題來(lái)控制第一候選答案和另一候選答案之間的傳遞方向。
3.如權(quán)利要求1所述的方法,其中,所述傳遞包括將傳遞的證據(jù)與和第二候選答案相關(guān)的現(xiàn)有證據(jù)信息進(jìn)行合并。
4.如權(quán)利要求1所述的方法,其中,所述傳遞包括添加新的證據(jù)信息,其表示所識(shí)別的關(guān)系的方向或強(qiáng)度或方向和強(qiáng)度兩者。
5.如權(quán)利要求1所述的方法,其中,所述傳遞包括在候選者之間傳遞特征評(píng)分。
6.如權(quán)利要求1所述的方法,其中,所述傳遞還包括基于試探法根據(jù)所識(shí)別的一個(gè)或多個(gè)關(guān)系的類型和強(qiáng)度來(lái)確定是按原樣傳遞整個(gè)特征評(píng)分,還是傳遞特征評(píng)分的一部分。
7.如權(quán)利要求1所述的方法,其中,所述計(jì)算步驟是由機(jī)器學(xué)習(xí)執(zhí)行的。
8.如權(quán)利要求1所述的方法,其中,所述識(shí)別包括詢問(wèn)結(jié)構(gòu)化知識(shí)庫(kù)并映射候選答案中出現(xiàn)的字符串。
9.如權(quán)利要求1所述的方法,其中,所述識(shí)別步驟基于從非結(jié)構(gòu)化文本中提取的詞法知識(shí)。
10.一種存儲(chǔ)程序指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序指令可被機(jī)器執(zhí)行,以執(zhí)行在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù)的方法,該方法包括: 由處理器識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分; 基于識(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案;以及 基于傳遞的證據(jù)來(lái)計(jì)算第二候選答案的新置信度評(píng)分。
11.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述傳遞包括將傳遞的證據(jù)與和第二候選答案相關(guān)的現(xiàn)有證據(jù)信息進(jìn)行合并。
12.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述傳遞包括添加新的證據(jù)信息,其表示所識(shí)別的關(guān)系的方向或強(qiáng)度或方向和強(qiáng)度兩者。
13.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述傳遞包括在候選者之間傳遞特征評(píng)分。
14.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述傳遞還包括基于試探法根據(jù)所識(shí)別的一個(gè)或多個(gè)關(guān)系的類型和強(qiáng)度來(lái)確定是按原樣傳遞整個(gè)特征評(píng)分,還是傳遞特征評(píng)分的一部分。
15.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述重新評(píng)級(jí)步驟由機(jī)器學(xué)習(xí)執(zhí)行的。
16.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述識(shí)別包括詢問(wèn)結(jié)構(gòu)化知識(shí)庫(kù)并映射候選答案中出現(xiàn)的字符串。
17.如權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,所述識(shí)別步驟基于從非結(jié)構(gòu)化文本中提取的詞法知識(shí)。
18.一種用于在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù)的系統(tǒng),包括: 處理器;以及 證據(jù)擴(kuò)散模塊,其可操作以識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分,該證據(jù)擴(kuò)散模塊還可操作以基于識(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案,該證據(jù)擴(kuò)散模塊還可操作以基于傳遞的證據(jù)來(lái)計(jì)算第二候選答案的新的置信度評(píng)分。
19.如權(quán)利要求18所述的系統(tǒng),其中,基于與候選答案相關(guān)的問(wèn)題來(lái)控制一個(gè)候選答案和另一候選答案之間的傳遞方向。
20.如權(quán)利要求18所述的系統(tǒng),其中,所述證據(jù)擴(kuò)散模塊通過(guò)將傳遞的證據(jù)與和第二候選答案相關(guān)的現(xiàn)有證據(jù)信息進(jìn)行合并來(lái)傳遞證據(jù)。
21.如權(quán)利要求18所述的系統(tǒng),其中,所述證據(jù)擴(kuò)散模塊通過(guò)添加新的證據(jù)信息來(lái)傳遞證據(jù),該新的證據(jù)信息表示所識(shí)別的一個(gè)或多個(gè)關(guān)系的方向或強(qiáng)度或方向和強(qiáng)度兩者。
22.如權(quán)利要求18所述的系統(tǒng),其中,所述證據(jù)擴(kuò)散模塊通過(guò)在候選者之間傳遞特征評(píng)分來(lái)傳 遞證據(jù)。
全文摘要
在問(wèn)答期間在候選答案之間擴(kuò)散證據(jù)可以識(shí)別第一候選答案和第二候選答案之間的關(guān)系,其中,候選答案是由問(wèn)答計(jì)算機(jī)過(guò)程產(chǎn)生的,候選答案具有相關(guān)的支持證據(jù),且候選答案具有相關(guān)的置信度評(píng)分??梢曰谧R(shí)別的關(guān)系將所有或部分證據(jù)從第一候選答案?jìng)鬟f到第二候選答案??梢曰趥鬟f的證據(jù)來(lái)計(jì)算第二候選答案的新的置信度評(píng)分。
文檔編號(hào)G06F17/30GK103229168SQ201180056941
公開(kāi)日2013年7月31日 申請(qǐng)日期2011年9月23日 優(yōu)先權(quán)日2010年9月28日
發(fā)明者D·A·弗魯茨, D·C·貢德克, A·A·卡利安普, A·P·拉利 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司