因特網(wǎng)是為全世界數(shù)十億用戶服務(wù)的全球數(shù)據(jù)通信系統(tǒng)。因特網(wǎng)向用戶提供對(duì)大量在線信息資源和服務(wù)的訪問(wèn),包括由萬(wàn)維網(wǎng)、基于內(nèi)聯(lián)網(wǎng)的企業(yè)等提供的在線信息資源和服務(wù)。萬(wàn)維網(wǎng)當(dāng)前托管數(shù)十億的網(wǎng)頁(yè),其共同托管了大量且不斷增長(zhǎng)的文本內(nèi)容,文本內(nèi)容涵蓋用戶可能感興趣的任何主題。由于因特網(wǎng)、容易地并且成本高效地可獲得的各種類型的網(wǎng)絡(luò)啟用的個(gè)人計(jì)算設(shè)備(諸如個(gè)人計(jì)算機(jī)、膝上型/筆記本計(jì)算機(jī)、智能電話、平板計(jì)算機(jī)和專用電子閱讀器設(shè)備)、以及可以在這些設(shè)備上運(yùn)行的各種類型的應(yīng)用程序的普遍存在,跨全球的用戶可以輕松地搜索、檢索和閱讀涵蓋他們感興趣的任何主題的任何類型的文本內(nèi)容。
技術(shù)實(shí)現(xiàn)要素:
提供本發(fā)明內(nèi)容以便以簡(jiǎn)化形式介紹將在以下具體實(shí)施方式中進(jìn)一步描述的概念的選擇。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護(hù)的主題的范圍。
本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)通常涉及生成關(guān)于文本的段落的問(wèn)題,該文本的段落包括兩個(gè)或更多個(gè)句子的序列。在一個(gè)示例性實(shí)現(xiàn)中,接收段落。然后生成關(guān)于段落的問(wèn)題,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問(wèn)題陳述。然后輸出所生成的問(wèn)題。下面提供這樣的問(wèn)題生成的示例。
附圖說(shuō)明
關(guān)于以下描述、所附權(quán)利要求和附圖,將更好地理解本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)的具體的特征、方面和優(yōu)點(diǎn),在附圖中:
圖1是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的一個(gè)實(shí)現(xiàn)的流程圖。
圖2是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的一個(gè)實(shí)現(xiàn)的流程圖,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。
圖3是以簡(jiǎn)化形式示出用于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名的過(guò)程的一個(gè)實(shí)現(xiàn)的流程圖。
圖4是以簡(jiǎn)化形式示出用于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名的過(guò)程的另一實(shí)現(xiàn)的流程圖。
圖5是以簡(jiǎn)化形式示出用于確定文本的段落中的所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的過(guò)程的示例性實(shí)現(xiàn)的流程圖。
圖6是以簡(jiǎn)化形式示出用于將存在于文本的段落內(nèi)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系轉(zhuǎn)換成問(wèn)題陳述的過(guò)程的示例性實(shí)現(xiàn)的流程圖。
圖7是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)的流程圖,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。
圖8是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)的流程圖,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。
圖9是以簡(jiǎn)化形式示出用于將存在于文本的段落內(nèi)的所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系轉(zhuǎn)換成問(wèn)題陳述的過(guò)程的示例性實(shí)現(xiàn)的流程圖。
圖10是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)的流程圖。
圖11是以簡(jiǎn)化形式示出用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)的流程圖,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。
圖12是以簡(jiǎn)化形式示出用于使用預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合針對(duì)文本的段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界的過(guò)程的一個(gè)實(shí)現(xiàn)的流程圖。
圖13是以簡(jiǎn)化形式示出用于向用戶提供關(guān)于他們正在閱讀的文本的段落的問(wèn)題的過(guò)程的示例性實(shí)現(xiàn)的流程圖。
圖14是以簡(jiǎn)化形式示出用于實(shí)現(xiàn)本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)的架構(gòu)框架的示例性實(shí)現(xiàn)的圖。
圖15是示出可以實(shí)現(xiàn)本文中所描述的問(wèn)題生成技術(shù)的各種實(shí)現(xiàn)和元素的通用計(jì)算機(jī)系統(tǒng)的簡(jiǎn)化示例的圖。
具體實(shí)施方式
在問(wèn)題生成技術(shù)實(shí)現(xiàn)的以下描述中,參考附圖,附圖形成以下描述的一部分,并且附圖中通過(guò)說(shuō)明示出了可以實(shí)踐問(wèn)題生成技術(shù)的具體實(shí)現(xiàn)。應(yīng)當(dāng)理解,在不脫離問(wèn)題生成技術(shù)實(shí)現(xiàn)的范圍的情況下,可以利用其他實(shí)現(xiàn)并且可以進(jìn)行結(jié)構(gòu)改變。
還應(yīng)當(dāng)注意,為了清楚起見(jiàn),在描述本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)時(shí)將采用具體術(shù)語(yǔ),并且并不旨在將這些實(shí)現(xiàn)限制于所選擇的具體術(shù)語(yǔ)。此外,應(yīng)當(dāng)理解,每個(gè)具體術(shù)語(yǔ)包括以廣義上相似的方式操作以實(shí)現(xiàn)相似目的的所有技術(shù)等同物。本文中對(duì)“一個(gè)實(shí)現(xiàn)”或“另一實(shí)現(xiàn)”或“示例性實(shí)現(xiàn)”或“替選實(shí)現(xiàn)”的引用表示結(jié)合該實(shí)現(xiàn)描述的特定特征、特定結(jié)構(gòu)或特定特性可以被包括在問(wèn)題生成技術(shù)的至少一個(gè)實(shí)現(xiàn)中。在說(shuō)明書(shū)中的各個(gè)位置出現(xiàn)的短語(yǔ)“在一個(gè)實(shí)現(xiàn)中”、“在另一實(shí)現(xiàn)中”、“在示例性實(shí)現(xiàn)中”和“在替選實(shí)現(xiàn)中”不一定都指代相同的實(shí)現(xiàn),也不一定是與其他實(shí)現(xiàn)相互排斥的單獨(dú)的或替選的實(shí)現(xiàn)。此外,表示問(wèn)題生成技術(shù)的一個(gè)或多個(gè)實(shí)現(xiàn)的處理流程的順序不固有地指示任何特定順序,也不暗示問(wèn)題生成技術(shù)的任何限制。
1.0 Web上的文本內(nèi)容
如上所述,存在在萬(wàn)維網(wǎng)(本文中有時(shí)簡(jiǎn)稱為web)上當(dāng)前可獲得的大量并且不斷增長(zhǎng)的文本內(nèi)容。跨全球的用戶可以使用各種類型的網(wǎng)絡(luò)啟用的個(gè)人計(jì)算設(shè)備(除了其他以外,諸如在此之前描述的那些),來(lái)搜索、檢索和讀取涵蓋他們感興趣的任何主題的任何類型的文本內(nèi)容。在給定用戶讀取給定文本的段落(例如,一段文本)之后,他們可能想要確定他們已經(jīng)從段落中理解和記住了多少(例如,用戶可能想要評(píng)估他們的閱讀理解)。如在心理學(xué)領(lǐng)域中所理解的,存在被稱為Dunning-Kruger效應(yīng)的心理現(xiàn)象,由此讀取給定文本的段落的用戶通常會(huì)高估他們對(duì)該段落的認(rèn)知/理解。從以下更詳細(xì)的描述中可以理解,本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)的優(yōu)點(diǎn)在于,它們可以用于各種各樣的應(yīng)用中,以自動(dòng)地生成可以測(cè)量用戶對(duì)文本的段落的理解的問(wèn)題。例如,在用戶正在專用電子閱讀器設(shè)備上閱讀給定電子書(shū)的情況下,問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成關(guān)于電子書(shū)的高級(jí)別問(wèn)題,這些問(wèn)題與電子書(shū)的不同部分上下文相關(guān)。在用戶正在閱讀網(wǎng)頁(yè)上的文本的段落的情況下,問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成關(guān)于段落的高級(jí)別問(wèn)題,這些問(wèn)題與段落的不同部分上下文相關(guān)。下文中描述問(wèn)題生成技術(shù)實(shí)現(xiàn)的附加優(yōu)點(diǎn)。
如在因特網(wǎng)領(lǐng)域中所理解的,在web上可獲得的很多文本內(nèi)容本質(zhì)上是教育性的。在網(wǎng)絡(luò)上可獲得的教育性文本內(nèi)容的一部分是現(xiàn)有課程的一部分,并且被預(yù)先構(gòu)造為使得閱讀內(nèi)容的用戶(例如,學(xué)生)能夠確定(例如,衡量)他們對(duì)內(nèi)容的理解。這樣的教育性文本內(nèi)容的一個(gè)示例是教科書(shū),其通常在每個(gè)章節(jié)的結(jié)尾處包括固定的預(yù)先創(chuàng)作的問(wèn)題的集合,用戶可以回答這些問(wèn)題以便確定他們對(duì)內(nèi)容的理解。在用戶想要在稍后的日期重新確定他們對(duì)內(nèi)容的理解的情況下,本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成可以支持該重新確定的附加問(wèn)題。在用戶想要對(duì)他們對(duì)內(nèi)容內(nèi)的一個(gè)或多個(gè)具體主題的理解的更深入(例如,更集中的)評(píng)估的另一情況下,問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成關(guān)于這些具體主題的更多問(wèn)題。在教師正在使用教科書(shū)教授課程的另一情況下,問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成要被包括在被給予學(xué)生的考試中的測(cè)試問(wèn)題。雖然一些測(cè)試問(wèn)題可能在教科書(shū)的教師版本中可獲得,但是問(wèn)題生成技術(shù)實(shí)現(xiàn)允許教師自動(dòng)地生成年度不同的檢查,并且自動(dòng)地生成更深入地練習(xí)某些主題的更集中的測(cè)試問(wèn)題。
網(wǎng)絡(luò)上可獲得的教育性文本內(nèi)容的另一部分不是現(xiàn)有課程的一部分。例如,考慮第一次購(gòu)房者正在閱讀描述可獲得的各種類型的貸款的文本內(nèi)容的情況。在購(gòu)房者完成他們的閱讀之后,他們可能想知道他們?cè)谂c他們的銀行官員見(jiàn)面之前已經(jīng)理解和記住了多少。還考慮另一種情況,其中患者被診斷為患有特定癌癥,并且在獲得URL(統(tǒng)一資源定位符,也稱為“鏈接”)的集合之后,從他們的醫(yī)生辦公室被送回到家里,該URL的集合指向患者必須閱讀以更多地了解關(guān)于他們的診斷和治療選擇的特定文本內(nèi)容項(xiàng)目。在患者完成他們的閱讀之后,他們可能想知道他們?cè)谂c他們的醫(yī)生再次見(jiàn)面之前已經(jīng)理解和記住了多少。本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)可以用于自動(dòng)地生成允許購(gòu)房者和患者二者測(cè)量他們對(duì)他們閱讀的文本內(nèi)容的理解和記憶。問(wèn)題生成技術(shù)實(shí)現(xiàn)還允許購(gòu)房者和患者二者驗(yàn)證他們不僅僅具有對(duì)內(nèi)容的粗略認(rèn)知/理解,并且還允許他們隨著時(shí)間推移刷新他們對(duì)內(nèi)容的認(rèn)知。
2.0 從句子生成高級(jí)別問(wèn)題
給定包括兩個(gè)或更多個(gè)句子的序列的文本的段落(本文中有時(shí)簡(jiǎn)稱為段落),術(shù)語(yǔ)“句子級(jí)別問(wèn)題”在本文中用于指代僅涵蓋段落中的句子之一的內(nèi)容的問(wèn)題,使得該問(wèn)題的答案僅被包含在該一個(gè)句子中(例如,問(wèn)題的答案不能被包含在段落中的任何其他句子中)。相反,本文中使用術(shù)語(yǔ)“高級(jí)別問(wèn)題”來(lái)指代涵蓋段落中的多個(gè)句子的內(nèi)容的問(wèn)題,使得該問(wèn)題的答案可以被包含在段落中的任何句子中,或者段落中的兩個(gè)或更多個(gè)句子的組合中。因此,關(guān)于段落的高級(jí)別問(wèn)題可以被認(rèn)為是段落級(jí)別問(wèn)題,因?yàn)楦呒?jí)別問(wèn)題及其答案跨越段落中的多個(gè)句子。
給定包括兩個(gè)或更多個(gè)句子的序列的文本的段落,本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)通常涉及自動(dòng)地生成關(guān)于段落的高級(jí)別問(wèn)題以及高級(jí)別問(wèn)題中的每個(gè)高級(jí)別問(wèn)題的答案。從下面更詳細(xì)的描述中可以理解,不是單獨(dú)地處理段落中的每個(gè)句子(例如,不是一次只處理段落中的一個(gè)句子,而不考慮段落中的其他句子),并且生成一個(gè)或多個(gè)句子級(jí)別問(wèn)題,每個(gè)句子級(jí)別問(wèn)題涵蓋僅該一個(gè)句子的內(nèi)容,問(wèn)題生成技術(shù)實(shí)現(xiàn)將構(gòu)成該段落的句子的整個(gè)序列作為一組來(lái)處理,并且可以生成高級(jí)別問(wèn)題的集合,每個(gè)高級(jí)別問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容。因此,問(wèn)題生成技術(shù)實(shí)現(xiàn)的優(yōu)點(diǎn)在于,它們可以用于確定讀者對(duì)段落中的更高級(jí)別內(nèi)容的理解。問(wèn)題生成技術(shù)實(shí)現(xiàn)還允許自動(dòng)地生成高級(jí)別問(wèn)題,這些高級(jí)別問(wèn)題可以在上下文上探索段落的更深層面,諸如“為什么?”或“接下來(lái)發(fā)生了什么?”,而不是對(duì)段落中的單獨(dú)的句子進(jìn)行簡(jiǎn)單的語(yǔ)法修改,諸如“在哪里”或“何時(shí)”或“誰(shuí)”。問(wèn)題生成技術(shù)實(shí)現(xiàn)還確保自動(dòng)地生成的高級(jí)別問(wèn)題中的每個(gè)高級(jí)別問(wèn)題在語(yǔ)法上是正確的。問(wèn)題生成技術(shù)實(shí)現(xiàn)還確保高級(jí)別問(wèn)題中的每個(gè)高級(jí)別問(wèn)題的答案被包含在生成該高級(jí)別問(wèn)題的文本的段落內(nèi)。
如在自然語(yǔ)言理解和問(wèn)題生成領(lǐng)域中所理解的,可以通過(guò)簡(jiǎn)單地在語(yǔ)法上修改句子來(lái)生成關(guān)于單個(gè)句子的句子級(jí)別問(wèn)題。換言之,單個(gè)句子中的單詞或單詞短語(yǔ)可以被標(biāo)識(shí)為期望答案,然后可以用適當(dāng)?shù)膯?wèn)題單詞替換該標(biāo)識(shí)的單詞或單詞短語(yǔ),并且然后可以應(yīng)用規(guī)則的集合來(lái)生成語(yǔ)法上正確的句子級(jí)別問(wèn)題。例如,考慮原始句子“John married Jane in Seattle in 2012.”??梢酝ㄟ^(guò)將“in Seattle”替換為“where”來(lái)生成關(guān)于原始句子的一個(gè)句子級(jí)別問(wèn)題,得到問(wèn)題“Where did John marry Jane in 2012?”??梢酝ㄟ^(guò)將“in 2012”替換為“when”來(lái)生成關(guān)于原始句子的另一句子級(jí)別問(wèn)題,得到問(wèn)題“When did John marry Jane in Seattle?”??梢酝ㄟ^(guò)將“John”替換為“who”來(lái)生成關(guān)于原始句子的另一句子級(jí)別問(wèn)題,得到問(wèn)題“Who married Jane in Seattle in 2012?”。應(yīng)當(dāng)指出,這三個(gè)句子級(jí)別問(wèn)題中的每個(gè)的答案都被包含在原始句子本身中。但是,如果原始句子在語(yǔ)法上被變換成問(wèn)題“Why did John marry Jane?”或者問(wèn)題“What happened after John married Jane?”,則這兩個(gè)問(wèn)題的答案顯然不被包含在原始句子本身中。
2.1 高級(jí)別問(wèn)題生成示例
這一部分呈現(xiàn)用于進(jìn)一步描述本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)的樣本文本的段落。這一部分還呈現(xiàn)了可以使用本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)自動(dòng)地生成用于樣本文本的段落的示例性的高級(jí)別問(wèn)題的集合。樣本文本的段落如下所示,并且包括三個(gè)句子的序列,即句子S1、緊接在句子S1之后的句子S2和緊接在句子S2之后的句子S3:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
上述文本的段落在下文中簡(jiǎn)稱為段落S1-S3。
在接收并且處理段落S1-S3(下文將更詳細(xì)地描述)之后,本文中所描述的生成技術(shù)的示例性實(shí)現(xiàn)可以針對(duì)段落S1-S3生成兩個(gè)不同的高級(jí)別問(wèn)題陳述和答案對(duì),即高級(jí)別問(wèn)題陳述和答案對(duì)Q1/A1和高級(jí)別問(wèn)題陳述和答案對(duì)Q2/A2,如下所示:
Q1:What resulted from Franklin’s views on the role of the printing press?
A1:Because Franklin wanted to use printing press as a device to instruct colonial Americans in moral virtue,he constructed a chain of newspapers from the Carolinas to New England.
Q2:What precipitated Franklin’s invention of the first newspaper chain?
A2:Franklin invented the first newspaper chain because he tried to influence American moral life through the printing press and so constructed a printing network from the Carolinas to New England.
注意,高級(jí)別問(wèn)題陳述Q1主要從句子S1來(lái)生成,但是Q1的答案A1被包含在句子S2和句子S3二者內(nèi)。類似地,高級(jí)別問(wèn)題陳述Q2主要從句子S3來(lái)生成,但是Q2的答案A2被包含在段落S1-S3中在句子S3之前的句子S1和句子S2二者內(nèi)。
還應(yīng)當(dāng)注意,高級(jí)別問(wèn)題陳述Q1的形式將單個(gè)句子S1的內(nèi)容與Q1和其答案A1之間的期望關(guān)系(其在Q1的情況下是“結(jié)果”)組合。類似地,高級(jí)別問(wèn)題陳述Q2的形式將單個(gè)句子S3的內(nèi)容與Q2和其答案A2之間的期望關(guān)系(其在Q2的情況下是“在前”)組合。然而,從以下更詳細(xì)的描述中將理解,本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)還可以生成關(guān)于段落S1-S3的高級(jí)別問(wèn)題,該高級(jí)別問(wèn)題針對(duì)問(wèn)題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來(lái)將問(wèn)題置于上下文中。換言之,問(wèn)題生成技術(shù)實(shí)現(xiàn)可以通過(guò)以下方式來(lái)生成關(guān)于段落S1-S3的高級(jí)別問(wèn)題:首先標(biāo)識(shí)段落S1-S3的部分以用作針對(duì)問(wèn)題的上下文(下文中簡(jiǎn)稱為段落的上下文部分),并且然后通過(guò)用問(wèn)題陳述來(lái)擴(kuò)充段落的上下文部分,來(lái)將段落的上下文部分變換成問(wèn)題,該問(wèn)題陳述包括特定于問(wèn)題及其答案之間的期望關(guān)系的少量文本(例如,“為什么?”或“這是怎么發(fā)生的?”)。因此,段落的上下文部分用于將關(guān)于段落S1-S3的問(wèn)題置于上下文中。
關(guān)于段落S1-S3的高級(jí)別問(wèn)題(其針對(duì)問(wèn)題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來(lái)將問(wèn)題置于上下文中)的一個(gè)示例如下:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
Q3:What resulted?
注意,在上述示例中,句子S1是用于將高級(jí)別問(wèn)題陳述Q3置于上下文中的段落S1-S3的上下文部分,得到Q3是由相對(duì)簡(jiǎn)單的文本組成的復(fù)雜問(wèn)題陳述。
關(guān)于段落S1-S3的高級(jí)別問(wèn)題(其針對(duì)問(wèn)題與其答案之間的關(guān)系,但是使用段落S1-S3中的句子的內(nèi)容來(lái)將問(wèn)題置于上下文中)的另一示例如下:
S3:Franklin thereby invented the first newspaper chain.
Q4:What precipitated this?
注意,在上述示例中,句子S3是用于將高級(jí)別問(wèn)題陳述Q4置于上下文中的段落S1-S3的上下文部分,得到Q4也是由相對(duì)簡(jiǎn)單的文本組成的復(fù)雜問(wèn)題。
2.2 過(guò)程框架
圖1以簡(jiǎn)化形式示出了用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的一個(gè)實(shí)現(xiàn),該文本的段落包括兩個(gè)或更多個(gè)句子的序列。如圖1中例示的,該過(guò)程開(kāi)始于接收段落(動(dòng)作100)。然后生成關(guān)于段落的問(wèn)題,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且問(wèn)題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問(wèn)題陳述(動(dòng)作102)。換言之,段落的上下文部分用作針對(duì)關(guān)于段落的問(wèn)題的上下文。然后輸出問(wèn)題(動(dòng)作104)。在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,段落還包括一個(gè)或多個(gè)主題、多個(gè)子句以及一個(gè)或多個(gè)名詞短語(yǔ)。段落也由單詞n元語(yǔ)法的序列組成。術(shù)語(yǔ)“單詞n元語(yǔ)法”在本文中用于指代給定文本的段落中的n個(gè)單詞的序列。
圖2以簡(jiǎn)化形式示出了用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的一個(gè)實(shí)現(xiàn)。如圖2中例示的,該過(guò)程開(kāi)始于標(biāo)識(shí)段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名,其中該排名得到針對(duì)段落的主題的經(jīng)排名列表(動(dòng)作200);該主題標(biāo)識(shí)和排名動(dòng)作在下文中更詳細(xì)地描述。然后標(biāo)識(shí)段落中的子句中的每個(gè)子句(動(dòng)作202)。一般來(lái)說(shuō),并且如在自然語(yǔ)言處理領(lǐng)域中所理解的,子句是完整想法的單元,并且可以作為語(yǔ)法句子獨(dú)立存在。換言之,子句包括動(dòng)詞和主語(yǔ),并且可以可選地包括其他論元(argument)和修飾語(yǔ),諸如賓語(yǔ)、補(bǔ)語(yǔ)和/或狀語(yǔ)。在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,通過(guò)在句法上分析段落來(lái)標(biāo)識(shí)段落中的子句中的每個(gè)子句,其中所標(biāo)識(shí)的子句中的每個(gè)子句可以可選地被標(biāo)記為主要子句或從屬子句,從屬子句取決于特定主要子句,并且可能對(duì)于段落的內(nèi)容不太重要。注意,問(wèn)題生成技術(shù)的替選實(shí)現(xiàn)也是可能的,其中可以使用各種其他方法來(lái)標(biāo)識(shí)段落中的子句中的每個(gè)子句。
再次參考圖2,在已經(jīng)標(biāo)識(shí)了文本的段落中的子句中的每個(gè)子句(動(dòng)作202)之后,確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系(動(dòng)作204);該話語(yǔ)關(guān)系確定動(dòng)作在下文中更詳細(xì)地描述。一般來(lái)說(shuō),并且如在自然語(yǔ)言處理領(lǐng)域中所理解的,話語(yǔ)關(guān)系(也被稱為修辭關(guān)系)是對(duì)兩個(gè)不同的文本的片段(例如,兩個(gè)不同的子句)如何在邏輯上彼此連接的描述。在確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系(動(dòng)作204)之后,然后使用預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合針對(duì)段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界(動(dòng)作206);該分割點(diǎn)邊界標(biāo)識(shí)動(dòng)作也在下文中更詳細(xì)地描述。然后將在所標(biāo)識(shí)的分割點(diǎn)邊界之前的文本指派為上述段落的上下文部分(動(dòng)作208)。然后將存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系轉(zhuǎn)換成問(wèn)題陳述(動(dòng)作210),其中在所標(biāo)識(shí)的分割點(diǎn)邊界之后的文本是問(wèn)題陳述的焦點(diǎn);該分割點(diǎn)邊界話語(yǔ)關(guān)系轉(zhuǎn)換動(dòng)作也在下文中更詳細(xì)地描述。下面還更詳細(xì)地描述用于訓(xùn)練分割點(diǎn)分類器的示例性方法。
標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名的上述動(dòng)作(圖2中的動(dòng)作200)可以以各種方式實(shí)現(xiàn)。在下文中更詳細(xì)地描述用于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且對(duì)所標(biāo)識(shí)的主題排名的示例性方法。注意,除了這些示例性方法之外,用于標(biāo)識(shí)段落中的主題中的每個(gè)主題,并且對(duì)所標(biāo)識(shí)的主題排名的各種其他方法也是可能的。
使用預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合針對(duì)文本的段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界的上述動(dòng)作(圖2中的動(dòng)作206)也可以以各種方式實(shí)現(xiàn)。用于執(zhí)行該分割點(diǎn)邊界標(biāo)識(shí)的示例性方法在下文中更詳細(xì)地描述。注意,除了這些示例性方法之外,用于執(zhí)行該分割點(diǎn)邊界標(biāo)識(shí)的各種其它方法也是可能的。
圖12以簡(jiǎn)化形式示出了用于使用預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合針對(duì)文本的段落的主題的經(jīng)排名列表以及段落中所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界的過(guò)程的一個(gè)實(shí)現(xiàn)。如圖12中例示的,該過(guò)程開(kāi)始于使用分割點(diǎn)分類器結(jié)合針對(duì)段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的候選分割點(diǎn)邊界的集合(動(dòng)作1200)。然后使用分割點(diǎn)分類器對(duì)候選分割點(diǎn)邊界中的每個(gè)候選分割點(diǎn)邊界評(píng)分(動(dòng)作1202)。然后選擇具有最高得分的候選分割點(diǎn)邊界(動(dòng)作1204)。然后將所選擇的候選分割點(diǎn)邊界指派為所標(biāo)識(shí)的分割點(diǎn)邊界(動(dòng)作1206)。
圖12中例示的過(guò)程的以下替選實(shí)現(xiàn)(未示出)也是可能的。不是如本文中所描述的選擇具有最高得分的候選分割點(diǎn)邊界(動(dòng)作1204),并且然后使用該所選擇的分割點(diǎn)邊界來(lái)生成關(guān)于文本的段落的問(wèn)題,而是可以選擇具有高于規(guī)定得分閾值的得分的任何候選分割點(diǎn)邊界。然后,可以使用這些所選擇的候選分割點(diǎn)邊界中的每個(gè)候選分割點(diǎn)邊界用于生成關(guān)于段落的不同問(wèn)題。
圖3以簡(jiǎn)化形式示出了用于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名的過(guò)程的一個(gè)實(shí)現(xiàn)。如圖3中例示的,該過(guò)程開(kāi)始于標(biāo)識(shí)段落中的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ)(動(dòng)作300)。應(yīng)當(dāng)理解,可以使用各種不同的方法來(lái)執(zhí)行該名詞短語(yǔ)標(biāo)識(shí)。作為示例而非限制,在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,使用常規(guī)的成分(constituency)解析器來(lái)標(biāo)識(shí)段落中的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ)。然后計(jì)算段落中的回指和所標(biāo)識(shí)的名詞短語(yǔ)的共指(動(dòng)作302)。該共指計(jì)算可以使用各種不同的方法來(lái)執(zhí)行。作為示例而非限制,在問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,使用用于解析代詞引用的傳統(tǒng)的Hobbs方法來(lái)計(jì)算段落中的回指和所標(biāo)識(shí)的名詞短語(yǔ)的共指。對(duì)上述段落S1-S3執(zhí)行動(dòng)作300和302的示例性結(jié)果如下所示,其中所標(biāo)識(shí)的主題被加下劃線:
S1:Franklin saw the printing press as a device to instruct colonialAmericans in moral virtue.
S2:He(=Franklin)tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
通過(guò)經(jīng)由它們的中心名詞(通常是每個(gè)名詞短語(yǔ)的最后一個(gè)單詞)對(duì)上述標(biāo)識(shí)的主題分組,顯而易見(jiàn)的是,在段落S1-S3中,主題“Franklin”出現(xiàn)三次,主題“chain”出現(xiàn)兩次,并且所有其他標(biāo)識(shí)的主題僅出現(xiàn)一次。這反映了我們作為人類讀者的直覺(jué)——段落S1-S3的主旨是“Franklin”與“(newspaper)chain”之間的聯(lián)系。
再次參考圖3,在已經(jīng)標(biāo)識(shí)了文本的段落中的主題中的每個(gè)主題之后(動(dòng)作300和302),然后如下對(duì)所標(biāo)識(shí)的主題排名。針對(duì)所標(biāo)識(shí)的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ),確定所標(biāo)識(shí)的名詞短語(yǔ)在所標(biāo)識(shí)的名詞短語(yǔ)出現(xiàn)在其中的段落的一個(gè)或多個(gè)句法單元中的句法角色(例如,所標(biāo)識(shí)的名詞短語(yǔ)所扮演的句法角色)(動(dòng)作304)。然后確定所標(biāo)識(shí)的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ)和指代該名詞短語(yǔ)的回指在該段落中的出現(xiàn)頻率(動(dòng)作306)。然后使用所標(biāo)識(shí)的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ)的句法角色以及所標(biāo)識(shí)的名詞短語(yǔ)中的每個(gè)名詞短語(yǔ)和指代該名詞短語(yǔ)的回指的出現(xiàn)頻率對(duì)所標(biāo)識(shí)的名詞短語(yǔ)排名(動(dòng)作308)。
再次參考圖3,應(yīng)當(dāng)理解,剛才描述的用于對(duì)所標(biāo)識(shí)的主題排名的過(guò)程(動(dòng)作304、306和308)使用來(lái)自“中心理論(Centering Theory)”的領(lǐng)域的某些見(jiàn)解。更具體地,中心理論認(rèn)為,與和謂語(yǔ)/動(dòng)詞不直接相關(guān)的主題相比,文本的段落中作為段落中的動(dòng)詞(或者主動(dòng)詞或者從屬動(dòng)詞)的論元的主題通常對(duì)于段落的意義更重要。因此,在段落S1-S3中,“Franklin”有三次作為主語(yǔ),“printing press”有一次作為賓語(yǔ),“newspaper chain”有一次作為賓語(yǔ),“American moral life”有一次作為賓語(yǔ),并且“colonial Americans”有一次是從屬子句中的動(dòng)詞的賓語(yǔ)。通過(guò)區(qū)分在論元角色中出現(xiàn)的主題與在論元角色中沒(méi)有出現(xiàn)的主題,動(dòng)作304、306和308的主題排名過(guò)程能夠?qū)Ψ駝t在段落中出現(xiàn)相等次數(shù)的所標(biāo)識(shí)的主題排名。動(dòng)作304、306和308的主題排名過(guò)程因此將“printing press”和“American moral life”排在“partnerships”和“New England”之上。動(dòng)作304、306和308的主題排名過(guò)程將基于具有較高凸顯性的主題生成更好的問(wèn)題這一假定,根據(jù)所標(biāo)識(shí)的主題在段落中的凸顯性來(lái)對(duì)所標(biāo)識(shí)的主題排名。段落S1-S3中處于主語(yǔ)或賓語(yǔ)位置的所標(biāo)識(shí)的主題在下面被粗體顯示:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He(=Franklin)tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
圖4以簡(jiǎn)化形式示出了用于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名的過(guò)程的另一實(shí)現(xiàn)。如圖4中例示的,該過(guò)程開(kāi)始于標(biāo)識(shí)文本的段落中的單詞n元語(yǔ)法中的每個(gè)單詞n元語(yǔ)法(動(dòng)作400)。然后確定所標(biāo)識(shí)的單詞n元語(yǔ)法中的每個(gè)單詞n元語(yǔ)法的出現(xiàn)頻率(動(dòng)作402)。然后,對(duì)于所標(biāo)識(shí)的單詞n元語(yǔ)法中的每個(gè)單詞n元語(yǔ)法,調(diào)節(jié)所標(biāo)識(shí)的單詞n元語(yǔ)法的出現(xiàn)頻率以考慮其長(zhǎng)度(動(dòng)作404)。然后根據(jù)所標(biāo)識(shí)的單詞n元語(yǔ)法的經(jīng)調(diào)節(jié)的出現(xiàn)頻率,對(duì)所標(biāo)識(shí)的單詞n元語(yǔ)法排名(動(dòng)作406)。
可以用各種方式實(shí)現(xiàn)確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的上述動(dòng)作(圖2中的動(dòng)作204)。下文中更詳細(xì)地描述用于確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的示例性方法。注意,除了該示例性方法之外,用于確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的各種其他方法也是可能的。
圖5以簡(jiǎn)化形式示出了用于確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的過(guò)程的示例性實(shí)現(xiàn)。如圖5中例示的,該過(guò)程涉及使用預(yù)先學(xué)習(xí)的話語(yǔ)關(guān)系預(yù)測(cè)模型,來(lái)標(biāo)識(shí)文本的段落中彼此相鄰的每對(duì)所標(biāo)識(shí)的子句之間的最可能的話語(yǔ)關(guān)系(動(dòng)作500)。在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,該預(yù)測(cè)模型包括如下操作的預(yù)先配置的(例如,預(yù)先學(xué)習(xí)的)關(guān)系模板(例如,關(guān)系查找表)和預(yù)先訓(xùn)練的關(guān)系類型分類器。每當(dāng)段落中彼此相鄰的一對(duì)所標(biāo)識(shí)的子句被明確地連接時(shí),使用關(guān)系模板來(lái)標(biāo)識(shí)該對(duì)之間的話語(yǔ)關(guān)系(動(dòng)作502)。每當(dāng)段落中彼此相鄰的一對(duì)所標(biāo)識(shí)的子句沒(méi)有被明確地連接時(shí),使用關(guān)系類型分類器來(lái)標(biāo)識(shí)該對(duì)之間的話語(yǔ)關(guān)系(動(dòng)作504)。
對(duì)段落S1-S3執(zhí)行剛才描述的用于確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系的過(guò)程的示例性結(jié)果如下所示,其中在段落S1-S3中彼此相鄰的每對(duì)子句之間標(biāo)識(shí)的話語(yǔ)關(guān)系被大寫(xiě):
S1:Franklin saw the printing press as a device PURPOSE to instruct colonial Americans in moral virtue.CONSEQUENCE
S2:He tried to influence American moral life MANNER through construction of a printing network based on a chain of partnerships from the Carolinas to New England.RESULT
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,相鄰的句子S2和S3通過(guò)單詞“thereby”被明確地連接,“thereby”表示由關(guān)系模板標(biāo)識(shí)的RESULT話語(yǔ)關(guān)系。相鄰的句子S1和S2沒(méi)有被明確地連接,因此關(guān)系類型分類器用于標(biāo)識(shí)CONSEQUENCE話語(yǔ)關(guān)系。
在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,從話語(yǔ)關(guān)系的固定集合和大量文本中學(xué)習(xí)話語(yǔ)關(guān)系預(yù)測(cè)模型,該大量文本已經(jīng)用來(lái)自該固定集合(例如,賓州話語(yǔ)樹(shù)庫(kù)(Penn Discourse Treebank))的話語(yǔ)關(guān)系被注釋。話語(yǔ)關(guān)系的固定集合包括規(guī)定數(shù)目的不同話語(yǔ)關(guān)系,并且除了其他以外,包括諸如原因、結(jié)果、規(guī)范、后果、概括、時(shí)間之前、時(shí)間之后、目的、方式和條件等話語(yǔ)關(guān)系。應(yīng)當(dāng)理解,該規(guī)定數(shù)目可以從相對(duì)小的數(shù)目(例如25)到相對(duì)大的數(shù)目(例如,超過(guò)100)。更具體地,使用該被注釋的大量文本來(lái)配置關(guān)系模板。也使用該被注釋的大量文本來(lái)訓(xùn)練關(guān)系類型分類器。關(guān)系類型分類器的模型由各種特征組成,諸如句子的句法結(jié)構(gòu)、句子連接詞、時(shí)態(tài)、句子順序、詞性、詞匯表示(例如,詞簇)和其它相關(guān)特征。
在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,用下面的方式來(lái)訓(xùn)練上述預(yù)先訓(xùn)練的分割點(diǎn)分類器。給定包括不同文本的段落的訓(xùn)練語(yǔ)料庫(kù),如上所述生成針對(duì)訓(xùn)練語(yǔ)料庫(kù)中的段落中的每個(gè)段落的主題的經(jīng)排名列表;也如上所述確定訓(xùn)練語(yǔ)料庫(kù)中的段落中的每個(gè)段落中的話語(yǔ)關(guān)系。然后,要求一組個(gè)人(可以被認(rèn)為是判斷者)手動(dòng)檢查訓(xùn)練語(yǔ)料庫(kù)中的段落中的每個(gè)段落,并且使用針對(duì)段落的主題的經(jīng)排名列表以及被確定為在段落中的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界,其中在所標(biāo)識(shí)的分割點(diǎn)邊界之前的文本是所提出的問(wèn)題上下文,并且在所標(biāo)識(shí)的分割點(diǎn)邊界之后的文本是與所提出的問(wèn)題上下文相關(guān)聯(lián)的問(wèn)題焦點(diǎn)。然后注釋訓(xùn)練語(yǔ)料庫(kù)以標(biāo)識(shí)由該組個(gè)人標(biāo)識(shí)的分割點(diǎn)邊界中的每個(gè)分割點(diǎn)邊界。然后使用該注釋的訓(xùn)練語(yǔ)料庫(kù)來(lái)訓(xùn)練分割點(diǎn)分類器。分割點(diǎn)分類器的模型由廣泛的特征組成,除了其他以外,包括但不限于與關(guān)系類型分類器相關(guān)聯(lián)的上述特征、以及文本的段落的各種上下文特征,諸如高排名主題在所提出的問(wèn)題上下文中的第一次出現(xiàn)、高排名主題在與所提出的問(wèn)題上下文相關(guān)聯(lián)的問(wèn)題焦點(diǎn)中的第一次出現(xiàn)、高排名主題在所提出的問(wèn)題上下文中的存在、高排名主題在與所提出的問(wèn)題上下文相關(guān)聯(lián)的問(wèn)題焦點(diǎn)中的存在、給定文本的段落中的句子的順序、段落中的句子中的每個(gè)句子的長(zhǎng)度、所提出的問(wèn)題上下文的詞性、以及與所提出的問(wèn)題上下文相關(guān)聯(lián)的問(wèn)題焦點(diǎn)的詞性。
圖6以簡(jiǎn)化形式示出了用于將存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系轉(zhuǎn)換成與文本的段落的上下文部分上下文相關(guān)的上述問(wèn)題陳述的過(guò)程的示例性實(shí)現(xiàn)。如圖6中例示的,該過(guò)程開(kāi)始于使用所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)計(jì)算存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系(動(dòng)作600)。然后選擇與所計(jì)算的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片(動(dòng)作602)。從本文中所提供的各種問(wèn)題生成技術(shù)實(shí)現(xiàn)的描述將理解的,給定的問(wèn)題碎片可以是與給定的話語(yǔ)關(guān)系相對(duì)應(yīng)的單個(gè)單詞、或者與話語(yǔ)關(guān)系相對(duì)應(yīng)的兩個(gè)或更多個(gè)單詞的短語(yǔ)。除了其他以外,可以選擇的示例性問(wèn)題碎片包括“為什么?”、“如何?”、“在哪里?”、“接下來(lái)是什么?”、“這之后接下來(lái)是什么?”、“結(jié)果是什么?”、“這樣的結(jié)果是什么?”。因此,問(wèn)題碎片可以被認(rèn)為是與給定的話語(yǔ)關(guān)系相對(duì)應(yīng)的短的問(wèn)題的規(guī)定的規(guī)范形式。
再次參考圖6,在已經(jīng)選擇了與存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片(動(dòng)作602)之后,將所選擇的問(wèn)題碎片隨后指派為問(wèn)題陳述(動(dòng)作604)。然后,使用在所標(biāo)識(shí)的分割點(diǎn)邊界之后的文本來(lái)建立問(wèn)題的答案(如本文中所描述的其包括文本的段落的上下文部分和問(wèn)題陳述)(動(dòng)作606)。然后可以可選地通過(guò)從問(wèn)題的答案中省略(例如,從答案范圍中移除)不依賴于存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來(lái)提煉問(wèn)題的答案(動(dòng)作608),以得到僅包括依賴于存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系,并且包括段落的上下文部分中的主題中的一個(gè)或多個(gè)主題的文本片段的經(jīng)提煉的答案。不依賴于存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系,并且不包括段落的上下文部分中的任何主題的這樣的文本片段的一個(gè)示例是當(dāng)文本片段出現(xiàn)在所標(biāo)識(shí)的分割點(diǎn)邊界之后時(shí),其與在所標(biāo)識(shí)的分割點(diǎn)邊界之前的文本無(wú)關(guān)的新想法相關(guān)聯(lián)。
可以使用各種不同的方法來(lái)執(zhí)行剛才描述的問(wèn)題碎片選擇。作為示例而非限制,在本文中所描述的問(wèn)題生成技術(shù)的一個(gè)實(shí)現(xiàn)中,可以使用預(yù)先配置的(例如,預(yù)先學(xué)習(xí)的)問(wèn)題模板(例如,問(wèn)題查找表)來(lái)選擇與存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片,預(yù)先配置的問(wèn)題模板將每個(gè)可能的話語(yǔ)關(guān)系映射到與其對(duì)應(yīng)的特定問(wèn)題碎片。換言之,該問(wèn)題模板指定與每個(gè)可能的話語(yǔ)關(guān)系相對(duì)應(yīng)的所規(guī)定的公式化問(wèn)題碎片。在問(wèn)題生成技術(shù)的另一實(shí)現(xiàn)中,可以使用考慮文本的段落的上下文特征的預(yù)先訓(xùn)練的問(wèn)題類型分類器,來(lái)選擇與存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片。在多個(gè)不同的問(wèn)題碎片可以對(duì)應(yīng)于給定的話語(yǔ)關(guān)系的情況下,問(wèn)題類型分類器是有用的。更具體地,在這種情況下,問(wèn)題類型分類器可以使用段落的上下文特征,來(lái)選擇這些不同問(wèn)題碎片中最佳地表示存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系的一個(gè)問(wèn)題碎片。
在本文中所描述的問(wèn)題生成技術(shù)的另一實(shí)現(xiàn)中,不是如剛才描述的使用存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系來(lái)選擇問(wèn)題碎片,問(wèn)題類型分類器可以分析文本的段落的上下文特征,并且從該分析來(lái)預(yù)測(cè)與在所標(biāo)識(shí)的分割點(diǎn)邊界之前和之后的文本最佳匹配的問(wèn)題碎片。
對(duì)段落S1-S3執(zhí)行圖6所示的動(dòng)作的示例性結(jié)果如下示出:
高級(jí)別問(wèn)題1:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
Q5:What followed from this?
高級(jí)別問(wèn)題1的答案:
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定段落S1-S3內(nèi)的分割點(diǎn)邊界被標(biāo)識(shí)為在句子S1的結(jié)尾與句子S2的開(kāi)始之間。因此,所生成的被置于上下文中的問(wèn)題陳述Q5與存在于該分割點(diǎn)邊界處的上述CONSEQUENCE話語(yǔ)關(guān)系相對(duì)應(yīng)。
2.3 僅使用子句之間的話語(yǔ)關(guān)系的替選實(shí)現(xiàn)
圖7以簡(jiǎn)化形式示出了用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)。如圖7中例示的,該過(guò)程開(kāi)始于標(biāo)識(shí)段落中的子句中的每個(gè)子句(動(dòng)作700),如上所述。然后確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系(動(dòng)作702),如上所述。然后,使用上述預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的分割點(diǎn)邊界(動(dòng)作704)。然后將在所標(biāo)識(shí)的分割點(diǎn)邊界之前的文本指派為段落的上下文部分(動(dòng)作706)。然后將存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系轉(zhuǎn)換成與段落的上下文部分上下文相關(guān)的上述問(wèn)題陳述(動(dòng)作708),如上所述,其中在所標(biāo)識(shí)的分割點(diǎn)邊界之后的文本是問(wèn)題陳述的焦點(diǎn)。
應(yīng)當(dāng)理解,對(duì)段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程還可以產(chǎn)生由句子S1和問(wèn)題陳述Q5組成的上述高級(jí)別問(wèn)題1。
2.4 使用主題和顯式話語(yǔ)標(biāo)記的替選實(shí)現(xiàn)
圖8以簡(jiǎn)化形式示出了用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn)。如從以下更詳細(xì)的描述將理解的,每當(dāng)段落包括一個(gè)或多個(gè)顯式話語(yǔ)標(biāo)記時(shí),可以使用該特定實(shí)現(xiàn)。一般來(lái)說(shuō)并且如在自然語(yǔ)言處理領(lǐng)域中所理解的,話語(yǔ)標(biāo)記(有時(shí)也被稱為語(yǔ)用標(biāo)記、或鏈接詞/短語(yǔ)、或句子連接符)是單詞或單詞短語(yǔ),其在大多數(shù)情況下句法上獨(dú)立,使得從給定的句子中移除給定的話語(yǔ)標(biāo)記仍然使得句子結(jié)構(gòu)完整。話語(yǔ)標(biāo)記通常用于定向或重定向段落中的“會(huì)話”流,而不對(duì)該段落增加任何顯著的可解釋的含義。換言之,話語(yǔ)標(biāo)記具有某種“空的含義”,并且經(jīng)常被用作段落中的填充詞或虛詞。因此,話語(yǔ)標(biāo)記通常來(lái)自單詞類,諸如副詞或介詞短語(yǔ)。
圖8中例示的過(guò)程開(kāi)始于標(biāo)識(shí)文本的段落中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落中的重要性對(duì)所標(biāo)識(shí)的主題排名,其中該排名得到針對(duì)段落的主題的經(jīng)排名列表(動(dòng)作800);該主題標(biāo)識(shí)和排名動(dòng)作如上所述地實(shí)現(xiàn)。然后標(biāo)識(shí)段落中的話語(yǔ)標(biāo)記中的每個(gè)話語(yǔ)標(biāo)記(動(dòng)作802)。在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,使用規(guī)定的話語(yǔ)標(biāo)記列表來(lái)標(biāo)識(shí)段落中的話語(yǔ)標(biāo)記中的每個(gè)話語(yǔ)標(biāo)記,規(guī)定的話語(yǔ)標(biāo)記列表包括已知用作話語(yǔ)標(biāo)記的有限集合的單詞和單詞短語(yǔ)。所標(biāo)識(shí)的話語(yǔ)標(biāo)記中的每個(gè)話語(yǔ)標(biāo)記可以可選地被標(biāo)記為出現(xiàn)在主要子句或者從屬子句中,從屬子句依賴于特定主要子句并且對(duì)于段落的內(nèi)容可能不太重要。然后選擇結(jié)合主題的經(jīng)排名列表中具有最高排名的主題出現(xiàn)的所標(biāo)識(shí)的話語(yǔ)標(biāo)記(動(dòng)作804)。然后將在所選擇的話語(yǔ)標(biāo)記之前的文本指派為段落的上下文部分(動(dòng)作806)。然后將存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系轉(zhuǎn)換成與段落的上下文部分上下文相關(guān)的上述問(wèn)題陳述,其中在所選擇的話語(yǔ)標(biāo)記之后的文本是問(wèn)題陳述的焦點(diǎn)(動(dòng)作808)。
圖9以簡(jiǎn)化形式示出了用于將存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系轉(zhuǎn)換成問(wèn)題陳述的過(guò)程的示例性實(shí)現(xiàn)。如圖9中例示的,該過(guò)程開(kāi)始于選擇與存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片(動(dòng)作900)。然后將所選擇的問(wèn)題碎片指派為問(wèn)題陳述(動(dòng)作902)。然后,使用在所選擇的話語(yǔ)標(biāo)記之后的文本來(lái)建立問(wèn)題的答案(如本文中所描述的其包括文本的段落的上下文部分和問(wèn)題陳述)(動(dòng)作904)。然后可以可選地通過(guò)從問(wèn)題的答案中省略不依賴于存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來(lái)提煉問(wèn)題的答案(動(dòng)作906),以得到僅包括依賴于存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系,并且包括段落的上下文部分中的主題中的一個(gè)或多個(gè)主題的文本片段的經(jīng)提煉的答案。
可以使用各種不同的方法來(lái)執(zhí)行剛才描述的問(wèn)題碎片選擇。作為示例而非限制,在本文中所描述的問(wèn)題生成技術(shù)的一個(gè)實(shí)現(xiàn)中,可以使用上述預(yù)先配置的問(wèn)題模板來(lái)選擇與存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片。在問(wèn)題生成技術(shù)的另一實(shí)現(xiàn)中,可以使用上述預(yù)先訓(xùn)練的問(wèn)題類型分類器來(lái)選擇與存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片。
對(duì)段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的示例性結(jié)果如下所示:
高級(jí)別問(wèn)題2:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life
Q6:How did he do this?
高級(jí)別問(wèn)題2的答案:
S2:through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定“Franklin”是段落S1-S3中排名最高的(例如,最重要的)主題。還假定“through construction”是段落S1-S3中與“Franklin”結(jié)合出現(xiàn)的顯式話語(yǔ)標(biāo)記。
2.5 僅使用顯式話語(yǔ)標(biāo)記的替選實(shí)現(xiàn)
圖10以簡(jiǎn)化形式示出了用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的另一實(shí)現(xiàn),該文本的段落包括兩個(gè)或更多個(gè)句子的序列,其中段落還包括一個(gè)或多個(gè)顯式話語(yǔ)標(biāo)記。如從以下更詳細(xì)的描述可以理解的,該特定實(shí)現(xiàn)不依賴于標(biāo)識(shí)段落中的主題,并且也不依賴于標(biāo)識(shí)段落中的子句。相反,該特定實(shí)現(xiàn)僅僅從存在于段落中的顯式話語(yǔ)標(biāo)記來(lái)生成關(guān)于段落的問(wèn)題。
圖10中例示的過(guò)程開(kāi)始于接收文本的段落(動(dòng)作1000)。然后標(biāo)識(shí)段落中的第一話語(yǔ)標(biāo)記(動(dòng)作1002)。在本文中所描述的問(wèn)題生成技術(shù)的示例性實(shí)現(xiàn)中,使用上述規(guī)定的話語(yǔ)標(biāo)記列表來(lái)標(biāo)識(shí)段落中的第一話語(yǔ)標(biāo)記。然后將在所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記之前的文本指派為段落的上下文部分(動(dòng)作1004)。然后生成關(guān)于段落的問(wèn)題,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,問(wèn)題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問(wèn)題陳述,并且在所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記之后的文本是問(wèn)題陳述的焦點(diǎn)(動(dòng)作1006)。然后輸出問(wèn)題(動(dòng)作1008)。
圖11以簡(jiǎn)化形式示出了剛才描述的用于生成關(guān)于文本的段落的問(wèn)題的動(dòng)作(圖10中的動(dòng)作1006)的過(guò)程的示例性實(shí)現(xiàn)。如圖11中例示的,該過(guò)程開(kāi)始于選擇與存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片(動(dòng)作1100)。然后將所選擇的問(wèn)題碎片指派為與段落的上下文部分上下文相關(guān)的上述問(wèn)題陳述(動(dòng)作1102)。然后,使用在所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記之后的文本來(lái)建立問(wèn)題的答案(如本文中所描述的其包括段落的上下文部分和問(wèn)題陳述)(動(dòng)作1104)。然后可以可選地通過(guò)從問(wèn)題的答案中省略不依賴于存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系,并且不包括段落的上下文部分中的任何主題的任何文本片段,來(lái)提煉問(wèn)題的答案(動(dòng)作1106),以得到僅包括依賴于存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系,并且包括段落的上下文部分中的主題中的一個(gè)或多個(gè)主題的文本片段的經(jīng)提煉的答案。
可以使用各種不同的方法來(lái)執(zhí)行剛才描述的問(wèn)題碎片選擇。作為示例而非限制,在本文中所描述的問(wèn)題生成技術(shù)的一個(gè)實(shí)現(xiàn)中,可以使用上述預(yù)先配置的問(wèn)題模板來(lái)選擇與存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片。在問(wèn)題生成技術(shù)的另一實(shí)現(xiàn)中,可以使用上述預(yù)先訓(xùn)練的問(wèn)題類型分類器來(lái)選擇與存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系相對(duì)應(yīng)的問(wèn)題碎片。
對(duì)段落S1-S3執(zhí)行剛才描述的用于生成關(guān)于文本的段落的問(wèn)題的過(guò)程的示例性結(jié)果如下所示:
高級(jí)別問(wèn)題:
S1:Franklin saw the printing press as a device to instruct colonial Americans in moral virtue.
S2:He tried to influence American moral life through construction of a printing network based on a chain of partnerships from the Carolinas to New England.
Q7:What did this result in?
高級(jí)別問(wèn)題的答案:
S3:Franklin thereby invented the first newspaper chain.
在上述結(jié)果中,假定“thereby”是段落S1-S3中的第一話語(yǔ)標(biāo)記。因此,所生成的被置于上下文中的問(wèn)題陳述Q7與存在于話語(yǔ)標(biāo)記“thereby”處的上述RESULT話語(yǔ)關(guān)系相對(duì)應(yīng)。
2.6 用戶界面
圖13以簡(jiǎn)化形式示出了用于向用戶提供關(guān)于他們正在閱讀的文本的段落的問(wèn)題的過(guò)程的示例性實(shí)現(xiàn),其中段落包括兩個(gè)或更多個(gè)句子的序列。如圖13中例示的,該過(guò)程開(kāi)始于接收關(guān)于段落的問(wèn)題,其中問(wèn)題涵蓋段落中的多個(gè)句子的內(nèi)容,并且問(wèn)題包括段落的上下文部分以及與段落的上下文部分上下文相關(guān)的問(wèn)題陳述(動(dòng)作1300)。然后將問(wèn)題呈現(xiàn)給用戶(動(dòng)作1302),其中該問(wèn)題呈現(xiàn)包括顯示上述段落的上下文部分(動(dòng)作1304)并且顯示問(wèn)題陳述(動(dòng)作1306)。然后接收問(wèn)題的答案,其中該答案駐留在位于段落的上下文部分外部的段落的部分中的單個(gè)句子內(nèi),或者駐留在位于段落的上下文部分外部的段落的部分中的多個(gè)句子內(nèi)(動(dòng)作1308)。每當(dāng)用戶不正確地回答問(wèn)題(動(dòng)作1310,否)時(shí),向用戶呈現(xiàn)問(wèn)題的答案(動(dòng)作1312)。該答案呈現(xiàn)(動(dòng)作1312)包括顯示位于段落的上下文部分外部的段落的部分(動(dòng)作1314)。答案呈現(xiàn)(動(dòng)作1312)還可以可選地包括突出顯示段落的所顯示的上下文部分的部位以及位于段落的上下文部分外部的段落的所顯示的部分的、與問(wèn)題的答案相關(guān)的部位(動(dòng)作1316)。
再次參考圖13,應(yīng)當(dāng)注意,剛才描述的答案呈現(xiàn)動(dòng)作1312、1314和1316的優(yōu)點(diǎn)在于,其實(shí)現(xiàn)了用戶能夠在其中檢查他們的工作的自分級(jí)上下文。還應(yīng)當(dāng)注意,動(dòng)作1314和1316的組合的優(yōu)點(diǎn)在于,其允許用戶結(jié)合查看問(wèn)題與其上下文相關(guān)的段落的部分(例如,段落的問(wèn)題區(qū)域)來(lái)查看在其中尋到問(wèn)題的答案的段落的部分(例如,段落的答案區(qū)域)。
2.7 架構(gòu)框架
圖14以簡(jiǎn)化形式示出了用于實(shí)現(xiàn)本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)的架構(gòu)框架的示例性實(shí)現(xiàn)。如圖14中例示的,架構(gòu)框架1400包括在用于生成關(guān)于文本的段落1404的問(wèn)題的上述過(guò)程中采用的問(wèn)題生成模塊1406。更具體地,問(wèn)題生成模塊1406接收段落1404并且生成關(guān)于段落的問(wèn)題1422,問(wèn)題1422涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。問(wèn)題生成模塊1406包括主題標(biāo)識(shí)和排名模塊1408、子句標(biāo)識(shí)模塊1410、話語(yǔ)標(biāo)記標(biāo)識(shí)模塊1412、話語(yǔ)關(guān)系確定模塊1414、分割點(diǎn)邊界標(biāo)識(shí)模塊1416、問(wèn)題陳述創(chuàng)建模塊1418和答案確定模塊1420。
再次參考圖14,主題標(biāo)識(shí)和排名模塊1408標(biāo)識(shí)文本的段落1404中的主題中的每個(gè)主題,并且根據(jù)所標(biāo)識(shí)的主題在段落1404中的重要性對(duì)所標(biāo)識(shí)的主題排名,其中該排名得到針對(duì)段落的主題的經(jīng)排名列表。子句標(biāo)識(shí)模塊1410標(biāo)識(shí)段落1404中的子句中的每個(gè)子句。話語(yǔ)關(guān)系確定模塊1414使用上述預(yù)先學(xué)習(xí)的話語(yǔ)關(guān)系預(yù)測(cè)模型1432來(lái)確定所標(biāo)識(shí)的子句之間的話語(yǔ)關(guān)系,其中話語(yǔ)關(guān)系預(yù)測(cè)模型1432包括預(yù)先配置的關(guān)系模板1434和預(yù)先訓(xùn)練的關(guān)系類型分類器1436,如上所述。分割點(diǎn)邊界標(biāo)識(shí)模塊1416使用上述預(yù)先訓(xùn)練的分割點(diǎn)分類器1426結(jié)合主題的經(jīng)排名列表和所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落1404內(nèi)的分割點(diǎn)邊界。問(wèn)題陳述創(chuàng)建模塊1418使用上述預(yù)先配置的問(wèn)題模板1428或上述預(yù)先訓(xùn)練的問(wèn)題類型分類器1430,來(lái)將存在于所標(biāo)識(shí)的分割點(diǎn)邊界處的話語(yǔ)關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問(wèn)題陳述。答案確定模塊1420使用在所標(biāo)識(shí)的分割點(diǎn)邊界之后的文本來(lái)建立問(wèn)題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,在文本的段落1404包括一個(gè)或多個(gè)顯式話語(yǔ)標(biāo)記的情況下,話語(yǔ)標(biāo)記標(biāo)識(shí)模塊1412可以標(biāo)識(shí)段落1404中的話語(yǔ)標(biāo)記中的每個(gè)話語(yǔ)標(biāo)記,并且然后選擇所標(biāo)識(shí)的話語(yǔ)標(biāo)記中結(jié)合段落中排名最高的主題出現(xiàn)的一個(gè)話語(yǔ)標(biāo)記。問(wèn)題陳述創(chuàng)建模塊1418然后可以使用預(yù)先配置的問(wèn)題模板1428或預(yù)先訓(xùn)練的問(wèn)題類型分類器1430將存在于所選擇的話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問(wèn)題陳述。答案確定模塊1420然后可以使用在所選擇的話語(yǔ)標(biāo)記之后的文本來(lái)建立問(wèn)題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,在文本的段落1404包括一個(gè)或多個(gè)顯式話語(yǔ)標(biāo)記的情況下,話語(yǔ)標(biāo)記標(biāo)識(shí)模塊1412還可以標(biāo)識(shí)段落1404中的第一話語(yǔ)標(biāo)記。問(wèn)題陳述創(chuàng)建模塊1418然后可以使用預(yù)先配置的問(wèn)題模板1428或預(yù)先訓(xùn)練的問(wèn)題類型分類器1430,來(lái)將存在于所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記處的話語(yǔ)關(guān)系轉(zhuǎn)換成與段落1404的上下文部分上下文相關(guān)的問(wèn)題陳述。然后,答案確定模塊1420可以使用在所標(biāo)識(shí)的第一話語(yǔ)標(biāo)記之后的文本來(lái)建立問(wèn)題的答案1424,并且如上所述可選地提煉該答案。
再次參考圖14,架構(gòu)框架1400還包括問(wèn)題呈現(xiàn)模塊1438,其在上述過(guò)程中被采用用于向用戶1402提供關(guān)于他們正在閱讀的文本的段落1404的問(wèn)題。更具體地,問(wèn)題呈現(xiàn)模塊1438接收關(guān)于段落1404的問(wèn)題1422,問(wèn)題1422涵蓋段落中的多個(gè)句子的內(nèi)容,并且包括段落的上下文部分以及與該上下文部分上下文相關(guān)的問(wèn)題陳述。問(wèn)題呈現(xiàn)模塊1438還接收問(wèn)題的答案1424。然后,問(wèn)題呈現(xiàn)模塊1438向用戶1402呈現(xiàn)關(guān)于段落1404的問(wèn)題1422,如上所述。每當(dāng)用戶1402不正確地回答問(wèn)題1422時(shí),問(wèn)題呈現(xiàn)模塊1438然后向用戶呈現(xiàn)問(wèn)題的答案1424,如上所述。
3.0 另外的實(shí)現(xiàn)
雖然已經(jīng)通過(guò)具體參考問(wèn)題生成技術(shù)的實(shí)現(xiàn)描述了問(wèn)題生成技術(shù),但是應(yīng)當(dāng)理解,在不脫離問(wèn)題生成技術(shù)的真實(shí)精神和范圍的情況下,可以對(duì)其做出變化和修改。例如,本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)可以以問(wèn)題生成系統(tǒng)的形式實(shí)現(xiàn),該問(wèn)題生成系統(tǒng)可以由教師和其他類型的教育者使用,以從教科書(shū)或者用于教授給定課程的任何其他類型的教育性文本內(nèi)容,自動(dòng)地生成測(cè)試問(wèn)題的集合。另外,問(wèn)題生成技術(shù)的替選實(shí)現(xiàn)是可能的,其中正在閱讀給定文本的段落的用戶可以指定他們感興趣的特定類型的話語(yǔ)關(guān)系(例如,用戶可以指定他們想要僅被呈現(xiàn)CONSEQUENCE問(wèn)題,或僅被呈現(xiàn)RESULTS問(wèn)題),并且該指定的特定類型的話語(yǔ)關(guān)系可以用于過(guò)濾被呈現(xiàn)給用戶的關(guān)于段落的問(wèn)題。更具體地,在使用預(yù)先訓(xùn)練的分割點(diǎn)分類器結(jié)合針對(duì)段落的主題的經(jīng)排名列表以及段落中的所標(biāo)識(shí)的子句之間的所確定的話語(yǔ)關(guān)系,來(lái)標(biāo)識(shí)段落內(nèi)的候選分割點(diǎn)邊界的集合之后,分割點(diǎn)分類器可以過(guò)濾候選分割點(diǎn)邊界的集合,使得集合中沒(méi)有與用戶感興趣的特定類型的話語(yǔ)關(guān)系相對(duì)應(yīng)的任何候選分割點(diǎn)邊界從集合中被省略,得到候選分割點(diǎn)邊界的過(guò)濾后的集合,其僅包括與用戶感興趣的特定類型的話語(yǔ)關(guān)系相對(duì)應(yīng)的候選分割點(diǎn)邊界。
此外,應(yīng)當(dāng)理解,在給定的文本的段落中的給定的一對(duì)子句之間可以存在多于一個(gè)話語(yǔ)關(guān)系。例如,在一對(duì)子句之間可以存在多于一個(gè)顯式話語(yǔ)關(guān)系,或者在一對(duì)子句之間可以存在混合的顯式/隱式話語(yǔ)關(guān)系,或者在一對(duì)子句之間可以存在多于一個(gè)隱式話語(yǔ)關(guān)系。在給定的一對(duì)子句之間存在多個(gè)顯式話語(yǔ)關(guān)系的情況下,可以使用上述預(yù)先訓(xùn)練的關(guān)系類型分類器用于消除這些關(guān)系的歧義。
還應(yīng)當(dāng)注意,可以以期望的任何組合來(lái)使用任何或所有上述實(shí)現(xiàn)以形成另外的混合實(shí)現(xiàn)。盡管已經(jīng)以特定于結(jié)構(gòu)特征和/或方法動(dòng)作的語(yǔ)言描述了問(wèn)題生成技術(shù)實(shí)現(xiàn),但是應(yīng)當(dāng)理解,所附權(quán)利要求中定義的主題不一定限于上文中描述的具體特征或動(dòng)作。相反,上文中描述的具體特征和動(dòng)作被公開(kāi)作為實(shí)現(xiàn)權(quán)利要求的示例形式。
4.0 示例操作環(huán)境
本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)在多種類型的通用或?qū)S糜?jì)算系統(tǒng)環(huán)境或配置中操作。圖15示出了可以在其上實(shí)現(xiàn)本文中所描述的問(wèn)題生成技術(shù)的各種實(shí)現(xiàn)和元素的通用計(jì)算機(jī)系統(tǒng)的簡(jiǎn)化示例。注意,在圖15所示的簡(jiǎn)化的計(jì)算設(shè)備10中由折線(broken line)或虛線表示的任何框表示簡(jiǎn)化的計(jì)算設(shè)備的替選實(shí)現(xiàn)。如下所述,這些替選實(shí)現(xiàn)中的任一個(gè)或全部可以與貫穿本文檔描述的其它替選實(shí)現(xiàn)結(jié)合使用。簡(jiǎn)化的計(jì)算設(shè)備10通常在具有至少某種最小計(jì)算能力的設(shè)備中被找到,諸如個(gè)人計(jì)算機(jī)(PC)、服務(wù)器計(jì)算機(jī)、手持計(jì)算設(shè)備、膝上型或移動(dòng)計(jì)算機(jī)、諸如蜂窩電話和個(gè)人數(shù)字助理(PDA)的通信設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、機(jī)頂盒、可編程消費(fèi)電子產(chǎn)品、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、以及音頻或視頻媒體播放器。
為了允許設(shè)備實(shí)現(xiàn)本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn),設(shè)備應(yīng)當(dāng)具有足夠的計(jì)算能力和系統(tǒng)存儲(chǔ)器以實(shí)現(xiàn)基本的計(jì)算操作。具體地,圖15中所示的簡(jiǎn)化的計(jì)算設(shè)備10的計(jì)算能力一般由一個(gè)或多個(gè)處理單元12示出,并且還可以包括與系統(tǒng)存儲(chǔ)器16通信的一個(gè)或多個(gè)圖形處理單元(GPU)14。注意,簡(jiǎn)化的計(jì)算設(shè)備10的一個(gè)或多個(gè)處理單元12可以是專用微處理器(諸如數(shù)字信號(hào)處理器(DSP)、超長(zhǎng)指令字(VLIW)處理器、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)或其他微控制器),或者可以是具有一個(gè)或多個(gè)處理核心的傳統(tǒng)的中央處理單元(CPU)。
另外,圖15中所示的簡(jiǎn)化的計(jì)算設(shè)備10還可以包括其他部件,諸如通信接口18。簡(jiǎn)化的計(jì)算設(shè)備10還可以包括一個(gè)或多個(gè)傳統(tǒng)的計(jì)算機(jī)輸入設(shè)備20(例如,指點(diǎn)設(shè)備、鍵盤(pán)、音頻(例如,語(yǔ)音)輸入設(shè)備、視頻輸入設(shè)備、觸覺(jué)輸入設(shè)備、手勢(shì)識(shí)別設(shè)備、用于接收有線或無(wú)線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。簡(jiǎn)化的計(jì)算設(shè)備10還可以包括其它可選部件,諸如一個(gè)或多個(gè)傳統(tǒng)的計(jì)算機(jī)輸出設(shè)備22(例如,一個(gè)或多個(gè)顯示設(shè)備24、音頻輸出設(shè)備、視頻輸出設(shè)備、用于傳輸有線或無(wú)線數(shù)據(jù)傳輸?shù)脑O(shè)備等)。注意,用于通用計(jì)算機(jī)的典型的通信接口18、輸入設(shè)備20、輸出設(shè)備22和存儲(chǔ)設(shè)備26是本領(lǐng)域技術(shù)人員公知的,并且在此不再詳細(xì)描述。
圖15中所示的簡(jiǎn)化的計(jì)算設(shè)備10還可以包括各種計(jì)算機(jī)可讀介質(zhì)。計(jì)算機(jī)可讀介質(zhì)可以是可以由計(jì)算機(jī)10經(jīng)由存儲(chǔ)設(shè)備26訪問(wèn)的任何可用介質(zhì),并且可以包括易失性介質(zhì)和作為可移除存儲(chǔ)裝置28和/或不可移除存儲(chǔ)裝置30的非易失性介質(zhì),用于存儲(chǔ)信息,諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊或其它數(shù)據(jù)。計(jì)算機(jī)可讀介質(zhì)包括計(jì)算機(jī)存儲(chǔ)介質(zhì)和通信介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì)是指有形的計(jì)算機(jī)可讀或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備,諸如數(shù)字多功能盤(pán)(DVD)、光盤(pán)(CD)、軟盤(pán)、磁帶驅(qū)動(dòng)器、硬盤(pán)驅(qū)動(dòng)器、光驅(qū)動(dòng)器、固態(tài)存儲(chǔ)器設(shè)備、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、閃存或其它存儲(chǔ)器技術(shù)、磁帶盒、磁帶、磁盤(pán)存儲(chǔ)裝置或其它磁存儲(chǔ)設(shè)備。
諸如計(jì)算機(jī)可讀或計(jì)算機(jī)可執(zhí)行指令、數(shù)據(jù)結(jié)構(gòu)、程序模塊等信息的保留也可以通過(guò)使用各種上述通信介質(zhì)中的任一個(gè)(與計(jì)算機(jī)存儲(chǔ)介質(zhì)相反)編碼一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)或載波、或者其他傳輸機(jī)制或通信協(xié)議來(lái)實(shí)現(xiàn),并且可以包括任何有線或無(wú)線信息傳遞機(jī)制。注意,術(shù)語(yǔ)“調(diào)制的數(shù)據(jù)信號(hào)”或“載波”通常是指以使得在信號(hào)中編碼信息的方式設(shè)置或改變其特性中的一個(gè)或多個(gè)特性的信號(hào)。例如,通信介質(zhì)可以包括用于傳送和/或接收一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)或載波的有線介質(zhì)(諸如攜帶一個(gè)或多個(gè)調(diào)制的數(shù)據(jù)信號(hào)的有線網(wǎng)絡(luò)或直接有線連接)以及無(wú)線介質(zhì)(諸如聲學(xué)、射頻(RF)、紅外線、激光和其他無(wú)線介質(zhì))。
此外,實(shí)施本文中所描述的各種問(wèn)題生成技術(shù)實(shí)現(xiàn)中的一些或全部的軟件、程序和/或計(jì)算機(jī)程序產(chǎn)品或其部分可以從計(jì)算機(jī)可讀或機(jī)器可讀介質(zhì)或存儲(chǔ)設(shè)備以及以計(jì)算機(jī)可執(zhí)行指令或其他數(shù)據(jù)結(jié)構(gòu)形式的通信介質(zhì)的任何期望組合中存儲(chǔ)、接收、傳送或讀取。
最后,可以在由計(jì)算設(shè)備執(zhí)行的計(jì)算機(jī)可執(zhí)行指令(諸如程序模塊)的一般上下文中進(jìn)一步描述本文中所描述的問(wèn)題生成技術(shù)實(shí)現(xiàn)。通常,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、部件、數(shù)據(jù)結(jié)構(gòu)等。問(wèn)題生成技術(shù)實(shí)現(xiàn)也可以在分布式計(jì)算環(huán)境中實(shí)踐,其中任務(wù)由一個(gè)或多個(gè)遠(yuǎn)程處理設(shè)備執(zhí)行,或者在通過(guò)一個(gè)或多個(gè)通信網(wǎng)絡(luò)鏈接的一個(gè)或多個(gè)設(shè)備的云內(nèi)執(zhí)行。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括媒體存儲(chǔ)設(shè)備的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。另外,上述指令可以部分或全部實(shí)現(xiàn)為硬件邏輯電路,其可以包括或可以不包括處理器。