專利名稱:摘要評估裝置和方法及含摘要評估程序的可機讀記錄媒體的制作方法
技術領域:
本發(fā)明涉及利用計算機評估文章段的摘要的技術。更具體來說,本發(fā)明涉及利用有監(jiān)督的機器學習方法自動地進行文章段的摘要的評估處理的技術。
摘要處理主要可化分為兩種類型通過從目標文章段抽取重要句子進行概括;和通過以目標文章段的內(nèi)容為根據(jù)自由地生成句子進行概括。在通過抽取重要句子進行概括的處理中,按照規(guī)定的概括比率(rate)抽取目標文章段中出現(xiàn)的句子,以構(gòu)成摘要。在通過自由地生成句子進行概括的處理中,人根據(jù)目標文章段的內(nèi)容自由地生成句子。
作為評估通過抽取重要句子進行概括的一種方法,有可能通過利用應當從文章某段中抽取哪些句子的信息的自動處理進行評估。例如,將一個表示當?shù)竭_某個程度時該句子就應當被抽取作為摘要的重要度預先分配給文章段中的每個句子,然后通過把每個被抽取句子的重要度相加來評估該摘要。
另一方面,自動評估自由構(gòu)成的摘要是困難的。這是因為,可能應當獲得一個文章段的多個合適的摘要,因此為所有合適的摘要準備正確信息是非常困難的。
于是,在有關技術中,就根據(jù)個人的知識和經(jīng)驗手工地進行對自由構(gòu)成的摘要的評估。在下面引用的文獻1中所示的方法,就是在相關技術中存在的一種自動評估摘要的方法。在引用文獻1的處理方法中,利用再調(diào)用比(recall ratio)、相關比(relevance ratio)、基于計算機處理所抽取的句子與人事先選擇的重要句子之間的一致性的F值,進行摘要評估。
也可以通過利用字的頻率向量(frequency vector of words)確定自由生成的(freely made)摘要與人事先準備好的正確摘要之間的相似度(degree of similarity)而認識自由生成的摘要的評估。“引用文獻1Shu Nobata等,集成多個評估標準的重要句子抽取系統(tǒng),第七屆語言處理學會年會論文集,pp301-304,2001。
在引用文獻1中所示的評估自由制作的摘要的處理中,利用字頻率向量確定目標摘要與準備好的正確摘要之間的相似度。因此有這樣的趨勢,即如果表示摘要的內(nèi)容的關鍵字的分布類似于被認為是正確的摘要的關鍵字的分布,則摘要的評估值變高。就是說,如果某摘要包括某些在正確摘要中存在的字,該摘要將獲得一個確定的好評估,即使該摘要的形式作為一段文章來說是極其難讀的。因此,這種摘要獲得好摘要的評估是有問題的。
在相關技術中,專家評估手工構(gòu)成的摘要。然而毫無疑問,專家的評估取決于評估者的經(jīng)驗和技巧。因此,有的時候,對同一個摘要的評估可能因評估者的不同而不同,有的時候,即使在評估者相同時也因評估的時間不同而有不同的評估。因此,如果像相關技術中那樣,根據(jù)專家的經(jīng)驗和技巧來評估手工構(gòu)成的摘要,則不但沒有摘要的評估的可重復性,而且要做到公平地評估摘要也很困難。
需要不受評估者的主觀影響并且可重復的客觀評估的、對包括自由構(gòu)造的摘要在內(nèi)的摘要的自動評估處理。
現(xiàn)在考察對由計算機自動生成的摘要的評估與由專家自由構(gòu)成的摘要的評估的比較。計算機生成的摘要在概括內(nèi)容和句子流暢的適當性方面的概括精確度一般比由人制作的摘要低。因此許多情況下,由計算機生成的摘要,其逼真度達不到與人工摘要相同的程度。
假設“好摘要”具有這樣的逼真度,該逼真度達到使得難以區(qū)分該摘要與手工摘要的程度,這個“好摘要”使得由計算機生成的該摘要的句子結(jié)構(gòu)和摘要內(nèi)容達到與由人工生成的摘要相似的程度。因此應當明白,按“計算機摘要”和“手工摘要”劃分類別可用作為摘要的評估。
因此本發(fā)明的目的是提供一種自動執(zhí)行不僅評估通過抽取重要句子作出的摘要而且也評估利用計算機自由地生成的摘要的處理的方法。
本發(fā)明的另一個目的是提供一種實現(xiàn)這個處理方法的裝置。
本發(fā)明的另一個目的是提供一種其中記錄有用于在計算機上執(zhí)行這個自動摘要評估處理的程序的計算機可讀的記錄媒體。
本發(fā)明的另一個目的是提供一種把各種用于獲得摘要的處理裝置分成類別(classification)并執(zhí)行自動評估利用這些類別的裝置獲得的摘要的處理方法,提供一種用于實現(xiàn)這個處理的裝置和在計算機上執(zhí)行這個處理的程序。
因此,本發(fā)明提供的摘要評估方法包含下述步驟訪問用于存儲解決方案(solution)數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置,其中解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由該摘要的評估構(gòu)成的解決方案;從解決方案數(shù)據(jù)存儲裝置中獲取解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機器學習方法,從解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最容易的,并存儲該學習的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學習的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了集合的情況下,哪種解決方案是最容易得到成功的。
因此,本發(fā)明提供的摘要評估裝置包含用于存儲解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置,其中解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由該摘要的評估構(gòu)成的解決方案;解決方案/特征對抽取裝置,用于獲得解決方案數(shù)據(jù)、從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;機器學習裝置,用于用有監(jiān)督的機器學習方法,從解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最容易的,并存儲該學習的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集合;和評估推斷裝置,用于根據(jù)學習的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
本發(fā)明提供一種其中記錄有使計算機執(zhí)行這個摘要評估方法的各步驟的摘要評估程序的計算機可讀的記錄媒體。
本發(fā)明中,事先準備大量的由例子構(gòu)成的解決方案數(shù)據(jù),各個例子被分配由對每個由機器生成的摘要和每個由人建立的摘要的摘要評估構(gòu)成的解決方案。對于每個例子,抽取解決方案和特征的集合的組,并用機器學習技術從所抽取的解決方案和特征的集合的組中學習在哪種特征時哪種解決方案(摘要評估)是最容易獲得成功的。之后,當構(gòu)成某主題的摘要被輸入時,從所輸入的摘要中抽取特征的集合,然后通過參考機器學習的結(jié)果,通過推斷就哪種特征的集合而言哪種解決方案是容易得到成功的。
這樣就有可能提供一種可重復的、無偏見的評估,而不受評估者的經(jīng)驗和技巧的影響。
例如,表示摘要是用計算機生成的“機器摘要”和表示摘要是由人制作的的“手工摘要”這兩種類別可用作分配給解決方案數(shù)據(jù)的解決方案。在這種情況下,在本發(fā)明中,要對輸入的摘要是“機器摘要”還是“手工摘要”作出判定。這兩種類別可以利用處理計算機由機器處理來作分配,以便從作為解決方案數(shù)據(jù)準備的摘要本身中自動地獲得。在通過機器處理分配類別時,在分配解決方案中所涉及的處理負荷能得到減輕。在考慮解決方案數(shù)據(jù)的精確性時,用方案是由專家分配的解決方案數(shù)據(jù)也是可能的。在這種情況下,也可能按照評估分配三個或五個類別,以便執(zhí)行多階段評估,諸如三個階段、五個階段的評估,等等。
在計算機上實現(xiàn)本發(fā)明的裝置、功能或元件的程序,可以存儲在適當?shù)挠嬎銠C可讀的記錄媒體上,諸如便攜式存儲媒體、半導體存儲器或硬盤等中,可以通過在這種記錄媒體上的記錄而提供,或者通過利用通過通信接口的通信網(wǎng)絡的交換而提供。
解決方案數(shù)據(jù)存儲單元11是用于存儲構(gòu)成用于機器學習過程中的有監(jiān)督的數(shù)據(jù)的數(shù)據(jù)(解決方案數(shù)據(jù))的裝置。由問題和解決方案的集構(gòu)成的例子作為解決方案數(shù)據(jù)被存儲在解決方案數(shù)據(jù)存儲單元11中。問題包括概括之前的一個文章段和一個摘要本身。摘要既可以由計算機制作,也可以由人制作。解決方案是對摘要的評估,有兩個類別“由計算機產(chǎn)生的摘要(計算機摘要)”和“由人產(chǎn)生的摘要(手工摘要)”。這兩個類別可以根據(jù)一種用于生成摘要的處理技術自動地分配,或者可以由人分配。使用“計算機摘要”和“手工摘要”這兩種類別作為解決方案的理由是,為了能根據(jù)生成摘要的處理裝置機械地分配類別。就是說,“計算機摘要”的解決方案(類別)被自動地分配給計算機自動地生成的摘要。被分配以解決方案“手工摘要”的解決方案數(shù)據(jù),被用于由人制作的摘要。這就減輕了在分配解決方案中所牽涉到的處理負荷。此外,在解決方案的準確性重要時,可以由專家把解決方案分配給每個例子。
解決方案/特征對抽取單元12,是用于從存儲在解決方案數(shù)據(jù)存儲單元11中的每個例子中抽取解決方案和特征的集的組的裝置??梢猿槿∫粋€特征,作為(1)指示句子是否流暢的信息,(2)指示內(nèi)容是否被適當表達的信息,(3)用于自動概括的特征信息,等等。
(1)作為指示句子流暢性的信息,可以抽取k語法形態(tài)序列(k-gram morph sequence)的出現(xiàn)的百分率或者以主體(corpus)的形式實現(xiàn)的解決方案數(shù)據(jù)存儲單元11中的修飾從句之間的語義一致的程度。
(2)作為指示該文章段的內(nèi)容是否被適當表達的信息,在作概括之前該文章段中存在的關鍵短語(key-phrases)的包含率被抽取。
此外,(3)抽取句子的位置、關于句子是否是起始句子的信息、TF/IDF(Term Frequency/Inversed Document Frequency-術語頻率/逆文件頻率)、句子長度、或者諸如特征表達/連接詞/功能字之類的關鍵表達的存在,作為用于自動概括的特征信息。
機器學習單元13是用于用有監(jiān)督的機器學習方法從由解決方案/特征對抽取單元12抽取的解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最直截了當?shù)难b置。這個學習的結(jié)果然后被存儲在學習結(jié)果數(shù)據(jù)存儲單元14中。如果機器學習單元13用有監(jiān)督的機器學習方法學習,則可以用這種方法執(zhí)行處理。這種技術例如可以是判定樹技術、支持向量技術、參數(shù)調(diào)整技術、簡單貝葉斯(Baysian)技術、最大熵(entropy)技術或判定表技術。
特征抽取單元15是用于從評估目標的摘要2中抽取一組特征并把所抽取的該組特征傳送給評估推斷單元16的裝置。
評估推斷單元16是用于參考學習結(jié)果數(shù)據(jù)存儲單元14的學習結(jié)果數(shù)據(jù)并在特征集合被從特征抽取單元15傳送過來時推斷對其來說某解決方案(評估)是最直截了當?shù)慕Y(jié)果、然后輸出一個由該推斷結(jié)果構(gòu)成的評估3的裝置。
圖2表示本發(fā)明的一個處理流程圖。在自動摘要評估處理裝置1的解決方案數(shù)據(jù)存儲單元11中存儲著大量的例子作為解決方案數(shù)據(jù),其中將解決方案信息分配給多種語言的數(shù)據(jù)。例如,在下面的示例1中表示了取作為輸入的文本的一個例子。
示例1
首先,在解決方案/特征對抽取單元12,從解決方案數(shù)據(jù)存儲單元11為每個例子抽取一解決方案和特征的集的一組(步驟S1)。例如,抽取以下作為特征特征e1主體中k語法形態(tài)序列的出現(xiàn);特征e2修飾從句之間的語義一致的程度;特征e3在概括之后具有大的TF/IDF值的“自然語言用詞”的包含率;特征e4對輸入文章段的第一個句子是否在被使用的確定;特征e5輸出摘要的長度;和特征e6確定在摘要被抽取的位置之前是否有連接詞“tsumari(換言之)”。
解決方案/特征對抽取單元12檢查對于每個例子來說,是否在主體中出現(xiàn)一個k語法形態(tài)序列,作為特征e1,如果存在,就抽取之。k語法形態(tài)序列例如是一個三語法詞素的“動詞を(doushi-wo)<|>する(suru)(其中<|>表示一個分割)”,這是從“動詞を(doushi-wo)<|>省略(syouryaku)<|>する(suru)”中省略“省略(syouryaku)”得出的。如果形態(tài)序列“動詞を(doushi-wo)<|>する(suru)”不在主體中出現(xiàn),就推斷是因為該表達作為句子看起來不流暢。k語法形態(tài)序列在主體中的出現(xiàn),可以被用作特征e1,以便確定摘要的流暢性。
解決方案/特征對抽取單元12通過檢查例如是否在從“動詞を(doushi-wo)<|>省略(syouryaku)<|>すゐ(suru)”中省略“省略(syouryaku)”得出的“動詞を(doushi-wo)<|>する(suru)”的主體中存在修飾“する(suru)”從句的從句“動詞を(doushi-wo)”,抽取修飾從句之間的一致程度作為特征e2。如果在“動詞を(doushi-wo)”和“する(suru)”之間沒有修飾(modification),則可以推斷該表達不是一個流暢的句子。
解決方案/特征對抽取單元12抽取例如一個關于是否在概括之前的文章段中出現(xiàn)的關鍵短語(自然語言的短語的字)被包含在摘要中的關鍵短語包含率,作為特征e3。如果這些短語被盡可能多地包含在摘要中,則可以確定該摘要是個準確表達這個文章段(文本)的內(nèi)容的好摘要。
TF/IDF技術主要可以用于關鍵短語自動抽取處理。TF是一個表示某字在某文章段中的出現(xiàn)次數(shù)或頻率的值。IDF是已經(jīng)具有的某字在其中出現(xiàn)的一組大量的文件(documents)的文件數(shù)的倒數(shù)。通常,其TF與IDF之和的值大的字適合作為關鍵短語。假設“自然言語(shizengengo)(自然語言)”、“動詞(doushi)(動詞)”、“省略(syouyaku)(omission)”、“復元(fukugen)(恢復)”、“表層の表現(xiàn)(hyousou-no-hyougen)(表面情況表示)(surface caserepresentation)”和“用例(yourei)(例子)”對應于圖3中所示的文章段中的短語。這些字在表達這個文本的內(nèi)容時是重要字,因此希望在摘要中出現(xiàn)這些字。
解決方案/特征對抽取單元12利用例如TF/IDF技術來抽取構(gòu)成前面所述的那種關鍵短語的字。它然后檢查TF或IDF的值是否高,以及這些字是否被包含在摘要中,然后抽取這些字的包含率,作為特征e3。
解決方案/特征對抽取單元12然后抽取對輸入文本中的第一個句子是否被使用的確定,作為特征e4。重要句子出現(xiàn)在一個文章段的開頭一般是非常普遍的。因此可以確定,如果采用靠近文件的開頭的句子作為摘要則能得到好的摘要。
解決方案/特征對抽取單元12也檢查摘要的長度并抽取這個長度,作為特征e5。摘要的目標一般是要短句子。因此可以確定,短摘要是好摘要。
解決方案/特征對抽取單元12也抽取對是否在被作為摘要抽取的位置之前有“つまり(tsumari)(換言之)”之類的連接詞的確定,作為特征e6。還存在著一些關鍵的表達,例如連接詞、功能字,它們指示希望作為摘要來抽取的句子和位置。例如,當存在“tsumari”之類的連接詞時,在這個連接詞“tsumari”的后面就存在概括這個文本的內(nèi)容的表達。這意味著,如果這部分被抽取,則可以確定是好摘要。
機器學習單元13然后用機器學習方法從由解決方案/特征對抽取單元12抽取解決方案和特征的集的組學習在哪種特征時哪種解決方案是最容易的(例如“機器摘要”、或“手工摘要”)(步驟S2)。機器學習單元13例如采用簡單貝葉斯方法、判定表技術、最大熵方法或支持向量機器方法等等作為有監(jiān)督的機器學習方法。
簡單貝葉斯方法是根據(jù)貝葉斯定理推斷每個類別的概率的方法,該方法將概率值最高的類別作為要采用的類別。
判定表技術定義由特征和類別組成的各組,用于在一個有預定優(yōu)先級的表中存儲。當要被提交作檢查的輸入然后被提供時,用該表從最高優(yōu)先級開始按順序比較該輸入數(shù)據(jù)和所定義的特征。如果特征匹配,則所定義的類別被作為輸入類別。
在最大熵方法中,當采用預定集合的特征fj(1≤j≤k)作為F集合時,獲得在滿足規(guī)定約束條件的同時某個表達何時意味著熵最大的概率分布,然后按照這個概率分布獲得的每個類別的概率,獲得概率值較大的類別。
支持向量機器方法是一種將空間劃分成超平面對兩個類別中的數(shù)據(jù)分類的方法。
判定表技術和最大熵方法在下文引用的參考文獻2中有說明,支持向量機器方法在下文引用的參考文獻3和4中有說明。
“引用參考文獻2Society for language analysis in electronicinformation communication studies and communications(電子信息通信研究和通信中的語言分析學會),NCL2001-2,(2001),Ambiguityresolution trials employing various machine learningtechniques(采用各種機器學習方法的歧義解析試驗)(村田真樹、內(nèi)山將夫、內(nèi)元清貴、馬青、井佐原均、種々の機械學習法を用いた多羲解消実験、電子情報通信學會言語理解とコミユニケ一ション研究會)?!薄耙脜⒖嘉墨I3Nello Cristianini和John Shawe-TaylorAn Introduction to Support Vector Machines and otherkernel-based learning methods(Cambridge University Press,2000)(支持向量機和其它基于內(nèi)核的學習方法的介紹,劍橋大學出版社,2000年)”“引用參考文獻4Taku Kudoh,TinysvmSupport VectorMachines(支持向量機)(http//cl.aist-nara.ac.jp/taku-ku//software/TinySVM/index.html,2000)”。
之后,將希望評估的摘要2輸入到特征抽取單元15(步驟S3)。
特征抽取單元15采用與解決方案/特征對抽取單元12的基本相同的處理從輸入的摘要2中抽取一組特征,并把這些特征傳送給評估推斷單元16(步驟S4)。
評估推斷單元16根據(jù)在學習結(jié)果數(shù)據(jù)存儲單元14中的學習結(jié)果收集在到傳送過來的特征時推斷哪種解決方案是最直截了當?shù)模缓筝敵鲈撏茢嘟饧丛u估3(步驟S5)。例如,評估推斷單元16如果推斷,作為根據(jù)從摘要2中抽取的特征集用機器學習技術執(zhí)行處理的結(jié)果,摘要2的解決方案是“手工摘要”,則可以輸出一個“手工摘要”或“好摘要”的評估3。評估推斷單元16在推斷出摘要2的解決方案是“機器摘要”時,也可以輸出一個“機器摘要”或“壞摘要”的評估3。
以上給出了本發(fā)明的實際實現(xiàn)的說明,但是在本發(fā)明的范圍內(nèi)可以有各種修改。例如,在舉例說明的本發(fā)明的一個實施例中,將“機器摘要”和“手工摘要”這兩個類別作為存儲在解決方案數(shù)據(jù)存儲單元11中的解決方案數(shù)據(jù),但是也可以采用三種或更多的類別作為解決方案。
按照本發(fā)明,將原始文本和摘要作為問題,為摘要生成裝置準備大量的解決方案數(shù)據(jù),作為“人工的”或“機器的”解決方案。然后根據(jù)利用這個解決方案數(shù)據(jù)的機器學習得出的結(jié)果,對作為處理對象的摘要推斷出是“機器摘要”還是“手工摘要”的評估。因此,即使處理的對象是自由建立的摘要,也有可能對這個評估進行自動處理。因此即使對自由制作的摘要也能進行可重復的、無偏見的評估。
按照本發(fā)明,對于同一個摘要總是輸出等同的評估。因此可以對相同的摘要多次重復進行相同的評估處理,當把執(zhí)行本發(fā)明的處理系統(tǒng)調(diào)整得性能優(yōu)異時,則能直截了當?shù)孬@得關于這個處理系統(tǒng)的評估。
按照本發(fā)明,有可能對相同的摘要重復相同的評估,能共享摘要處理方法的評估。
權(quán)利要求
1.一種采用計算機的摘要評估方法,包含以下步驟訪問用于存儲解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置,其中解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由來自解決方案數(shù)據(jù)存儲器的摘要的評估構(gòu)成的一個解決方案;從解決方案數(shù)據(jù)存儲裝置獲得解決方案數(shù)據(jù);從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機器學習方法,從解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最容易的,并存儲該學習的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學習的結(jié)果,推斷在從特征抽取步驟中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
2.按照權(quán)利要求1的摘要評估方法,其中,解決方案由兩個類別組成機器處理的摘要、及人制作的摘要。
3.一種摘要評估裝置,包含用于存儲解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置,其中解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由該摘要的評估構(gòu)成的一個解決方案;解決方案/特征對抽取裝置,用于從解數(shù)據(jù)存儲裝置獲得解決方案數(shù)據(jù)、從該解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;機器學習裝置,用于用有監(jiān)督的機器學習方法,從解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最容易的,并存儲該學習的結(jié)果;特征抽取裝置,用于從輸入的文本抽取特征的集;和評估推斷裝置,用于根據(jù)學習的結(jié)果,推斷在從特征抽取裝置獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
4.按照權(quán)利要求3的摘要評估裝置,其中,解決方案由兩個類別組成機器處理的摘要、及人制作的摘要。
5.一種記錄有摘要評估程序的計算機可讀的記錄媒體,該程序使計算機執(zhí)行以下處理訪問用于存儲解決方案數(shù)據(jù)的解決方案數(shù)據(jù)存儲裝置,其中解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由來自解決方案存儲器的摘要的評估構(gòu)成的一個解決方案;從解決方案數(shù)據(jù)存儲裝置獲得解決方案數(shù)據(jù);存儲解決方案數(shù)據(jù),該解決方案數(shù)據(jù)由一個組構(gòu)成,該組包括由文章段及其摘要構(gòu)成的一個問題、以及由摘要的評估構(gòu)成的一個解決方案。從解決方案數(shù)據(jù)的問題中抽取特征并建立解決方案和特征的集合的組;用有監(jiān)督的機器學習方法,從解決方案和特征的集合的組中學習在哪種特征時哪種解決方案是最容易的,并存儲該學習的結(jié)果;從輸入的文本抽取特征的集合;和根據(jù)學習的結(jié)果,推斷在從特征抽取處理中獲得的特征而抽取了的集合的情況下,哪種解決方案是最容易得到成功的。
6.按照權(quán)利要求5的計算機可讀的記錄媒體,其中,解決方案由兩個類別組成機器處理的摘要、及人制作的摘要。
全文摘要
按照本發(fā)明的裝置在解決方案數(shù)據(jù)存儲單元中存儲由文章段、文章段的摘要和對摘要的評估構(gòu)成的例子。從所存儲的例子中抽取解決方案和特征的集合的組,并用機器學習技術學習在哪種情況下哪種解決方案是最直截了當?shù)模瑢W習的結(jié)果被存儲在學習結(jié)果數(shù)據(jù)存儲單元中。然后,從輸入的摘要中抽取特征的集,推斷就所抽取的特征集合而言哪種解決方案是容易得到成功的,并將其作為評估輸出。
文檔編號G06F17/30GK1435774SQ0310217
公開日2003年8月13日 申請日期2003年1月30日 優(yōu)先權(quán)日2002年1月31日
發(fā)明者村田真樹 申請人:獨立行政法人通訊綜合研究所