自動識別文本的文體結構的制作方法

文檔序號：6415934閱讀：197來源：國知局

專利名稱：：自動識別文本的文體結構的制作方法
技術領域：
：本發(fā)明涉及一般的計算語言學領域，特別是文體處理領域。
背景技術：
：文體理論是一種理解自然語言文檔和自然語言的其它單位的內容和意義的一種方法。按照文體理論，每一個自然語言文檔有一個“文體結構”，該文體結構反映了文檔的作者編輯該文檔的目的。識別自然語言文檔的文體結構通常被認為是理解文檔的重要部分。文檔的文體結構常常使用分層“文體結構樹”模擬，或簡單稱為“樹”，例如有Mann和Thompson建議的“修辭結構理論樹”(“RST樹”)，“在文體中的有關論題，”文體處理957-90(1986)。這樣的文體結構樹表征了文檔的組成段落的相對意義，稱為論題。這些論題通常是從句或短語。文體結構樹識別存在于文檔中論題之間的關系或“文體的關系”。文體結構樹一般以昂貴的費用由訓練為語言學家的專家人工產生。因為人工產生文體結構樹是昂貴的，所以它們仍然完全是用來研究一般文體的理論工具。因此，便宜的產生文體結構樹并代表自然語言文檔的文體結構的自動方法將允許應用文體理論分析任意的文檔。發(fā)明簡述本發(fā)明涉及自動識別文本或其它自然語言表達的文體結構。由文本展示的文體結構是組織，或“結構”，多詞文本單元，或“論題”，文本是由“結構”和“論題”構成的。識別文本的文體結構有助于容易發(fā)現作者在寫作該文本的目的，并因此在某種意義中有助于識別文本的中心意思。為了識別輸入文本的文體結構，功能程序產生一個或多個文體結構樹。象在此討論的一樣，文體結構樹是一種代表輸入文本的文體結構的數據結構。輸入文本通?？稍O計為一系列從句。當對于輸入文本由功能程序產生的文體結構樹時，嚴格說來，表征了這些從句的邏輯表達的論題之間的文體結構，功能程序產生了基于從句的內容的文體結構，而不是基于可適當稱為論題的從句的任何嚴格的邏輯表達。因此，功能程序產生的文體結構樹不依賴于從輸入文本的從句產生的嚴格邏輯論題。按照本發(fā)明，功能程序接收輸入文本，以及由完成嚴格的輸入文本的語法分析所產生的數據。這個數據最好包括一個或多個代表輸入文本的語法結構的語法分析圖表和對應的邏輯形式，該圖表和邏輯形式提供了包括語義信息的這個語法結構的規(guī)格化的形式。這些從句基本上是以文體結構樹的形式排列，其中，它們在顯示輸入文本的文體結構的特殊設置中由文體關系連接。在識別輸入文本中的從句之后，功能程序成對地考慮這些從句。重要的是注意到，功能程序試圖假定每一對從句之間的文體關系，而不僅僅是假定鄰近從句之間的關系。對于每一對從句，功能程序使用一組線索識別可能合理地與該對從句關聯的文體關系。這些識別關系被稱為在每一對從句之間的“假定”。所用的線索指定一個或多個條件級，該條件級必須由每對從句或由邏輯形式或與每對從句關聯的語法分析的內容所滿足，以便假定從句對之間的特殊關系。每一個線索進一步指定了一個顯示相對似然性的定量得分，以至在從句對之間假定的關系是正確的，其中滿足了線索條件。當相同對的從句幾個線索滿足了相同的關系時，由這些線索指定的得分被相加以產生用于假定關系的得分。功能程序在每一對從句之間有假定關系之后，功能程序把假定關系組合在“袋子”內，每一個袋子包含所有的給定從句對之間的假定關系。在每個袋子中，假定關系被按照它們得分的降序排列。袋子本身也按照它們第一個假定關系(即，在該袋子中的最高單個得分)以降序排列。功能程序然后以倒置的方式從對應從句的終端節(jié)點繼續(xù)進行構建一個或多個文體結構樹，并試圖以一種方式把假定關系應用到終端節(jié)點，首先在每一個袋子中通過第一個假定關系，然后在每一個袋子中通過連續(xù)的假定關系重復該方式。構建算法利用在袋子中的遍歷的回溯法以便剪除沒被形成的大量樹組。每一次，假定的關系實際上組合兩個節(jié)點，組合的結果被加到樹作為非終端節(jié)點。新節(jié)點具有相等于假定得分的得分，如果存在該得分，加上被組合的節(jié)點的得分。因此，以這種方式構建的每一個樹有一個與根節(jié)點關聯的得分，該得分反映了相對的似然性，即，對于輸入文本該樹是正確的。以這種方式構建的每一個樹是二叉樹，每一個非終端節(jié)點剛好有兩個子節(jié)點。在某些方面，考慮n叉文體結構樹比二叉文體結構樹更有用。功能程序最好“平坦”所構建二叉樹以便形成n叉樹。功能程序可以從以這種方式構建的任何樹中產生反映由作者尋求的主要得分的輸入文本的提要。為達此目的，功能程序執(zhí)行了從頂部到指定深度的樹的寬度優(yōu)先遍歷(breadth-firsttraversal)，并連接到由每一個訪問節(jié)點所代表的從句的文本的概要。因此，本發(fā)明的功能程序最好假定基于從句的文本的從句之間的文體關系，沒有依賴人工產生的輸入文本代表的論題，利用加強的線索檢驗從句的文本語法和段落的特征；應用假定的文體關系以基于段落進入袋子的順序和利用回退產生文體關系樹；平坦二叉文體結構樹為n叉文體結構樹；以及從產生的文體結構樹產生輸入文本的提要。附圖的簡單描述圖1是一般應用的功能程序優(yōu)選執(zhí)行的計算機系統(tǒng)的高層示意圖。圖2是由功能程序執(zhí)行的步驟高層流程圖，以便產生一個或多個用于輸入文本的文體結構樹和產生輸入文本的提要。圖3是用樣本輸入文本的第一個句子產生的語法樹的示意圖。圖4是用樣本輸入文本的第一個句子產生的邏輯形式圖形的邏輯形式示意圖。圖5是用樣本輸入文本的第二個句子產生的語法樹的示意圖。圖6是用樣本輸入文本的第二個句子由功能程序產生的邏輯形式圖形的邏輯形式示意圖。圖7是用樣本輸入文本的第三個句子產生的語法樹的示意圖。圖8是用樣本輸入文本的第三個句子由功能程序產生的邏輯形式圖形的邏輯形式示意圖。圖9是用樣本輸入文本的第四個句子產生的語法樹的示意圖。圖10是用樣本輸入文本的第四個句子由功能程序產生的邏輯形式圖形的邏輯形式示意圖。圖11是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便假定在輸入文本中識別的從句之間的文體關系。圖12是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便為輸入文本產生文體結構樹。圖13是附加終端節(jié)點到樹的文體結構樹的示意圖。圖14是附加覆蓋從句2-3的新節(jié)點的文體結構樹的示意圖。圖15是附加覆蓋從句4和5的新節(jié)點的文體結構樹的示意圖。圖16是附加覆蓋從句1-3的新節(jié)點的文體結構樹的示意圖。圖17是從圖16中的樹到圖15中的樹功能程序回退，然后附加覆蓋從句3-5的新節(jié)點的文體結構樹的示意圖。圖18是由功能程序產生的第一個完整的文體結構樹的文體結構樹示意圖。圖19是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便把二叉文體結構樹轉換為n叉文體結構樹。圖20是樣本二叉文體結構樹的文體結構樹的示意圖。圖21是使用來自圖20的二叉文體結構樹的級，功能程序構建的n叉文體結構樹的文體結構樹示意圖。圖22是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便產生基于由功能程序產生的最高得分文體結構樹的輸入文本的提要。發(fā)明的詳細描述本發(fā)明涉及自動識別文本或其它自然語言表達的文體結構。由文本展示的文體結構是組織，或“結構”，多詞文本單元，或“論題”，文本是由“結構”和“論題”構成的。識別文本的文體結構有助于容易發(fā)現作者在寫作該文本的目的，并因此在某種意義中有助于識別文本的中心意思。為了識別文本(輸入文本)的文體結構，功能程序產生一個或多個文體結構樹。象在此討論的一樣，文體結構樹是一種代表輸入文本的文體結構的數據結構。輸入文本通?？稍O計為一系列從句。當對于輸入文本由功能程序產生的文體結構樹時，嚴格說來，表征了這些從句的邏輯表達的論題之間的文體結構，功能程序產生了基于從句的內容的文體結構，而不是基于可適當稱為論題的從句的任何嚴格的邏輯表達。因此，功能程序產生的文體結構樹不依賴于從輸入文本的從句產生的嚴格邏輯論題。下面討論的非常詳細的樣本文體結構樹顯示在圖18中。文體結構樹包含許多排列在樹中的節(jié)點。每一個節(jié)點代表或“覆蓋”從句的鄰近組或“跨度”。每一個節(jié)點在它所覆蓋的從句之中進一步識別稱為“投射”的最重要的節(jié)點。每一個文體結構樹的葉節(jié)點或“終端節(jié)點”對應單個從句。另一方面，文體結構樹的非終端節(jié)點通過一個或多個文體關系對應組合的多從句，或“有關的”。稱為“根節(jié)點”的一個非終端節(jié)點覆蓋所有從句，并在它的子節(jié)點之中具有所有的終端節(jié)點。許多不同類型的文體關系被用來代表可以在從句之間發(fā)生關系的類型(或從句組之間)。這些文體關系類型被分成為兩類非對稱文體關系類型和對稱文體關系類型。非對稱文體關系以一種方式關聯從句，以至顯示作者在輸入文本內認為從句有不同級的重要性。因此，通過非對稱文體關系關聯的從句(1)包括比較重要的“核心”從句和不重要的“從屬”從句，(2)象它們的投射序列一樣，只具有它們的核心節(jié)點的投射。作為一個例子，下面的從句A和B由論述兩個從句的詳盡的細節(jié)關系所關聯，從屬從句詳細描述在核心從句上，在該句中，代表從句A的節(jié)點是核心，代表從句和B的節(jié)點是從屬從句A．望遠鏡使他的使用者遠距離觀察景色。B．例如，鳥類觀察者使用望遠鏡以避免打擾它們的鳥類對象。圖18顯示了三種非對稱關系的表示法在節(jié)點1812中代表的非對稱對比關系有節(jié)點1804作為它的核心和節(jié)點1805作為它的從屬；在節(jié)點1804中代表的詳盡描述關系有節(jié)點1803作為它的核心和節(jié)點1812作為它的從屬；在節(jié)點1815中代表的詳盡描述關系有節(jié)點1801作為它的節(jié)點及作為它的核心和節(jié)點1811作為它的從屬。另一方面，對稱文體關系以一種方式關聯從句，以至顯示作者在輸入文本內認為從句有類似的重要性。同樣地，，代表對稱文體關系的節(jié)點(1)只有“核心”作為子節(jié)點，(2)象它們的投射序列一樣，具有它們子節(jié)點的投射的結合。作為一個例子，下面的從句C和D由論述從句的排序次序的順序關系所關聯，在該句中，代表從句C和D的節(jié)點都是核心的子節(jié)點C．首先，攪拌蛋白。D．然后，拌入糖。圖18顯示了一種對稱關系的表示法由節(jié)點1811代表的對比關系有作為它的核心節(jié)點的1802和1814。形式上，一個有效的，或適當形成的，文體結構樹展示了四個特征(1)“完整性，”即，文體結構樹覆蓋整個輸入文本；(2)“連通性”即，對于每一個輸入文本的從句，文體結構樹包含一終端節(jié)點；(3)“唯一性，”即，在文體結構樹中的每一節(jié)點有單個父節(jié)點；(4)“鄰近性，”即，只有鄰近跨度可以群聚到節(jié)點以形成大的跨度，就是說，在文體結構樹中的非終端節(jié)點僅覆蓋鄰近跨度。按照本發(fā)明，功能程序接收輸入文本作為它的輸入，以及通過執(zhí)行輸入文本的嚴格語法分析產生的數據。這個數據最好包括一個或多個代表輸入文本語法結構的語法分析圖表，及對應的邏輯形式，該邏輯形式提供包括語義信息的標準化語法結構。功能程序使用邏輯形式把輸入文本分成為從句。這些從句最后以文體結構樹的形式排列，其中，在顯示輸入文體結構的特殊設置中，這些從句通過文體關系連接。在識別輸入文本中的從句之后，功能程序成對的考慮這些從句。重要的是注意到，功能程序試圖假設每一對從句之間的文體關系，而不僅僅是鄰近從句之間的文體關系。對于每一對從句，功能程序使用一組線索識別可能合理地發(fā)生關系的從句對的文體關系。所用的線索指定一個或多個條件級，該條件級必須由從句對或邏輯形式的內容或與從句對關聯的語法分析所滿足，以便假設從句對之間的特殊關系。每一個線索進一步指定一個顯示相對似然性的定量的得分，以至在每一對從句之間假設的關系是正確的，其中，線索條件被滿足。當相同關系的幾個線索滿足相同從句對時，由這些線索指定的得分被相加以產生假設關系的得分。在功能程序已經假設每一對從句之間的關系后，功能程序把假定關系聚合在“袋子”內，每一個袋子包含所有的給定從句對之間的假定關系。在每個袋子中，假定關系被按照它們得分的降序排列。袋子本身也按照它們第一個假定關系(即，在該袋子中的最高單個得分)以降序排列。功能程序然后以倒置的方式從對應從句的終端節(jié)點繼續(xù)進行構建一個或多個文體結構樹，并試圖以一種方式應用假定關系到終端節(jié)點，首先在每一個袋子中通過第一個假定關系，然后在每一個袋子中通過連續(xù)的假定關系重復該方式。構建算法利用在袋子中的遍歷的回溯法以便剪除沒被形成的大量樹組。每一次，假定的關系實際上組合兩個節(jié)點，組合的結果被加到樹作為非終端節(jié)點。新節(jié)點具有等于假定得分的得分，如果存在該得分，加上被組合的節(jié)點的得分。因此，以這種方式構建的每一個樹有一個與根節(jié)點關聯的得分，該得分反映了相對的似然性，即，對于輸入文本該樹是正確的。以這種方式構建的每一個樹是二叉樹，每一個非終端節(jié)點剛好有兩個子節(jié)點。在某些方面，考慮n叉文體結構樹比二叉文體結構樹更有用。功能程序最好“平坦”所構建二叉樹以便形成n叉樹。功能程序可以從以這種方式構建的任何樹中產生反映由作者尋求的主要得分的輸入文本的提要。為達此目的，功能程序執(zhí)行了從頂部到指定深度的樹的寬度優(yōu)先遍歷(breadth-firsttraversal)，并連接到由每一個訪問節(jié)點所代表的從句的文本的概要。圖1是一般應用的功能程序優(yōu)選執(zhí)行的計算機系統(tǒng)的高層示意圖。計算機系統(tǒng)100包括中央處理單元(CPU)110、輸入輸出裝置120和計算機存儲器130。在輸入輸出裝置中是存儲裝置121，如硬盤驅動器，以及計算機可讀介質驅動器122，在可讀介質驅動器中可以安裝包括功能程序的軟件產品，提供的計算機可讀介質如CD-R0M。存儲器130最好包括文體結構識別功能程序131；詞匯知識庫132包括詞匯和與輸入文本表達的自然語言有關的語義信息；源于輸入文本語形、語法和語義信息的語法分析程序133在此是固有的，包括邏輯形式；使用假定數據結構134的文體關系，以便假定在輸入文本內的關聯從句對的文體關系；以及，通過功能程序使用的假定文體關系數據結構135代表輸入文本從句之間的一組假定的文體關系。因為語法分析程序133和功能程序131在一起識別語形、語法、語義和輸入文本的文體結構，所以語法分析程序和功能程序在一起被稱為自然語言處理系統(tǒng)，用于識別語形、語法、語義和輸入文本的文體結構。當優(yōu)選的功能程序運行在上述設置的計算機系統(tǒng)上時，本領域的技術人員將公認它也可以運行在不同設置的計算機系統(tǒng)上。圖2是由功能程序執(zhí)行的步驟高層流程圖，以便產生一個或多個用于輸入文本的文體結構樹和產生輸入文本的提要。在步驟201，功能程序分列輸入文本，并產生分列樹和邏輯形式。對于語法分析自然語言輸入文本的詳細討論，參考美國專利申請?zhí)?8/265，845，題目是“把統(tǒng)計處理引入基于規(guī)則的自然語言語法分析程序的方法和系統(tǒng)”。對于從自然語言輸入文本產生邏輯形式的詳細論述，參考參考美國專利申請?zhí)?8/674，610，題目是“從句法樹計算語義邏輯形式的方法和系統(tǒng)”。這兩個申請全文被包含在此作為參考。在步驟202，功能程序使用步驟201產生的邏輯形式識別文本內的從句。在步驟203，功能程序使用一組線索假定步驟202識別的從句對之間可能的文體關系。在步驟204，功能程序應用步驟203假定的關系，以便為輸入文本構建一個或多個文體結構樹。產生的得分為每一個文體結構數顯示相對的似然性以致文體結構樹正確地模仿了輸入文本的文體結構。在步驟205，功能程序平坦了步驟204構建的二差(二叉)文體結構樹，并把它們轉換成為普通的n差樹。在步驟206，功能程序從最高加權的文體結構樹產生包括最重要的輸入文本從句的樣本輸入文本的概要。步驟206之后，步驟結束。為了較完整地論述功能程序，在此參考簡單的例子詳細論述它的操作。對此例子的樣本輸入文本顯示在文本方框1中。土狼被分類為土狼屬。它通常被放在鬣狗家族，鬣狗屬。然而，因為在土狼和鬣狗之間某些解剖學的差別，某些專家把土狼放在不同的家族，土狼屬。例如，土狼的前腳有5個腳指頭，而鬣狗有4個。文本方框1樣本輸入文本按照步驟201，功能程序首先分列樣本輸入文本的每一個句子，為每一個句子產生分列樹和邏輯形式。圖3¨CO顯示為樣本輸入文本的4個句子的分列樹和邏輯形式。圖3是一個分列樹圖表，該圖表顯示對樣本輸入文本的第一個句子產生的分列樹。分列樹300描繪了整個句子的語法結構。放在頂部節(jié)點301分列樹的叉描述了句子的不同成分。名詞短語叉310描述名詞“土狼”。輔助短語叉320描述動詞“是”。動詞叉330描述動詞“分類”。介詞短語叉340描述介詞短語“象土狼屬”。最后，標點符號叉350描述句子結束的句號。圖4是用樣本輸入文本的第一個句子產生的邏輯形式圖形的邏輯形式圖表。邏輯形式400以比分列樹概略的形式描述了句子的語法組織。邏輯形式通過在句子中的其它詞修改動詞，依賴相對小量的語法語義關系。所用的幾個標志識別表1論述的關系。附加的這些標志論述在美國專利申請?zhí)?8/674，610中。<tablesid="table1"num="001"><table>標志意思Dsub“深奧的主題”。(a)有效從句的主題或(b)被動的主體或奇怪的結構。Dobj“深奧的對象”(a)有效從句的對象或(b)奇怪結構的對象。TmeAt暫時關系。這個相同的標志被用于合拍點以及持續(xù)時間。Instr手段Manr方式Mods修飾LocAt位置Goal空間得分</table></tables>表1使用在邏輯形式中的標志通過分列文本產生的邏輯形式由功能程序使用(1)確定如何把輸入文本分成從句，(2)當假定了從句之間的文體關系時，測試線索的條件。象圖3、5、7和9是分別顯示為樣本輸入文本的第二、第三和第四個句子產生的分列樹的圖表。類似地，圖6、8和10分別由功能程序為樣本輸入文本的第二、第三和第四個句子產生的邏輯形式圖形的圖表。在功能程序已經按步驟201分列輸入文本的句子后，功能程序按照步驟202進行識別輸入文本中出現的從句。功能程序識別從句所用的標準顯示在表2中。本領域的技術人員對下面表2和表4所用的語言術語是熟悉的。這些術語的附加討論，讀者可直接閱讀Finegan，Edward，《語言它的結構和使用》，HarcourtBraceJovanovich，SanDiego，1989，以及Fromkin、Victoria和RobertRodman，《語言緒論》，Holt，Rinehart，Winston，NewYork，1988。表2識別從句的標準功能程序用盡一切地遍歷產生邏輯形式的節(jié)點，將表2所示的標準應用到每一個邏輯形式節(jié)點。對于每一個滿足所有標準的邏輯形式節(jié)點，功能程序識別單個從句。在處理本例的樣本輸入文本中，功能程序將表2所示的標準應用到圖4、6、8和10，以把樣本輸入文本分為表3所示的從句。表3識別的從句為樣本輸入文本的第一、第二和第三個句子分別顯示在圖4、6、和8中的邏輯形式，只有頭節(jié)點滿足表2所示的所有從句識別標準。由于這個原因，前三個句子被識別為只包括單個從句。在圖10顯示的樣本輸入文本的第四個句子的邏輯形式情況中，從句識別標準由頭節(jié)點“have1”和內部節(jié)點“have2”所滿足。因此，功能程序把第四個句子分成為兩個從句，從句4和從句5。在功能程序按照步驟202已經識別出現在輸入文本中的從句之后，功能程序進行假定按照步驟203已識別從句之間的文體關系。圖11是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便假定在輸入文本中識別的從句之間的文體關系。在高層，為假定從句之間的文體關系，這些步驟對每對從句評價了與每一線索有關的條件，以確定是否對這對從句假定與該線索有關的關系。對于給定的從句對，因為文體關系是定向的，所以功能程序應用線索的情況考慮向前方向的假定關系一次，然后再一次考慮向后方向的假定關系。這顯示在通過所有被排序的從句對的循環(huán)而不僅僅指通過未被排序的從句對的循環(huán)流程圖。在步驟1101-1107，功能程序通過每一個被排序的已識別從句對循環(huán)。對于每一個被排序的已識別從句對，在步驟1102-1110，功能程序通過每一個不同文體關系類型循環(huán)。對于每一個不同文體關系類型，在步驟1103-1109，功能程序通過所提供的每一個文體關系線索用于當前文體關系類型。表4顯示一列由功能程序優(yōu)選使用的文體關系線索。每一線索是一個單獨的要素，用于聲稱已排序的從句對之間的特殊文體關系。如果線索能夠成功地應用到從句對，線索有一個識別被假定的關系的關系名。每一個線索還有一個涉及線索所用的線索號碼。每一個線索還有一組已排序的條件，每一條件必須由從句所滿足，被識別為“從句1”和“從句2”，以便假定依賴于線索的識別關系。條件被排序，在第二個條件被測試之前，測試第一個條件并必須滿足條件。類似地，對每一個附加線索的條件，順序在前的條件在下一條件被評價之前必須先被評價并滿足條件。最后，每一線索有一個顯示相對似然性的得分，以致識別關系正確地關聯給出滿足排序組條件的兩個排序從句對。<tablesid="table5"num="005"><table>關系名線索號碼條件1條件2得分讓步H11從句1是主從句，如果從句2是從屬從句，那么，它必須從屬從句1。從句2包含讓步連接詞(although、even、though)。10條件H21從句1是主從句，如果從句2是從屬從句，那么，它必須從屬從句1。從句2包含條件連接詞(as-long-as、if、unless…)。10對比H4從句1在從句2之前；從句1語法上不從屬從句2；從句2語法上不從屬從句1；從句2的主題不是指示代詞，也不由指示代詞修飾。從句2被支配或包含對比連接詞(but、however、or…)。如果從句2是并列結構，那么，它必須與從句1并列.25對比H39從句1在從句2之前；從句1語法上不從屬從句2；從句2語法上不從屬從句1；從句2的主題不是指示代詞，也不由指示代詞修飾。線索H4被滿足從句1和從句2的頭節(jié)點動詞有相同的主旨。10對比H5從句1在從句2之前；從句1語法上不從屬從句2；從句2語法上不從屬從句1；從句2的主題不是指示代詞，也不由指示代詞修飾。從句1和從句2的極性不同(即，一個從句是正的，另一個是負的)5對比H6從句1在從句2之前；從句1語法上不從屬從句2；從句2語法上不從屬從句1；從句2的主題不是指示代詞，也不由指示代詞修飾。從句1的語法主題是指示代詞”some”或有修飾詞”some”，從句2的主題是指示代詞“other”或有修飾詞“other”。30</table></tables><tablesid="table6"num="006"><table>關系名線索號碼條件1條件2得分詳細描述H24從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；從句1是句子的主從句(句子1)從句2是句子的主從句(句子j)，句子l立刻先于句子j以及，(a)從句2包含詳細描述連接詞(also、for-example)或(b)從句2是并列結構，它的父節(jié)點包含詳細描述連接詞。35詳細描述H26從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；線索H24應用，從句1在選錄中是第一個句子的主從句。15詳細描述H41從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；從句2包含一個謂語名詞詞性，該詞的頭節(jié)點是在設置{portioncomponentmembertypekindexampleinstance}或從句2包含一個謂語，該詞的頭節(jié)點動詞是在設置{includeconsist}35詳細描述H25從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；從句1和從句2沒有被并列，(a)從句1和從句2展示了主題的連續(xù)性或(b)從句2是被動語態(tài)及從句1的Dobj的頭節(jié)點和從句2的Dobj的頭節(jié)點是相同的主旨或(c)從句2包含詳細描述連接詞10</table></tables><tablesid="table7"num="007"><table>關系名線索號碼條件1條件2得分詳細描述H25a從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；線索H25應用，從句2在包含慣常副詞(sometimes、usually…)。17詳細描述H38從句1在從句2之前；從句1不從屬從句2；從句2不從屬從句1；線索H25應用，從句2的語法主題是指示代詞“some”或包含修飾詞“some”10</table></tables><tablesid="table10"num="010"><table>關系名線索號碼條件1條件2得分序列H8從句1在從句2之前；從句1在語法上不從屬從句2；從句2在語法上不從屬從句1；從句2的主題即不是指示代詞也不由指示代詞修飾；從句1和從句2極性一致；不存在選擇從句1的語法主題是代詞”some”或有修飾詞”some”，從句2的主題是代詞“other”或有修飾詞“other”；如果從句2的語法主題是代詞，那么，從句1的語法主題肯定是相同的代詞；從句2沒有被支配并沒有包含與對比、非對稱對比或詳細描述關系一致的連接詞。從句1是被動語態(tài)或包含定語性謂語，從句2是被動語態(tài)或包含定語性謂語，10</table></tables>表4文體關系線索可以從表4中看出，列在此的一組線索使得功能程序識別下述類型的文體關系非對稱對比、原因、環(huán)境、讓步、條件、對比、詳細描述、連接、序列(list)、目的和結果。應當注意，功能程序可以直接地對這個序列通過增加或刪除線索而被改編。對于假定附加關系類型，以這種方式增加的線索可以擴展一組關系類型，以致功能程序能夠在輸入文本中假定和識別。在步驟1104，對于假定當前關系的每一個線索，功能程序按次序評價與當前輸入文本關聯的被排序組的情況。在步驟1105，如果這組情況被滿足，功能程序繼續(xù)步驟1106，否則，功能程序繼續(xù)步驟1109。在步驟1106，如果當前關系早已經被假定，即，該關系出現在假定的關系的序列中，那么，功能程序繼續(xù)步驟1108，否則，功能程序繼續(xù)步驟1107。在步驟1107，功能程序增加該關系到假定的關系的序列。步驟1107之后，功能程序繼續(xù)步驟1108。在步驟1108，功能程序對當前關系增加當前線索的得分到總得分。步驟1108之后，功能程序繼續(xù)步驟1109。在步驟1109，功能程序返回到步驟1103，以對當前關系處理下個線索。在處理完所有線索之后，功能程序繼續(xù)步驟1110。在步驟1110，功能程序返回到步驟1102，以對當前排序的從句對處理下個關系類型。在處理完所有關系類型之后，功能程序繼續(xù)步驟1111。在步驟1111，功能程序返回到步驟1101，以處理下個排序的從句對。在處理完所有的排序的從句對之后，停止處理步驟。在圖11所示的步驟應用到表3所示的從句例子中，功能程序假定了表5所示的文體關系。對于每一個假定的關系，表5顯示了假定的關系的關系類型，排序從句對之間的關系被假定，條件組的線索被滿足，最后，通過把條件組的線索的得分相加在一起獲得的每一個假定關系，總的得分被滿足。<tablesid="table14"num="014"><table>#名稱從句線索和線索的基準總數1詳細描述1、2H25a“Usually(通常)”在從句2中。H25從句沒有并列，因為“it”指代“Theaardwolf(土狼)”，所以它們展示了主語的連續(xù)性。272對比1、3H4“However(然而)”在從句3中。253詳細描述1、3H38從句3的語法主題由“some(某些)”修飾。H25從句1是被動語態(tài)，從句1的Dobj與從句3的Dobj有相同的頭節(jié)點(“aardwo1f(土狼)”)204對比2、3H39兩個從句有相同的主動詞。H4從句3包括“however(然而)”。355詳細描述3、4H24從句4包括“forexample(例如)”，是緊跟從句3的句子。356非對稱對比4、5H2O從句5包括“whereas”。30</table></tables>表5假定的關系功能程序按照步驟203已經假定識別的從句之間的關系后，功能程序按照步驟204繼續(xù)應用假定關系對樣本輸入文本構建一個或多個文體結構樹。圖12是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便為輸入文本產生文體結構樹。在步驟1201-1205，功能程序把假定的關系分離裝入“袋子”以組織它們應用。分離之后，每個袋子包括所有關聯(任一方向)特殊從句對的假定關系。因此，袋子被創(chuàng)建，用于每一個被一個或多個假定的關系關聯的未排序從句對。此外，在每一個袋子內的假定關系以其得分降序排列，以及，袋子本身以其最高得分的降序排列。這個分離處理在幾個方面簡化了假定關系的應用。首先，把關聯特殊命題對的假定關系分離裝入單個袋子使得功能程序直接確保由假定關系的應用形成的每一個文體結構樹包括不超過一個關聯任何命題對的節(jié)點。其次，按照它們的得分排序袋子和在袋子內的假定關系并且以這種次序應用假定關系使得功能程序以可能正確性降序排列產生文體結構樹。以這種方式，功能程序能夠快速產生最可能正確的樹。在步驟1201-1205，功能程序通過每一個假定關系循環(huán)。對于每一個假定關系，在步驟1201，如果存在一個袋子用于假定未從句對之間的關系，那么，功能程序繼續(xù)步驟1204，否則，功能程序繼續(xù)步驟1203。在步驟1203，功能程序創(chuàng)建一個袋子用于假定未排序從句對之間的關系。步驟1203之后，功能程序繼續(xù)步驟1204。在步驟1204，功能程序把當前假定關系加到袋子用于假定未排序從句對之間的關系。在步驟1205，功能程序循環(huán)回到步驟1201處理下一個假定關系。在處理完所有的假定關系之后，功能程序繼續(xù)步驟1206。在步驟1206，功能程序在每一個袋子以其假定關系得分的降序排列。在步驟1207，功能程序排序袋子，以在每一個袋子中以第一個假定關系得分的降序排列，即，在每一個袋子中，以假定關系中最大得分的降序排列。表6顯示了袋子排序的例子。例如，包括假定關系2和3的袋子5是從句1和3。可以看到，袋子5中的假定關系從假定關系2的得分25降到假定關系3的得分20。還可以看到，袋子的最大得分從袋子1中的假定關系的得分35降到袋子5中的假定關系2的得分25。<tablesid="table15"num="015"><table>袋子號碼有關的從句假定關系數(表5)和得分12和34得分=3523和45得分=3534和56得分=3041和21得分=2754和52得分=25；3得分=20</table></tables>表6袋子的排序在步驟1208，功能程序創(chuàng)建一個空文體結構樹。在步驟1209，功能程序把這個空樹加到輸入文本內的每一個從句的終端節(jié)點。這些終端節(jié)點形成用于為輸入文本產生每一樹的基礎。圖13是附加終端節(jié)點到樹的文體結構樹的示意圖。在這些附加之后，樹1300包括終端節(jié)點1301-1305。在每一節(jié)點中的文本的第一行識別由節(jié)點覆蓋的從句組。根據定義的每一個終端節(jié)點只覆蓋單個從句。例如，終端節(jié)點1301至覆蓋從句1。每一節(jié)點還指明從它的覆蓋從句中“伸出”的從句，或它覆蓋從句中是最重要的從句之一。在步驟1210，功能程序調用命名為結構樹的遞歸的子程序，以便為輸入文本構建所要求的文體結構樹的號碼。在功能程序從遞歸調用返回之后，構建了所要求樹的號碼，最后，這些步驟結束。構建樹遞歸子程序的偽碼定義顯示在代碼方框1中。在高層，如果允許完整的運行，則構建樹將創(chuàng)建所有可能的與假定文體關系兼容的形成的很好的文體結構樹。然而，當實際實施時，研究人員指定所要求的樹的號碼——通常10或20。然后，構建樹產生規(guī)定號碼的樹或所有可能的樹，無論哪一個是較小的號碼。因為該算法首先產生較好的樹，所以，通常不需要在文體分析者做出是似是而非的分析之前產生許多樹。構建樹的遞歸、回溯性質防止構建大量不合適的樹。例如，考慮一個虛構的5個假定R1…R5的組，其中，應用R1之后的R2導致無效的樹。而不是試圖通過測試所有五個假定的交換構建假定，然后，只檢查樹發(fā)現通過應用{R1R2R3R4R5}或{R1R2R3R5R4}等形成的樹是無效的，構建樹應用R1，然后R2。這樣，立刻就確定了不合適子樹的結果，也沒有影響完成跟隨頭兩步構建任何樹。因此，甚至沒有產生整個6個樹，結果獲得高效率。由構建樹產生的樹存儲在序列中。可以使用每一個樹的根節(jié)點的值的屬性評價一個樹，因為值的屬性是通過附加用于構建樹的啟發(fā)式的關系的得分所確定，所以，通過使用具有高啟發(fā)式得分構建的樹將有比使用低啟發(fā)式得分的關系構建的樹較大的值。理想地，構建樹應當在低等級樹產生之前產生高等級的樹。不幸的很，構建樹偶爾產生失序的樹。為校正這個反常的情況，按照每一個樹的根節(jié)點的值的屬性將構建樹產生的樹的序列排序，以確保文體分析者對文本判斷是最好的分析的樹出現在頂部等級的樹，而似是而非的分析也出現在靠近排序表的頂部。代碼方框1用于構建樹子程序的偽碼在應用假定關系產生樹中，功能程序從袋子1開始，并試圖應用第一個假定關系，關系4。這個關系指定了從句2和3之間的對比關系。功能程序檢索樹的當前節(jié)點，“樹節(jié)點”，用于包括從句2的投射節(jié)點和包括從句3的投射節(jié)點。功能程序發(fā)現這兩個節(jié)點。功能程序從樹節(jié)點移動這些節(jié)點，并組合它們形成覆蓋從句2和3的新節(jié)點，然后，把這個新節(jié)點加回到樹節(jié)點。在這個點上，樹節(jié)點包括圖14給出的元素。然后，功能程序改變其它袋子的序列，即，袋子2、3、4、5。在第一個置換中，第一個袋子是袋子2。功能程序試圖應用袋子2中的第一個假定關系，假定5，該假定關系指定作為核心的從句3和作為附屬的從句4的詳細描述關系。功能程序在樹節(jié)點中檢索包括從句3的投射節(jié)點和包括從句4的投射節(jié)點。在樹節(jié)點中發(fā)現了這些投射的節(jié)點。由袋子1中的第一個假定的應用產生的對比節(jié)點，包括從句3的投射節(jié)點在它的投射中也包括從句2。只有當假定關系的最初序列，“最初假定”包括作為核心的從句2和作為附屬的從句4的詳細描述關系時，功能程序才可以附加從句4作為這個節(jié)點的附屬。因為沒有這樣的關系被假定，所以它沒有出現在最初假定中。因此，功能程序不能夠附加從句4作為這個節(jié)點的附屬。如果袋子2包括較多的假定關系，在這個階段，功能程序就會考慮它們。因為袋子2僅包括單個關系，所以功能程序已經完成當前袋子的處理，并移到袋子3。在袋子3中的第一個假定關系，關系6，指定一個非對稱關系，用從句4作為核心，從句5作為附屬。功能程序發(fā)現了包括這兩個從句的投射節(jié)點。并創(chuàng)建了如圖15所示的覆蓋從句4和5的新節(jié)點。然后，功能程序改變其它袋子的序列，即，袋子2、4、5。在第一個置換中，第一個袋子是袋子2。如上所述，盡管存在由關系指定的投射，袋子2包括不能應用的單個假定關系。因此，功能程序進到袋子4，應用關系1。關系1指定了作為核心的從句1和作為附屬的從句2的詳細描述關系。發(fā)現必不可少的投射節(jié)點。從句2出現在具有另一個投射的節(jié)點中，從句3。因為最初假定包括詳細描述關系，從句1作為核心，從句3作為附屬，如圖16所示，所以功能程序構建了覆蓋從句1到從句3的新節(jié)點。然后，功能程序改變其它袋子的序列，即，袋子2和5。在第一個置換中，第一個袋子是袋子2。在樹節(jié)點中，功能程序不能夠發(fā)現在袋子2中覆蓋從句3和4的假定關系的投射。因此，通過進一步考慮刪除袋子2，功能程序剪斷從當前置換得出的檢索空間內的所有節(jié)點。在這個特殊例子中，袋子2包括單個假定關系，刪除袋子2只剩下單個袋子，袋子5。然而，以這種方式剪斷檢索空間常常產生效率的基本提高。測量功能程序的執(zhí)行表明剪斷檢索空間大約減少三分之一通過一個袋子到另一個袋子的環(huán)路的次數。然后，功能程序移動并考慮袋子5。如同袋子2一樣，功能程序不能夠發(fā)現由袋子5中的假定關系指定的兩個透射。因此，功能程序進一步考慮刪除袋子5。因為沒有袋子剩下，所以，功能程序回溯到圖15的樹的狀態(tài)，并繼續(xù)處理。最后，樹節(jié)點包括圖17所示的兩個節(jié)點。然后，功能程序試圖從袋子4應用假定關系1。這個關系指定了作為頭節(jié)點的從句1合作為附屬節(jié)點的從句2的詳細描述關系。在樹節(jié)點的節(jié)點的透射中可以得到從句1和從句2。從句2作為也包括從句3的透射節(jié)點的透射存在。因為最初假定也包括從句1作為核心和從句3作為附屬的詳細描述關系，所以，功能程序結合從句1和覆蓋從句2到從句5的對比節(jié)點?，F在，如圖18所示，樹節(jié)點包括覆蓋從句1到從句5的單個節(jié)點。這個節(jié)點是代表樣本輸入文本的文體結構樹的頭節(jié)點。在步驟204，由功能程序使用構建樹子程序產生的文體結構樹是二叉樹，在二叉樹中，每一個非終端節(jié)點有兩個子節(jié)點。對于代表對稱關系的非終端節(jié)點，這兩個子節(jié)點都是核心。另一方面，對于代表非對稱關系的非終端節(jié)點，兩個子節(jié)點之一是比較重要的核心，而另一個是不重要的附屬。當二叉文體結構樹構成對他們產生的輸入文本的文體結構的完整表達時，某些文體結構樹的使用者偏愛用n叉樹表達文體結構樹。在n叉文體結構樹中，非終端節(jié)點可以有無限個子節(jié)點。代表對稱關系的非終端節(jié)點可以有任何數量的核心子節(jié)點。類似地，代表非對稱關系的非終端節(jié)點有一個核心子節(jié)點，可有有任何數量的附屬子節(jié)點。圖19是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便把二叉文體結構樹轉換為n叉文體結構樹。在步驟1901-1907，在文體結構樹的倒置遍歷中，功能程序在二叉文體結構樹中通過每一個終端節(jié)點循環(huán)。對于每一個終端節(jié)點，如果非終端節(jié)點有父節(jié)點，那么，功能程序繼續(xù)步驟1903，否則功能程序繼續(xù)步驟1907。在步驟1903，如果非終端節(jié)點代表對稱關系，那么，功能程序繼續(xù)步驟1904，否則非終端節(jié)點代表非對稱關系，功能程序繼續(xù)步驟1905。在步驟1904，當前非終端節(jié)點代表非對稱關系時，如果當前非終端節(jié)點的父節(jié)點代表了與當前非終端節(jié)點相同的關系時，那么，功能程序繼續(xù)步驟1906，把當前非終端節(jié)點并入它的父節(jié)點，否則，功能程序繼續(xù)步驟1907。在步驟1905，其中，當前非終端節(jié)點代表非對稱關系，如果父節(jié)點代表任何非對稱關系，那么，功能程序繼續(xù)步驟1906把當前非終端節(jié)點并入它的父節(jié)點，否則，功能程序繼續(xù)步驟1907。在步驟1906中把當前非終端節(jié)點并入它的父節(jié)點之后，功能程序繼續(xù)步驟1907。在步驟1907，功能程序循環(huán)回到步驟1901處理下一個文體結構樹的非終端節(jié)點。在處理完文體結構樹的所有非終端節(jié)點之后，二叉樹被轉換成為n叉樹，這些步驟停止。圖20和圖21是二叉文體結構樹轉換為n叉文體結構樹的示意圖。圖20是樣本二叉文體結構樹的文體結構樹的示意圖。二叉文體結構樹2000包括終端節(jié)點2001-2007。非終端節(jié)點2011代表作為它的核心的節(jié)點2003和作為它的附屬的節(jié)點2004的結果關系。非終端節(jié)點2012代表作為它的核心的節(jié)點2011和作為它的附屬的節(jié)點2005的手段關系。非終端節(jié)點2013代表作為它的核心的節(jié)點2012和作為它的附屬的節(jié)點2002的詳細描述關系。非終端節(jié)點2014代表作為它的核心的節(jié)點2013和作為它的附屬的節(jié)點2001的環(huán)境關系。節(jié)點2015代表作為它的核心的節(jié)點2014和2006的順序關系。最后，非終端節(jié)點2016代表作為它的核心的節(jié)點2014和2006的順序關系。從圖20可以看到，當每一個非終端節(jié)點確切地有兩個子節(jié)點時，這個文體結構樹是二叉文體結構樹。圖21是使用來自圖20的二叉文體結構樹的以圖19的逐漸降低的方式，功能程序構建的n叉文體結構樹的文體結構樹示意圖?？梢詮膱D21看出，在文體結構樹2100中，圖20所示的非終端節(jié)點2011-2013已經被組合成為節(jié)點2014，并形成節(jié)點2114。因此，非終端節(jié)點2014代表作為它的核心的節(jié)點2103和作為它的附屬的節(jié)點2104的結果關系。作為它的核心的節(jié)點2103和作為它的附屬的節(jié)點2105的手段關系。作為它的核心的節(jié)點2103和作為它的附屬的節(jié)點2102的詳細描述關系。作為它的核心的節(jié)點2013和作為它的附屬的節(jié)點2101的環(huán)境關系。此外，圖20所示的非終端節(jié)點2015已經被組合進入節(jié)點2016，形成非終端節(jié)點2016。同樣，非終端節(jié)點2116代表作為它的核心的節(jié)點2114、2106和2107的順序關系。在功能程序按照步驟205已經轉換產生的二叉文體結構樹成為n叉文體結構樹之后，功能程序按照步驟206從最高得分的文體結構樹繼續(xù)產生提要。圖22是由功能程序執(zhí)行的優(yōu)選步驟的流程圖，以便產生基于由功能程序產生的最高得分的文體結構樹的輸入文本的提要。這些步驟使用一個稱為“切斷深度”的整數值確定包括在提要中的詳細的級。切斷深度越小，包括在提要中的詳細信息越少。在步驟2201-2205，功能程序在最高得分文體結構樹中以深度優(yōu)先遍歷的順序通過每一個節(jié)點循環(huán)。對于每一個節(jié)點，如果節(jié)點在文體結構樹中至少象切斷深度一樣淺，那么，功能程序繼續(xù)步驟2203，否則，功能程序繼續(xù)步驟2205。定義每一個節(jié)點的深度是從文體結構樹的頭節(jié)點分離節(jié)點的附屬弧線的數。在步驟2203，如果在文體結構樹中，當前節(jié)點是終端節(jié)點，那么，功能程序繼續(xù)步驟2204，否則，功能程序繼續(xù)步驟2203。在步驟2204，功能程序把由當前節(jié)點代表的從句的文本的提要連接在一起。在步驟2205，功能程序循環(huán)回到步驟2201，在深度優(yōu)先遍歷中處理下一個節(jié)點。當處理完所有節(jié)點時，提要是完整的，這些步驟停止。如上所述，包括產生的提要的詳細的級是通過選擇切斷深度來控制，該切斷深度最好由使用者設置。表7顯示對每一個可能的切斷深度為樣本輸入文本產生的提要?？梢詮谋?看出，用較淺的切斷深度產生的提要比較簡明地概括了輸入文本，而用較深的切斷深度產生的提要包括輸入文本的詳細的附加內容。表7不同切斷深度產生的圖要當參考可仿效的實施例顯示和論述本發(fā)明時，本領域的技術人員將理解，形式上的各種改編和變體都沒有脫離本發(fā)明的范圍。例如，可以使用功能程序確定樣本輸入文本內的文體結構，其中，終端節(jié)點的文本比在此討論的從句大或小。同樣，可以使用功能程序確定自然語言表達而不是文本的形式內的文體結構，例如，語音和視頻符號，或以非文本形式表達的書寫的自然語言，例如，語言數據庫的參考序列。此外，功能程序可以直接使用從信息源而不是分列器得到的關于輸入文本的語法和語義信息，例如，從預編譯程序的語言數據庫得到的語法和語義信息。權利要求1．一種自動識別文本的文體結構的方法，在計算機系統(tǒng)中，確定定量的得分用于反映似然性的文體結構樹，以致文體結構樹正確地表征包括從句的文本的文體結構，文體結構樹包括代表從句的節(jié)點，節(jié)點包括終端節(jié)點和非終端節(jié)點，每一個非終端節(jié)點識別兩個或多個子節(jié)點之間的文體關系，只有一個節(jié)點是根節(jié)點并且該根節(jié)點不是任何節(jié)點的子節(jié)點，方法包括步驟對每一個非終端節(jié)點確定定量的得分用于反映似然性的當前節(jié)點所代表的文體關系，以致文體關系在當前節(jié)點的子節(jié)點所代表的從句之間被正確地識別，組合具有當前節(jié)點所代表的文體關系得分的任何非終端子節(jié)點的得分，以及，組合的得分歸屬到當前的節(jié)點；以及把根節(jié)點的得分歸屬到文體結構樹。2．按權利要求1所述的方法，其特征是組合的步驟包括把非終端子節(jié)點的得分與當前節(jié)點所代表的文體關系的得分相加。3．按權利要求1所述的方法，其特征是進一步包括步驟對表征文本的文體結構的多個文體結構樹的每一個重復列舉的步驟，以把得分歸到多個文體結構樹中的每一個；以及，選擇具有最大得分的文體結構樹作為優(yōu)選的文體結構樹。4．計算機可讀介質的內容引起計算機系統(tǒng)為自然語言表達產生一個文體結構樹，該自然語言表達表征了自然語言表達的文體結構，利用與自然語言表達有關的語法信息，執(zhí)行下述步驟在自然語言表達中，選擇多個從句；對每一個從句對，確定多個可能的文體關系的哪一個基于有關從句對的自然語言表達的語法結構的從句對之間的假定；以及應用從句的假定關系產生表征自然語言表達的文體結構的文體結構樹。5．按權利要求4所述的計算機可讀介質，其特征是計算機可讀介質的內容還引起計算機系統(tǒng)完成接收作為文本的自然語言表達的步驟。6．按權利要求4所述的計算機可讀介質，其特征是計算機可讀介質的內容還引起計算機系統(tǒng)完成接收作為語音的自然語言表達的步驟。7．按權利要求4所述的計算機可讀介質，其特征是計算機可讀介質的內容還引起計算機系統(tǒng)完成接收作為視頻符號的自然語言表達的步驟。8．按權利要求4所述的計算機可讀介質，其特征是確定的步驟確定了選擇的從句對之間的假定的文體關系，該選擇的從句對從有關的出現在選擇的從句對中的詞的語言數據庫獲得信息。9．按權利要求4所述的計算機可讀介質，其特征是，其特征是計算機可讀介質的內容還引起計算機系統(tǒng)完成從自然語言表達產生包括由本方法利用的語法信息的語法分析結果的步驟。10．按權利要求4所述的計算機可讀介質，其特征是計算機可讀介質的內容還引起計算機系統(tǒng)完成從自然語言表達產生包括由本方法利用的至少一部分語法信息的邏輯形式的步驟。11．按權利要求4所述的計算機可讀介質，其特征是進一步利用與自然語言表達有關的語義信息，其中，確定的步驟確定了基于有關的選擇的從句對的語義信息的區(qū)別從句對之間的假定文體關系。12．按權利要求4所述的計算機可讀介質，其特征是產生的樹由每一個在樹中具有一個深度的節(jié)點構成，該節(jié)點包括在自然語言表達中識別的代表從句的從句節(jié)點和應用到該從句的代表關系的關系節(jié)點，其中，計算機可讀介質的內容還引起計算機系統(tǒng)完成了產生自然語言表達的概要的步驟，該步驟是通過從自然語言表達從句中刪除在樹中的從句節(jié)點比預定的切斷深度深的從句節(jié)點。13．一種計算機存儲器包括文體關系假定數據結構，用于從句對之間的假定文體關系，對于多個關系的每一個，數據結構包括一個或多個項目的序列，每一個項目包括具有一個表明應用到有關從句對的語言信息次序的條件的序列；反映相對似然性的定量得分，以致關系正確定關聯了滿足條件的序列的從句對，所以，對于從句對、對于一個或多個關系、對于每一個項目，條件的序列可以應用到有關從句對的語言信息，如果條件的序列被滿足，則定量得分可以組成整個相對似然性的定量得分，以致關系正確地關聯了從句對。14．按權利要求13所述的計算機存儲器，其特征是每一個文體關系假定數據結構的條件的序列應用到有關從句對的語法信息。15．按權利要求13所述的計算機存儲器，其特征是每一個文體關系假定數據結構的條件的序列應用到有關從句對的語義信息。16．按權利要求13所述的計算機存儲器，其特征是每一個文體關系的條件的序列應用到有關從句對的語法信息和語義信息。17．按權利要求13所述的計算機存儲器，其特征是每一個文體關系假定數據結構的條件的序列應用到從語言數據庫獲得的在從句對內的有關詞的信息。18．一種裝置，用于識別一個或多個出現在自然語言文本中的兩個從句之間的可能的文體關系，對于多個可能的關系的每一個，包括存儲器存儲，對于多個可能的關系的每一個、一個或多個條件組，每一個條件與涉及兩個從句的文本的語法結構有關；以及，合理的關系識別子系統(tǒng)，對于多個可能的關系的每一個，識別可能的關系作為兩個從句之間的合理關系，其中，通過涉及從句對的文本的語法結構，滿足至少一個條件組的每一個條件。19．按權利要求18所述的裝置，其特征是存儲器存儲涉及兩個從句的有關文本的語法或語義結構的條件。20．按權利要求18所述的裝置，其特征是對于確定滿足每一個排序條件組，存儲器還存儲與代表似然性的滿足排序條件組有關的定量得分，以致基于滿足排序條件組的從句之間的當前可能的文體關系被正確地識別，裝置還包括得分子系統(tǒng)，對于確定滿足每一個排序條件組，該子系統(tǒng)把得到的定量得分加入總得分，用于當前可能的文體關系，以致在裝置操作之后，識別作為合理關系的每一個關系具有代表相對似然性的總得分，由于所有的條件組都滿足該關系，所以從句之間的關系被正確地識別。全文摘要本發(fā)明針對識別文本的文體結構。在優(yōu)選實施例中,文體結構識別功能程序例用與文本有關的語法信息,產生一個表征文本文體結構的文體結構樹。功能程序首先在文本中識別從句的號碼。然后,對每一個區(qū)別的從句對,根據有關的從句對的文本語法結構和語義,功能程序確定可能的文體關系的那一個號碼將在從句對之間被假定。然后,功能程序應用假定的關系到該從句,以便產生一個表征文本的文體結構的文體結構樹。在某些實施例中,功能程序從產生的文體結構樹中還產生一個反映了作者追求的最初目標的文本的提要。文檔編號G06F17/27GK1281564SQ98811864公開日2001年1月24日申請日期1998年10月15日優(yōu)先權日1997年10月20日發(fā)明者西蒙·科斯通,米格爾·卡多索·德坎普斯申請人:微軟公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：西蒙.科斯通;米格爾.卡多索.德坎普斯
技術所有人：微軟公司
我是此專利的發(fā)明人

上一篇：混合數據存儲和重建系統(tǒng)以及用于數據存儲裝置的方法
上一篇：調制解調器的控制方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

自動識別文本的文體結構的制作方法