欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種文本摘要生成方法及裝置的制造方法

文檔序號:10655076閱讀:260來源:國知局
一種文本摘要生成方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種文本摘要生成方法及裝置。該方法包括:對獲取到的文本信息進行主題劃分,得到主題列表;基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核心內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核心內(nèi)容的主題核心內(nèi)容列表;對所述主題核心內(nèi)容列表中存儲的各個所述主題核心內(nèi)容進行組合,得到文本摘要內(nèi)容。進而通過本發(fā)明能夠客觀準確地提取出文本摘要。
【專利說明】
-種文本摘要生成方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及自然語言處理領(lǐng)域,特別是設(shè)及一種文本摘要生成方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的不斷開發(fā)和完善,人們越來越多地依賴于網(wǎng)絡(luò)來獲取所需要的 信息和文獻內(nèi)容。摘要可W簡明地敘述文獻的內(nèi)容,能夠幫助人們在閱讀海量文獻時縮短 閱讀時間,所W文本摘要生成技術(shù)作為有效得瀏覽和查閱文本的手段之一,得到了快速的 發(fā)展。文本摘要生成技術(shù)是知識管理系統(tǒng)核屯、功能模塊之一,通過知識內(nèi)容或者知識關(guān)鍵 字生成知識摘要。
[0003] 目前,文本摘要的生成方法,通常采用通過定位文本關(guān)鍵字所在位置的段落,并按 照一定的字數(shù)闊值確定是否作為文本摘要;或者通過句法結(jié)構(gòu)分析并生成相應(yīng)的知識網(wǎng) 絡(luò),根據(jù)知識網(wǎng)絡(luò)生成摘要。但是現(xiàn)有技術(shù)中,文本摘要的生成方法具有一定的片面性,不 能準確客觀地提取出文本摘要內(nèi)容。

【發(fā)明內(nèi)容】

[0004] 針對于上述問題,本發(fā)明提供一種文本摘要生成方法及裝置,用W達到客觀準確 地提取出文本摘要的目的。
[0005] 為了實現(xiàn)上述目的,根據(jù)本發(fā)明的第一方面,提供了一種文本摘要生成方法,該方 法包括:
[0006] 對獲取到的文本信息進行主題劃分,得到主題列表,其中,所述文本信息包括文本 標題、文本正文和文本關(guān)鍵詞,所述主題列表中存儲主題劃分后的各個主題;
[0007] 基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提取所述各個 主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi) 容的主題核屯、內(nèi)容列表;
[000引對所述主題核屯、內(nèi)容列表中存儲的各個所述主題核屯、內(nèi)容進行組合,得到文本摘 要內(nèi)容。
[0009] 優(yōu)選的,所述對獲取到的文本信息進行主題劃分,得到主題列表,包括:
[0010] 根據(jù)段落換行標識對所述文本信息進行段落劃分,將得到多個段落存儲于段落列 表,其中將兩個所述段落換行標識之間的內(nèi)容作為一個段落,且將所述文本信息中第一個 所述段落換行標識之前的內(nèi)容作為文首段落,最后一個所述段落換行標識之后的內(nèi)容作為 文尾段落;
[0011] 對所述段落列表中的段落進行預(yù)處理,得到候選主題列表,其中,所述候選主題列 表中存儲預(yù)處理后的段落;
[0012] 利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別出相應(yīng)的主題 段落后輸出對應(yīng)的主題列表。
[0013] 優(yōu)選的,所述利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別 出相應(yīng)的主題段落后輸出對應(yīng)的主題列表,包括:
[0014] 判斷所述候選主題列表中的段落是否滿足所述第一主題區(qū)分標識規(guī)則中的特征, 若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所 述第一主題區(qū)分標識規(guī)則為段落首字符為中文數(shù)字字符,所述中文數(shù)字字符后的第一個字 符或第二個字符為標點字符或空格;
[0015] 判斷所述候選主題列表中的段落是否滿足所述第二主題區(qū)分標識規(guī)則中的特征, 若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所 述第二主題區(qū)分標識規(guī)則為段落首字符為標點字符,所述標點字符后的第一個字符為中文 數(shù)字字符;
[0016] 當所述候選主題列表中的段落均不滿足所述第一主題區(qū)分標識規(guī)則和所述第二 主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第=主題區(qū)分 標識規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候 選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第=主題區(qū)分標識 規(guī)則為段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符或第二個字符為標點字符或 空格,所述第四主題區(qū)分標識規(guī)則為段落首字符為特殊字符;
[0017] 當所述候選主題列表中的段落均不滿足所述第一、第二、第=和第四主題區(qū)分標 識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第五主題區(qū)分標識規(guī)則或 第六主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候選主題列表 中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第五主題區(qū)分標識規(guī)則為段落 最后兩個字符中的一個為中文字符,并且所述段落的最后一個字符為標點字符或數(shù)字字 符,所述第六主題區(qū)分標識規(guī)則為段落最后一個字符為中文字符,并且所述段落結(jié)尾處無 標點字符;
[0018] 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前 言內(nèi)容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出 相應(yīng)的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征 時,則將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。
[0019] 優(yōu)選的,所述對所述段落列表中的段落進行預(yù)處理,包括:
[0020] 去除所述段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的 空格、換行符、制表符或回車符中的任意一個或多個;
[0021] 排除所述段落列表中所述段落的特殊段落,其中,所述特殊段落包括所述段落列 表中的段落字數(shù)大于50或者字數(shù)小于2的段落,沒有包含漢字的段落和圖表中的任意一種 或幾種;
[0022] 將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主題列表中。
[0023] 優(yōu)選的,所述基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別 提取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng) 的主題核屯、內(nèi)容的主題核屯、內(nèi)容列表,包括:
[0024] 根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容進 行分句,將得到的各個句子基于句子列表規(guī)則進行篩選后,存儲于句子列表,其中,所述句 子列表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或若句子在所述句子列表 中不存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定的句子長度闊值,則存 儲于所述句子列表中;
[0025] 對所述句子列表中的句子進行句子綜合得4
計算,并對所述句子綜合 得分進行排序,得到候選句子列表,其中,?為第j條句子的綜合得分,Pi為第j條句子的歸一 化i項指數(shù)得分,扣為第i項指數(shù)權(quán)重,其中,j的取值范圍為大于2的正整數(shù),i的取值范圍為 小于6的正整數(shù),所述指數(shù)為句子綜合評價指數(shù),包括:句子與主題關(guān)聯(lián)度指數(shù)、句子在主題 中的位置指數(shù)、包含特殊詞匯指數(shù)、包含關(guān)鍵詞指數(shù)和句子詞頻指數(shù);
[0026] 根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題的核屯、內(nèi)容句 子;
[0027] 根據(jù)核屯、內(nèi)容句子組合規(guī)則對所述各個主題的核屯、內(nèi)容句子進行組合,得到所述 各個主題所對應(yīng)的主題核屯、內(nèi)容,并構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi)容的主題 核屯、內(nèi)容列表,其中,所述核屯、內(nèi)容句子組合規(guī)則,包括根據(jù)所述核屯、內(nèi)容句子在所述主題 列表中各個主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核屯、內(nèi)容句子進行組合,和/或去 除所述核屯、內(nèi)容句子中的句首序號后,對所述核屯、內(nèi)容句子進行組合,和/或?qū)λ龊送?、?nèi) 容句子的句尾標點符號統(tǒng)一為句號后,對所述核屯、內(nèi)容句子進行組合,和/或?qū)λ龊送?、?nèi) 容句子的句尾沒有標點符號的統(tǒng)一加上句號后,對所述核屯、內(nèi)容句子進行組合。
[0028] 優(yōu)選的,根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題的核屯、 內(nèi)容句子,包括:
[0029] 根據(jù)預(yù)設(shè)文本摘要長度闊值,得到文本壓縮率p = a/s,其中,a為所述文本摘要長 度闊值,S為所述文本全文長度;
[0030] 根據(jù)所述文本壓縮率P,得到當前所述主題核屯、內(nèi)容長度闊值w=p*l,其中,1為所 述當前主題內(nèi)容長度;
[0031] 根據(jù)所述當前主題核屯、內(nèi)容長度闊值W,對所述候選句子列表中的句子長度從高 到低進行排序選取句子,得到所述各個主題的核屯、內(nèi)容句子。
[0032] 根據(jù)本發(fā)明的第二個方面,提供了一種一種文本摘要生成裝置,,該裝置包括:
[0033] 劃分模塊,用于對獲取到的文本信息進行主題劃分,得到主題列表,其中,所述文 本信息包括文本標題、文本正文和文本關(guān)鍵詞,所述主題列表中存儲主題劃分后的各個主 題;
[0034] 提取模塊,用于基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分 別提取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對 應(yīng)的主題核屯、內(nèi)容的主題核屯、內(nèi)容列表;
[0035] 組合模塊,用于對所述主題核屯、內(nèi)容列表中存儲的各個所述主題核屯、內(nèi)容進行組 合,得到文本摘要內(nèi)容。
[0036] 優(yōu)選的,所述劃分模塊包括:
[0037] 段落劃分單元,用于根據(jù)段落換行標識對所述文本信息進行段落劃分,將得到多 個段落存儲于段落列表,其中將兩個所述段落換行標識之間的內(nèi)容作為一個段落,且將所 述文本信息中第一個所述段落換行標識之前的內(nèi)容作為文首段落,最后一個所述段落換行 標識之后的內(nèi)容作為文尾段落;
[0038] 預(yù)處理單元,用于對所述段落列表中的段落進行預(yù)處理,得到候選主題列表,其 中,所述候選主題列表中存儲預(yù)處理后的段落;
[0039] 識別單元,用于利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識 別出相應(yīng)的主題段落后輸出對應(yīng)的主題列表。
[0040] 優(yōu)選的,所述識別單元,包括:
[0041] 第一識別單元,用于判斷所述候選主題列表中的段落是否滿足所述第一主題區(qū)分 標識規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的 主題列表,其中,所述第一主題區(qū)分標識規(guī)則為段落首字符為中文數(shù)字字符,所述中文數(shù)字 字符后的第一個字符或第二個字符為標點字符或空格;
[0042] 第二識別單元,用于判斷所述候選主題列表中的段落是否滿足所述第二主題區(qū)分 標識規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的 主題列表,其中,所述第二主題區(qū)分標識規(guī)則為段落首字符為標點字符,所述標點字符后的 第一個字符為中文數(shù)字字符;
[0043] 第=識別單元,用于當所述候選主題列表中的段落均不滿足所述第一主題區(qū)分標 識規(guī)則和所述第二主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足 所述第=主題區(qū)分標識規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均 滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述 第=主題區(qū)分標識規(guī)則為段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符或第二個 字符為標點字符或空格,所述第四主題區(qū)分標識規(guī)則為段落首字符為特殊字符;
[0044] 第四識別單元,用于當所述候選主題列表中的段落均不滿足所述第一、第二、第= 和第四主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第五主 題區(qū)分標識規(guī)則或第六主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個都滿足,則將 所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第五主題區(qū) 分標識規(guī)則為段落最后兩個字符中的一個為中文字符,并且所述段落的最后一個字符為標 點字符或數(shù)字字符,所述第六主題區(qū)分標識規(guī)則為段落最后一個字符為中文字符,并且所 述段落結(jié)尾處無標點字符;
[0045] 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前 言內(nèi)容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出 相應(yīng)的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征 時,則將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。
[0046] 優(yōu)選的,在所述預(yù)處理單元對所述段落列表中的段落進行預(yù)處理時,所述預(yù)處理 單元具體用于:
[0047] 去除所述段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的 空格、換行符、制表符或回車符中的任意一個或多個;
[0048] 排除所述段落列表中所述段落的特殊段落,其中,所述特殊段落包括所述段落列 表中的段落字數(shù)大于50或者字數(shù)小于2的段落,沒有包含漢字的段落和圖表中的任意一種 或幾種;
[0049] 將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主題列表中。
[0050] 優(yōu)選的,所述提取模塊包括:
[0051] 分句單元,用于根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中的相 應(yīng)文本內(nèi)容進行分句,將分句后得到的句子基于句子列表規(guī)則進行篩選后,存儲于句子列 表中,其中,所述句子列表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或若句 子在所述句子列表中不存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定的句 子長度闊值,則存儲于所述句子列表中;
[0052] 第一計算單元,用于對所述句子列表中的句子進行句子綜合得^
十 算,并對所述句子綜合得分進行排序,得到候選句子列表,其中,Sj為第j條句子的綜合得 分,Pi為第j條句子的歸一化i項指數(shù)得分,扣為第i項指數(shù)權(quán)重,其中J的取值范圍為大于2 的正整數(shù),i的取值范圍為小于6的正整數(shù),所述指數(shù)為句子綜合評價指數(shù),包括:句子與主 題關(guān)聯(lián)度指數(shù)、句子在主題中的位置指數(shù)、包含特殊詞匯指數(shù)、包含關(guān)鍵詞指數(shù)和句子詞頻 指數(shù);
[0053] 處理單元,用于根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題 的核屯、內(nèi)容句子;
[0054] 組合單元,用于根據(jù)核屯、內(nèi)容句子組合規(guī)則對所述各個主題的核屯、內(nèi)容句子進行 組合,得到所述各個主題所對應(yīng)的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核 屯、內(nèi)容的主題核屯、內(nèi)容列表,其中,所述核屯、內(nèi)容句子組合規(guī)則,包括根據(jù)所述核屯、內(nèi)容句 子在所述主題列表中各個主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核屯、內(nèi)容句子進行 組合,和/或去除所述核屯、內(nèi)容句子中的句首序號后,對所述核屯、內(nèi)容句子進行組合,和/或 對所述核屯、內(nèi)容句子的句尾標點符號統(tǒng)一為句號后,對所述核屯、內(nèi)容句子進行組合,和/或 對所述核屯、內(nèi)容句子的句尾沒有標點符號的統(tǒng)一加上句號后,對所述核屯、內(nèi)容句子進行組 厶 1=1 O
[0化日]優(yōu)選的,所述處理單元包括:
[0056] 第二計算單元,用于根據(jù)預(yù)設(shè)文本摘要長度闊值,得到文本壓縮率p = a/s,其中,a 為所述文本摘要長度闊值,S為所述文本全文長度;
[0057] 第=計算單元,用于根據(jù)所述文本壓縮率P,得到當前所述主題核屯、內(nèi)容長度闊值 w = p*l,其中,1為所述當前主題內(nèi)容長度;
[0058] 排序單元,用于根據(jù)所述當前主題核屯、內(nèi)容長度闊值W,對所述候選句子列表中的 句子長度從高到低進行排序選取句子,得到所述主題列表中各個主題的核屯、內(nèi)容句子。
[0059] 相較于現(xiàn)有技術(shù),本發(fā)明基于對文本信息進行主題劃分,并提取出各個主題中的 核屯、內(nèi)容,將各個主題的核屯、內(nèi)容進行組合得到文本摘要內(nèi)容,進而本發(fā)明采用分主題對 核屯、內(nèi)容進行提取,避免了文本摘要內(nèi)容的片面性,能夠客觀準確地提取出文本摘要。
【附圖說明】
[0060] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可W根據(jù) 提供的附圖獲得其他的附圖。
[0061 ]圖1為本發(fā)明實施例一提供的文本摘要生成的方法流程示意圖;
[0062] 圖2為示出圖I所示的文本摘要生成方法中的Sll步驟中的詳細處理的流程示意 圖;
[0063] 圖3為示出圖1所示的文本摘要生成方法中的S12步驟中的詳細處理的流程示意 圖;
[0064] 圖4為本發(fā)明實施例二提供的文本摘要生成的裝置結(jié)構(gòu)示意圖;
[0065] 圖5為本發(fā)明實施例二中識別單元的裝置結(jié)構(gòu)示意圖;
[0066] 圖6為本發(fā)明實施例二中處理單元的裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0067] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0068] 本發(fā)明的說明書和權(quán)力要求書及上述附圖中的術(shù)語"第一"和"第二"等是用于區(qū) 別不同的對象,而不是用于描述特定的順序。此外術(shù)語"包括"和"具有"W及他們?nèi)魏巫冃危?意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè) 備沒有設(shè)定于已列出的步驟或單元,而是可包括沒有列出的步驟或單元。
[0069] 實施例一
[0070] 參見圖1為本發(fā)明實施例一提供的文本摘要生成的方法流程示意圖,該方法包括 W下步驟:
[0071] S11、對獲取到的文本信息進行主題劃分,得到主題列表后,執(zhí)行S12;
[0072] 其中,所述文本信息包括文本標題、文本正文和文本關(guān)鍵詞;主題列表中存儲主題 劃分后的各個主題。
[0073] S12、基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提取所述 各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核 屯、內(nèi)容的主題核屯、內(nèi)容列表后,執(zhí)行S13;
[0074] 其中,先確定所述主題列表中的各個主題所對應(yīng)的文本內(nèi)容,該文本內(nèi)容來源于 文本正文,然后提取出每個主題各自對應(yīng)的文本內(nèi)容的主題核屯、內(nèi)容,最后生成主題核屯、 內(nèi)容列表,將各個主題所對應(yīng)的主題核屯、內(nèi)容存儲于主題核屯、內(nèi)容列表中。
[0075] S13、對所述主題核屯、內(nèi)容列表中存儲的各個所述主題核屯、內(nèi)容進行組合,得到文 本摘要內(nèi)容。
[0076] 優(yōu)選的,如圖2所示,在文本摘要生成方法中對獲取到的文本信息進行主題劃分, 得到主題列表的主題劃分步驟Sll可W進一步包括:
[0077] S21、根據(jù)段落換行標識對所述文本信息進行段落劃分,將得到多個段落存儲于段 落列表后,執(zhí)行S22;
[0078] 其中,所述段落劃分標識可W采用段落尾部標識Vn"識別,也可W采用其他可W 應(yīng)用到段落劃分上的段落換行標識,進一步地將兩個所述段落換行標識之間的內(nèi)容作為一 個段落,且將所述文本信息中第一個所述段落換行標識之前的內(nèi)容作為文首段落,最后一 個所述段落換行標識之后的內(nèi)容作為文尾段落。
[0079] S22、對所述段落列表中的段落進行預(yù)處理,得到候選主題列表后,執(zhí)行步驟S23;
[0080] 其中,所述候選主題列表中存儲預(yù)處理后的段落。對所述段落列表中的段落進行 預(yù)處理具體為:去除段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的 空格、換行符、制表符或回車符中的任意一個或多個;排除所述段落列表中所述段落的特殊 段落,具體的,所述特殊段落包括所述段落列表中的段落字數(shù)大于50或者字數(shù)小于2的段 落,沒有包含漢字的段落,即純英文或者不能識別字符的段落,或者其他沒有包含漢字的段 落,和圖表即圖例或者列表等格式中的任意一種或幾種,進一步說明所述特殊段落并不局 限于上述舉例的幾種情況;將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主 題列表中。
[0081] S23、利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別出相應(yīng)的 主題段落后輸出對應(yīng)的主題列表;
[0082] 其中,所述主題區(qū)分標識規(guī)則,分為W下幾種:
[0083] 第一主題區(qū)分標識規(guī)則,段落首字符為中文數(shù)字字符,所述中文數(shù)字字符后的第 一個字符或第二個字符為標點字符或空格,具體為,段落首字符為"一"、"二"、"立四"、 "五"、''六"、''屯"、''八"、''九"、''十"中的任意一個,上述中文數(shù)字字符后的第一個字符或第 二個字符為V'、V'、V'、V'、、V'或者空格中的任意一個;
[0084] 第二主題區(qū)分標識規(guī)則,段落首字符為標點字符,所述標點字符后的第一個字符 為中文數(shù)字字符,具體為,段落首字符為"r、"r中的任意一個,所述標 點字符后的第一個字符為"一"、"二"、"三'、"四"、"五"、"六"、"屯'、"八"、"九"、"十"中的任 意一個中的任意一個.
[0085] 第=主題區(qū)分標識規(guī)則,段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符 或第二個字符為標點字符或空格,具體為,段落首字符為1、2、3、4、5、6、7、8、9等數(shù)字字符, 上述數(shù)字字符后的第一個字符或第二個字符為"或者空格中的任 意一個;
[0086] 第四主題區(qū)分標識規(guī)則,段落首字符為特殊字符,具體的,特殊字符包括:"①"、 。②"、。③"、。④"、。⑤"、。⑦"、。⑥"、。⑧"、。⑨"、。⑩"、''⑩"、 "⑩"、。猶"、"做< 猿,'、、"間"、"間"、"(4)"、"間"、"(6)"、"(7)"、"牌'、"(9廣、 "(10)"、"(ir、"(12)"、"(ir、"(14)"、"(15)"、"(16)"、"1."、。么"、''3. "、"4."、"5."、"6. "、"7."、"8."、 "9."、"i〇/v'ii/v'i2/v'i3/v'i4/vi5/v'i6/v'rv'ir、"iirv'ir、"v"、"vrv'vir、 VIII、IX、X、XI、XII、I、吐、111、:LV、V 、Vi、Vii、Viii、IX、 "X"、"0"、、"貸"梯"、"@,,、":0"、"貸"、"⑩巧、…,、"0"、"(=)"、 "(Hf、"(四r、"妨V'樹v'(屯r、"(A)"、"佩v'(十r等特殊字符種的任意一個;
[0087] 第五主題區(qū)分標識規(guī)則,段落最后兩個字符中的一個為中文字符,并且所述段落 的最后一個字符為標點字符或數(shù)字字符,具體為,段落最后兩個字符中的一個為中文字符, 并且所述段落的最后一個字符為T'、T'、T'或者數(shù)字字符中的任意一個;
[0088] 第六主題區(qū)分標識規(guī)則,段段落最后一個字符為中文字符,并且所述段落結(jié)尾處 無標點字符;
[0089] 具體的利用所述主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別出 相應(yīng)的主題段落后輸出對應(yīng)的主題列表為:
[0090] 判斷所述候選主題列表中的段落是否滿足所述第一主題區(qū)分標識規(guī)則中的特征, 若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表;
[0091] 判斷所述候選主題列表中的段落是否滿足所述第二主題區(qū)分標識規(guī)則中的特征, 若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表;
[0092] 當所述候選主題列表中的段落均不滿足所述第一主題區(qū)分標識規(guī)則和所述第二 主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第=主題區(qū)分 標識規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候 選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表;
[0093] 當所述候選主題列表中的段落均不滿足所述第一、第二、第=和第四主題區(qū)分標 識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第五主題區(qū)分標識規(guī)則或 第六主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候選主題列表 中的段落識別為主題段落,輸出相應(yīng)的主題列表;
[0094] 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前 言內(nèi)容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出 相應(yīng)的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征 時,則將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。
[0095] 優(yōu)選的,如圖3所示,在文本摘要生成方法中對基于所述各個主題所對應(yīng)的所述文 本正文中的相應(yīng)文本內(nèi)容,分別提取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi) 容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi)容的主題核屯、內(nèi)容列表步驟S12可W進一 步包括:
[0096] S31、根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi) 容進行分句,將得到的各個句子基于句子列表規(guī)則進行篩選后,存儲于句子列表;
[0097] 其中,所述句子結(jié)尾標識可 W為 "!"、"!"、'V'、。?"、。?"、V、V、"\n"、'V"、"\t" 中的任意一種;所述句子列表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或 若句子在所述句子列表中不存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定 的句子長度闊值,則存儲于所述句子列表中。
[0098] S32、對所述句子列表中的句子進行句子綜合得S
計算,并對所述句子 綜合得分進行排序,得到候選句子列表;
[0099] 其中,所述句子綜合得分計算是根據(jù)句子綜合評價指數(shù)分別對應(yīng)不同的權(quán)重,將 分項指數(shù)歸一化處理后各自乘W對應(yīng)權(quán)重:
[0100]
[0101] 其中,Sj為第j條句子的綜合得分,Pi為第j條句子的歸一化i項指數(shù)得分,扣為第i 項指數(shù)權(quán)重,其中,j的取值范圍為大于2的正整數(shù),i的取值范圍為小于6的正整數(shù);
[0102] 所述指數(shù)為句子綜合評價指數(shù),包括:句子與主題關(guān)聯(lián)度指數(shù),即通過句子與主題 句進行相似性比較,得出該指數(shù),相似性越高說明該句子越接近該主題,內(nèi)容越重要,反之 則說明內(nèi)容越邊緣;句子在主題中的位置指數(shù),即通常情況下,根據(jù)書寫習慣,首尾內(nèi)容往 往起到開篇總結(jié)的作用,所W該指數(shù)呈V形分布,越接近中間的句子得分越低,重要性越弱, 反之重要性越強;包含特殊詞匯指數(shù),即根據(jù)大量文本內(nèi)容統(tǒng)計,文中包含"總之"、"總而言 之"、"綜述"、"最后"等詞匯句子通常具有特殊意義,非常接近主題核屯、內(nèi)容,如果句子包含 運些特殊詞匯集中內(nèi)容,則具有相應(yīng)的指數(shù)得分,否則該指數(shù)得分為O;包含關(guān)鍵詞指數(shù),即 文本關(guān)鍵詞本身具有一定的指示作用,能對全文核屯、內(nèi)容做一定的提示作用,所W包含文 本關(guān)鍵詞越多的句子指數(shù)越高,句子對于全文越重要,反之重要性越弱;句子詞頻指數(shù),即 主要考量句子詞頻在主題內(nèi)容詞頻中所占的比重,比重越大,句子得分越高,句子重要性越 強。
[0103] S33、根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題的核屯、內(nèi)容 句子;
[0104] 其中,步驟S33具體為:
[0105] 根據(jù)預(yù)設(shè)文本摘要長度闊值,得到文本壓縮率p = a/s,其中,a為所述文本摘要長 度闊值,S為所述文本全文長度;
[0106] 根據(jù)所述文本壓縮率P,得到當前所述主題核屯、內(nèi)容長度闊值w = p*l,其中,1為所 述當前主題內(nèi)容長度;
[0107] 根據(jù)所述當前主題核屯、內(nèi)容長度闊值W,對所述候選句子列表中的句子長度從高 到低進行排序選取句子,得到所述各個主題的核屯、內(nèi)容句子。
[0108] S34、根據(jù)核屯、內(nèi)容句子組合規(guī)則對所述各個主題的核屯、內(nèi)容句子進行組合,得到 所述各個主題所對應(yīng)的主題核屯、內(nèi)容,并構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi)容的 主題核屯、內(nèi)容列表;
[0109] 其中,所述核屯、內(nèi)容句子組合規(guī)則,包括根據(jù)所述核屯、內(nèi)容句子在所述主題列表 中各個主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核屯、內(nèi)容句子進行組合;和/或去除所 述核屯、內(nèi)容句子中的句首序號后,對所述核屯、內(nèi)容句子進行組合,具體例如,去除"1."、 "(2)."等不必要的格式;和/或?qū)λ龊送?、?nèi)容句子的句尾標點符號統(tǒng)一為句號后,對所述 核屯、內(nèi)容句子進行組合,具體例如,句尾V'、"妒等,將其統(tǒng)一轉(zhuǎn)換為V';和/或?qū)λ?核屯、內(nèi)容句子的句尾沒有標點符號的統(tǒng)一加上句號后,對所述核屯、內(nèi)容句子進行組合,具 體例如,句尾W T'、"%"等符號結(jié)尾句子,統(tǒng)一加上V'。
[0110] 在本發(fā)明實施例一中的文本摘要生成方法是基于對文本信息進行主題劃分,并提 取出各個主題中的核屯、內(nèi)容,最后將各個主題的核屯、內(nèi)容進行組合得到文本摘要內(nèi)容,由 于采用了分主題的方式提取相應(yīng)的核屯、內(nèi)容,避免了文本摘要內(nèi)容的片面性,能夠客觀準 確地提取出文本摘要。
[0111] 本發(fā)明可W應(yīng)用到用戶需要對各種文本內(nèi)容進行文本摘要生成的場景中。例如:
[0112] 根據(jù)本發(fā)明一些實施例中的具體描述,當獲取到的文本信息具體為W下內(nèi)容:
[0113] 文本中日韓領(lǐng)導人齊聲促談=邊自貿(mào)協(xié)定
[0114] 文本正文簡要概括為如下內(nèi)容:
[011引時隔S年,……。
[0116] 日方態(tài)度成為關(guān)鍵因素
[0117] 由于中韓已經(jīng)在今年6月1日正式簽署了自貿(mào)協(xié)定,……。
[0118] ……,促進區(qū)域價值鏈進一步融合。
[0119] 關(guān)注S國經(jīng)貿(mào)合作新方向
[0120] 不管中日韓自貿(mào)區(qū)和區(qū)域全面經(jīng)濟伙伴關(guān)系何時達成,……。
[0121] ……,運也顯示還有很大的潛力可挖。
[0122] 文本關(guān)鍵詞:自貿(mào)協(xié)定中日韓領(lǐng)導人關(guān)鍵因素國內(nèi)生產(chǎn)總值伙伴關(guān)系
[0123] 根據(jù)本發(fā)明一些實施例中的具體描述,對上述文本信息進行主題劃分,得到主題 列表,其中所述主題列表中存儲的主題劃分后的各個主題為:
[0124] 前言內(nèi)容
[0125] 日方態(tài)度成為關(guān)鍵因素 [01%] RCEP有望成為前奏
[0127] 關(guān)注S國經(jīng)貿(mào)合作新方向
[0128] 根據(jù)本發(fā)明一些實施例中的具體描述,對上述各個主題所對應(yīng)的文本正文中的相 應(yīng)文本內(nèi)容,分別提取上述各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容,構(gòu)成存儲所 述各個主題所對應(yīng)的主題核屯、內(nèi)容的主題核屯、內(nèi)容列表,例如:主題為"前言內(nèi)容"所對應(yīng) 的核屯、內(nèi)容記為第一核屯、內(nèi)容,主題為"日方態(tài)度成為關(guān)鍵因素"所對應(yīng)的核屯、內(nèi)容記為第 二核屯、內(nèi)容,主題為"RCEP有望成為前奏"所對應(yīng)的核屯、內(nèi)容記為第=核屯、內(nèi)容,主題為"關(guān) 注=國經(jīng)貿(mào)合作新方向"所對應(yīng)的核屯、內(nèi)容記為第四核屯、內(nèi)容,所述主題核屯、內(nèi)容列表為: 第一核屯、內(nèi)容,第二核屯、內(nèi)容,第S核屯、內(nèi)容和第四核屯、內(nèi)容。
[0129] 根據(jù)本發(fā)明一些實施例中的具體描述,對上述主題核屯、內(nèi)容列表中存儲的第一核 屯、內(nèi)容、第二核屯、內(nèi)容、第=核屯、內(nèi)容和第四核屯、內(nèi)容進行組合,得到文本摘要。
[0130] 從上述例子中,可W看出本發(fā)明的文本摘要生成方法是對獲取到的文本正文進行 主題劃分,并提取出各個主題所對應(yīng)的核屯、內(nèi)容,再將各個主題所對應(yīng)的核屯、內(nèi)容進行組 合,即得到文本摘要內(nèi)容,運樣可W避免片面地選取文本內(nèi)容作為文本摘要,使生成的文本 摘要具有客觀性和準確性。
[0131] 實施例二
[0132] 與根據(jù)本發(fā)明實施例一的文本摘要生成方法相對應(yīng),本發(fā)明的實施例二還提供了 一種文本摘要生成裝置,參見圖4到圖6為為本發(fā)明實施例二提供的文本摘要生成的裝置及 具體組成模塊或單元的結(jié)構(gòu)示意圖,該裝置具體包括:
[0133] 劃分模塊401,用于對獲取到的文本信息進行主題劃分,得到主題列表,其中,所述 文本信息包括文本標題、文本正文和文本關(guān)鍵詞,所述主題列表中存儲主題劃分后的各個 主題;
[0134] 其中,所述劃分模塊401具體包括:
[0135] 段落劃分單元4011,用于根據(jù)段落換行標識對所述文本信息進行段落劃分,將得 到多個段落存儲于段落列表,其中將兩個所述段落換行標識之間的內(nèi)容作為一個段落,且 將所述文本信息中第一個所述段落換行標識之前的內(nèi)容作為文首段落,最后一個所述段落 換行標識之后的內(nèi)容作為文尾段落;
[0136] 預(yù)處理單元4012,用于對所述段落列表中的段落進行預(yù)處理,得到候選主題列表, 其中,所述候選主題列表中存儲預(yù)處理后的段落;
[0137] 具體地,所述預(yù)處理單元4012用于:
[0138] 去除所述段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的 空格、換行符、制表符或回車符中的任意一個或多個;
[0139] 排除所述段落列表中所述段落的特殊段落,其中,所述特殊段落包括所述段落列 表中的段落字數(shù)大于50或者字數(shù)小于2的段落,沒有包含漢字的段落和圖表中的任意一種 或幾種;
[0140] 將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主題列表中。
[0141] 識別單元4013,用于利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并 在識別出相應(yīng)的主題段落后輸出對應(yīng)的主題列表;
[0142] 參見圖5為本發(fā)明實施例二中識別單元的裝置結(jié)構(gòu)示意圖,所述識別單元4013具 體包括:
[0143] 第一識別單元501,用于判斷所述候選主題列表中的段落是否滿足所述第一主題 區(qū)分標識規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相 應(yīng)的主題列表,其中,所述第一主題區(qū)分標識規(guī)則為段落首字符為中文數(shù)字字符,所述中文 數(shù)字字符后的第一個字符或第二個字符為標點字符或空格;
[0144] 第二識別單元502,用于判斷所述候選主題列表中的段落是否滿足所述第二主題 區(qū)分標識規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相 應(yīng)的主題列表,其中,所述第二主題區(qū)分標識規(guī)則為段落首字符為標點字符,所述標點字符 后的第一個字符為中文數(shù)字字符;
[0145] 第=識別單元503,用于當所述候選主題列表中的段落均不滿足所述第一主題區(qū) 分標識規(guī)則和所述第二主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否 滿足所述第=主題區(qū)分標識規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩 個均滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中, 所述第=主題區(qū)分標識規(guī)則為段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符或第 二個字符為標點字符或空格,所述第四主題區(qū)分標識規(guī)則為段落首字符為特殊字符;
[0146] 第四識別單元504,用于當所述候選主題列表中的段落均不滿足所述第一、第二、 第=和第四主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第 五主題區(qū)分標識規(guī)則或第六主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個都滿足, 則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第五主 題區(qū)分標識規(guī)則為段落最后兩個字符中的一個為中文字符,并且所述段落的最后一個字符 為標點字符或數(shù)字字符,所述第六主題區(qū)分標識規(guī)則為段落最后一個字符為中文字符,并 且所述段落結(jié)尾處無標點字符;
[0147] 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前 言內(nèi)容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出 相應(yīng)的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征 時,則將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。
[0148] 接下來,返回參照圖4,將繼續(xù)描述本發(fā)明實施例二的文本摘要生成裝置。
[0149] 在通過劃分模塊401確定了主題列表后,進入提取模塊402,用于基于所述各個主 題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提取所述各個主題相應(yīng)的所述文本內(nèi)容 中的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi)容的主題核屯、內(nèi)容列表;
[0150] 其中所述提取模塊402,進一步包括:
[0151] 分句單元4021,用于根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中 的相應(yīng)文本內(nèi)容進行分句,將分句后得到的句子基于句子列表規(guī)則進行篩選后,存儲于句 子列表中,其中,所述句子列表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或 若句子在所述句子列表中不存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定 的句子長度闊值,則存儲于所述句子列表中;
[0152] 第一計算單元4022,用于對所述句子列表中的句子進行句子綜合得為
計算,并對所述句子綜合得分進行排序,得到候選句子列表,其中,?為第j條句子的綜合得 分,Pi為第j條句子的歸一化i項指數(shù)得分,扣為第i項指數(shù)權(quán)重,其中J的取值范圍為大于2 的正整數(shù),i的取值范圍為小于6的正整數(shù),所述指數(shù)為句子綜合評價指數(shù),包括:句子與主 題關(guān)聯(lián)度指數(shù)、句子在主題中的位置指數(shù)、包含特殊詞匯指數(shù)、包含關(guān)鍵詞指數(shù)和句子詞頻 指數(shù);
[0153] 處理單元4023,用于根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個 主題的核屯、內(nèi)容句子;
[0154] 其中,參見圖6為本發(fā)明實施例二中處理單元的裝置結(jié)構(gòu)示意圖,所述處理單元 4013具體包括:
[0155] 第二計算單元601,用于根據(jù)預(yù)設(shè)文本摘要長度闊值,得到文本壓縮率p = a/s,其 中,a為所述文本摘要長度闊值,S為所述文本全文長度;
[0156] 第=計算單元602,用于根據(jù)所述文本壓縮率P,得到當前所述主題核屯、內(nèi)容長度 闊值w = p*l,其中,1為所述當前主題內(nèi)容長度;
[0157] 排序單元603,用于根據(jù)所述當前主題核屯、內(nèi)容長度闊值W,對所述候選句子列表 中的句子長度從高到低進行排序選取句子,得到所述主題列表中各個主題的核屯、內(nèi)容句 子;
[0158] 根據(jù)處理單元4023得到各個主題的核屯、內(nèi)容句子后,進入組合單元4024,用于根 據(jù)核屯、內(nèi)容句子組合規(guī)則對所述各個主題的核屯、內(nèi)容句子進行組合,得到所述各個主題所 對應(yīng)的主題核屯、內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核屯、內(nèi)容的主題核屯、內(nèi)容列 表,其中,所述核屯、內(nèi)容句子組合規(guī)則,包括根據(jù)所述核屯、內(nèi)容句子在所述主題列表中各個 主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核屯、內(nèi)容句子進行組合,和/或去除所述核屯、 內(nèi)容句子中的句首序號后,對所述核屯、內(nèi)容句子進行組合,和/或?qū)λ龊送汀?nèi)容句子的句 尾標點符號統(tǒng)一為句號后,對所述核屯、內(nèi)容句子進行組合,和/或?qū)λ龊送?、?nèi)容句子的句 尾沒有標點符號的統(tǒng)一加上句號后,對所述核屯、內(nèi)容句子進行組合。
[0159] 通過提取模塊402完成了對各個主題相應(yīng)的所述文本內(nèi)容中的主題核屯、內(nèi)容的提 取后,進入組合模塊403,用于對所述主題核屯、內(nèi)容列表中存儲的各個所述主題核屯、內(nèi)容進 行組合,得到文本摘要內(nèi)容。
[0160] 在本發(fā)明實施例二中的文本摘要生成裝置是通過劃分模塊對對文本信息進行主 題劃分,然后通過提取模塊提取出各個主題中的核屯、內(nèi)容,最后通過組合模塊將各個主題 的核屯、內(nèi)容進行組合得到文本摘要內(nèi)容,由于采用了對文本信息進行主題劃分的方法,再 對提取出的各個主題的核屯、內(nèi)同進行組合,避免了文本摘要內(nèi)容的片面性,能夠客觀準確 地提取出文本摘要。
[0161] 對所公開的實施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。 對運些實施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的 一般原理可W在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明 將不會被限制于本文所示的運些實施例,而是要符合與本文所公開的原理和新穎特點相一 致的最寬的范圍。
【主權(quán)項】
1. 一種文本摘要生成方法,其特征在于,該方法包括: 對獲取到的文本信息進行主題劃分,得到主題列表,其中,所述文本信息包括文本標 題、文本正文和文本關(guān)鍵詞,所述主題列表中存儲主題劃分后的各個主題; 基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提取所述各個主題 相應(yīng)的所述文本內(nèi)容中的主題核心內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核心內(nèi)容的 主題核心內(nèi)容列表; 對所述主題核心內(nèi)容列表中存儲的各個所述主題核心內(nèi)容進行組合,得到文本摘要內(nèi) 容。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對獲取到的文本信息進行主題劃分, 得到主題列表,包括: 根據(jù)段落換行標識對所述文本信息進行段落劃分,將得到多個段落存儲于段落列表, 其中將兩個所述段落換行標識之間的內(nèi)容作為一個段落,且將所述文本信息中第一個所述 段落換行標識之前的內(nèi)容作為文首段落,最后一個所述段落換行標識之后的內(nèi)容作為文尾 段落; 對所述段落列表中的段落進行預(yù)處理,得到候選主題列表,其中,所述候選主題列表中 存儲預(yù)處理后的段落; 利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別出相應(yīng)的主題段落 后輸出對應(yīng)的主題列表。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用主題區(qū)分標識規(guī)則識別所述候選 主題列表中的段落,并在識別出相應(yīng)的主題段落后輸出對應(yīng)的主題列表,包括: 判斷所述候選主題列表中的段落是否滿足所述第一主題區(qū)分標識規(guī)則中的特征,若滿 足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第 一主題區(qū)分標識規(guī)則為段落首字符為中文數(shù)字字符,所述中文數(shù)字字符后的第一個字符或 第二個字符為標點字符或空格; 判斷所述候選主題列表中的段落是否滿足所述第二主題區(qū)分標識規(guī)則中的特征,若滿 足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第 二主題區(qū)分標識規(guī)則為段落首字符為標點字符,所述標點字符后的第一個字符為中文數(shù)字 字符; 當所述候選主題列表中的段落均不滿足所述第一主題區(qū)分標識規(guī)則和所述第二主題 區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第三主題區(qū)分標識 規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候選主 題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第三主題區(qū)分標識規(guī)則 為段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符或第二個字符為標點字符或空 格,所述第四主題區(qū)分標識規(guī)則為段落首字符為特殊字符; 當所述候選主題列表中的段落均不滿足所述第一、第二、第三和第四主題區(qū)分標識規(guī) 則特征時,則判斷所述候選主題列表中的段落是否滿足所述第五主題區(qū)分標識規(guī)則或第六 主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿足,則將所述候選主題列表中的 段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第五主題區(qū)分標識規(guī)則為段落最后 兩個字符中的一個為中文字符,并且所述段落的最后一個字符為標點字符或數(shù)字字符,所 述第六主題區(qū)分標識規(guī)則為段落最后一個字符為中文字符,并且所述段落結(jié)尾處無標點字 符; 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前言內(nèi) 容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出相應(yīng) 的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征時,則 將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述對所述段落列表中的段落進行預(yù)處 理,包括: 去除所述段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的空格、 換行符、制表符或回車符中的任意一個或多個; 排除所述段落列表中所述段落的特殊段落,其中,所述特殊段落包括所述段落列表中 的段落字數(shù)大于50或者字數(shù)小于2的段落,沒有包含漢字的段落和圖表中的任意一種或幾 種; 將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主題列表中。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述各個主題所對應(yīng)的所述文本 正文中的相應(yīng)文本內(nèi)容,分別提取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核心內(nèi)容, 構(gòu)成存儲所述各個主題所對應(yīng)的主題核心內(nèi)容的主題核心內(nèi)容列表,包括: 根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容進行分 句,將得到的各個句子基于句子列表規(guī)則進行篩選后,存儲于句子列表,其中,所述句子列 表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或若句子在所述句子列表中不 存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定的句子長度閾值,則存儲于 所述句子列表中; 對所述句子列表中的句子進行句子綜合得分計算,并對所述句子綜合得分 進行排序,得到候選句子列表,其中,S偽第j條句子的綜合得分,Pl為第j條句子的歸一化i 項指數(shù)得分,隊為第i項指數(shù)權(quán)重,其中,j的取值范圍為大于2的正整數(shù),i的取值范圍為小 于6的正整數(shù),所述指數(shù)為句子綜合評價指數(shù),包括:句子與主題關(guān)聯(lián)度指數(shù)、句子在主題中 的位置指數(shù)、包含特殊詞匯指數(shù)、包含關(guān)鍵詞指數(shù)和句子詞頻指數(shù); 根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題的核心內(nèi)容句子; 根據(jù)核心內(nèi)容句子組合規(guī)則對所述各個主題的核心內(nèi)容句子進行組合,得到所述各個 主題所對應(yīng)的主題核心內(nèi)容,并構(gòu)成存儲所述各個主題所對應(yīng)的主題核心內(nèi)容的主題核心 內(nèi)容列表,其中,所述核心內(nèi)容句子組合規(guī)則,包括根據(jù)所述核心內(nèi)容句子在所述主題列表 中各個主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核心內(nèi)容句子進行組合,和/或去除所 述核心內(nèi)容句子中的句首序號后,對所述核心內(nèi)容句子進行組合,和/或?qū)λ龊诵膬?nèi)容句 子的句尾標點符號統(tǒng)一為句號后,對所述核心內(nèi)容句子進行組合,和/或?qū)λ龊诵膬?nèi)容句 子的句尾沒有標點符號的統(tǒng)一加上句號后,對所述核心內(nèi)容句子進行組合。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,根據(jù)處理策略對所述候選句子列表進行處 理,得到所述各個主題的核心內(nèi)容句子,包括: 根據(jù)預(yù)設(shè)文本摘要長度閾值,得到文本壓縮率P = a/s,其中,a為所述文本摘要長度閾 值,S為所述文本全文長度; 根據(jù)所述文本壓縮率P,得到當前所述主題核心內(nèi)容長度閾值w=P*l,其中,1為所述當 前主題內(nèi)容長度; 根據(jù)所述當前主題核心內(nèi)容長度閾值W,對所述候選句子列表中的句子長度從高到低 進行排序選取句子,得到所述各個主題的核心內(nèi)容句子。 7 . -種文本摘要生成裝置,其特征在于,該裝置包括: 劃分模塊,用于對獲取到的文本信息進行主題劃分,得到主題列表,其中,所述文本信 息包括文本標題、文本正文和文本關(guān)鍵詞,所述主題列表中存儲主題劃分后的各個主題; 提取模塊,用于基于所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文本內(nèi)容,分別提 取所述各個主題相應(yīng)的所述文本內(nèi)容中的主題核心內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的 主題核心內(nèi)容的主題核心內(nèi)容列表; 組合模塊,用于對所述主題核心內(nèi)容列表中存儲的各個所述主題核心內(nèi)容進行組合, 得到文本摘要內(nèi)容。8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述劃分模塊包括: 段落劃分單元,用于根據(jù)段落換行標識對所述文本信息進行段落劃分,將得到多個段 落存儲于段落列表,其中將兩個所述段落換行標識之間的內(nèi)容作為一個段落,且將所述文 本信息中第一個所述段落換行標識之前的內(nèi)容作為文首段落,最后一個所述段落換行標識 之后的內(nèi)容作為文尾段落; 預(yù)處理單元,用于對所述段落列表中的段落進行預(yù)處理,得到候選主題列表,其中,所 述候選主題列表中存儲預(yù)處理后的段落; 識別單元,用于利用主題區(qū)分標識規(guī)則識別所述候選主題列表中的段落,并在識別出 相應(yīng)的主題段落后輸出對應(yīng)的主題列表。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述識別單元,包括: 第一識別單元,用于判斷所述候選主題列表中的段落是否滿足所述第一主題區(qū)分標識 規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題 列表,其中,所述第一主題區(qū)分標識規(guī)則為段落首字符為中文數(shù)字字符,所述中文數(shù)字字符 后的第一個字符或第二個字符為標點字符或空格; 第二識別單元,用于判斷所述候選主題列表中的段落是否滿足所述第二主題區(qū)分標識 規(guī)則中的特征,若滿足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題 列表,其中,所述第二主題區(qū)分標識規(guī)則為段落首字符為標點字符,所述標點字符后的第一 個字符為中文數(shù)字字符; 第三識別單元,用于當所述候選主題列表中的段落均不滿足所述第一主題區(qū)分標識規(guī) 則和所述第二主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述 第三主題區(qū)分標識規(guī)則或第四主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個均滿 足,則將所述候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第 三主題區(qū)分標識規(guī)則為段落首字符為數(shù)字字符,所述數(shù)字字符后的第一個字符或第二個字 符為標點字符或空格,所述第四主題區(qū)分標識規(guī)則為段落首字符為特殊字符; 第四識別單元,用于當所述候選主題列表中的段落均不滿足所述第一、第二、第三和第 四主題區(qū)分標識規(guī)則特征時,則判斷所述候選主題列表中的段落是否滿足所述第五主題區(qū) 分標識規(guī)則或第六主題區(qū)分標識規(guī)則中的特征,若滿足其中之一或兩個都滿足,則將所述 候選主題列表中的段落識別為主題段落,輸出相應(yīng)的主題列表,其中,所述第五主題區(qū)分標 識規(guī)則為段落最后兩個字符中的一個為中文字符,并且所述段落的最后一個字符為標點字 符或數(shù)字字符,所述第六主題區(qū)分標識規(guī)則為段落最后一個字符為中文字符,并且所述段 落結(jié)尾處無標點字符; 其中,如果所述主題段落非所述文首段落,則將所述主題段落之前的內(nèi)容作為前言內(nèi) 容,將所述前言內(nèi)容作為一個主題,主題句為所述文本標題,將其識別主題段落,輸出相應(yīng) 的主題列表,如果所述候選主題列表中的段落均不滿足所述主題區(qū)分標識規(guī)則特征時,則 將所述文本信息的全文識別為主題段落,輸出相應(yīng)的主題列表。10. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,在所述預(yù)處理單元對所述段落列表中的 段落進行預(yù)處理時,所述預(yù)處理單元具體用于: 去除所述段落列表中所述段落的干擾字符,其中,所述干擾字符包括段落前后的空格、 換行符、制表符或回車符中的任意一個或多個; 排除所述段落列表中所述段落的特殊段落,其中,所述特殊段落包括所述段落列表中 的段落字數(shù)大于50或者字數(shù)小于2的段落,沒有包含漢字的段落和圖表中的任意一種或幾 種; 將去除干擾字符和排除特殊段落后的段落,存儲在所述候選主題列表中。11. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述提取模塊包括: 分句單元,用于根據(jù)句子結(jié)尾標識對所述各個主題所對應(yīng)的所述文本正文中的相應(yīng)文 本內(nèi)容進行分句,將分句后得到的句子基于句子列表規(guī)則進行篩選后,存儲于句子列表中, 其中,所述句子列表規(guī)則包括若句子非主題句,則存儲于所述句子列表中,和/或若句子在 所述句子列表中不存在,則存儲于所述句子列表中,和/或若句子的長度大于設(shè)定的句子長 度閾值,則存儲于所述句子列表中; 第一計算單元,用于對所述句子列表中的句子進行句子綜合得5;計算,并對 所述句子綜合得分進行排序,得到候選句子列表,其中,j為第j條句子的綜合得分,P1為第j 條句子的歸一化i項指數(shù)得分,隊為第i項指數(shù)權(quán)重,其中,j的取值范圍為大于2的正整數(shù),i 的取值范圍為小于6的正整數(shù),所述指數(shù)為句子綜合評價指數(shù),包括:句子與主題關(guān)聯(lián)度指 數(shù)、句子在主題中的位置指數(shù)、包含特殊詞匯指數(shù)、包含關(guān)鍵詞指數(shù)和句子詞頻指數(shù); 處理單元,用于根據(jù)處理策略對所述候選句子列表進行處理,得到所述各個主題的核 心內(nèi)容句子; 組合單元,用于根據(jù)核心內(nèi)容句子組合規(guī)則對所述各個主題的核心內(nèi)容句子進行組 合,得到所述各個主題所對應(yīng)的主題核心內(nèi)容,構(gòu)成存儲所述各個主題所對應(yīng)的主題核心 內(nèi)容的主題核心內(nèi)容列表,其中,所述核心內(nèi)容句子組合規(guī)則,包括根據(jù)所述核心內(nèi)容句子 在所述主題列表中各個主題所對應(yīng)的文本內(nèi)容中的先后順序,對所述核心內(nèi)容句子進行組 合,和/或去除所述核心內(nèi)容句子中的句首序號后,對所述核心內(nèi)容句子進行組合,和/或?qū)?所述核心內(nèi)容句子的句尾標點符號統(tǒng)一為句號后,對所述核心內(nèi)容句子進行組合,和/或?qū)?所述核心內(nèi)容句子的句尾沒有標點符號的統(tǒng)一加上句號后,對所述核心內(nèi)容句子進行組 合。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述處理單元包括: 第二計算單元,用于根據(jù)預(yù)設(shè)文本摘要長度閾值,得到文本壓縮率P = a/s,其中,a為所 述文本摘要長度閾值,s為所述文本全文長度; 第三計算單元,用于根據(jù)所述文本壓縮率P,得到當前所述主題核心內(nèi)容長度閾值W = P*l,其中,1為所述當前主題內(nèi)容長度; 排序單元,用于根據(jù)所述當前主題核心內(nèi)容長度閾值w,對所述候選句子列表中的句子 長度從高到低進行排序選取句子,得到所述主題列表中各個主題的核心內(nèi)容句子。
【文檔編號】G06F17/30GK106021226SQ201610322040
【公開日】2016年10月12日
【申請日】2016年5月16日
【發(fā)明人】楊雷, 王全禮, 謝隆飛, 鄭堅鋼, 陳飛, 邵小亮
【申請人】中國建設(shè)銀行股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
弋阳县| 镇宁| 中西区| 江都市| 云阳县| 五指山市| 东方市| 晋中市| 思茅市| 自治县| 巴塘县| 衢州市| 迭部县| 南江县| 慈溪市| 南汇区| 宁夏| 历史| 和田市| 夏津县| 海林市| 兴安盟| 新乐市| 嵩明县| 开平市| 东光县| 汝阳县| 广州市| 柯坪县| 乌拉特中旗| 台东县| 屏边| 台中县| 阜康市| 丰宁| 石门县| 祁连县| 乌鲁木齐市| 伊春市| 永泰县| 兰西县|