欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞向量的文檔摘要自動提取方法

文檔序號:8512587閱讀:288來源:國知局
一種基于詞向量的文檔摘要自動提取方法
【技術領域】
[0001] 本發(fā)明涉及計算機信息檢索及文本挖掘領域,尤其是一種基于詞向量的文檔摘要 自動提取方法。
【背景技術】
[0002] 文本摘要技術是文本挖掘研宄領域重要的一部分,該技術能夠找出文檔或文檔集 中最重要的信息并用簡潔連貫的短文進行表示。隨著科技進步和網(wǎng)絡技術的發(fā)展,網(wǎng)絡上 存在海量的可利用信息,面對大量的數(shù)據(jù),該研宄可以輔助用戶快速理解所需信息,節(jié)約用 戶閱讀時間,提高工作效率。
[0003] 目前文本摘要技術主要為抽取型摘要,即從原文中抽取最重要的句子組成摘要, 其生成過程包含三步:句子表示,句子計分,以及摘要生成。具體來講,該方法首先采用多種 形式表示句子,如包含特征詞的詞頻、TF*IDF、主題詞等組成句子向量。一旦句子的表示形 式確定,則利用常用的排序方法如BM25,或者PageRank等計算句子得分,以表示該句子的 重要性,最后利用去冗余方法將得分較高的句子加入到摘要中。到目前為止,文本摘要技術 已經(jīng)有50多年的研宄歷史。隨著信息檢索技術的快速發(fā)展,文本摘要技術也日益成熟。從 最初基于詞頻、TF*IDF的方法,到引入機器學習,和基于圖型表示的方法,文本摘要的性能 均有很大的提升。
[0004] 基于詞頻、TF*IDF統(tǒng)計的方法認為句子中包含高頻詞或TF*IDF值高的詞越多,則 該句子就越重要,因此有較高的概率加入到最終生成的摘要中。具體地,該方法首先對候選 的語料集進行預處理,包括去停用詞、詞干化等,隨后統(tǒng)計語料中特征詞的詞頻或TF*IDF; 對候選文檔集中的每條句子,計算句子的重要性,最簡單實用的一種做法是取句子中特征 詞概率的平均值,即將句子中特征詞的概率取和并除以句子長度;最后對句子排序,選取得 分最高的句子加入到生成的摘要中。該類方法因其計算方便,易于實現(xiàn)等優(yōu)點常被作為對 比方法廣泛應用,但該方法偏向于高頻詞,生成的摘要往往只涵蓋候選集中的部分主題,缺 少語義理解等,因此摘要性能并不顯著。
[0005] 近些年,隨著機器學習方法的不斷推廣和改進,越來越多的研宄者開始將機器學 習方法加入到實驗中,文本摘要領域也不例外。一種做法是采用監(jiān)督學習方法,將文本摘要 問題看作為二元分類問題,即每一個候選摘要句可以加入或不能加入到最終的摘要中。在 訓練集中,利用邏輯斯蒂回歸,樸素貝葉斯或SVM等分類模型對訓練集進行訓練,得到最優(yōu) 的權重向量,并對測試集進行分類預測;一種做法是采用多種特征如句子位置、詞頻、線索 詞等表示句子,利用排序學習算法在訓練集進行訓練,得到最優(yōu)的特征權重向量,用于在測 試集對候選句子進行計算得分;一種做法是將文本摘要問題看作為聚類問題,即對候選文 檔集中的句子進行聚類,采用前文所述的統(tǒng)計方法,或者排序方法等對每個聚類中的句子 進行排序,選取每個聚類中的前η個句子組成摘要。利用機器學習進行自動生成文本摘要 的方法還有很多,并不限于以上所述。雖然當前文本摘要領域仍有越來越多機器學習方法 的改進,但是在通用的多文檔新聞摘要領域中,機器學習方法的摘要性能并不優(yōu)于非監(jiān)督 方法,該方法更適用于特殊領域或特定類型的摘要中。同時機器學習往往為監(jiān)督學習模型, 需要標注數(shù)據(jù),而該步通常由人工標注實現(xiàn),非常耗時,且具有主觀性,因此機器學習方法 仍然需要進一步的完善。
[0006] 基于圖形表示的文本摘要技術由于非監(jiān)督特性,全局考慮,不需要領域知識和語 法語義分析,以及良好的摘要性能等多個優(yōu)點,因此受到很多研宄者的關注。該方法將句子 作為圖中結點,句子間相似性作為連接結點的邊的權重,利用PageRank,HITS等方法迭代 計算結點權重,最終將權重較大的句子加入摘要。句子相似矩陣中的值表示從某條句子到 其他句子的跳轉概率,因此對結點權重的計算非常重要,但是傳統(tǒng)的圖方法在計算句子間 相似性時,多是利用句子中包含特征詞的共現(xiàn)性得到,忽略了句子間的語義相似性,降低了 結點權重計算的準確性,影響摘要的性能。

【發(fā)明內(nèi)容】

[0007] 本發(fā)明的目的是提供一種能有效避免傳統(tǒng)的基于詞共現(xiàn)方法計算句子相似性帶 來的誤差,為用戶提取準確且可讀性較高的文檔摘要的基于詞向量的文檔摘要自動提取方 法。
[0008] 本發(fā)明解決現(xiàn)有技術問題所采用的技術方案:一種基于詞向量的文檔摘要自動提 取方法,包括以下步驟:
[0009] S1、利用深度神經(jīng)網(wǎng)絡模型訓練語料獲取特征詞的詞向量表示:從數(shù)據(jù)庫文檔中 采集語料集并對該語料集進行預處理,所述預處理包括對語料集中的語料進行分句處理, 并逐句對照停用詞表去除停用詞、特殊字符及標點符號,得到訓練特征語料集;設置訓練參 數(shù),以訓練特征語料集為訓練數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡模型進行訓練,以將訓練特征語料集 中的每個詞語作為特征詞經(jīng)過Skip-gram模型的訓練以詞向量的形式輸出,得到特征詞的 詞向量表示形式;
[0010] S2、構建句子圖模型:
[0011] 包括以下步驟:
[0012] al、預處理:根據(jù)預設查詢詞在步驟Sl采集到的語料集中進行檢索,將檢索到的 文檔作為候選文檔集,對所述候選文檔集進行分句處理并去除候選文檔集中重復的句子, 得到摘要的候選句子集合;
[0013] a2、構建模型:將候選句子集合中的每條句子作為圖模型的結點并賦予平均初始 權重:
【主權項】
1. 一種基于詞向量的文檔摘要自動提取方法,其特征在于,包括以下步驟: 51、 利用深度神經(jīng)網(wǎng)絡模型訓練語料獲取特征詞的詞向量表示:從數(shù)據(jù)庫文檔中采集 語料集并對該語料集進行預處理,所述預處理包括對語料集中的語料進行分句處理,并逐 句對照停用詞表去除停用詞、特殊字符及標點符號,得到訓練特征語料集;設置訓練參數(shù), 以訓練特征語料集為訓練數(shù)據(jù),利用深度神經(jīng)網(wǎng)絡模型進行訓練,以將訓練特征語料集中 的每個詞語作為特征詞經(jīng)過Skip-gram模型的訓練以詞向量的形式輸出,得到特征詞的詞 向量表示形式; 52、 構建句子圖模型: 包括以下步驟: al、預處理:根據(jù)預設查詢詞在步驟Sl采集到的語料集中進行檢索,將檢索到的文檔 作為候選文檔集,對所述候選文檔集進行分句處理并去除候選文檔集中重復的句子,得到 摘要的候選句子集合; a2、構建模型:將候選句子集合中的每條句子作為圖模型的結點并賦予平均初始權 重:
其中Si為候選句子集S中的任意句子,N為句子總數(shù);利用步驟Sl得到的特征詞的詞 向量,通過計算句子間語義相似性作為圖中邊的權重,構成句子圖模型; 對候選句子集合中任意兩條句子SJP 分別包含特征詞的詞向量和g,則句子Si J - i J 和Sj間的語義相似性Similarity (S i, Sj)公式為:
其中,對于句子Si*的特征詞向量,Simm(h,Sj)表示在句子S j中和&屬于相同詞性 的所有特征詞的詞向量與t的最大相似度值;IsiI和|Sj分別表示的長度; 特征詞的詞向量之間的相似性由如下公式獲得:
其中,g和?是兩個特征詞心和12經(jīng)過步驟Sl的深度神經(jīng)網(wǎng)絡模型訓練得到對應的 特征詞向量。 53、 計算句子權重:對步驟S2得到的圖模型,根據(jù)步驟S2中的平均初始權重及句子間 語義相似性利用如下公式迭代更新每個結點的權重,直至收斂:
其中,d為阻尼系數(shù),取值范圍為0-1,Connection(Si)為與句子Si相似度大于O的句 子集合,I IConnection(Si) I I則為該集合中句子總數(shù); S4、利用最大邊緣相關算法生成摘要:利用最大邊緣相關算法選擇權重最大且無冗余 的句子組成摘要,具體步驟為: bl)、建立空的摘要句子集合;將圖模型中各結點所對應的句子作為初始的候選摘要句 子集合; b2)、對候選摘要句子集合中的各圖模型結點所對應的句子權重降序排列,將排序后的 各結點所對應的句子作為候選摘要句子序列; b3)、按照候選摘要句子序列,將排列在第一位的句子轉移至摘要句子集合中,對候選 摘要句子集合中的剩余句子利用如下公式更新它們的權重: Weight (Sj) = Weight (Sj) - ω X Similarity (Si, Sj-) 其中,i乒j,ω為懲罰因子,Similarity (Si, Sj)為步驟S2中得到的句子語義相似性; b4)、重復執(zhí)行步驟b2)和b3),直至摘要句子集合中的句子達到預設的摘要長度。
2. 根據(jù)權利要求1所述的一種基于詞向量的文檔摘要自動提取方法,其特征在于,當 所要更新權重的句子與摘要句子集合中的句子有相似性時,懲罰因子ω為1.0。
3. 根據(jù)權利要求1所述的一種基于詞向量的文檔摘要自動提取方法,其特征在于,所 述深度神經(jīng)網(wǎng)絡模型為Skip-gram模型,利用層次softmax方法訓練Skip-gram模型。
4. 根據(jù)權利要求1所述的一種基于詞向量的文檔摘要自動提取方法,其特征在于,步 驟S3中的阻尼系數(shù)d為0. 85。
5. 根據(jù)權利要求1所述的一種基于詞向量的文檔摘要自動提取方法,其特征在于,預 設的摘要長度為150個單詞。
【專利摘要】一種基于詞向量的文檔摘要自動提取方法,包括以下步驟:S1、利用深度神經(jīng)網(wǎng)絡模型訓練語料獲取特征詞的詞向量表示;S2、構建句子圖模型;S3、計算句子權重;S4、利用最大邊緣相關算法生成摘要。本發(fā)明通過采集語料集并對該語料集進行預處理,得到訓練特征語料集;并利用深度神經(jīng)網(wǎng)絡模型對所構建的訓練特征語料集進行訓練,用于得到特征詞的詞向量;語料集中根據(jù)預設查詢詞得到候選文檔集合及候選句子集合,再根據(jù)特征詞的詞向量得到句子間的語義相似性,從而得到兩個句子之間的語義聯(lián)系,避免了傳統(tǒng)基于詞共現(xiàn)計算方法在同義不同詞情況下出現(xiàn)的計算誤差問題,從而提高相似性計算的準確性和摘要性能。
【IPC分類】G06F17-30
【公開號】CN104834735
【申請?zhí)枴緾N201510254719
【發(fā)明人】林鴻飛, 郝輝輝
【申請人】大連理工大學
【公開日】2015年8月12日
【申請日】2015年5月18日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
江门市| 吉林市| 商洛市| 聂荣县| 敖汉旗| 长海县| 桦甸市| 岳阳县| 光泽县| 彰化县| 石嘴山市| 横峰县| 叶城县| 栾城县| 贵港市| 什邡市| 龙里县| 历史| 乌鲁木齐县| 土默特左旗| 明星| 星子县| 湛江市| 蓝田县| 乐安县| 三门县| 昭觉县| 阜阳市| 平南县| 胶南市| 高阳县| 襄城县| 黄浦区| 泰兴市| 明水县| 皋兰县| 重庆市| 北海市| 綦江县| 沧源| 稷山县|