本發(fā)明屬于文本信息處理領域,涉及一種基于稀疏學習的突發(fā)事件摘要抽取方法。
背景技術:
生活在信息時代中,用戶獲取感興趣的事件話題的海量報道不再是難題。但是,big data并不意味著big knowledge,尤其是當突發(fā)事件發(fā)生時,相關事件報道數(shù)量呈爆發(fā)式增長。這樣以來,如何從幾何增長的海量新聞數(shù)據(jù)流中,進行高效,及時而又便捷地動態(tài)追蹤特定話題突發(fā)事件的發(fā)展狀態(tài),最終形成便于讀者閱讀的事件發(fā)展脈絡摘要,從而幫助人們從眾多的新聞報道中快速獲取到自己所感興趣的突發(fā)事件的最新發(fā)展狀態(tài),成為一項十分迫切的任務。
傳統(tǒng)多文檔摘要抽取方法大部分都進行基本層面的冗余信息過濾,從每個時間窗內抽取固定數(shù)目的句子,形成固定長度的摘要。然而這種摘要分方法沒有從數(shù)據(jù)集的本質去解決問題——面對海量冗余的新聞數(shù)據(jù)流,尋找特定話題的相關事件猶如大海撈針,而同一時期的話題數(shù)量又是驚人的,因此必須采取有效的特征提取方法,選取能夠反映該時期內能夠表示事件的最小冗余的話題集合。此外,傳統(tǒng)摘要抽取技術往往忽視了新聞文本數(shù)據(jù)樣本之間的語義關系,而只關注單個句子評分,這樣的只抽取得分最高的句子作為最終的摘要句子,雖然單句準確率很高,但往往就總體而言,對突發(fā)事件的描述往往不夠全面或者冗余太大。
技術實現(xiàn)要素:
為解決以上問題,本發(fā)明提供一種基于稀疏學習并融合文本語義特征選擇的突發(fā)事件話題摘要抽取方法,主要從以下方面提高摘要的性能,一方面是對用戶的感興趣的簡短事件話題利用外部知識庫進行了擴展,另一方把文本的語義特征融合在特征選擇的過程中,最后提出一個統(tǒng)一框架。
為實現(xiàn)上述目的,本發(fā)明采用如下的技術方案:
一種基于稀疏學習理論的突發(fā)事件摘要抽取方法包括以下步驟:
步驟S1、獲取TREC 2015Temporal Summarization track提供的21個突發(fā)事件話題,對每個突發(fā)事件話題進行查詢擴展,得到事件話題的擴展話題詞項集合;
步驟S2、首先對TREC-TS-2015F-RelOnly數(shù)據(jù)集進行解密,解壓,解析,轉換成TREC格式的數(shù)據(jù),然后利用Lemur中調優(yōu)的語言模型作為檢索模型,根據(jù)每個事件查詢擴展后的擴展話題詞項對每個事件進行檢索,獲得與每個事件話題相關的文檔集合;
步驟S3、利用非負矩陣分解的方法依次對每個話題的文檔集合進行特征選取和語義聚類,得到每個事件的話題聚類結果。
步驟S4、根據(jù)最大邊緣相關性方法(MMR),從聚類結果中抽取具有代表性的句子作為最終的摘要結果。
作為優(yōu)選,步驟S3具體為:采用矩陣分解的方法進行特征降維,將語義約束融合到特征降維的聚類過程中,建立基于非負矩陣分解的互信息保留的事件摘要框架,進而得到每個事件話題對應的聚類結果。
本發(fā)明的基于稀疏學習的突發(fā)事件摘要抽取方法,首先,通過結合多搜索引擎的搜索結果,對簡短的事件話題描述進行有效的擴展;然后基于稀疏學習的理論(NMF),提出了一種能夠高效解決大規(guī)模數(shù)據(jù)稀疏的特征選取方法;其次,通過綜合文本的全局與局部語義約束,從而發(fā)掘語義空間中的語義分布特性;最后,將文本全局語義和局部語義約束作為NMF的最優(yōu)化正則項,建立融合特征選取過程和文本語義的抽取式摘要的統(tǒng)一框架。
本發(fā)明提出的基于稀疏學習理論的突發(fā)事件摘要抽取方法,在突發(fā)事件爆發(fā)時,面對海量冗余的新聞報道流,為用戶提供事件發(fā)展的最新狀況信息,并且給用戶提出了可回顧性的事件發(fā)展脈絡,從而使各種用戶能夠便捷高效地獲取自己感興趣的新聞報道,提高生活和工作的效率。
附圖說明
圖1是本發(fā)明系統(tǒng)的摘要系統(tǒng)整體流程示意圖;
圖2是本發(fā)明的事件話題擴展流程示意圖;
圖3是本發(fā)明摘要統(tǒng)一框架建模的示意圖;
圖4是本發(fā)明的互信保留語義計算的示意圖;
圖5是本發(fā)明方法和目前經(jīng)典的方法的實驗結果對比圖,其中,
圖5a為時間延遲的期望增益(類似準確率)對比圖;
圖5b為延遲全面率(類似召回率)的對比圖;
圖5c為F measure(類似F值)的對比圖。
具體實施方式
以下將結合附圖所示的具體實施方式對本發(fā)明進行詳細描述。
如圖1所示,本發(fā)明實施例提供一種基于稀疏學習理論的突發(fā)事件摘要抽取方法包括:
步驟S1、獲取TREC 2015Temporal Summarization track提供的21個突發(fā)事件話題,對每個突發(fā)事件話題進行查詢擴展,得到事件話題的擴展話題詞項集合;
步驟S2、首先對TREC-TS-2015F-RelOnly數(shù)據(jù)集進行解密,解壓,解析,轉換成TREC格式的數(shù)據(jù),然后利用Lemur中調優(yōu)的語言模型作為檢索模型,根據(jù)每個事件查詢擴展后的擴展話題詞項對每個事件進行檢索,獲得與每個事件話題相關的文檔集合;
步驟S3、利用非負矩陣分解的方法依次對每個話題的文檔集合進行特征選取和語義聚類,得到每個事件的話題聚類結果。
步驟S4、根據(jù)最大邊緣相關性方法(MMR),從聚類結果中抽取具有代表性的句子作為最終的摘要結果。
部分一:事件話題擴展
本部分旨在對簡短的事件話題利用搜索引擎進行查詢擴展,旨在較為準確地描述用戶感興趣的突發(fā)事件事件話題,步驟如下:
步驟(1)解壓,解析,預處理數(shù)據(jù)。
步驟(1.1)獲取用戶感興趣的事件話題。
步驟(1.2)文本預處理,去除標點符號,將大寫字母轉換為小寫。
步驟(2)爬取網(wǎng)頁。
步驟(2.1)將預處理后事件話題分別利用多種搜索引擎的API,返回與該事件話題的相關頁面。
步驟(2.2)對應每個搜索引擎的返回結果,只保留最相關的前N個頁面的標題,這里N取50。
步驟(3)預處理網(wǎng)頁標題
步驟(3.1)對所得頁面標題,采用分詞工具進行分詞。
步驟(3.2)濾除停用詞。
步驟(4)形成擴展的事件話題
步驟(4.1)對于同一個話題,對頁面中標題出現(xiàn)的過濾后的每個詞匯計算共現(xiàn)頻數(shù)(DF),然后按照該詞項的共現(xiàn)頁面數(shù)(DF)由大到小進行排序,并取前p個作為擴展詞項,這里p=10。
步驟(4.2)把原始詞項和擴展詞項形成最終的每個事件話題的查詢詞項的集合。
部分二:文檔檢索
本部分根據(jù)查詢擴展詞項集合,利用檢索工具對其進行檢索,獲得與該數(shù)據(jù)相關的文本集合,達到數(shù)據(jù)集初步過濾的效果。
步驟(5)對語料集進行解壓,然后運用python streamcorpus工具將其解析為檢索工具可檢索的格式。
步驟(6)下面是具體的檢索過程。每一個事件話題需要按照如下步驟處理。
步驟(6.1)構建索引,運用檢索工具對語料集構建索引。
步驟(6.2)選用合適的檢索模型,這里選用概率模型。
步驟(6.3)運用檢索模型根據(jù)擴展后的事件話題對數(shù)據(jù)集進行檢索,獲得與該事件話題相關的前q條句子,這里q(介于2000-6000)是選取條數(shù),它根據(jù)該話題數(shù)據(jù)集的規(guī)模大小設置。
步驟(6.4)把檢索結果保存在對應的文件中。
部分三:特征選取
步驟(7)采用矩陣分解的方法進行特征降維。
步驟(7.1)矩陣分解是一個最優(yōu)化問題,目標函數(shù)的形式如下:
其中,L表示詞項文檔矩陣,U表示詞項話題矩陣,H表示權重系數(shù)矩陣,它表示文檔對話題的隸屬度。f表示用分解后的矩陣重建初始矩陣的誤差,是需要優(yōu)化的目標值,表示矩陣X的F范數(shù)的平方。
步驟(7.2)降維過程中添加了兩個降低模型復雜度的正則約束項。
部分四:語義約束
本部分針對傳統(tǒng)方法在特征選擇的過程中往往忽視或者不能有效保留原始高維空間的文本的語義特性的問題,本發(fā)明考慮如下解決方法。
步驟(8)采用了考慮數(shù)據(jù)點之間的全局語義鄰近關系的約束;
K1=L*LT (3)
公式(3)中的K1對是高維空間文本之間的全局語義特性的表示。
步驟(9)采用了考慮數(shù)據(jù)點之間的局部語義相關性的約束;
k=1,2,…n且i,j∈{1,2,…,N}
其中,公式(4)的K2是基于詞共現(xiàn)模型和改進互信息的高維空間的語義特性。其中p表示概率,t表示詞項,I表示自信息,S表示一條句子,TF表示詞項在文檔中出現(xiàn)的頻率,DF表示詞項出現(xiàn)的文檔數(shù)目。
步驟(10)本發(fā)明把全局語義和局部語義加權為一個正則項來約束特征選取的過程。
K=λK1+(1-λ)K2 (8)
公式(8)是綜合考慮了文本的全局特性和局部語義特性的成對相似度矩陣K,其中λ是平衡因子,調整文本全局和局部語義特性所占的比例,本系統(tǒng)中,λ取值為0.5,認為文本的全局語義和局部語義特性在降維過程中同等重要,都需要保留。
部分五:統(tǒng)一建模
本部分旨在如何融合語義約束到特征降維的聚類過程中,統(tǒng)一建模。
步驟(11)綜上所述,統(tǒng)一建模如下:
其中,α、β、γ分別表示三個正則項的權重系數(shù),用來調整各部分所占的比例。在實驗中,參數(shù)分別設置如下:α=0.05,β=0.001,γ=0.001。
步驟(12)采用如下經(jīng)典的交替迭代方法的求解:
迭代公式如下:
其中,A,B,C,D的定義如下:
A=LHT+2αKUHHT,
B=UHHT+2αUHHTUTUHHT+βU,
C=UTL+2αUTKUH,
D=UTUH+2αUTUHHTUTUH+γH. (11)
步驟(13)上述算法的求解偽代碼如下:
基于非負矩陣分解的互信息保留的事件摘要框架NMF-NPS(Negative matrix factorization with a neighborhood preserving semantic measure)。如下算法1所示。第一行首先利用全局和局部語義計算數(shù)據(jù)集的成對相似度矩陣K,4到19行是求解權重系數(shù)矩陣U和聚類中心的基向量矩陣H的迭代過程。算法終止的條件有三個,一是達到設定的最大迭代次數(shù),或者優(yōu)化目標值基本不再變化,或者優(yōu)化的目標值達到設定的最小值。最后根據(jù)分解結果獲取聚類結果。
步驟(14)獲取聚類結果:
步驟(14.1)獲得聚類中心實點,找到每個聚類中心的最近似的實際樣本點(矩陣H的每一行向量代表一個聚類中心)。
步驟(14.2)獲取每個聚類中心的類簇成員。根據(jù)每個樣本的權重向量中的最大權重值對應的聚類中心作為該樣本的聚類中心。
部分六:抽取摘要
本發(fā)明為了減少摘要的長度,和提高摘要的質量,因此只選具有代表性的少數(shù)句子。步驟(15)采用了最大邊緣相關性(MMR)方法,對聚類結果的每個簇做了如下的兩步處理:
步驟(15.1)選取和類簇中心最接近的句子作為該簇代表性句子,
步驟(15.2)在該類簇中選擇另外一條和事件話題相關但是和本類簇中心差異較大的那條句子,以保證多樣性
如圖2所示,本發(fā)明的事件話題擴展,具體包括:
步驟(110)、獲取事件話題,進行預處理。
步驟(120)、利用爬取相關網(wǎng)頁。對于事件話題,分別運用谷歌,微軟必應,雅虎瀏覽器對其檢索,獲取三個瀏覽器中最相關的前P個頁面的標題,這里P=50。
步驟(130)、對所獲的的頁面標題集合進行預處理。如去除標點符合,分詞,去停用詞等。
步驟(140)、統(tǒng)計形成字典并統(tǒng)計每個詞項的共現(xiàn)頁面標題的個數(shù)(DF值),按照DF值由大到小排序。
步驟(150)、取排序序列中的前10個詞項作為擴展詞項,把原始詞項和擴展詞項形成最終的每個事件話題的擴展查詢詞項集。
如圖3所示,為本發(fā)明的核心算法部分,融合特征選取和語義聚類為一體的統(tǒng)一建模部分,具體包括:
步驟(210)、首先公式的第一部分考慮對每個話題的冗余數(shù)據(jù)集進行特征降維。
步驟(220)、公式的第二部分是對特征選擇的過程進行語義約束,旨在使降維后的低維空間盡大可能保留原始文檔空間的全局和局部語義。
步驟(230)、公式的最后兩部分是對聚類中心向量矩陣U和權重系數(shù)矩陣H做了一定的約束,防止過度擬合。
如圖4所示,計算語義部分的成對相似度矩陣K包括:
步驟(310)、一方面在每個話題的相關數(shù)據(jù)集上,利用基于改進互信息方法和詞頻模型,計算局部語義相似度矩陣K1。
步驟(320)、另一方面在此話題相關的數(shù)據(jù)集上,利用樣本數(shù)據(jù)點之間的幾何距離計算全局語義相似度矩陣K2。
步驟(330)、最后將全局和局部語義相似度矩陣進行加權組合,形成該話題的成對語義相似度矩陣K。
步驟4中后采用最大邊緣相關性方法(MMR),對聚類結果進行摘要。對于每個事件話題經(jīng)過如下三步操作,形成最終的摘要結果,具體包括:
步驟(410)、首先為了保證話題相關度,選取和每個類簇的聚類中心最相似的那個數(shù)據(jù)樣本點作為代表該類簇的一個樣本點。
步驟(420)、然后為了保證較全面地描述該子事件,需要在該類簇中尋找和該聚類中心最不相似的樣本點作為代表該類簇的另一個樣本點。
步驟(430)、最后根據(jù)對摘要集中的樣本點根據(jù)時間升序排序,獲得最終的摘要結果。
如圖5a、5b、5c所示,展示了本發(fā)明所用方法在對比試驗中的性能。評價指標介紹:Latency Gain表示考慮時間延遲的期望增益,類似信息檢索中的準確率;Latency Comprehensiveness表示延遲全面率,類似于信息檢索中召回率;F measure,是評價摘要的主要指標,它綜合考慮以上兩個指標的折中,類似于傳統(tǒng)信息檢索中的F值。
顯而易見,本發(fā)明中的方法優(yōu)于目前的經(jīng)典的AP(Affinity propagation Clustering Algorithm)算法。
在2015年TREC summarization Only國際文本評測任務中也優(yōu)勝于參賽隊與的平均水平,取得第二名的成績。
綜上分析,本發(fā)明基于稀疏學習的突發(fā)事件摘要抽取方法是有效地的。
應當理解,雖然本說明書根據(jù)實施方式加以描述,但是并非每個實施方式僅包含一個獨立的技術方案,說明書的這種敘述方式僅僅是為了清楚起見,本領域的技術人員應當將說明書作為一個整體,各個實施方式中的技術方案也可以適當組合,按照本領域技術人員的理解來實施。
上文所列出的一系列詳細說明僅僅是針對本發(fā)明的可行性實施方式的具體說明,它們并非用于限制本發(fā)明的保護范圍,凡是未脫離發(fā)明技藝精神所作的等效實施方式或變更均應包含在本發(fā)明的保護范圍之內。