一種基于混合距離依賴中餐館過程的層次化主題建模方法
【專利摘要】本發(fā)明公開了一種基于混合距離依賴中餐館過程的層次化主題建模方法,包括如下步驟:首先用自然語言處理(NLP)工具從新聞文檔中提取出事件要素;然后利用這些要素和文檔內容作為產生文檔之間鏈接的依據(jù);在模型的估計過程中這些鏈接和他們相連的點(即文檔)構成一個有向無環(huán)圖(DAG),亦即事件發(fā)展結構圖;最后將類似的事件聚集到一起,形成主題。本發(fā)明具有的有益效果有:能夠在保證模型簡單靈活的前提下涵蓋多個事件要素;模型的輸出既是層級的又是結構化的,這保證了既能找出事件,又能夠發(fā)掘出其主題;對于一個特定的事件,可以描述出它的發(fā)展過程;具有良好的可擴展性,可作為多種應用的算法基礎。
【專利說明】一種基于混合距離依賴中餐館過程的層次化主題建模方法
【技術領域】
[0001] 本發(fā)明涉及主題模型,尤其涉及一種基于混合距離依賴中餐館過程的層次化主題 建模方法。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的飛速發(fā)展,產生了海量的關系錯綜復雜的文本數(shù)據(jù),這讓將這 些文本以有意義的方式組織并展現(xiàn)出來成為了巨大的挑戰(zhàn)。在很多應用領域,如新聞文本 分析,為了提取出關鍵事件并生成相關專題,往往需要通過人工的閱讀、篩選、排序和組合 等費時費力的工作。
[0003] 很多研宄人員都嘗試通過開發(fā)一些自動文本分析算法,用機器去發(fā)掘關鍵事件和 隱藏的主題,以此來優(yōu)化上述過程。其中,一些如LDA(LatentDirichletAllocation,隱狄 利克雷分布)這樣的統(tǒng)計主題模型以及它們的一些變體都是比較有效的一些方法。它們都 基于詞袋(bag-of-words)假設,而且認為"文本一主題"、"主題一詞"服從"狄利克雷一多 項式"共軛先驗分布,這也就意味著每篇文本之間是條件獨立的。
[0004] 上述假設完全忽視了文本之間在時間和空間上的相互依賴關系,這就導致這些方 法無法生成關鍵事件序列。同時LDA無法區(qū)分不同粒度的主題。因此,人們陸續(xù)提出了一 些層次主題建模方法,如hLDA、nDP、TSSB等模型來解決主題粒度的問題,這些模型采用nDP 先驗或nCRP先驗,可以產生層次化的多粒度的主題。
[0005] 在應用主題模型處理新聞文本的過程中,往往很難將算法得到的主題與現(xiàn)實世界 中的話題或事件對應起來。例如,一個真實的編輯在整理一個事件材料的時候,他需要將包 含事件要素(如時間、地點、人物等)的文本組織在一起。然而很多主題模型產生的主題往 往不能覆蓋全部要素。為了能夠更加適用于實際應用場景,一些主題模型甚至又引入了如 時間戳、作者、地理信息等元數(shù)據(jù)信息。但它們的副作用也很快就顯現(xiàn)出來了 :1)監(jiān)督信息 并不總是可以得到的;2)向模型中引入過多的因子會導致建模變得非常復雜,求解困難, 很難真正實施應用。
[0006] 總而言之,針對新聞文本建模,目前沒有一個統(tǒng)一的主題模型可以同時解決以下 幾個問題:1)在保證模型簡單靈活的前提下涵蓋多個新聞事件要素。2)既找出關鍵事件又 能同時發(fā)掘他們對應的主題。3)給定一個特定事件,模型能夠描述出它的發(fā)展過程。4)自 動估計關鍵事件的數(shù)量以及他們主題的數(shù)目。
【發(fā)明內容】
[0007] 本發(fā)明的目的是克服現(xiàn)有技術的不足,提供一種基于混合距離依賴中餐館過程的 層次化主題建模方法。
[0008] 基于混合距離依賴中餐館過程的層次化主題建模方法包括如下步驟:
[0009] 1)對新聞文檔數(shù)據(jù)進行預處理,提取事件要素實體詞,包括時間、地點、人物;
[0010] 2)根據(jù)實體詞和文檔內容計算出每兩個文檔之間的相似度,根據(jù)基于相對熵的方 法計算出每兩個事件之間的相似度,事件是指屬于同一個類的所有文檔;
[0011] 3)利用以上兩種相似度,結合混合距離依賴的中餐館過程先驗,通過坍縮吉布斯 采樣,對每個文檔選擇與其最相似的文檔并連接,即得到每個文檔的鏈接,如果選擇的文檔 是自己則進一步選擇與該文檔最相似的一個主題;
[0012] 4)重復步驟3)迭代地確定所有鏈接和主題;
[0013] 5)根據(jù)鏈接和主題的最終分配結果得到事件的發(fā)展結構圖及其所屬的主題。
[0014] 所述的步驟1)包括:
[0015] (1)采用自然語言處理工具對文檔進行分詞,以得到文檔中出現(xiàn)過的詞;
[0016] (2)去除其中的停詞以及頻數(shù)過低的生僻詞,組成詞匯表;
[0017] (3)根據(jù)詞匯表將文本文檔轉化成向量;
[0018] (4)采用命名實體提取工具提取出文檔中出現(xiàn)的實體及其相關屬性。
[0019] 所述的步驟2)包括:
[0020] (1)定義文檔X和y的相似度為^4〃)= | # + #,其中exy表示在文檔X和文 檔y中出現(xiàn)過的共有實體的數(shù)量,IXL表示文檔X中出現(xiàn)過的所有實體的數(shù)量;
[0021] ⑵定義dSx,y為文檔X和y基于共現(xiàn)實體的距離,且滿足哫,v 4f5 (:M/);
[0022] (3)用一個帶權重的窗口衰減方程作為距離dSx;y上的衰減方程:
[0023] Fs(x,y,dSx,y) =l[0〈tx-ty〈a]dSx,y,其中 1 □是一個示性函數(shù),tx是文檔X的時間 戳,a是時間窗口大?。?br>
[0024] (4)文檔的集合構成了事件Si,將它定義為一個平滑多項式分布,用相對熵的方法 來度量它們之間的相似度,定義吖為它們之間的距離,其中fT(Si,Sj)是基于對 稱相對熵的距離函數(shù),如對稱KL距離KL(H) +I唯4)° 2
[0025] 所述的步驟3)包括:
[0026] (1)對于文檔集合中的每一個文檔xd,從事件層距離依賴中餐館過程ddCRP(ns; a) (ns= {Fs,dS})中采樣得到指向該文檔最相關文檔的鏈接cd,如果cd指向文檔xd自己, 則繼續(xù)從主題層距離依賴中餐館過程CMCRP(IIw3I)(nT= {FT,dT})中采樣得到文檔&的 主題4(以'否則其主題指向義⑴以),其中方程f;(l)返回鏈接1所指向的文檔所在類 的編號,fs (c)返回事件類c中指向自己的那個鏈接的編號;
[0027] (2)在事件層和主題層的相似度變量S= {S1:M}和T= {Τ1:κ}都是隱變量,且都是 多項式分布,它們都能被積分消除,因此只需要采樣文檔鏈接c= }和事件的主題ζ= {z1:M};
[0028] (3)設xd是文檔集合中的文檔d,cd是文檔X,與其最相近文檔之間的鏈接,y是通 過鏈接Cd與文檔Xd相連的文檔,X。是一組以多項式分布C分布的數(shù)據(jù)集合,α表示事件層 和主題層的聚類集中程度參數(shù),控制事件的個數(shù),那么對于文檔集合中的每一個文檔xd,能 根據(jù)以下公式采樣得到鏈接cd:
[0029;
【權利要求】
1. 一種基于混合距離依賴中餐館過程的層次化主題建模方法,其特征在于包括如下步 驟: 1) 對新聞文檔數(shù)據(jù)進行預處理,提取事件要素實體詞,包括時間、地點、人物; 2) 根據(jù)實體詞和文檔內容計算出每兩個文檔之間的相似度,根據(jù)基于相對熵的方法計 算出每兩個事件之間的相似度,事件是指屬于同一個類的所有文檔; 3) 利用以上兩種相似度,結合混合距離依賴的中餐館過程先驗,通過坍縮吉布斯采樣, 對每個文檔選擇與其最相似的文檔并連接,即得到每個文檔的鏈接,如果選擇的文檔是自 己則進一步選擇與該文檔最相似的一個主題; 4) 重復步驟3)迭代地確定所有鏈接和主題; 5) 根據(jù)鏈接和主題的最終分配結果得到事件的發(fā)展結構圖及其所屬的主題。
2. 根據(jù)權利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟1)包括: (1) 采用自然語言處理工具對文檔進行分詞,以得到文檔中出現(xiàn)過的詞; (2) 去除其中的停詞以及頻數(shù)過低的生僻詞,組成詞匯表; (3) 根據(jù)詞匯表將文本文檔轉化成向量; (4) 采用命名實體提取工具提取出文檔中出現(xiàn)的實體及其相關屬性。
3. 根據(jù)權利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟2)包括:
4. 根據(jù)權利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟3)包括: (1)對于文檔集合中的每一個文檔xd,從事件層距離依賴中餐館過程ddCRP(ns;a) 中采樣得到指向該文檔最相關文檔的鏈接cd,如果(^指向文檔xd自己,則繼續(xù)從主題層距 離依賴中餐館過程ddCRP(nT; )中采樣得到文檔xd的主題:J'否則其主題%d指向 4(/九))'其中ns= {Fs,dS},nT= {FT,dT},方程f。⑴返回鏈接1所指向的文檔所在類的 編號,fs(c)返回事件類c中指向自己的那個鏈接的編號,a是控制事件層聚類集中程度的 超參數(shù),是控制主題層聚類集中程度的超參數(shù); (2)S= {S1:M}和T= {T1:K}分別是表示事件和主題的多項式分布,它們都是隱變量,它 們都能被積分消除,因此只需要采樣文檔鏈接c= }和事件的主題z= {z1:M},其中Nd 是數(shù)據(jù)集中所有文檔的個數(shù); (3) 設xd是文檔集合中的文檔d,cd是文檔x,與其最相近文檔之間的鏈接,y是通過鏈 接^與文檔xd相連的文檔,X。是一組以多項式分布。分布的數(shù)據(jù)集合,a是控制事件層聚 類集中程度的超參數(shù),控制事件的個數(shù),0 = 那么對于文檔集合中的每一個文檔 xd,能根據(jù)以下公式采樣得到鏈接cd:
(4) 設zm是事件Sm的主題,dT表示基于相關度熵的距離,31是控制主題層聚類集中程 度的超參數(shù),控制主題的個數(shù),取值范圍是[〇, 1],0是狄利克雷平滑參數(shù),i和j是主題的 編號,類似地,能根據(jù)以下公式采樣得到文檔的主題z:
5. 根據(jù)權利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟4)包括: (1) 完成上一步采樣和更新過程后檢查算法是否滿足收斂條件或是否到達最大迭代次 數(shù),未滿足則返回步驟3); (2) 算法滿足收斂條件或達到最大迭代次數(shù)后,輸出所有的文檔鏈接c以及文檔的主 題z〇
6. 根據(jù)權利要求1所述的一種基于混合距離依賴中餐館過程的層次化主題建模方法, 其特征在于所述的步驟5)包括: (1) 將通過鏈接直接相連的文檔提取出來,即構成了包括發(fā)生發(fā)展過程的事件; (2) 將聚集到一起的所有事件提取出來作為主題;
【文檔編號】G06F17/30GK104484346SQ201410706246
【公開日】2015年4月1日 申請日期:2014年11月28日 優(yōu)先權日:2014年11月28日
【發(fā)明者】湯斯亮, 吳飛, 李斯, 魯偉明, 邵健, 莊越挺 申請人:浙江大學