欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于短語主題建模的多文檔自動摘要生成方法

文檔序號:10512162閱讀:200來源:國知局
一種基于短語主題建模的多文檔自動摘要生成方法
【專利摘要】本發(fā)明公開了一種基于短語主題建模的多文檔自動摘要生成方法。將樣本多文檔進行分詞處理,得到短語及其出現(xiàn)頻率,文檔被表示為短語袋的形式;以LDA主題模型為基礎(chǔ)計算文檔的聯(lián)合概率分布,轉(zhuǎn)化到短語主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對短語主題模型中的隱參數(shù)進行參數(shù)估計,最后得到主題在單詞上的概率分布;對被測文檔進行分詞處理,計算獲得句子的主題權(quán)重和詞頻權(quán)重,加權(quán)計算得到句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。本發(fā)明方法更加規(guī)范和精確,考慮了不同單詞之間關(guān)系,引進句子的主題權(quán)重,生成結(jié)果更符合人們實際的撰寫短文摘要的情況,在引進句子的主題權(quán)重后。
【專利說明】
一種基于短語主題建模的多文檔自動摘要生成方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及了一種多文檔自動摘要算法,尤其涉及了一種基于短語主題建模的多 文檔自動摘要生成方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速普及,人們獲取信息和知識越來越方便,同時由于網(wǎng)絡(luò)信息的 爆炸性增長,導(dǎo)致人們處理大量的文本信息時需要花費大量的精力。那么如何解決人們處 理大量的文本信息自然成了當(dāng)前研究的熱點。
[0003] 多文檔自動摘要技術(shù)正是為了解決該問題而提出的。目前在新聞文章的自動短文 應(yīng)用較為成熟,新聞文章的特點是來源于不同媒體的新聞文章以同一事件為中心,使用盡 可能相同的單詞來描述該事件。通過對不同媒體的新聞文章提取相同部分作為主要內(nèi)容, 提取不同部分作為可能的補充內(nèi)容,來完成應(yīng)用于新聞文章的多文檔自動摘要技術(shù),大部 分技術(shù)是利用文本聚類的方法實現(xiàn)的。
[0004] 而我們的目標(biāo)是研究為文獻綜述服務(wù)的多文檔自動摘要技術(shù)。相比較新聞文章的 以同一事件為中心而言,文獻文本并不以同一對象為中心,而是以同一主題為中心。相同單 詞的頻率也不如新聞文章那樣高,使用文本聚類的方法無法準(zhǔn)確為文獻生成短文文摘。我 們提出利用主題模型來挖掘出不同單詞的主題,通過比較不同單詞的主題來實現(xiàn)多文檔自 動摘要技術(shù)。同樣,相同的高頻單詞對自動文摘的影響無法忽視。最終,我們決定利用主題 建模計算句子的主題權(quán)重作為對以詞頻為特征的SumBasic自動摘要算法的補充,實現(xiàn)應(yīng)用 于文獻綜述的多文檔自動摘要算法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明是為了實現(xiàn)對文獻綜述的多文檔自動摘要生成,考慮到了不同單詞屬于同 一主題的情況,提出了一種基于短語主題建模的多文檔自動摘要生成方法,利用短語主題 模型挖掘出隱藏在單詞下的主題,對多文檔自動摘要生成有重要的意義。
[0006] 如圖1所示,本發(fā)明解決其技術(shù)問題,首先是通過短語主題建模對文本進行主題挖 掘處理,在該過程中,文本被分割成滿足一定頻率的短語,組成短語袋;在此短語袋的基礎(chǔ) 上利用短語主題模型進行建模,在參數(shù)估計過程中得到主題在單詞上的概率分布;在 SumBasic自動文摘方法的基礎(chǔ)上,分別計算句子的詞頻權(quán)重和主題權(quán)重,兩種權(quán)重最后通 過加權(quán)求和得到句子的最終權(quán)重,選擇權(quán)重最大的句子作為自動文摘的生成內(nèi)容。
[0007] 采用的具體技術(shù)方案如下:
[0008] 1)預(yù)處理樣本多文檔:利用Mai let自然語言處理工具將樣本多文檔進行分詞處 理,得到短語及其出現(xiàn)頻率,文檔被表示為短語袋的形式;
[0009] 所述步驟1)分詞處理后的短語長度被限制為不超過3。
[0010] 2)對樣本多文檔進行短語主題建模:
[0011] 以LDA主題模型為基礎(chǔ),用短語代替單詞作為計算的對象,計算文檔的聯(lián)合概率分 布,轉(zhuǎn)化到短語主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對短語主題模型中的 隱參數(shù)進行參數(shù)估計,最后得到主題在單詞上的概率分布;
[0012] 3)多文檔處理生成摘要:
[0013] 對被測文檔進行分詞處理,計算獲得句子的主題權(quán)重和詞頻權(quán)重,加權(quán)計算得到 句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。
[0014] 所述的步驟2)具體是:
[0015] 2.1)根據(jù)步驟1)中的分詞處理后,文檔以短語袋的形式,在詞空間上用向量表示 文檔,采用以下公式計算獲得文檔在LDA主題模型下的聯(lián)合概率分布:
[0017] 其中,?_表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的 主題分布向量Θ下的聯(lián)合概率分布,i表示文檔集的第i個文檔,j表示文檔的第j個單詞,k 表示第k個主題,0,表示文檔i的主題分布,Zl>j表示文檔i第j個單詞的主題,Wl>j表示文檔i 第j個單詞,爐ft表示主題k的單詞分布;
[0018] 2.2)短語主題模型在LDA主題模型的基礎(chǔ)上,考慮了多次出現(xiàn)的連續(xù)單詞比單個 單詞的意義更大,通過引進一個函數(shù)f作為連續(xù)單詞(短語)的概率因子。采用以下公式進行 轉(zhuǎn)換為文檔在短語主題模型下的聯(lián)合概率分布:
[0020]其中,C表示歸一值,C是一個常量使得左邊為合理的概率分布,Plda是2.1中的LDA 主題模型計算的文檔概率分布,C1>g表示第i個文檔的第g個短語,與下文Wl, g的區(qū)別在于C1>g 還包括了短語中各個單詞的主題變量,f(C1>g)表示C1>g的概率因子;
[0021 ] 2.3)使用Gibbs采樣算法對短語主題模型中的隱參數(shù)進行參數(shù)估計,隱參數(shù)為文 檔在主題上的概率分布α和主題在單詞上的概率分布β,短語C1>g取主題k的概率p(C1>g = k W,Z\Ci,g)為:
[0023]其中,W為單詞向量,Z為主題向量,Z\Ci,g表示去除主題Ci,g的主題向量,Wi, g表示第i 個文檔的第g個短語,〇k表示文檔選擇主題為k的概率,N1>k表示第i個文檔中為主題k的單詞 的個數(shù),表示主題選擇單詞Wi,g,j的概率,Nwi,g,j,k表示主題k中單詞Wi,g,j的個數(shù),Nk表 示主題k的總單詞個數(shù),V表示主題的單詞向量,X表示主題的單詞向量V的序數(shù),j表示短語 Wi,g中單詞的序數(shù);
[0024] Gibbs采樣算法進行迭代計算使得隱參數(shù)收斂,迭代次數(shù)通常不少于500次,迭代 計算后獲得主題在單詞上的概率分布β,從而得到單詞在主題的概率分布。
[0025] 所述的單詞Wi,j、單詞分布識fc、主題Zi,j、主題多項式分布01通過以下LDA主題模型 進行生成,LDA主題模型針對于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用 兩個狄利克雷分布參數(shù)α與β,α和β分別表示文檔在主題上的概率分布和主題在單詞上的概 率分布:
[0026] 從狄利克雷分布α中取樣生成文檔i的主題多項式分布Θ,,從主題多項式分布0,中 取樣生成文檔i第j個詞的主題ZU;從狄利克雷分布β中取樣生成主題ZU的單詞多項式分 布供卻,_從單詞多項式分布中取樣生成單詞W i, j ;各個主題Z i, j的單詞多項式分布臀2i'J'合 并形成主題k的單詞分布識fc。
[0027]所述步驟2.2)中短語(:1,8的概率因子汽(:1, 8)采用以下公式計算處理,以減少第1個 文檔的第g個短語C1>g的可能狀態(tài)的數(shù)量:
[0029] 其中,Zl,g,s表示第i個文檔的第g個短語中的第s個單詞的主題,s表示C 1>g中包含單 詞的數(shù)量。
[0030] 短語C1>g有Γ個可能的狀態(tài),K表示主題的個數(shù),經(jīng)概率因子f(C1>g)處理后C 1>g的可 能狀態(tài)從Γ減少為K個。
[0031 ]在考慮到短語中的單詞概率差異過大可能造成計算不準(zhǔn)確,所述步驟2.3)中的公 式采用以下公式計算,引進標(biāo)準(zhǔn)差來減少可能的影響;
[0033]其中,p(Wl,g^k)在參數(shù)估計中單詞Wl,g,j在主題k下的貝葉斯概率,即表示公式中 的連乘項,VarianceSqrt是對短語中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計算。 [0034]所述步驟3)具體是:
[0035] 3.1)利用步驟1)的結(jié)果對被測文檔進行分詞處理,得到短語或單詞,
[0036] 3.2)根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的 概率,根據(jù)句子和單詞的關(guān)系計算得出句子屬于該主題的概率,作為該主題下句子的主題 權(quán)重;
[0037 ] 3.3)采用S u mB a s i c自動文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計算獲得句子的詞 頻權(quán)重;
[0038] 3.4)對主題權(quán)重和詞頻權(quán)重進行加權(quán)計算得到句子的最終權(quán)重,依次選擇最終權(quán) 重最大的句子作為自動文摘的生成內(nèi)容,直至短文文摘長度達(dá)到要求。
[0039] 所述的句子的主題權(quán)重具體是在經(jīng)過分詞處理后,利用步驟2)得到的單詞在主題 的概率分布采用以下公式計算:
[0041 ]其中,G為句子sentence的短語個數(shù),L(gi)為gi的大小,p(gi,j)為短語gi的第j個單 詞在主題k下的概率,TopicWeight(sentence | k)表示主題k的主題權(quán)重,sentence | k表示主 題k下的句子;
[0042] 所述的詞頻權(quán)重具體采用以下方式計算:
[0043] 統(tǒng)計被測文檔獲得被測文檔中每個單詞的頻率,利用每個單詞的頻率使用以下公 式計算獲得句子的詞頻權(quán)重:
[0044] Frequencyffeight(sentence)=Max{p(wi)}
[0045] 其中,Max{p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重,p(wi)表示 句子中單詞出現(xiàn)的頻率。
[0046] 所述句子的最終權(quán)重具體使用以下公式計算:
[0047] Weight(sentence|k)=ATopicWeight(sentence|k) + ( l-AFrequencyWeight (sentence)
[0048] 其中,λ是用來控制主題權(quán)重和詞頻權(quán)重的影響因子,一般設(shè)置為0.5。
[0049] 本發(fā)明將句子的主題權(quán)重計算引入到多文檔自動摘要計算中,利用挖掘出句子的 主題信息,在句子的權(quán)重計算時除了考慮詞頻之外還考慮句子與主題的關(guān)系,得到了適用 于文獻的多文檔自動摘要。
[0050] 本發(fā)明方法與現(xiàn)有技術(shù)相比具有的有益效果:
[0051] 1、該方法針對文獻文本通常是以實際主題為中心,相比較新聞文章用詞更加規(guī)范 和精確,利用短語主題建模挖掘出隱藏在單詞下的主題,然后利用單詞在主題的概率分布 來計算句子的主題權(quán)重。
[0052] 2、現(xiàn)有技術(shù)通??紤]相同的單詞對多文檔自動摘要算法的影響,忽略了不同單詞 之間關(guān)系,這并不符合人們實際的撰寫短文摘要的情況,在引進句子的主題權(quán)重后,使得多 文檔自動摘要算法更加合理。
【附圖說明】
[0053]圖1是本發(fā)明的總體流程圖;
[0054]圖2是步驟2)的短語主題示意圖。
[0055]表1是實施例結(jié)果短語主題結(jié)果;
[0056]表2是實施例結(jié)果自動文摘內(nèi)容示。
【具體實施方式】
[0057]為了更好地理解本發(fā)明的技術(shù)方案,以下結(jié)合附圖1對本發(fā)明作進一步的描述。 [0058]本實例實施例子的具體步驟,如下:
[0059] 1)預(yù)處理樣本多文檔:利用Mai let自然語言處理工具將文檔分詞處理,得到短語 及其出現(xiàn)頻率(短語長度被限制為不超過3),在該過程中需要去除停詞(如the、this)、無效 詞(如wepurpose),然后構(gòu)建詞向量空間。
[0060] 2)短語主題建模:以LDA主題模型為基礎(chǔ),用短語代替單詞作為計算的對象,計算 文檔的聯(lián)合概率分布,轉(zhuǎn)化到短語主題模型中,短語主題模型的示意圖如圖2所示,然后根 據(jù)貝葉斯概率使用Gibbs采樣算法對短語主題模型中的隱參數(shù)進行參數(shù)估計,在經(jīng)過500次 數(shù)迭代后,得到主題在單詞上的概率分布,轉(zhuǎn)化得到單詞在主題下的概率分布。根據(jù)貝葉斯 概率模型,單詞w在主題k下的
,在實際的應(yīng)用中,對測試文檔的 自動摘要生成所根據(jù)的主題是固定的,即P(k)是個常量值,所以可通過記錄單詞w屬于主題 k的個數(shù)與單詞w的總數(shù)的比例作為其概率。
[0061] 3)被測多文檔自動摘要:對被測文檔進行分詞處理,計算獲得句子的主題權(quán)重和 詞頻權(quán)重,如圖1所示,句子的主題權(quán)重利用步驟2)中短語主題建模訓(xùn)練得到的單詞在主題 的概率分布,而句子的詞頻權(quán)重通過計算單詞的頻率得到。再加權(quán)計算得到句子的最終權(quán) 重,λ取0.5,通過對句子的權(quán)重排序每次抽取權(quán)重最大的句子直到生成的短文長度達(dá)到要 求。在實際的應(yīng)用中,被測文檔集與訓(xùn)練文檔集不相同,且數(shù)量級差距很大,導(dǎo)致主題權(quán)重 計算與詞頻權(quán)重計算不在同一層面上,需要分別對主題權(quán)重和詞頻權(quán)重進行歸一化處理。 [0062] (1)實例采用的數(shù)據(jù)集均來自DBLP的數(shù)據(jù)挖掘、信息檢索、圖象識別、機器學(xué)習(xí)等 領(lǐng)域的論文摘要,數(shù)量在8萬篇左右,經(jīng)過步驟1)的預(yù)處理得到詞表大小為26034的詞空間 (去除停詞、無效詞后)。
[0063] (2)根據(jù)(1)中信息,利用短語主題建模挖掘出的五個主題結(jié)果如表1所示,從中可 以看出每個主題中的短語雖然不相同,但是都是屬于同一主題,例如"Database Systems" 與"Concurrency Control",雖然單詞各不相同,但是隱藏在單詞下的主題卻是一致的。
[0064] 表 1
[0065]
[0066] (3)利用(2)中挖掘出的單詞在主題上的概率分布,計算句子的主題權(quán)重,并將其 與句子的詞頻權(quán)重進行加權(quán)求和,得到句子的最終權(quán)重,在實際應(yīng)用中我們選擇抽取4-5個 權(quán)重最大的句子。在本實例中對"database system"這一主題進行自動文摘生成得到的結(jié) 果如表2。表中不僅包含被選擇的句子,還顯示了句子在原文中的上下文從結(jié)果??梢钥闯?句子雖然很少包括"database system"關(guān)鍵詞,卻是與"database system"主題密切相關(guān)的 句子。
[0067] 表 2
[0068]
[0069]
[0070] 本實例的運行結(jié)果通過人工對自動生成的短文摘要進行評測,通過計算句子的接 受率作為標(biāo)準(zhǔn),將結(jié)果與SumBasic多文檔自動摘要算法進行對,結(jié)果如下表3所示:
[0071] 表3
[0073]有實施例結(jié)果的對比可看出,本發(fā)明方法在文獻上的自動文摘生成的內(nèi)容相比較 SumBasic更容易接受,符合撰寫短文摘要的情況,合理有效,具有其突出顯著的效果和良好 的使用價值和應(yīng)用前景。
【主權(quán)項】
1. 一種基于短語主題建模的多文檔自動摘要生成方法,其特征在于包括以下步驟: 1) 預(yù)處理樣本多文檔:利用Mallet自然語言處理工具將樣本多文檔進行分詞處理,得 到短語及其出現(xiàn)頻率,文檔被表示為短語袋的形式; 2) 對樣本多文檔進行短語主題建模: 以LDA主題模型為基礎(chǔ),用短語代替單詞作為計算的對象,計算文檔的聯(lián)合概率分布, 轉(zhuǎn)化到短語主題模型中,然后根據(jù)貝葉斯概率使用Gibbs采樣算法對短語主題模型中的隱 參數(shù)進行參數(shù)估計,最后得到主題在單詞上的概率分布; 3) 多文檔處理生成摘要:對被測文檔進行分詞處理,計算獲得句子的主題權(quán)重和詞頻 權(quán)重,加權(quán)計算得到句子的最終權(quán)重,根據(jù)最終權(quán)重生成摘要內(nèi)容。2. 根據(jù)權(quán)利要求1中所述的一種基于短語主題建模的多文檔自動摘要生成方法,其特 征在于:所述的步驟2)具體是: 2.1) 根據(jù)步驟1)中的分詞處理后,在詞空間上用向量表示文檔,采用以下公式計算獲 得文檔在LDA主題模型下的聯(lián)合概率分布:其中,Plda表示為文檔在主題向量Z、單詞向量W、主題的單詞分布向量Φ和文檔的主題 分布向量Θ下的聯(lián)合概率分布,i表示文檔集的第i個文檔,j表示文檔的第j個單詞,k表示 第k個主題,0,表示文檔i的主題分布,zu表示文檔i第j個單詞的主題, Wl>j表示文檔i的第j 個單詞,物表示主題k的單詞分布,(pUuK))表示主題條件下的后驗概率,p(Wl>J I Zi, j,Φ )表示單詞wi,j在zi,j和Φ條件下的后驗概率,ρ(θ?)和爐fe〕分別表示文檔i的主 題分布為Θ i的概率和主題k的單詞分布為f fc的概率。 2.2) 采用以下公式進行轉(zhuǎn)換為文檔在短語主題模型下的聯(lián)合概率分布:其中,C表示歸一值,PLDA是2.1中的LDA主題模型計算的文檔概率分布,Ci,g表示第i個文 檔的第g個短語,f(C1>g)表示C1>g的概率因子;2.3)使用Gibbs采樣算法對短語主題模型中的 隱參數(shù)進行參數(shù)估計,隱參數(shù)為文檔在主題上的概率分布α和主題在單詞上的概率分布β, 短語Ci, g取主題k的概率p (Ci, g = k | W,Z\Ci, g)為:其中,W為單詞向量,Z為主題向量,Z\Ci,g表示去除主題Ci,g的主題向量,Wi,g表示第i個 文檔的第g個短語,〇k表示文檔選擇主題為k的概率,N1>k表示第i個文檔中為主題k的單詞的 個數(shù),表示主題選擇單詞的概率,j表示文檔i的第j個單詞,N wl,^k表示主題k中 單詞w1>gd的個數(shù),Nk表示主題k的總單詞個數(shù),V表示主題的單詞向量,X表示主題的單詞向 量V的序數(shù),j表示短語Wi,g中單詞的序數(shù); Gibbs采樣算法進行迭代計算使得隱參數(shù)收斂,迭代計算后獲得主題在單詞上的概率 分布β,從而得到單詞在主題的概率分布。3. 根據(jù)權(quán)利要求2中所述的一種基于短語主題建模的多文檔自動摘要生成方法,其特 征在于:所述的單詞w^、單詞分布爐fc、主題 Zl,>主題多項式分布01通過以下LDA主題模型進 行生成,LDA主題模型針對于主題的單詞分布向量Φ和文檔的主題分布向量Θ分別使用兩 個狄利克雷分布參數(shù)α與β,α和β分別表示文檔在主題上的概率分布和主題在單詞上的概率 分布: 從狄利克雷分布α中取樣生成文檔i的主題多項式分布Θ,,從主題多項式分布Θ,中取樣 生成文檔i第j個詞的主題從狄利克雷分布β中取樣生成主題的單詞多項式分布 從單詞多項式分布內(nèi)y中取樣生成單詞各個主題ZU的單詞多項式分布?合并 形成主題k的單詞分布爐fc。4. 根據(jù)權(quán)利要求2中所述的一種基于短語主題建模的多文檔自動摘要生成方法,其特 征在于:所述步驟2.2)中短語C1>g的概率因子f(C 1>g)采用以下公式計算處理,以減少第i個 文檔的第g個短語& "的可能狀杰的教量,其中,z1>g,s表示第i個文檔的第g個短語中的第s個單詞的主題,s表示C1>g中包含單詞的 數(shù)量。5. 根據(jù)權(quán)利要求2中所述的一種基于短語主題建模的多文檔自動摘要生成方法,其特 征在于:所述步驟2.3)中的公式采用以下公式計算:其中,P(w1>gd|k)在參數(shù)估計中單詞Wl,g,j在主題k下的貝葉斯概率,即表示公式中的連 乘項,VarianceSqrt是對短語中的單詞Wi,g,j的貝葉斯概率p(wi,g,j |k)的標(biāo)準(zhǔn)差計算。6. 根據(jù)權(quán)利要求1所述的一種基于短語主題建模的多文檔自動摘要生成方法,其特征 在于:所述步驟3)具體是: 3.1) 利用步驟1)的結(jié)果對被測文檔進行分詞處理,得到短語或單詞, 3.2) 根據(jù)在步驟2)中得到的主題在單詞上的概率分布得到單詞屬于某一主題的概率, 根據(jù)句子和單詞的關(guān)系計算得出句子屬于該主題的概率,作為該主題下句子的主題權(quán)重; 3.3) 采用SumBasic自動文摘算法以單詞出現(xiàn)的頻率作為依據(jù)計算獲得句子的詞頻權(quán) 重; 3.4) 對主題權(quán)重和詞頻權(quán)重進行加權(quán)計算得到句子的最終權(quán)重,依次選擇最終權(quán)重最 大的句子作為自動文摘的生成內(nèi)容,直至短文文摘長度達(dá)到要求。7. 根據(jù)權(quán)利要求1或6中所述的基于短語主題建模的多文檔自動摘要生成算法,其特征 在于:所述的句子的主題權(quán)重具體是在經(jīng)過分詞處理后,利用步驟2)得到的單詞在主題的 概率分布采用以下公式計算:其中,G為句子sentence的短語個數(shù),L(gi)為gi的大小,p(gi,j)為短語gi的第j個單詞在 主題k下的概率,TopicWeight( sentence | k)表示主題k的主題權(quán)重,sentence | k表示主題k 下的句子。8. 根據(jù)權(quán)利要求1或6中所述的基于短語主題建模的多文檔自動摘要生成算法,其特征 在于:所述的詞頻權(quán)重具體采用以下方式計算: 統(tǒng)計被測文檔獲得被測文檔中每個單詞的頻率,利用每個單詞的頻率使用以下公式計 算獲得句子的詞頻權(quán)重: Frequencyffeight(sentence) =Max{p(wi)} 其中,Max {p(wi)}表示取句子中單詞頻率最大的作為句子的詞頻權(quán)重,p(wi)表示句子 中單詞出現(xiàn)的頻率,sentence表示被測文檔中的句子。9. 根據(jù)權(quán)利要求1或6中所述的基于短語主題建模的多文檔自動摘要生成算法,其特征 在于:所述句子的最終權(quán)重具體使用以下公式計算: Weight(sentence|k)=ATopicWeight(sentence|k)+(l_AFrequencyWeight (sentence) 其中,λ是控制主題權(quán)重和詞頻權(quán)重的影響因子。
【文檔編號】G06F17/27GK105868178SQ201610183423
【公開日】2016年8月17日
【申請日】2016年3月28日
【發(fā)明人】魯偉明, 莊越挺, 張占江
【申請人】浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
砀山县| 韶关市| 沂源县| 屯门区| 明光市| 商城县| 平潭县| 满洲里市| 竹北市| 武强县| 旅游| 宁陵县| 南康市| 武川县| 梁平县| 绥棱县| 新龙县| 泰兴市| 富顺县| 武安市| 马鞍山市| 林芝县| 屏边| 民丰县| 富蕴县| 咸阳市| 剑阁县| 天长市| 苍南县| 衡水市| 日喀则市| 黄石市| 胶南市| 南华县| 新绛县| 九台市| 扶余县| 开阳县| 胶南市| 电白县| 馆陶县|