欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于概念向量模型的多主題提取方法

文檔序號:6545274閱讀:214來源:國知局
一種基于概念向量模型的多主題提取方法
【專利摘要】本發(fā)明提供了一種基于概念向量模型的多主題提取方法,包含以下步驟:首先使用傳統(tǒng)方法對文檔進(jìn)行預(yù)處理后初步得到由特征詞組成的向量;其次利用《知網(wǎng)》詞義與概念間的對應(yīng)關(guān)系對同義詞進(jìn)行歸并,根據(jù)語義類與上下文語境的相關(guān)性對多義詞進(jìn)行排歧,構(gòu)造概念向量模型表示該文檔;再利用《知網(wǎng)》中概念的相關(guān)語義信息計(jì)算概念相似度,通過“預(yù)設(shè)種子”的方法改進(jìn)K-means算法對概念進(jìn)行聚類,形成多個(gè)主題概念簇;最后根據(jù)概念和詞的對應(yīng)關(guān)系,得到多個(gè)子主題詞集。該方法考慮了語義信息,克服K-means算法對初始中心的敏感性和時(shí)空開銷不穩(wěn)定等缺陷,提高了提取主題的質(zhì)量。
【專利說明】一種基于概念向量模型的多主題提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息提取【技術(shù)領(lǐng)域】,特別是涉及一種基于概念向量模型的多主題提取方法。
【背景技術(shù)】
[0002]自人類社會(huì)進(jìn)入信息時(shí)代以來,各種電子文本大量涌現(xiàn),這些海量文本中存在著大量多主題文本,包含著多方面豐富的主題信息,例如:一篇關(guān)于李克強(qiáng)總理訪問歐洲的報(bào)道,既屬于政治類新聞,又屬于經(jīng)濟(jì)類新聞。隨著科學(xué)技術(shù)的發(fā)展,學(xué)科之間融合度越來越高,大多數(shù)研究都跨越多個(gè)學(xué)科領(lǐng)域,許多科技文本內(nèi)容都從不同側(cè)面包含了多個(gè)主題,如一篇關(guān)于生物基因信息挖掘的文本,既包含計(jì)算機(jī)科學(xué)方面的主題又包含生物醫(yī)學(xué)領(lǐng)域主題。因此,現(xiàn)實(shí)世界中存在大量多主題文本,如何從這些文本中提取有價(jià)值的反映不同方面的多個(gè)子主題信息,在信息檢索、圖書情報(bào)和信息安全等領(lǐng)域有著非常廣泛的應(yīng)用。
[0003]國外對文本主題提取研究起于上世紀(jì)50年代,目前比較成熟的主題提取方法是基于統(tǒng)計(jì)模型的方法,該方法主要是利用詞頻統(tǒng)計(jì)信息提取主題,后來研究人員加入了對標(biāo)題、位置、句法結(jié)構(gòu)和線索詞等要素的考慮,能夠從英文文本中提取高質(zhì)量的主題。國內(nèi)對主題提取的研究起于上世紀(jì)80年代后期,然而,由于漢語言的復(fù)雜性,許多成功的英文主題提取方法不適用于中文。
[0004]目前,國內(nèi)應(yīng)用廣泛的還是基于統(tǒng)計(jì)的方法,該方法在向量空間模型(VSM)下,前提假設(shè)是向量之間兩兩正交,即構(gòu)成文本的詞匯之間毫無聯(lián)系,這顯然與文本中詞匯語義與上下文相關(guān)的現(xiàn)實(shí)不符,又由于中文詞匯量很大,在VSM下,必然存在向量高維、稀疏、忽略詞匯語義及上下文背景等問題,同時(shí)提取過程受到同義詞和多義詞的干擾,因而在質(zhì)量和效率上表現(xiàn)欠佳。目前關(guān)于主題提取的研究熱點(diǎn)集中在如何增加語義信息上,雖然有很多學(xué)者提出了各種基于語義的主題提取方法,但仍然沒有達(dá)到應(yīng)用級別的突破性進(jìn)展。另夕卜,提取多主題和單主題提取在算法上有很大差別,從一篇文本中識別多個(gè)子主題詞,僅使用傳統(tǒng)基于詞頻統(tǒng)計(jì)的方法無法實(shí)現(xiàn)。廖濤等人提出的復(fù)雜網(wǎng)絡(luò)中的社區(qū)劃分算法能夠提取多主題,但未涉及詞的語義信息,是一個(gè)純粹的統(tǒng)計(jì)方法,提取的多主題質(zhì)量不高。
[0005]因此,針對現(xiàn)有的以詞頻統(tǒng)計(jì)為依據(jù)的傳統(tǒng)文本處理技術(shù),一篇文本只能提出單個(gè)主題的問題,同時(shí)考慮了傳統(tǒng)文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,需要提供一種基于概念向量模型的多主題提取方法。

【發(fā)明內(nèi)容】

[0006]本發(fā)明要解決的技術(shù)問題是,為了解決傳統(tǒng)文本處理技術(shù)以詞頻統(tǒng)計(jì)為依據(jù),一篇文本只能提出單個(gè)主題的問題,同時(shí)考慮了傳統(tǒng)文本處理方法面對向量高維、稀疏以及缺乏詞義信息、上下文信息所導(dǎo)致的算法效率低和提取主題詞質(zhì)量不高的問題,提供了一種基于概念向量模型的多主題提取方法,該方法利用《知網(wǎng)》語義知識庫,對表示文本的特征詞進(jìn)行一一映射,把該文本表示成概念模型,并且在映射過程中同義詞自動(dòng)歸并到了同一概念中,實(shí)現(xiàn)了向量降維;根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進(jìn)行排歧。
[0007]本發(fā)明的目的在于提供一種基于概念向量模型的多主題提取方法,包括以下步驟:
[0008]Stepl:向量模型表示:對文本進(jìn)行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量;
[0009]Step2:概念模型映射:基于以概念來表達(dá)自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識庫,利用詞義與所述概念之間的對應(yīng)關(guān)系對所述預(yù)處理后的組成文本的特征詞進(jìn)行概念映射,在概念映射過程中,文本中的同義詞自動(dòng)進(jìn)行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進(jìn)行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型;
[0010]Step3:多主題詞提取:使用改進(jìn)的K-means算法對所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進(jìn)行聚類,形成多個(gè)主題概念簇,根據(jù)形成的多個(gè)主題概念簇,利用概念和原文本特征詞對應(yīng)關(guān)系,逆向得到多個(gè)主題特征詞集,以提取單個(gè)中文文本中的多主題詞。
[0011]進(jìn)一步地,所述步驟Stepl可以包括如下步驟:
[0012]Stepl-1:使用分詞系統(tǒng)對待處理文本T進(jìn)行分詞,接著,進(jìn)行去停、去噪,之后,得到所述文本的初級向量空間模型T = {C1; C2,…,CJ,其中C1, C2,…,Cn表示η個(gè)由特征詞組成的向量,所述去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實(shí)際意義的詞匯;
[0013]Stepl-2:從初級向量空間模型中進(jìn)一步提取特征向量,以得到該文本的高級向量空間模型 T = IC1, C2,..., Cj ,其中 m〈 = η。
[0014]進(jìn)一步地,所述步驟Step2可以包括如下步驟:
[0015]文本中所包含詞匯含義分三種情況:單義詞、同義詞和多義詞;
[0016]概念映射過程通過查詢所述語義知識庫實(shí)現(xiàn),其中:
[0017]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是單義詞時(shí),直接得到其唯一對應(yīng)的概念;
[0018]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是同義詞時(shí),直接得到其唯一對應(yīng)的概念,在這個(gè)過程中,通過將該文本中出現(xiàn)的同義詞自動(dòng)歸并到同一個(gè)概念中,以實(shí)現(xiàn)向量降維;
[0019]查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對應(yīng)多個(gè)概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中的信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。 [0020]進(jìn)一步地,所述查詢知識庫,判斷當(dāng)文本中所包含的詞匯是多義詞時(shí),該多義詞對應(yīng)多個(gè)概念,概念與語義類一一對應(yīng),根據(jù)語義類成員詞在該文本中信息量計(jì)算語義類權(quán)值,選取權(quán)值最大的語義類對應(yīng)概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧,包括如下步驟:[0021]在所述語義知識庫中,概念的語義主要由基本義原集描述,基本義原集又由一組語義相關(guān)的詞來描述,描述某概念基本義原集的詞構(gòu)成了一個(gè)語義類;
[0022]判斷多義詞對應(yīng)多個(gè)概念,計(jì)算所述概念對應(yīng)語義類的所有成員詞在所述處理文本中的信息量,加權(quán)計(jì)算得到每一個(gè)語義類的權(quán)值;
[0023]選擇權(quán)值最大的語義類對應(yīng)的概念作為所述多義詞適合本文上下文語境的概念,從而實(shí)現(xiàn)多義詞排歧。
[0024]進(jìn)一步地,所述步驟Step2可以包括如下步驟:
[0025]St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進(jìn)行概念映射;
[0026]St印2-1-1:查詢知識庫,若T的特征詞Cm對應(yīng)唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉(zhuǎn)至步驟Setp2-2 ;
[0027]Step2-1-2:查詢知識庫,若T的特征詞(;對應(yīng)多個(gè)概念,則特征詞Cm為多義詞,則需對多義詞Cm進(jìn)行詞義排歧,選擇出適合該文上下文語境的概念;
[0028]St印2-2:得到文本 T 對應(yīng)概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)};
[0029]St印2-3:進(jìn)一步按照概念進(jìn)行整理輸出文本T對應(yīng)概念向量T= {(Gl,(C1,...,Ci)), (G2, (C2,...,Cj)),…,(Gq, (Cq,...,Ck))},其中(Cq,...,Ck)為概念 Gq 在文中對應(yīng)出現(xiàn)的詞。
[0030]進(jìn)一步地,所述步驟Step2_l_2可以包括如下步驟:
[0031]Step2-1-2-l:查詢知識庫,多義詞Cm對應(yīng)多個(gè)概念,描述概念語義的基本義原集夠成了一個(gè)語義類,因而多義詞Cm對應(yīng)多個(gè)語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關(guān)的詞組;
[0032]Step2-1-2-2:計(jì)算多義詞Cm每一個(gè)語義類成員詞在該文中的信息量,所述成員詞Wi在該文中所含的信息量H(Wi)計(jì)算公式如下:
[0033]H(Wi) = -TF (Wi, ST) X log [p (Wi)],
[0034]其中,TF (Wi, ST)表示詞Wi在文本中出現(xiàn)的頻率,ST表示文本,P(Wi)為詞Wi的概率分布;
[0035]St印2-1-2-3:計(jì)算多義詞Cm每一個(gè)語義類的權(quán)值,它的第i個(gè)語義類Li權(quán)值為:


η
[0036]CWeighiiLi) = Σ "(K) x log, η,
[0037]其中,η為語義類Li成員詞在文中出現(xiàn)個(gè)數(shù),語義類權(quán)值越大,該語義類成員詞對文本語義的貢獻(xiàn)越大;
[0038]St印2-1-2-4:為多義詞Cm選擇符合該文上下文語義語境的最優(yōu)概念,公式如下:
[0039]Bestrj, = AiAX (CWeight(Li))?
[0040]進(jìn)一步地,所述改進(jìn)的K-means算法可以包括如下步驟:
[0041]通過對待處理文本中的向量概念進(jìn)行聚類,形成多個(gè)主題概念簇;
[0042]選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進(jìn)行改進(jìn)。
[0043]進(jìn)一步地,所述選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進(jìn)行改進(jìn),可以包括如下步驟:
[0044]根據(jù)統(tǒng)計(jì)的主題提取思想方法,檢測到文本中的某個(gè)主題由一組同義詞圍繞而產(chǎn)生同義詞共現(xiàn)語言現(xiàn)象;
[0045]基于檢測到的同義詞共現(xiàn)語言現(xiàn)象,判斷文本中的同義詞所圍繞的同一個(gè)主題,同義詞在概念向量模型中表現(xiàn)為同一個(gè)概念;
[0046]在所述概念向量映射過程中,同義詞歸并到同一個(gè)概念中,一個(gè)概念可能對應(yīng)屬于該文本的多個(gè)詞匯,在多主題詞提取過程中,選取包含待處理文本詞個(gè)數(shù)最多的前K個(gè)概念作為K-means聚類的初始中心的預(yù)設(shè)種子。
[0047]進(jìn)一步地,所述步驟Step3可以包括如下步驟:
[0048]St印3-1:從待處理文本T的概念向量中選擇包含該文本詞匯數(shù)目最多的前K個(gè)概念(G1, G2,....Gk}作為聚類的初始類中心;
[0049]St印3-2:計(jì)算待處理文本T中其他概念分量與K個(gè)類中心的相似度,將概念--
分配到對應(yīng)的相似度最大的類中,其中,所述計(jì)算文本T中其他概念分量與K個(gè)類中心的相似度包括:計(jì)算概念與概念之間的相似度和計(jì)算概念與概念集之間的相似度;
[0050]St印3-3:重新計(jì)算各類的中心點(diǎn),概念集GG = (G1, G2,…Gj的中心點(diǎn)通過以下公式計(jì)算:
【權(quán)利要求】
1.一種基于概念向量模型的多主題提取方法,其特征在于,包括以下步驟: Stepl:向量模型表示:對文本進(jìn)行預(yù)處理,以得到由特征詞組成的向量,并通過向量空間模型將所述預(yù)處理后的文本表示成特征詞組成的向量; Step2:概念模型映射:基于以概念來表達(dá)自然語言詞匯語義且以樹形結(jié)構(gòu)來表示概念間語義關(guān)系的語義知識庫,利用詞義與所述概念之間的對應(yīng)關(guān)系對所述預(yù)處理后的組成文本的特征詞進(jìn)行概念映射,在概念映射過程中,文本中的同義詞自動(dòng)進(jìn)行歸并,接著,根據(jù)語義類與上下文語境的相關(guān)性對文中出現(xiàn)的多義詞進(jìn)行排歧,之后,將所述經(jīng)過歸并和排歧后的文本的向量空間模型映射成概念空間模型; Step3:多主題詞提取:使用改進(jìn)的K-means算法對所述經(jīng)過歸并和排歧后的文本概念空間模型中的概念進(jìn)行聚類,形成多個(gè)主題概念簇,根據(jù)形成的多個(gè)主題概念簇,利用概念和原文本特征詞對應(yīng)關(guān)系,逆向得到多個(gè)主題特征詞集,以提取單個(gè)中文文本中的多主題
ο
2.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Stepl進(jìn)一步包括如下步驟: Stepl-1:使用分詞系統(tǒng)對待處理 文本T進(jìn)行分詞,接著,進(jìn)行去停、去噪,之后,得到所述文本的初級向量空間模型T = IC1, C2,…,CJ,其中C1, C2,…,Cn表示η個(gè)由特征詞組成的向量,所述去停是指過濾文本中出現(xiàn)的停用詞,所述去噪是指過濾文本中出現(xiàn)的無實(shí)際意義的詞匯; Stepl-2:從初級向量空間模型中進(jìn)一步提取特征向量,以得到該文本的高級向量空間模型 T =IC1, C2,..., Cj ,其中 m〈 = η。
3.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Step2進(jìn)一步包括如下步驟: St印2-1:對待處理文本T中所有特征詞依次查詢語義知識庫,進(jìn)行概念映射;Step2-1-1:查詢知識庫,若T的特征詞Cm對應(yīng)唯一的概念,則Cm為單義詞或同義詞,直接獲取Cm的概念,轉(zhuǎn)至步驟Setp2-2 ; Step2-1-2:查詢知識庫,若T的特征詞(;對應(yīng)多個(gè)概念,則特征詞Cm為多義詞,則需對多義詞Cm進(jìn)行詞義排歧,選擇出適合該文上下文語境的概念; St印2-2:得到文本 T 對應(yīng)概念向量 T = {(Gl, C1),(G2, C2),...(Gq, Cq)}; St印2-3:進(jìn)一步按照概念進(jìn)行整理輸出文本T對應(yīng)概念向量T = {(Gl,(C1,...,Ci)),(G2, (C2,...,Cj)),…,(Gq, (Cq,…,Ck))},其中(Cq,...,(;)為概念 Gq 在文中對應(yīng)出現(xiàn)的詞。
4.根據(jù)權(quán)利要求3所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟St印2-1-2可以包括如下步驟: Step2-1-2-l:查詢知識庫,多義詞Cm對應(yīng)多個(gè)概念,描述概念語義的基本義原集夠成了一個(gè)語義類,因而多義詞Cm對應(yīng)多個(gè)語義類,從而可獲得描述基本義原集的詞組,所述詞組成為一組反映語義類語義相關(guān)的詞組; Step2-1-2-2:計(jì)算多義詞Cm每一個(gè)語義類成員詞在該文中的信息量,所述成員詞Wi在該文中所含的信息量H(Wi)計(jì)算公式如下:
H (Wi) = -TF (Wi, ST) X log [p (Wi)],其中,TF(WyST)表示詞Wi在文本中出現(xiàn)的頻率,ST表示文本,P(Wi)為詞Wi的概率分布; Step2-1-2-3:計(jì)算多義詞Cm每一個(gè)語義類的權(quán)值,它的第i個(gè)語義類Li權(quán)值為:
5.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述改進(jìn)的K-means算法進(jìn)一步包括如下步驟: 通過對待處理文本中的向量概念進(jìn)行聚類,形成多個(gè)主題概念簇; 選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進(jìn)行改進(jìn)。
6.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述選用經(jīng)典K-means聚類算法,通過預(yù)設(shè)種子方法對其進(jìn)行改進(jìn),進(jìn)一步包括如下步驟: 根據(jù)統(tǒng)計(jì)的主題提取思想方法,檢測到文本中的某個(gè)主題由一組同義詞圍繞而產(chǎn)生同義詞共現(xiàn)語言現(xiàn)象; 基于檢測到的同義詞共現(xiàn)語言現(xiàn)象,判斷文本中的同義詞所圍繞的同一個(gè)主題,同義詞在概念向量模型中表現(xiàn)為同一個(gè)概念; 在所述概念向量映射過程中,同義詞歸并到同一個(gè)概念中,一個(gè)概念可能對應(yīng)屬于該文本的多個(gè)詞匯,在多主題詞提取過程中,選取包含待處理文本詞個(gè)數(shù)最多的前K個(gè)概念作為K-means聚類的初始中心的預(yù)設(shè)種子。
7.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述步驟Step3進(jìn)一步包括如下步驟: Step3-1:從待處理文本T的概念向量中選擇包含該文本詞匯數(shù)目最多的前K個(gè)概念(G1, G2,....Gk}作為聚類的初始類中心; Step3-2:計(jì)算待處理文本T中其他概念分量與K個(gè)類中心的相似度,將概念--分配到對應(yīng)的相似度最大的類中,其中,所述計(jì)算文本T中其他概念分量與K個(gè)類中心的相似度包括:計(jì)算概念與概念之間的相似度和計(jì)算概念與概念集之間的相似度; St印3-3:重新計(jì)算各類的中心點(diǎn),概念集GG = (G1, G2,…GJ的中心點(diǎn)通過以下公式計(jì)算:
8.根據(jù)權(quán)利要求1所述的基于概念向量模型的多主題提取方法,其特征在于,所述通過計(jì)算義原距離得到概念的距離進(jìn)而獲得概念的相似度,可以包括如下步驟: 假設(shè)兩個(gè)義原在義原樹層次體系中的路徑距離為d,距離d的計(jì)算過程如下: 設(shè)義原集中的任意一個(gè)義原為Wi, Li為義原Wi在概念樹中的深度,a為距離初始閾值,b為滿足不等式max(L)〈a/b的一個(gè)正實(shí)數(shù),則Wi與其父節(jié)點(diǎn)的距離為:d (Wi, parent (Wi)) = a-Lj.b 任意兩個(gè)義原Wi, Wj之間的距離定義為: d (Wi, W』)=ω?5.[a-max (Li, Lj).b] 其中,ω,表示第k種關(guān)系對應(yīng)的權(quán)重,通常取1, 任意兩個(gè)義原(&,%)之間的語義相似度如下:β 其中,距離d是Wi和%在義原層次體系中的路徑長度,是一個(gè)正整數(shù),Θ是一個(gè)可調(diào)節(jié)的參數(shù); 概念U和V分別由各自的義原組(pul,
【文檔編號】G06F17/27GK104008090SQ201410178231
【公開日】2014年8月27日 申請日期:2014年4月29日 優(yōu)先權(quán)日:2014年4月29日
【發(fā)明者】馬甲林, 王志堅(jiān) 申請人:河海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
喀喇沁旗| 全椒县| 勐海县| 安远县| 德保县| 蒙山县| 疏勒县| 和林格尔县| 兴化市| 南雄市| 澄城县| 封开县| 茶陵县| 资兴市| 阿拉善盟| 当涂县| 灵石县| 永寿县| 西城区| 丽江市| 翁源县| 牙克石市| 同仁县| 维西| 南充市| 拜泉县| 华阴市| 麟游县| 汨罗市| 乾安县| 祁东县| 宁都县| 宁陵县| 聂荣县| 凤阳县| 扎鲁特旗| 余庆县| 辉南县| 同仁县| 饶河县| 靖安县|