欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于主題模型和向量空間的一詞多義分析方法與流程

文檔序號:12786320閱讀:221來源:國知局

本發(fā)明涉及自然語言處理領(lǐng)域,具體涉及一種基于主題模型和向量空間的一詞多義分析方法。



背景技術(shù):

隨著人工智能技術(shù)的蓬勃發(fā)展,自然語言處理作為一種革新的語言研究模式,結(jié)合了計算機科學、語言學、數(shù)學于一體的智能科學,廣泛應用于機器翻譯、問答系統(tǒng)、信息檢索和文檔處理等方面。由于大部分字詞并不僅有一個意思,即存在一詞多義的現(xiàn)象,如果僅用單一的詞向量表示每個字詞,將無法消除歧義現(xiàn)象,為了解決這個問題,上下文信息或主題向量被用于輔助一詞多義的研究中,然而這些研究都把主題模型、詞向量、主題向量三者孤立開來,簡單的利用現(xiàn)成的結(jié)果作為先驗知識來輔助訓練模型。

主題模型用于挖掘一個文檔集合的潛藏主題信息,每個主題表示一個相關(guān)概念,具體表現(xiàn)為一系列相關(guān)的詞,實現(xiàn)形式為主題-詞分布。詞向量模型則利用文本中的上下文信息,將每個詞映射到一個低維實值空間中,并包含語法語義等信息,從而可使用歐氏距離或余弦夾角來衡量詞向量的相似度。主題向量直接將主題映射到向量空間中,近似表示一個主題的語義中心。

主題模型、詞向量、主題向量都可用于文檔表示中,主要應用于文檔聚類、文檔分類等任務中。這三者在文本挖掘中都各具特點,主題模型的全局信息以及詞向量的局部信息相結(jié)合已被研究證實有助于提高原模型的效果,但是這些研究都是都有較大的局限性,他們大多都將三者獨立開,要么先訓練單獨訓練 其中一兩項,然后借助訓練結(jié)果來提高另一項的效果;要么直接使用較大訓練集的訓練結(jié)果作為外部知識,輔助其他小數(shù)據(jù)集的模型訓練。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明通過對文本文檔集進行建模,借鑒主題模型、詞向量以及主題向量的優(yōu)點,提出了一種基于主題模型和向量空間的一詞多義分析方法,以更好地挖掘文檔集合潛藏的主題信息。

為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:

一種基于主題模型和向量空間的一詞多義分析方法,包括以下步驟:

S1、以式(1)作為目標函數(shù),建立一詞多義的主題模型:

其中為文本文檔集合,M為集合中的文檔數(shù),Nm為第m篇文檔的詞的數(shù)量,c為上下文信息窗口大小,wm,n表示第m篇文檔第n個詞,K表示主題數(shù)目,tk表示第k個主題向量,表示主題模型中的主題-詞分布,表示wm,n的主題編號;

S2、讀取整個文檔集合的數(shù)據(jù);

S3、主題-詞分布初始化:首先,采用GibbsLDA算法對文本文檔集合中的每個詞進行主題采樣;然后,對主題模型的主題-詞分布進行初始化估計;

S4、主題采樣:針對文檔中的每一個詞wm,n,計算出該詞屬于每個主題的概率,然后采用累加分布的方式采樣出其對應的主題編號zm,n∈[1,K];

S5、主題向量更新:對于每個主題向量tk,k∈[1,K],根據(jù)式(5)重新計算出其向量表示:

其中,為指示函數(shù),當x取值為真,其結(jié)果為1,否則為0。表示詞wm,n所對應的詞向量表示,W表示文檔集合的詞匯表大小,nk,w表示詞w被分配到主題k下的數(shù)目;

S6、詞向量訓練:構(gòu)造一棵哈夫曼樹,葉子節(jié)點為詞匯表中的每個詞w,非葉子結(jié)點作為輔助向量u,采用隨機梯度下降的方式求解式(1)所示的目標函數(shù);

S7、循環(huán)執(zhí)行S4至S6若干次,以進行若干次迭代;

S8、將得出的詞向量和主題向量輸出并存儲;

S9、判斷是否一詞多義:將待分析的詞的詞向量和主題向量相拼接,組成一個新向量,代表整個上下文環(huán)境,然后計算該新向量的余弦值,當余弦值小于設定閾值時,認定該詞具有一詞多義現(xiàn)象;反之認定該詞不具有一詞多義現(xiàn)象。

進一步地,在S3中,主題采樣過程中所使用的更新規(guī)則如式(2)所示:

其中,-(m,n)表示在統(tǒng)計時除去當前詞,W表示文本文檔集合的詞匯數(shù),nm,k表示第m篇文檔中屬于主題k的詞的數(shù)量,zm,n表示詞wm,n所分配的主題編號, 表示詞wm,n被分配到主題k下的數(shù)目,nk'表示被分配到主題k下所有詞的數(shù)目,α為狄利克雷對稱超參數(shù);

對主題模型的主題-詞分布進行初始化估計所使用的公式為式(3):

其中,表示初始化估計的主題-詞分布,β表示狄利克雷對稱超參數(shù)。

進一步地,在S4中,根據(jù)式(4)計算出該詞屬于每個主題的概率:

進一步地,在S6中,具體包括以下步驟:

S601、更新主題-詞分布根據(jù)式(6)計算中每個分量的梯度;針對每個分量,定義其約束為

其中,L(wm,n+j)表示從哈夫曼樹根節(jié)點到葉子節(jié)點wm,n+j的路徑長度(節(jié)點數(shù)目,包含根節(jié)點和葉子節(jié)點),表示該路徑上節(jié)點i→i+1的哈夫曼編碼,σ(x)=1/(1+e-x),表示該路徑上第i個非葉子結(jié)點;

S602、更新詞向量w:根據(jù)式(7)計算每個詞的梯度,并利用輔助向量來更新;

S603、更新哈夫曼樹非葉子結(jié)點輔助向量u:根據(jù)式(8)計算哈夫曼樹路徑上的非葉子結(jié)點向量u,使之能影響詞向量w的訓練質(zhì)量;

進一步地,在S9中,所設定的閾值為0.6。

本發(fā)明提供的一種基于主題模型和向量空間的一詞多義分析方法,可以訓練出更優(yōu)質(zhì)的詞向量、主題向量,使其在一詞多義的研究分析中表現(xiàn)出更合理的解釋,而且主題模型的表現(xiàn)也明顯優(yōu)于原始模型LDA。本發(fā)明通過主題模型、詞向量、主題向量這三者的交叉學習來相互提高,能夠有效應用于相似性評估、文檔分類、主題相關(guān)性等任務。

附圖說明

圖1是本發(fā)明實施例提供的一種基于主題模型和向量空間的一詞多義分析方法的流程示意圖。

具體實施方式

下面將結(jié)合附圖和具體的實施例對本發(fā)明的技術(shù)方案進行詳細說明。

為了充分借助主題模型、詞向量和主題向量的內(nèi)在特性,考慮到文本數(shù)據(jù)一詞多義現(xiàn)象普遍性,為更好地挖掘文檔集合潛藏的主題信息并訓練更高質(zhì)量的詞向量以及主題向量,本發(fā)明提供了一種基于主題模型和向量空間的一詞多義分析方法。

具體地,本發(fā)明根據(jù)自然語言處理的基本規(guī)則,做出如下合理假設:

1、主題模型中的主題-詞分布可以利用其較高概率的一系列詞表示一個具體的概念,其數(shù)值意義為某一個詞出現(xiàn)在該主題下的概率大小,可通過主題相關(guān)性來評估挖掘的主題質(zhì)量。

2、文本中的每個詞都可以映射到低維實值向量空間中,即詞向量,該向量包含了該詞的語法語義等信息,并可使用歐氏距離或余弦等數(shù)學方式來評估他們之間的差異。

3、主題向量與主題模型中的主題-詞分布并不是完全孤立的,主題向量可視為該概率分布在詞向量空間的一個語義中心映射,與詞向量緊密關(guān)聯(lián)。

基于上述假設,本發(fā)明提出了一種基于主題模型和向量空間的一詞多義分析方法,如圖1所示,所述方法包括如下步驟:

S1、以式(1)作為目標函數(shù),建立一詞多義的主題模型:

其中為文本文檔集合,M為集合中的文檔數(shù),Nm為第m篇文檔的詞的數(shù)量,c為上下文信息窗口大小,wm,n表示第m篇文檔第n個詞,K表示主題數(shù)目,tk表示第k個主題向量,表示主題模型中的主題-詞分布,表示wm,n的主題編號;

S2、讀取整個文本文檔集合的數(shù)據(jù);

S3、主題-詞分布初始化:首先,采用GibbsLDA算法對文本文檔集合中的每個詞進行主題采樣;然后,對主題模型的主題-詞分布進行初始化估計;

其中,主題采樣過程中所使用的更新規(guī)則如式(2)所示:

其中,-(m,n)表示在統(tǒng)計時除去當前詞,W表示文本文檔集合的詞匯數(shù),nm,k表示第m篇文檔中屬于主題k的詞的數(shù)量,zm,n表示詞wm,n所分配的主題編號, 表示詞wm,n被分配到主題k下的數(shù)目,nk'表示被分配到主題k下所有詞的數(shù) 目,α為狄利克雷對稱超參數(shù);

對主題模型的主題-詞分布進行初始化估計所使用的公式為式(3):

其中,表示初始化估計的主題-詞分布,β表示狄利克雷對稱超參數(shù);

S4、主題采樣:針對文檔中的每一個詞wm,n,根據(jù)式(4)計算出該詞屬于每個主題的概率,然后采用累加分布的方式采樣出其對應的主題編號zm,n∈[1,K];

在主題模型中,z作為模型的隱變量,是吉布斯采樣求解過程中不可或缺的中間橋梁,直接影響主題模型最終所需要獲取的主題-詞分布以及文檔-主題分布θ的效果。與原始的吉布斯更新規(guī)則不同,本發(fā)明采用式(4)作為吉布斯更新規(guī)則,其特征在于,直接在更新規(guī)則中使用主題-詞分布其有益效果是,可以充分利用分布的統(tǒng)計以及現(xiàn)實意義,而且還可加快計算速度,更適應大規(guī)模數(shù)據(jù)集的應用。

S5、主題向量更新:對于每個主題向量tk,k∈[1,K],根據(jù)式(5)重新計算出其向量表示:

其中,為指示函數(shù),當x取值為真,其結(jié)果為1,否則為0。表示詞wm,n所對應的詞向量表示,W表示文本文檔集合的詞匯表大小,nk,w表示詞w被分配到主題k下的數(shù)目,這正是一詞多義的細微體現(xiàn),一個詞可能屬于不同的主 題。進一步的,主題向量的計算更新可全部同時進行,互不干擾。

主題向量的主要目的在于使用向量空間來表示文檔集合中的潛藏主題信息而不是類似的多項式分布,從而使主題具有更多的空間幾何意義,跟詞向量的結(jié)合也更密切。與使用類似Skip-Gram方式訓練主題向量的TWE模型不同,本發(fā)明采用式(5)直接更新計算每個主題所對應的向量表示,其特征在于,每個主題的向量表示僅與該主題下的詞相關(guān),其有益效果是,主題向量的計算方式簡單、易于理解,快速高效,而且采用均值計算,可使其向量更接近于這些詞向量的幾何中心,根據(jù)假設2可知,該向量可近似看作一個主題概念的語義中心。

S6、詞向量訓練:構(gòu)造一棵哈夫曼樹,葉子節(jié)點為詞匯表中的每個詞w,非葉子結(jié)點作為輔助向量u,采用隨機梯度下降的方式求解式(1)所示的目標函數(shù);具體地,S6包括以下步驟:

S601、更新主題-詞分布根據(jù)式(6)計算中每個分量的梯度;其中需要注意該分布具有概率意義,因此針對每個分量,我們需要定義其約束為

其中,L(wm,n+j)表示從哈夫曼樹根節(jié)點到葉子節(jié)點wm,n+j的路徑長度(節(jié)點數(shù)目,包含根節(jié)點和葉子節(jié)點),表示該路徑上節(jié)點i→i+1的哈夫曼編碼,σ(x)=1/(1+e-x),表示該路徑上第i個非葉子結(jié)點;

S602、更新詞向量w:根據(jù)式(7)計算每個詞的梯度,并利用輔助向量來 更新;

S603、更新哈夫曼樹非葉子結(jié)點輔助向量u。此步驟主要根據(jù)式(8)計算哈夫曼樹路徑上的非葉子結(jié)點向量u,使之能影響葉子節(jié)點(即詞向量w)的訓練質(zhì)量;

由于softmax函數(shù)的計算復雜度與詞匯表大小W程線性相關(guān),不利于大規(guī)模數(shù)據(jù)集的訓練。本發(fā)明沿用Skip-Gram的近似計算方法,采用分層softmax的思想,構(gòu)造一棵哈夫曼樹,葉子節(jié)點為詞匯表中的每個詞w,非葉子結(jié)點u作為輔助向量u。在詞向量訓練階段,本發(fā)明采用隨機梯度下降來求解式(1)所示的目標函數(shù),主題-詞分布的梯度計算如式(6)所示,其特征在于,主題-詞分布的更新直接使用了主題向量tk以及哈夫曼樹的非葉子結(jié)點向量u,其有益效果是,主題-詞分布在迭代更新中不斷吸收主題向量tk的內(nèi)容信息,并且通過輔助向量u達到與詞向量交換信息的目的,使得的更新直接或間接利用了主題向量、詞向量的空間特征。

進一步的,哈夫曼樹中的節(jié)點向量更新梯度計算分別如式(7)和式(8)所示,其特征在于,非葉子向量u的更新直接使用了主題向量以及主題分布 而葉子節(jié)點w的更新則直接利用非葉子向量,其有益效果是,主題向量和主題分布通過滲透整棵哈夫曼樹的非葉子節(jié)點(即枝干),使得哈夫曼樹上的葉子節(jié)點在更深層次上受到其二者的影響,從而達到其相互促進的效果。

S7、循環(huán)執(zhí)行S4至S6若干次,以進行若干次迭代;進行迭代主要是為了 讓主題模型、詞向量、主題向量這三者進一步地交叉學習來相互提高。

S8、將得出的詞向量和主題向量輸出并存儲;

S9、判斷是否一詞多義:將待分析的詞的詞向量和主題向量相拼接,組成一個新向量,代表整個上下文環(huán)境,然后計算該新向量的余弦值,當余弦值小于設定閾值(例如e<0.60)時,該詞具有一詞多義現(xiàn)象;反之該詞在給定的不同上下文中意義一致,不具有一詞多義現(xiàn)象。

以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
夏津县| 浦北县| 肃宁县| 进贤县| 信宜市| 浠水县| 乌拉特中旗| 神池县| 蓝山县| 诸城市| 大洼县| 探索| 新竹市| 西丰县| 远安县| 卢龙县| 佳木斯市| 商丘市| 赞皇县| 澄迈县| 栖霞市| 海林市| 建昌县| 大连市| 青海省| 阜康市| 霍城县| 留坝县| 兰溪市| 桃园市| 镇平县| 莫力| 牙克石市| 吉安县| 马公市| 襄城县| 鄯善县| 双牌县| 徐闻县| 鄂州市| 离岛区|