一種潛在語(yǔ)義分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開(kāi)了一種潛在語(yǔ)義分析方法及系統(tǒng),該方法包括以下步驟:對(duì)文本庫(kù)進(jìn)行訓(xùn)練;對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析;將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中;用戶通過(guò)該系統(tǒng)的矩陣訪問(wèn)接口可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。本發(fā)明可以消除文本中詞之間的相關(guān)性,并簡(jiǎn)化文本向量實(shí)現(xiàn)降低語(yǔ)義維度。
【專利說(shuō)明】一種潛在語(yǔ)義分析方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種潛在語(yǔ)義分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]語(yǔ)義分析是編譯過(guò)程的一個(gè)邏輯階段,語(yǔ)義分析的任務(wù)是對(duì)結(jié)構(gòu)上正確的文本進(jìn)行上下文有關(guān)性質(zhì)的審查,進(jìn)行審查,審查文本有無(wú)語(yǔ)義錯(cuò)誤。比如語(yǔ)義分析的一個(gè)工作是進(jìn)行類型審查,審查每個(gè)算符是否具有語(yǔ)言規(guī)范允許的運(yùn)算對(duì)象,當(dāng)不符合語(yǔ)言規(guī)范時(shí),應(yīng)報(bào)告錯(cuò)誤。
[0003]然而,現(xiàn)有技術(shù)中的語(yǔ)義分析無(wú)法消除文本中詞之間的相關(guān)性,并簡(jiǎn)化文本向量,不利于客戶整體把握情報(bào)的概貌,起到輿情監(jiān)控類似效果。
【發(fā)明內(nèi)容】
[0004]為了解決【背景技術(shù)】中存在的技術(shù)問(wèn)題,本發(fā)明提出了一種潛在語(yǔ)義分析方法及系統(tǒng),可以消除文本中詞之間的相關(guān)性,并簡(jiǎn)化文本向量,實(shí)現(xiàn)降低語(yǔ)義維度。
[0005]本發(fā)明提出的一種潛在語(yǔ)義分析方法,包括以下步驟:
[0006]對(duì)文本庫(kù)進(jìn)行訓(xùn)練;
[0007]對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析;
[0008]將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中;
[0009]用戶通過(guò)該系統(tǒng)的矩陣訪問(wèn)接口可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
[0010]優(yōu)選地,所述對(duì)文本庫(kù)進(jìn)行訓(xùn)練具體為:采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí)。
[0011]優(yōu)選地,利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。
[0012]優(yōu)選地,所述提取的特征項(xiàng)包括:1)極性詞;2)極性詞的極性,例如方向、大小等;3)否定詞;4)否定詞的位置,即相對(duì)于極性詞的位置;5)程度詞;6)程度詞的強(qiáng)度;7)程度詞的位置;8)否定詞與程度詞的位置關(guān)系。
[0013]優(yōu)選地,所述對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析具體為:通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。
[0014]優(yōu)選地,所述矩陣分解是將矩陣拆解為數(shù)個(gè)矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和奇異值分解。
[0015]優(yōu)選地,所述奇異值分解得到三個(gè)矩陣SVD,用S、D矩陣作為計(jì)算段落間關(guān)聯(lián)度計(jì)算、話題間關(guān)聯(lián)度、維度獨(dú)立性計(jì)算。
[0016]本發(fā)明提出的一種潛在語(yǔ)義分析系統(tǒng),包括:
[0017]訓(xùn)練模塊,用于對(duì)文本庫(kù)進(jìn)行訓(xùn)練;
[0018]分析模塊,與所述訓(xùn)練模塊連接,用于對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析;
[0019]存儲(chǔ)模塊,與所述分析模塊連接,用于將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中;
[0020]訪問(wèn)模塊,與所述存儲(chǔ)模塊連接,使用戶通過(guò)該系統(tǒng)模塊可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
[0021]優(yōu)選地,所述訓(xùn)練模塊具體用于采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí),利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。
[0022]優(yōu)選地,所述分析模塊具體用于:通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。
[0023]本發(fā)明中,對(duì)大量的文本集進(jìn)行分析,從而提取出詞與詞之間潛在的語(yǔ)義結(jié)構(gòu),并用這種潛在的語(yǔ)義結(jié)構(gòu),表示詞和文本,達(dá)到消除詞之間的相關(guān)性和簡(jiǎn)化文本向量實(shí)現(xiàn)降維的目的;不但有利于對(duì)維度關(guān)聯(lián)情況的把握,而且為分析大文檔集合中的核心維度和話題核心變化以及趨勢(shì)預(yù)測(cè)提供參考依據(jù),有利于客戶整體把握情報(bào)的概貌,起到輿情監(jiān)控類似效果。
【專利附圖】
【附圖說(shuō)明】
[0024]圖1為本發(fā)明實(shí)施例提出的一種潛在語(yǔ)義分析方法流程圖;
[0025]圖2為本發(fā)明實(shí)施例提出的一種潛在語(yǔ)義分析系統(tǒng)結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0026]如圖1所示,本發(fā)明實(shí)施例提出了一種潛在語(yǔ)義分析方法,包括以下步驟:
[0027]步驟101,對(duì)文本庫(kù)進(jìn)行訓(xùn)練。采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí),利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。其中,提取的特征項(xiàng)包括:1)極性詞;2)極性詞的極性,例如方向、大小等;3)否定詞;4)否定詞的位置,即相對(duì)于極性詞的位置;5)程度詞;6)程度詞的強(qiáng)度;7)程度詞的位置;8)否定詞與程度詞的位置關(guān)系等。
[0028]步驟102,對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析,通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。其中,矩陣分解是將矩陣拆解為數(shù)個(gè)矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和SVD (奇異值)分解等,常見(jiàn)的有三種:1)三角分解法,2) QR分解法,3)奇異值分解法。奇異值分解是一種正交矩陣分解法,【U,S,V】=svd(A),其中U和V分別代表兩個(gè)正交矩陣,而S代表一對(duì)角矩陣,使用SVD分解法的用途是解最小平方誤差法和數(shù)據(jù)壓縮。
[0029]分解后得到三個(gè)矩陣SVD,用S、D矩陣作為計(jì)算段落間關(guān)聯(lián)度計(jì)算、話題間關(guān)聯(lián)度、維度獨(dú)立性計(jì)算。(I)段落間關(guān)聯(lián)度用于得出段落間語(yǔ)義關(guān)聯(lián)的強(qiáng)弱指標(biāo)值;(2)話題間關(guān)聯(lián)度提供了一種潛在語(yǔ)義意義上的話題關(guān)聯(lián)情況的參考值。(3)維度獨(dú)立性分析用以對(duì)語(yǔ)義維度的關(guān)聯(lián)性計(jì)算,不但有利于對(duì)維度關(guān)聯(lián)情況的把握,而且為分析大文檔集合中的核心維度和話題核心變化以及趨勢(shì)預(yù)測(cè)提供參考依據(jù),有利于客戶整體把握情報(bào)的概貌,起到輿情監(jiān)控類似效果。
[0030]步驟103,將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中。
[0031]步驟104,用戶通過(guò)該系統(tǒng)的矩陣訪問(wèn)接口可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
[0032]如圖2所示,本發(fā)明實(shí)施例提出的一種潛在語(yǔ)義分析系統(tǒng),包括:訓(xùn)練模塊10,用于對(duì)文本庫(kù)進(jìn)行訓(xùn)練;分析模塊20,與所述訓(xùn)練模塊10連接,用于對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析;存儲(chǔ)模塊30,與所述分析模塊20連接,用于將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中;訪問(wèn)模塊40,與所述存儲(chǔ)模塊30連接,使用戶通過(guò)該系統(tǒng)模塊可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
[0033]所述訓(xùn)練模塊10具體用于采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí),利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。
[0034]所述分析模塊20具體用于:通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。
[0035]以上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其發(fā)明構(gòu)思加以等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種潛在語(yǔ)義分析方法,其特征在于,包括以下步驟: 對(duì)文本庫(kù)進(jìn)行訓(xùn)練; 對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析; 將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中; 通過(guò)矩陣訪問(wèn)接口根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
2.根據(jù)權(quán)利要求1所述的潛在語(yǔ)義分析方法,其特征在于,所述對(duì)文本庫(kù)進(jìn)行訓(xùn)練具體為:采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí)。
3.根據(jù)權(quán)利要求2所述的潛在語(yǔ)義分析方法,其特征在于,利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。
4.根據(jù)權(quán)利要求3所述的潛在語(yǔ)義分析方法,其特征在于,所述提取的特征項(xiàng)包括:極性詞、極性詞的極性、否定詞、否定詞的位置、程度詞、程度詞的強(qiáng)度、程度詞的位置、否定詞與程度詞的位置關(guān)系。
5.根據(jù)權(quán)利要求1所述的潛在語(yǔ)義分析方法,其特征在于,所述對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析具體為:通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。
6.根據(jù)權(quán)利要求5所述的潛在語(yǔ)義分析方法,其特征在于,所述矩陣分解是將矩陣拆解為數(shù)個(gè)矩陣的乘積,可分為三角分解、滿秩分解、QR分解、Jordan分解和奇異值分解。
7.根據(jù)權(quán)利要求6所述的潛在語(yǔ)義分析方法,其特征在于,所述奇異值分解得到三個(gè)矩陣SVD,用S、D矩陣作為計(jì)算段落間關(guān)聯(lián)度計(jì)算、話題間關(guān)聯(lián)度、維度獨(dú)立性計(jì)算。
8.一種潛在語(yǔ)義分析系統(tǒng),其特征在于,包括: 訓(xùn)練模塊,用于對(duì)文本庫(kù)進(jìn)行訓(xùn)練; 分析模塊,與所述訓(xùn)練模塊連接,用于對(duì)訓(xùn)練好的文本庫(kù)進(jìn)行潛在語(yǔ)義分析; 存儲(chǔ)模塊,與所述分析模塊連接,用于將分解后的潛在語(yǔ)義分析存儲(chǔ)到系統(tǒng)中; 訪問(wèn)模塊,與所述存儲(chǔ)模塊連接,使用戶通過(guò)該系統(tǒng)模塊可以根據(jù)歷史參考數(shù)據(jù)或?qū)ο笙蛄颗c矩陣、關(guān)聯(lián)度識(shí)別對(duì)象調(diào)用段落間關(guān)聯(lián)度、話題間關(guān)聯(lián)度和維度獨(dú)立性與關(guān)聯(lián)度。
9.根據(jù)權(quán)利要求8所述的潛在語(yǔ)義分析系統(tǒng),其特征在于,所述訓(xùn)練模塊具體用于采用基于統(tǒng)計(jì)的方法,提取出文本庫(kù)中傾向相關(guān)特征,利用提取出的特征進(jìn)行訓(xùn)練文本庫(kù)的學(xué)習(xí),利用最大熵方法算出特征的權(quán)值,自動(dòng)統(tǒng)計(jì)得出規(guī)則進(jìn)行語(yǔ)義傾向的判斷。
10.根據(jù)權(quán)利要求8所述的潛在語(yǔ)義分析系統(tǒng),其特征在于,所述分析模塊具體用于:通過(guò)對(duì)項(xiàng)/文檔矩陣的矩陣分解將高維的向量空間模型表示中的文檔映射到低維的潛在語(yǔ)義空間中。
【文檔編號(hào)】G06F17/30GK104281567SQ201410537871
【公開(kāi)日】2015年1月14日 申請(qǐng)日期:2014年10月13日 優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】賈巖 申請(qǐng)人:安徽華貞信息科技有限公司