本發(fā)明涉及文本特征向量化表示領(lǐng)域,特別是一種基于深度語義路徑搜索的短文本聚類方法。
背景技術(shù):
目前,隨著社交媒體的廣泛流行,聊天機器人的興起,從短文本中發(fā)現(xiàn)有價值信息是十分重要的渠道。而短文本聚類其中重要的任務(wù)。它的主要挑戰(zhàn)是文本表示的稀疏性。為了克服這個困難,一些研究者嘗試通過維基百科或本體庫對短文本數(shù)據(jù)進(jìn)行豐富和擴展。可是這種擴展都是基于“詞”維度上的語義擴展。而實際是在“句子”層面的計算;很有可能導(dǎo)致一個簇里面出現(xiàn)下面兩種句子,它們的意思是相反的:我喜歡吃蘋果與我不喜歡吃蘋果。
這是由語法結(jié)構(gòu)帶來的句子表達(dá)不一致,這在中文這種句法結(jié)構(gòu)復(fù)雜的語言中,帶來的反效果十分明顯。一些研究人員為解決這種問題,會采用通過“詞”聚類的方式,自建語義樹;這種語義樹的精準(zhǔn)度十分有限,如果要達(dá)到工業(yè)級別可用的高精準(zhǔn)度,則需要大量人力參與。
深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,dnns)及其學(xué)習(xí)算法,作為成功的大數(shù)據(jù)分析方法,已為學(xué)術(shù)界和工業(yè)界所熟知.與傳統(tǒng)方法相比,深度學(xué)習(xí)方法以數(shù)據(jù)驅(qū)動、能自動地從數(shù)據(jù)中提取特征(知識),對于分析非結(jié)構(gòu)化、模式不明多變、跨領(lǐng)域的大數(shù)據(jù)具有顯著優(yōu)勢。近幾年,詞向量化表示方法大大改善了神經(jīng)網(wǎng)絡(luò)模型的性能,如遞歸神經(jīng)網(wǎng)絡(luò)(recnn)和循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)。近日,循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)在很多自然語言處理領(lǐng)域取得多項突破性進(jìn)展。但目前大多數(shù)工作都致力于利用循環(huán)神經(jīng)網(wǎng)絡(luò)做有監(jiān)督任務(wù)學(xué)習(xí),如主題分類、關(guān)系分類等。
通過詞語的embedding來構(gòu)建語義樹,由于embedding是由無監(jiān)督模型word2vec學(xué)習(xí)出來的,它的精準(zhǔn)度有一定瓶頸,語義樹的構(gòu)建不精準(zhǔn),會直接導(dǎo)致后續(xù)的聚類效果產(chǎn)生較大偏差,很難達(dá)到工業(yè)級別的應(yīng)用要求;
如果考慮人工干預(yù),人工專家的成本也非常大;在模型完成優(yōu)化后,如果要遷移到其他領(lǐng)域,也需要花費此類人工專家干預(yù)成本。
現(xiàn)有技術(shù)在研究領(lǐng)域有不錯的效果,但應(yīng)用到工業(yè)領(lǐng)域,應(yīng)當(dāng)多變的情況的時,效果就體現(xiàn)不出來。
技術(shù)實現(xiàn)要素:
基于以上技術(shù)問題,本發(fā)明提供了一種基于深度語義路徑搜索的短文本聚類方法,
旨在解決個別噪音詞語對解析整個短文本語義干擾非常嚴(yán)重的問題。
本發(fā)明采用的技術(shù)方案如下:
一種基于深度語義路徑搜索的短文本聚類方法,包括以下步驟:
步驟1:對通用語料庫進(jìn)行預(yù)處理,得到所述語料庫對應(yīng)的詞匯表;
步驟2:建立所述詞匯表中各詞語的實數(shù)向量;
步驟3:對短文本進(jìn)行預(yù)處理;
步驟4:利用處理后的短文本對lstm序列化模型進(jìn)行訓(xùn)練,得到優(yōu)化后lstm模型;
步驟5:搜索短文本中詞序列中有序的子序列組合,利用所述優(yōu)化后的lstm模型計算所述子序列組合的概率,利用所述概率選擇所述短文本最優(yōu)的語義路徑;
步驟6:利用短文本間最優(yōu)的語言路徑通過余弦相似度計算得到短文本間相似度;
步驟7:將所述相似度作為聚類的參數(shù)對短文本進(jìn)行聚類,得到最終聚類的結(jié)果。
進(jìn)一步的,所述步驟1中,預(yù)處理的方法為:將所述語料庫中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理;選出所述語料庫中出現(xiàn)次數(shù)大于n次的詞語;將所述詞語作為語料庫對應(yīng)的詞匯表;其中n表示詞語出現(xiàn)頻次的閾值。
進(jìn)一步的,所述步驟2中,利用word2vec的超參數(shù)建立詞語的實數(shù)向量(embedding)的方法為:
步驟s301:將詞語映射為k維實數(shù)向量,將所述詞語周圍的m個詞語作為該詞語的上下文;
步驟s302:根據(jù)所述上下文利用邏輯回歸函數(shù)預(yù)測所述詞語的概率;
步驟s303:通過使所述概率最大化,經(jīng)過反饋迭代改變所述k維實數(shù)向量;
步驟s304:當(dāng)所述邏輯回歸函數(shù)的損失函數(shù)值小于預(yù)設(shè)閾值后,停止迭代,所得的k維實數(shù)向量即為該詞語的實數(shù)向量;
其中k表示實數(shù)向量的長度,m表示詞語框的大小。
進(jìn)一步的,所述步驟3中,對短文本進(jìn)行預(yù)處理的方法為:將所述短文本中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理。
進(jìn)一步的,所述步驟4中,lstm序列化模型的訓(xùn)練過程過程為:
步驟s501:將所述短文本的中的各詞語映射為onehot向量;
步驟s502:將第i個詞語的onehot向量xi和位置i-1的隱藏狀態(tài)si-1作為位置i的輸入,利用非線性函數(shù)f計算出位置i的隱藏狀態(tài)si;
步驟s503:改變所述短文本中詞語的序列,得出位置i的隱藏狀態(tài)si',利用隱藏狀態(tài)殘差si-si'對lstm序列化模型進(jìn)行誤差反向傳播;
步驟s504:多次改變所述短文本中詞語的序列,使第i個詞語的onehot向量xi和所述非線性函數(shù)f得到優(yōu)化。
進(jìn)一步的,所述非線性函數(shù)f為:
其中,i為短文本中詞語的序號,u和w為轉(zhuǎn)化參數(shù)矩陣,由lstm序列化模型訓(xùn)練優(yōu)化得出。
進(jìn)一步的,所述步驟5中,所述子序列組合的概率的計算方法為:利用訓(xùn)練后的lstm序列化模型,將短文本中每個詞語依次映射為onehot向量并進(jìn)行隱藏狀態(tài)的計算;再利用s函數(shù)計算出每個詞語在該短文本序列中出現(xiàn)的概率oi;
所述s函數(shù)為:
oi=softmax(vsi);
選擇所述最優(yōu)語義路徑的方法為:利用該短文本中所有詞按順序出現(xiàn)的概率的平均值作為語義路徑的擇優(yōu)判斷。
進(jìn)一步的,所述步驟6中,短文本間相似度的計算方法為:
步驟s801:將所述短文本語義路徑中的每個詞語映射為實數(shù)向量;
步驟s802:將詞語的實數(shù)向量與該詞語出現(xiàn)的概率oi記為pe;
步驟s803:將每個詞語計算出的pe相加得到所述短文本的實數(shù)向量,并記為all_pe;
步驟s804:通過余弦相似度計算短文本間all_pe的夾角,得到短文本間的相似度。
進(jìn)一步的,所述步驟7中,所述聚類的方法采用k均值聚類算法。
綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:
使用深度神經(jīng)網(wǎng)絡(luò)模型lstm學(xué)習(xí)短文本詞序列組合概率,并根據(jù)這種概率選擇出最優(yōu)的短文本子序列組合為語義路徑,以此減少短文本中噪音詞對聚類效果所帶來的干擾;
使用詞語的實數(shù)向量乘以該詞語在lstm序列模型中出現(xiàn)概率的方式來優(yōu)化相似度計算,比直接使用詞語的實數(shù)向量計算相似度效果要更優(yōu)。
利用本發(fā)明可有效的提高正確聚類的短文本數(shù)占總短文本數(shù)的比例,使在不需要人工專家干預(yù)數(shù)據(jù)的情況下,也能達(dá)到較高的聚類準(zhǔn)確率。
附圖說明
圖1是本發(fā)明的流程圖。
具體實施方式
本說明書中公開的所有特征,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。
下面結(jié)合附圖對本發(fā)明作詳細(xì)說明。
一種基于深度語義路徑搜索的短文本聚類方法,包括以下步驟:
步驟1:對通用語料庫進(jìn)行預(yù)處理,得到所述語料庫對應(yīng)的詞匯表;
預(yù)處理的方法為:將所述語料庫中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理;選出所述語料庫中出現(xiàn)次數(shù)大于n次的詞語;將所述詞語作為語料庫對應(yīng)的詞匯表;其中n表示詞語出現(xiàn)頻次的閾值。
步驟2:利用word2vec的超參數(shù)建立詞語的實數(shù)向量(embedding)的方法為:
步驟s301:將詞語映射為k維實數(shù)向量,將所述詞語周圍的m個詞語作為該詞語的上下文;
步驟s302:根據(jù)所述上下文利用邏輯回歸函數(shù)預(yù)測所述詞語的概率;
步驟s303:通過使所述概率最大化,經(jīng)過反饋迭代改變所述k維實數(shù)向量;
步驟s304:當(dāng)所述邏輯回歸函數(shù)的損失函數(shù)值小于預(yù)設(shè)閾值后,停止迭代,所得的k維實數(shù)向量即為該詞語的實數(shù)向量;
其中k表示實數(shù)向量的長度,m表示詞語框的大小。
步驟3:對短文本進(jìn)行預(yù)處理;
對短文本進(jìn)行預(yù)處理的方法為:將所述短文本中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理。
步驟4:利用處理后的短文本對lstm序列化模型進(jìn)行訓(xùn)練,得到優(yōu)化后lstm模型;
lstm序列化模型的訓(xùn)練過程過程為:
步驟s501:將所述短文本的中的各詞語映射為onehot向量;
步驟s502:將第i個詞語的onehot向量xi和位置i-1的隱藏狀態(tài)si-1作為位置i的輸入,利用非線性函數(shù)f計算出位置i的隱藏狀態(tài)si;
步驟s503:改變所述短文本中詞語的序列,得出位置i的隱藏狀態(tài)si',利用隱藏狀態(tài)殘差si-si'對lstm序列化模型進(jìn)行誤差反向傳播;
步驟s504:多次改變所述短文本中詞語的序列,使第i個詞語的onehot向量xi和所述非線性函數(shù)f得到優(yōu)化。
所述非線性函數(shù)f為:
其中,i為短文本中詞語的序號,u和w為轉(zhuǎn)化參數(shù)矩陣,由lstm序列化模型訓(xùn)練優(yōu)化得出。
步驟5:搜索短文本中詞序列中有序的子序列組合,利用所述優(yōu)化后的lstm模型計算所述子序列組合的概率,利用所述概率選擇所述短文本最優(yōu)的語義路徑;
所述子序列組合的概率的計算方法為:利用訓(xùn)練后的lstm序列化模型,將短文本中每個詞語依次映射為onehot向量并進(jìn)行隱藏狀態(tài)的計算;再利用s函數(shù)計算出每個詞語在該短文本序列中出現(xiàn)的概率oi;
所述s函數(shù)為:
oi=softmax(vsi);
選擇所述最優(yōu)語義路徑的方法為:利用該短文本中所有詞按順序出現(xiàn)的概率的平均值作為語義路徑的擇優(yōu)判斷。
步驟6:利用短文本間最優(yōu)的語言路徑通過余弦相似度計算得到短文本間相似度;
短文本間相似度的計算方法為:
步驟s801:將所述短文本語義路徑中的每個詞語映射為實數(shù)向量;
步驟s802:將詞語的實數(shù)向量與該詞語出現(xiàn)的概率oi記為pe;
步驟s803:將每個詞語計算出的pe相加得到所述短文本的實數(shù)向量,并記為all_pe;
步驟s804:通過余弦相似度計算短文本間all_pe的夾角,得到短文本間的相似度。
步驟7:將所述相似度作為聚類的參數(shù)對短文本進(jìn)行聚類,得到最終聚類的結(jié)果,所述聚類的方法采用k均值聚類算法,也可采用普聚類或?qū)哟尉垲惙椒ā?/p>
如上所述即為本發(fā)明的實施例。本發(fā)明不局限于上述實施方式,任何人應(yīng)該得知在本發(fā)明的啟示下做出的結(jié)構(gòu)變化,凡是與本發(fā)明具有相同或相近的技術(shù)方案,均落入本發(fā)明的保護(hù)范圍之內(nèi)。