一種基于深度語義路徑搜索的短文本聚類方法與流程

文檔序號：11774621閱讀：434來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及文本特征向量化表示領(lǐng)域，特別是一種基于深度語義路徑搜索的短文本聚類方法。

背景技術(shù)：

目前，隨著社交媒體的廣泛流行，聊天機器人的興起，從短文本中發(fā)現(xiàn)有價值信息是十分重要的渠道。而短文本聚類其中重要的任務(wù)。它的主要挑戰(zhàn)是文本表示的稀疏性。為了克服這個困難,一些研究者嘗試通過維基百科或本體庫對短文本數(shù)據(jù)進(jìn)行豐富和擴展。可是這種擴展都是基于“詞”維度上的語義擴展。而實際是在“句子”層面的計算；很有可能導(dǎo)致一個簇里面出現(xiàn)下面兩種句子，它們的意思是相反的：我喜歡吃蘋果與我不喜歡吃蘋果。

這是由語法結(jié)構(gòu)帶來的句子表達(dá)不一致，這在中文這種句法結(jié)構(gòu)復(fù)雜的語言中，帶來的反效果十分明顯。一些研究人員為解決這種問題，會采用通過“詞”聚類的方式，自建語義樹；這種語義樹的精準(zhǔn)度十分有限，如果要達(dá)到工業(yè)級別可用的高精準(zhǔn)度，則需要大量人力參與。

深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,dnns)及其學(xué)習(xí)算法,作為成功的大數(shù)據(jù)分析方法,已為學(xué)術(shù)界和工業(yè)界所熟知.與傳統(tǒng)方法相比,深度學(xué)習(xí)方法以數(shù)據(jù)驅(qū)動、能自動地從數(shù)據(jù)中提取特征(知識),對于分析非結(jié)構(gòu)化、模式不明多變、跨領(lǐng)域的大數(shù)據(jù)具有顯著優(yōu)勢。近幾年,詞向量化表示方法大大改善了神經(jīng)網(wǎng)絡(luò)模型的性能,如遞歸神經(jīng)網(wǎng)絡(luò)(recnn)和循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)。近日,循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)在很多自然語言處理領(lǐng)域取得多項突破性進(jìn)展。但目前大多數(shù)工作都致力于利用循環(huán)神經(jīng)網(wǎng)絡(luò)做有監(jiān)督任務(wù)學(xué)習(xí),如主題分類、關(guān)系分類等。

通過詞語的embedding來構(gòu)建語義樹，由于embedding是由無監(jiān)督模型word2vec學(xué)習(xí)出來的，它的精準(zhǔn)度有一定瓶頸，語義樹的構(gòu)建不精準(zhǔn)，會直接導(dǎo)致后續(xù)的聚類效果產(chǎn)生較大偏差，很難達(dá)到工業(yè)級別的應(yīng)用要求；

如果考慮人工干預(yù)，人工專家的成本也非常大；在模型完成優(yōu)化后，如果要遷移到其他領(lǐng)域，也需要花費此類人工專家干預(yù)成本。

現(xiàn)有技術(shù)在研究領(lǐng)域有不錯的效果，但應(yīng)用到工業(yè)領(lǐng)域，應(yīng)當(dāng)多變的情況的時，效果就體現(xiàn)不出來。

技術(shù)實現(xiàn)要素：

基于以上技術(shù)問題，本發(fā)明提供了一種基于深度語義路徑搜索的短文本聚類方法，

旨在解決個別噪音詞語對解析整個短文本語義干擾非常嚴(yán)重的問題。

本發(fā)明采用的技術(shù)方案如下：

一種基于深度語義路徑搜索的短文本聚類方法，包括以下步驟：

步驟1：對通用語料庫進(jìn)行預(yù)處理，得到所述語料庫對應(yīng)的詞匯表；

步驟2：建立所述詞匯表中各詞語的實數(shù)向量；

步驟3：對短文本進(jìn)行預(yù)處理；

步驟4：利用處理后的短文本對lstm序列化模型進(jìn)行訓(xùn)練，得到優(yōu)化后lstm模型；

步驟5：搜索短文本中詞序列中有序的子序列組合，利用所述優(yōu)化后的lstm模型計算所述子序列組合的概率，利用所述概率選擇所述短文本最優(yōu)的語義路徑；

步驟6：利用短文本間最優(yōu)的語言路徑通過余弦相似度計算得到短文本間相似度；

步驟7：將所述相似度作為聚類的參數(shù)對短文本進(jìn)行聚類，得到最終聚類的結(jié)果。

進(jìn)一步的，所述步驟1中，預(yù)處理的方法為：將所述語料庫中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理；選出所述語料庫中出現(xiàn)次數(shù)大于n次的詞語；將所述詞語作為語料庫對應(yīng)的詞匯表；其中n表示詞語出現(xiàn)頻次的閾值。

進(jìn)一步的，所述步驟2中，利用word2vec的超參數(shù)建立詞語的實數(shù)向量(embedding)的方法為：

步驟s301：將詞語映射為k維實數(shù)向量，將所述詞語周圍的m個詞語作為該詞語的上下文；

步驟s302：根據(jù)所述上下文利用邏輯回歸函數(shù)預(yù)測所述詞語的概率；

步驟s303：通過使所述概率最大化，經(jīng)過反饋迭代改變所述k維實數(shù)向量；

步驟s304：當(dāng)所述邏輯回歸函數(shù)的損失函數(shù)值小于預(yù)設(shè)閾值后，停止迭代，所得的k維實數(shù)向量即為該詞語的實數(shù)向量；

其中k表示實數(shù)向量的長度，m表示詞語框的大小。

進(jìn)一步的，所述步驟3中，對短文本進(jìn)行預(yù)處理的方法為：將所述短文本中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理。

進(jìn)一步的，所述步驟4中，lstm序列化模型的訓(xùn)練過程過程為：

步驟s501：將所述短文本的中的各詞語映射為onehot向量；

步驟s502：將第i個詞語的onehot向量xi和位置i-1的隱藏狀態(tài)si-1作為位置i的輸入，利用非線性函數(shù)f計算出位置i的隱藏狀態(tài)si；

步驟s503：改變所述短文本中詞語的序列，得出位置i的隱藏狀態(tài)si'，利用隱藏狀態(tài)殘差si-si'對lstm序列化模型進(jìn)行誤差反向傳播；

步驟s504：多次改變所述短文本中詞語的序列，使第i個詞語的onehot向量xi和所述非線性函數(shù)f得到優(yōu)化。

進(jìn)一步的，所述非線性函數(shù)f為：

其中，i為短文本中詞語的序號，u和w為轉(zhuǎn)化參數(shù)矩陣，由lstm序列化模型訓(xùn)練優(yōu)化得出。

進(jìn)一步的，所述步驟5中，所述子序列組合的概率的計算方法為：利用訓(xùn)練后的lstm序列化模型，將短文本中每個詞語依次映射為onehot向量并進(jìn)行隱藏狀態(tài)的計算；再利用s函數(shù)計算出每個詞語在該短文本序列中出現(xiàn)的概率oi；

所述s函數(shù)為：

oi＝softmax(vsi)；

選擇所述最優(yōu)語義路徑的方法為：利用該短文本中所有詞按順序出現(xiàn)的概率的平均值作為語義路徑的擇優(yōu)判斷。

進(jìn)一步的，所述步驟6中，短文本間相似度的計算方法為：

步驟s801：將所述短文本語義路徑中的每個詞語映射為實數(shù)向量；

步驟s802：將詞語的實數(shù)向量與該詞語出現(xiàn)的概率oi記為pe；

步驟s803：將每個詞語計算出的pe相加得到所述短文本的實數(shù)向量，并記為all_pe；

步驟s804：通過余弦相似度計算短文本間all_pe的夾角，得到短文本間的相似度。

進(jìn)一步的，所述步驟7中，所述聚類的方法采用k均值聚類算法。

綜上所述，由于采用了上述技術(shù)方案，本發(fā)明的有益效果是：

使用深度神經(jīng)網(wǎng)絡(luò)模型lstm學(xué)習(xí)短文本詞序列組合概率，并根據(jù)這種概率選擇出最優(yōu)的短文本子序列組合為語義路徑，以此減少短文本中噪音詞對聚類效果所帶來的干擾；

使用詞語的實數(shù)向量乘以該詞語在lstm序列模型中出現(xiàn)概率的方式來優(yōu)化相似度計算，比直接使用詞語的實數(shù)向量計算相似度效果要更優(yōu)。

利用本發(fā)明可有效的提高正確聚類的短文本數(shù)占總短文本數(shù)的比例，使在不需要人工專家干預(yù)數(shù)據(jù)的情況下，也能達(dá)到較高的聚類準(zhǔn)確率。

附圖說明

圖1是本發(fā)明的流程圖。

具體實施方式

本說明書中公開的所有特征，除了互相排斥的特征和/或步驟以外，均可以以任何方式組合。

下面結(jié)合附圖對本發(fā)明作詳細(xì)說明。

一種基于深度語義路徑搜索的短文本聚類方法，包括以下步驟：

步驟1：對通用語料庫進(jìn)行預(yù)處理，得到所述語料庫對應(yīng)的詞匯表；

預(yù)處理的方法為：將所述語料庫中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理；選出所述語料庫中出現(xiàn)次數(shù)大于n次的詞語；將所述詞語作為語料庫對應(yīng)的詞匯表；其中n表示詞語出現(xiàn)頻次的閾值。

步驟2：利用word2vec的超參數(shù)建立詞語的實數(shù)向量(embedding)的方法為：

步驟s301：將詞語映射為k維實數(shù)向量，將所述詞語周圍的m個詞語作為該詞語的上下文；

步驟s302：根據(jù)所述上下文利用邏輯回歸函數(shù)預(yù)測所述詞語的概率；

步驟s303：通過使所述概率最大化，經(jīng)過反饋迭代改變所述k維實數(shù)向量；

步驟s304：當(dāng)所述邏輯回歸函數(shù)的損失函數(shù)值小于預(yù)設(shè)閾值后，停止迭代，所得的k維實數(shù)向量即為該詞語的實數(shù)向量；

其中k表示實數(shù)向量的長度，m表示詞語框的大小。

步驟3：對短文本進(jìn)行預(yù)處理；

對短文本進(jìn)行預(yù)處理的方法為：將所述短文本中的句子進(jìn)行大小寫轉(zhuǎn)換和分詞處理。

步驟4：利用處理后的短文本對lstm序列化模型進(jìn)行訓(xùn)練，得到優(yōu)化后lstm模型；

lstm序列化模型的訓(xùn)練過程過程為：

步驟s501：將所述短文本的中的各詞語映射為onehot向量；

步驟s502：將第i個詞語的onehot向量xi和位置i-1的隱藏狀態(tài)si-1作為位置i的輸入，利用非線性函數(shù)f計算出位置i的隱藏狀態(tài)si；

步驟s503：改變所述短文本中詞語的序列，得出位置i的隱藏狀態(tài)si'，利用隱藏狀態(tài)殘差si-si'對lstm序列化模型進(jìn)行誤差反向傳播；

步驟s504：多次改變所述短文本中詞語的序列，使第i個詞語的onehot向量xi和所述非線性函數(shù)f得到優(yōu)化。

所述非線性函數(shù)f為：

其中，i為短文本中詞語的序號，u和w為轉(zhuǎn)化參數(shù)矩陣，由lstm序列化模型訓(xùn)練優(yōu)化得出。

所述子序列組合的概率的計算方法為：利用訓(xùn)練后的lstm序列化模型，將短文本中每個詞語依次映射為onehot向量并進(jìn)行隱藏狀態(tài)的計算；再利用s函數(shù)計算出每個詞語在該短文本序列中出現(xiàn)的概率oi；

所述s函數(shù)為：

oi＝softmax(vsi)；

選擇所述最優(yōu)語義路徑的方法為：利用該短文本中所有詞按順序出現(xiàn)的概率的平均值作為語義路徑的擇優(yōu)判斷。

步驟6：利用短文本間最優(yōu)的語言路徑通過余弦相似度計算得到短文本間相似度；

短文本間相似度的計算方法為：

步驟s801：將所述短文本語義路徑中的每個詞語映射為實數(shù)向量；

步驟s802：將詞語的實數(shù)向量與該詞語出現(xiàn)的概率oi記為pe；

步驟s803：將每個詞語計算出的pe相加得到所述短文本的實數(shù)向量，并記為all_pe；

步驟s804：通過余弦相似度計算短文本間all_pe的夾角，得到短文本間的相似度。

步驟7：將所述相似度作為聚類的參數(shù)對短文本進(jìn)行聚類，得到最終聚類的結(jié)果，所述聚類的方法采用k均值聚類算法，也可采用普聚類或?qū)哟尉垲惙椒ā?/p>

如上所述即為本發(fā)明的實施例。本發(fā)明不局限于上述實施方式，任何人應(yīng)該得知在本發(fā)明的啟示下做出的結(jié)構(gòu)變化，凡是與本發(fā)明具有相同或相近的技術(shù)方案，均落入本發(fā)明的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李開宇;李秀生
技術(shù)所有人：四川新網(wǎng)銀行股份有限公司
我是此專利的發(fā)明人

上一篇：一種柵欄式臨邊、樓梯防護(hù)欄的制作方法與工藝
上一篇：一種網(wǎng)片式基坑防護(hù)欄的制作方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

短文本語義相似度相關(guān)技術(shù)

文本語義分析相關(guān)技術(shù)

文本語義結(jié)構(gòu)樹相關(guān)技術(shù)

文本語義分析技術(shù)相關(guān)技術(shù)

文本語義相似度計算相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度語義路徑搜索的短文本聚類方法與流程