一種快速的短文本雙聚類方法

文檔序號：6593764閱讀：471來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種快速的短文本雙聚類方法
技術(shù)領(lǐng)域：
本發(fā)明涉及人工智能計(jì)算機(jī)領(lǐng)域中的自然語言處理，特別涉及利用自然語言處理和數(shù)據(jù)聚類實(shí)現(xiàn)一種快速的短文本雙聚類方法及其實(shí)現(xiàn)。
背景技術(shù)：
在大量的自然語言應(yīng)用中，有一個基本的而又共同的問題:對由一個由短文本構(gòu)成的語料集(以下簡稱短文本語料集或語料集)，如何將其中的短文本按照某種相似度聚集成不同的類。一般而論，文本聚類的基本思想是將“相似”的文本聚成一個類；在該類中，文本之間的“差異”較小。而不“相似”的文本聚成另一些類。不同類之間的“差距”較大。這里，“相似”/ “差距”是一些文本之間的度量，根據(jù)不同的應(yīng)用需求而定。傳統(tǒng)的聚類方法較多，包括K近鄰方法、層次聚類法等。在短文本聚類中，常遇到幾個難題需要解決:
(I)語義干擾問題。由于自然語言具有高度的靈活性，因此短文本中通常包含了很多的與短文本要表達(dá)的本質(zhì)含義無關(guān)的詞語，我們稱為無關(guān)語。更具體地說，從短文本中去除這些無關(guān)語，短文本的本質(zhì)含義沒有變化。例如，在短文本“幫我查一下我的話費(fèi)”中，“幫我”就是一個無關(guān)語。為了提高短文本聚類精度，需要對這些無關(guān)語進(jìn)行清除。另一種干擾是詞類干擾。短文本語料庫中有大量的意義相近，但是詞性不同的詞語，它們的存在會影響到聚類的精度。如何規(guī)范化短文本中意義相同但詞形不同的詞語？當(dāng)然，在實(shí)踐中還存在大量的符號干擾問題，如英文字母大小寫問題、全角/半角問題、簡體/繁體問題等。(2)短文本相似度的精確計(jì)算問題。相似度計(jì)算往往與應(yīng)用需求相關(guān)。如何根據(jù)一個具體的應(yīng)用需求，準(zhǔn)確地設(shè)計(jì)相似度計(jì)算方法是聚類中的關(guān)鍵問題之一。目前，雖然有多種相似度算法(如歐氏距離法、COS距離法、Pearson系數(shù)法、VDM法等)，但是根據(jù)我們的研究發(fā)現(xiàn)，它們均存在缺陷，在實(shí)際應(yīng)用中，效果不好。(3)短文本的快速而又準(zhǔn)確的聚類問題。傳統(tǒng)的單一聚類(如K近鄰方法、層次聚類法等)難以實(shí)現(xiàn)精確的聚類，在面對開放的語料時，聚類精度一般都很低，達(dá)不到實(shí)際應(yīng)用的需求。而且，當(dāng)短文本的長度稍高時，聚類精度更低。

發(fā)明內(nèi)容
所要解決的技術(shù)問題:針對以下三個問題，本發(fā)明提供了一種精確性高、實(shí)用強(qiáng)、適應(yīng)于大數(shù)據(jù)處理的的快速的短文本雙聚類方法。技術(shù)問題1:符號/語義干擾問題。語義干擾主要有兩種:無關(guān)語干擾、詞類干擾，即如何在不改變短文本含義的前提下，去除短文本中的無關(guān)語，以提高聚類精度？如何規(guī)范化短文本中意義相同但詞形不同的詞語？
技術(shù)問題2:短文本相似度的精確計(jì)算問題，即如何根據(jù)短文本聚類需要，設(shè)計(jì)出一種有效的短文本相似度計(jì)算方法？技術(shù)問題3:短文本快速而又準(zhǔn)確的聚類問題，即如何既保證聚類速度又保證聚類精
度？
技術(shù)方案:針對以上不足本發(fā)明提供了一種快速的短文本雙聚類方法，其特征在于:包括以下步驟:
步驟I)短文本干擾項(xiàng)的預(yù)處理，在無關(guān)語詞典和詞類詞典的支持下，對短文本進(jìn)行快速進(jìn)行的無關(guān)語和詞類識別和處理識別；
步驟2)計(jì)算預(yù)處理后的兩個短文本相似度，形成在短文本相似度稀疏矩陣；
步驟3)在短文本相似度稀疏矩陣上進(jìn)行短文本一級聚類，根據(jù)短文本相似度的結(jié)算結(jié)果，將相似的短文本劃分成一個一個的簇；
步驟4)在一級聚類結(jié)果基礎(chǔ)上進(jìn)行短文本二級聚類。所述的步驟I包括意碼構(gòu)造方法:對任意一個詞類WC，利用隨機(jī)函數(shù)產(chǎn)生隨機(jī)數(shù)，產(chǎn)生nSC個大于O小于10000的隨機(jī)正整數(shù)，設(shè)為Q、…、Cnsc，取出《漢語字典》中的第C1個、…、第Cns。個漢字，分別為氏、…、Hns。，則詞類WC的意碼為漢字串 ν..Ηη%。所述的步驟2包括計(jì)算短文本相似度的方法:對兩個短文本Si和&_，它們的相似度計(jì)算方法為:
權(quán)利要求
1.一種快速的短文本雙聚類方法，其特征在于:包括以下步驟: 步驟I)短文本干擾項(xiàng)的預(yù)處理，在無關(guān)語詞典和詞類詞典的支持下，對短文本進(jìn)行快速進(jìn)行的無關(guān)語和詞類識別和處理識別；步驟2)計(jì)算預(yù)處理后的兩個短文本相似度，形成在短文本相似度稀疏矩陣；步驟3)在短文本相似度稀疏矩陣上進(jìn)行短文本一級聚類，根據(jù)短文本相似度的結(jié)算結(jié)果，將相似的短文本劃分成一個一個的簇；步驟4)在一級聚類結(jié)果基礎(chǔ)上進(jìn)行短文本二級聚類。
2.根據(jù)權(quán)利要求1所述的一種快速的短文本雙聚類方法，其特征在于:所述的步驟I包括意碼構(gòu)造方法:對任意一個詞類WC，利用隨機(jī)函數(shù)產(chǎn)生隨機(jī)數(shù)，產(chǎn)生nSC個大于O小于10000的隨機(jī)正整數(shù)，設(shè)為Cp…、Cns。，取出《漢語字典》中的第C1個、…、第Cns。個漢字，分別為H1、…、Hnsc，則詞類WC的意碼為漢字串Hr"HnSC。
3.根據(jù)權(quán)利要求1所述的一種快速的短文本雙聚類方法，其特征在于:所述的步驟2包括計(jì)算短文本相似度的方法:對兩個短文本&和&_，它們的相似度計(jì)算方法為:
4.根據(jù)權(quán)利要求1所述的一種快速的短文本雙聚類方法，其特征在于:所述的步驟3包括以下步驟: 步驟31)在計(jì)算短文本相似度過程中，將短文本相似度小于某個閾值(a)的點(diǎn)排除掉，構(gòu)造短文本相似度稀疏矩陣；步驟32)在短文本相似度稀疏矩陣中，尋找相似度最大的且大于聚類閾值b的一對點(diǎn)V1與V2，如果找不到，則終止聚類，輸出一級聚類結(jié)果，轉(zhuǎn)步驟41)進(jìn)行二級聚類；步驟33)將V1和V2看成一個新簇，重新它與其它點(diǎn)的相似度并更新相似度矩陣，計(jì)算方法如下:
5.根據(jù)權(quán)利要求1所述的一種快速的短文本雙聚類方法，其特征在于:所述的步驟4包括以下步驟: 步驟41)將包含分句的短文本S按逗號、句號、問號、嘆號進(jìn)行切分，形成若干分句Λ ；步驟42)計(jì)算每個分句Z7i和簇Cluster的相似度,計(jì)算方法如下:
全文摘要
一種快速的短文本雙聚類方法，包括以下步驟1)短文本干擾項(xiàng)的預(yù)處理，在無關(guān)語詞典和詞類詞典的支持下，對短文本進(jìn)行快速進(jìn)行的無關(guān)語和詞類識別和處理識別；2)計(jì)算預(yù)處理后的兩個短文本相似度，形成在短文本相似度稀疏矩陣；3)在短文本相似度稀疏矩陣上進(jìn)行短文本一級聚類，根據(jù)短文本相似度的結(jié)算結(jié)果，將相似的短文本劃分成一個一個的簇；4)在一級聚類結(jié)果基礎(chǔ)上進(jìn)行短文本二級聚類。
文檔編號G06F17/27GK103177125SQ20131013365
公開日2013年6月26日申請日期2013年4月17日優(yōu)先權(quán)日2013年4月17日
發(fā)明者符建輝, 劉亮亮, 王石, 王衛(wèi)民申請人:鎮(zhèn)江諾尼基智能技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：符建輝;劉亮亮;王石;王衛(wèi)民
技術(shù)所有人：鎮(zhèn)江諾尼基智能技術(shù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

短文本聚類相關(guān)技術(shù)

文本聚類方法相關(guān)技術(shù)

文本聚類相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種快速的短文本雙聚類方法