本發(fā)明涉及新聞資訊領(lǐng)域,具體涉及一種快速的新聞事件聚類系統(tǒng)及方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)輿情對(duì)社會(huì)的影響力越來(lái)越大。不管是政府網(wǎng)絡(luò)輿情監(jiān)控的需要,還是企業(yè)在進(jìn)行品牌傳播及品牌公關(guān)的需要,如何在大量的輿情的條件下,快速地分析輿情的情感傾向,以及時(shí)地進(jìn)行決策支持和輿情引導(dǎo),響應(yīng)快速變化的輿論環(huán)境,是輿情分析中迫切需要解決的問(wèn)題。以往的情感分析,需要進(jìn)行復(fù)雜的分析,在應(yīng)對(duì)大量的輿情條件下,無(wú)法做到低延遲處理。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種快速的新聞事件聚類系統(tǒng)及方法,在面對(duì)大量輿情場(chǎng)景下,進(jìn)行快速類聚新聞事件。
本發(fā)明的目的是通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn)的:
一種快速的新聞事件聚類系統(tǒng),包括:
新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對(duì)文本進(jìn)行初步去重處理;
新聞文本初步處理模塊:用于對(duì)文本進(jìn)行初步文本特征處理,包括分詞、去停用詞、對(duì)否定式短語(yǔ)進(jìn)行額外標(biāo)注;
新聞文本事件類聚模塊:包括對(duì)分詞進(jìn)行排列組合、將文檔d映射到第一層聚類、計(jì)算文檔d與子聚類的距離、判定文檔d所屬的聚類、創(chuàng)建新的子聚類;
數(shù)據(jù)存儲(chǔ)模塊:存儲(chǔ)計(jì)算后的結(jié)果。
一種快速的新聞事件聚類方法,包括以下步驟:
s01:抓取文本d,文檔去重;
s02:抽取文本標(biāo)題,對(duì)標(biāo)題分詞,只保留名詞/動(dòng)詞性詞語(yǔ);
s03:對(duì)標(biāo)題分詞做排列組合,得到n個(gè)組合,每個(gè)組合將作為第一層聚類的key
s04:在每個(gè)聚類的大類,拿文本的分詞結(jié)果與每個(gè)子聚類的質(zhì)心做余弦距離計(jì)算,假設(shè)有m個(gè)子聚類,則產(chǎn)生m個(gè)結(jié)果;
s05:對(duì)產(chǎn)生的m×n個(gè)結(jié)果進(jìn)行排序,取值最大的結(jié)果,假設(shè)為r,同時(shí)設(shè)定經(jīng)驗(yàn)閾值g該經(jīng)驗(yàn)閾值是[0.75,1];
s06:如果r>=g,文本d歸屬于r所在的類
s07:如果r<g,創(chuàng)建新的子類,根據(jù)子聚類結(jié)果,計(jì)算每個(gè)大類的平均余弦距離,得到n個(gè)值,排序,取最大值,設(shè)最大值對(duì)應(yīng)的大類為c,在c中創(chuàng)建以文檔d為質(zhì)心的子類。
進(jìn)一步,所述的步驟s02中文本處理方式,具體包括抽取文本標(biāo)題,進(jìn)行分詞,對(duì)分詞進(jìn)行詞性過(guò)濾,只保留名詞性和動(dòng)詞性分詞。
進(jìn)一步,所述的步驟s03所述的第一層聚類方法,具體包括將分詞結(jié)果做排列組合,得到n個(gè)組合,每個(gè)組合按照單詞排序,使用分隔符將單詞拼接為字符串,所得字符串就是第一層聚類的key值,對(duì)于文本d而言,n個(gè)key對(duì)應(yīng)的大類,都有可能是它所在的大類。
進(jìn)一步,步驟s04所述的處理過(guò)程,具體包括:對(duì)于s3獲得的n個(gè)key,檢索得到n個(gè)聚類結(jié)果(第一層聚類結(jié)果),對(duì)于每個(gè)聚類結(jié)果,假設(shè)已有m個(gè)子聚類(第二層聚類),拿文檔d的分詞結(jié)果與每個(gè)子聚類的質(zhì)心計(jì)算相似度,相似度的算法包括但不限于余弦距離算法,這一步將會(huì)輸出m×n個(gè)結(jié)果值。
進(jìn)一步,所述的步驟s05中,具體包括將m×n個(gè)結(jié)果輸出,取最大的值作為候選結(jié)果,根據(jù)經(jīng)驗(yàn)設(shè)定一個(gè)分類閾值,閾值的范圍為[0.7,1]。
進(jìn)一步,所述的步驟s06中聚類步驟,具體包括如果r>=g,則直接判斷文檔d歸屬于r所在的類,也就是說(shuō)d屬于r的類對(duì)應(yīng)的事件。
進(jìn)一步,所述的步驟s07中創(chuàng)建新的子類的過(guò)程,具體包括如果r>=g,使用s4產(chǎn)生的n×m個(gè)結(jié)果,計(jì)算n個(gè)聚類的平均余弦距離,得到n個(gè)平均值;針對(duì)這n個(gè)平均值進(jìn)行排序,取最大值,對(duì)應(yīng)的第一層聚類c就是文檔所在的第一層聚類;在聚類c中,創(chuàng)建以文檔d為質(zhì)心的的子聚類。
本發(fā)明的有益效果是:通過(guò)本發(fā)明的方法可以對(duì)不同的新聞事件進(jìn)行快速分類,使得新聞事件分布集中,方便閱讀者有針對(duì)性的查找自己感興趣的新聞。
附圖說(shuō)明
圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;
圖2為本發(fā)明的方法流程圖。
具體實(shí)施方式
下面結(jié)合附圖進(jìn)一步詳細(xì)描述本發(fā)明的技術(shù)方案,但本發(fā)明的保護(hù)范圍不局限于以下所述。
如圖1所示,
一種快速的新聞事件聚類系統(tǒng),包括:
新聞抓取模塊:用于從新聞門戶、論壇及微博上抓取新聞文檔,其中包括對(duì)文本進(jìn)行初步去重處理;
新聞文本初步處理模塊:用于對(duì)文本進(jìn)行初步文本特征處理,包括分詞、去停用詞、對(duì)否定式短語(yǔ)進(jìn)行額外標(biāo)注;
新聞文本事件類聚模塊:新聞文本時(shí)間聚類模塊,包括對(duì)分詞進(jìn)行排列組合、將文檔d映射到第一層聚類、計(jì)算文檔d與子聚類的距離、判定文檔d所屬的聚類、創(chuàng)建新的子聚類;
數(shù)據(jù)存儲(chǔ)模塊:存儲(chǔ)計(jì)算后的結(jié)果。
如圖2所示:
一種快速的新聞事件聚類方法,包括以下步驟:
s01:抓取文本d,文檔去重;
s02:抽取文本標(biāo)題,對(duì)標(biāo)題分詞,只保留名詞/動(dòng)詞性詞語(yǔ);
s03:對(duì)標(biāo)題分詞做排列組合,得到n個(gè)組合,每個(gè)組合將作為第一層聚類的key
s04:在每個(gè)聚類的大類,拿文本的分詞結(jié)果與每個(gè)子聚類的質(zhì)心做余弦距離計(jì)算,假設(shè)有m個(gè)子聚類,則產(chǎn)生m個(gè)結(jié)果;
s05:對(duì)產(chǎn)生的m×n個(gè)結(jié)果進(jìn)行排序,取值最大的結(jié)果,假設(shè)為r,同時(shí)設(shè)定經(jīng)驗(yàn)閾值g該經(jīng)驗(yàn)閾值是[0.75,1];
s06:如果r>=g,文本d歸屬于r所在的類
s07:如果r<g,創(chuàng)建新的子類,根據(jù)子聚類結(jié)果,計(jì)算每個(gè)大類的平均余弦距離,得到n個(gè)值,排序,取最大值,設(shè)最大值對(duì)應(yīng)的大類為c,在c中創(chuàng)建以文檔d為質(zhì)心的子類;
最后輸出文檔d所屬的類。
進(jìn)一步,所述的步驟s02中文本處理方式,具體包括抽取文本標(biāo)題,進(jìn)行分詞,對(duì)分詞進(jìn)行詞性過(guò)濾,只保留名詞性和動(dòng)詞性分詞。
進(jìn)一步,所述的步驟s03所述的第一層聚類方法,具體包括將分詞結(jié)果做排列組合,得到n個(gè)組合,每個(gè)組合按照單詞排序,使用分隔符將單詞拼接為字符串,所得字符串就是第一層聚類的key值,對(duì)于文本d而言,n個(gè)key對(duì)應(yīng)的大類,都有可能是它所在的大類。
進(jìn)一步,步驟s04所述的處理過(guò)程,具體包括:對(duì)于s3獲得的n個(gè)key,檢索得到n個(gè)聚類結(jié)果(第一層聚類結(jié)果),對(duì)于每個(gè)聚類結(jié)果,假設(shè)已有m個(gè)子聚類(第二層聚類),拿文檔d的分詞結(jié)果與每個(gè)子聚類的質(zhì)心計(jì)算相似度,相似度的算法包括但不限于余弦距離算法,這一步將會(huì)輸出m×n個(gè)結(jié)果值。
進(jìn)一步,所述的步驟s05中,具體包括將m×n個(gè)結(jié)果輸出,取最大的值作為候選結(jié)果,根據(jù)經(jīng)驗(yàn)設(shè)定一個(gè)分類閾值,閾值的范圍為[0.7,1]。
進(jìn)一步,所述的步驟s06中聚類步驟,具體包括如果r>=g,則直接判斷文檔d歸屬于r所在的類,也就是說(shuō)d屬于r的類對(duì)應(yīng)的事件。
進(jìn)一步,所述的步驟s07中創(chuàng)建新的子類的過(guò)程,具體包括如果r>=g,使用s4產(chǎn)生的n×m個(gè)結(jié)果,計(jì)算n個(gè)聚類的平均余弦距離,得到n個(gè)平均值;針對(duì)這n個(gè)平均值進(jìn)行排序,取最大值,對(duì)應(yīng)的第一層聚類c就是文檔所在的第一層聚類;在聚類c中,創(chuàng)建以文檔d為質(zhì)心的的子聚類。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)理解本發(fā)明并非局限于本文所披露的形式,不應(yīng)看作是對(duì)其他實(shí)施例的排除,而可用于各種其他組合、修改和環(huán)境,并能夠在本文所述構(gòu)想范圍內(nèi),通過(guò)上述教導(dǎo)或相關(guān)領(lǐng)域的技術(shù)或知識(shí)進(jìn)行改動(dòng)。而本領(lǐng)域人員所進(jìn)行的改動(dòng)和變化不脫離本發(fā)明的精神和范圍,則都應(yīng)在本發(fā)明所附權(quán)利要求的保護(hù)范圍內(nèi)。