本發(fā)明涉及計(jì)算情報(bào)學(xué)領(lǐng)域,更具體的說(shuō),是涉及一種面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)友言論活躍已達(dá)到前所未有的程度,不論是國(guó)內(nèi)還是國(guó)際重大事件,都能馬上形成網(wǎng)上輿論,通過(guò)這種網(wǎng)絡(luò)來(lái)表達(dá)觀點(diǎn)、傳播思想,進(jìn)而產(chǎn)生巨大的輿論壓力,達(dá)到任何部門、機(jī)構(gòu)都無(wú)法忽視的地步??梢哉f(shuō),互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會(huì)輿論的放大器。
網(wǎng)絡(luò)情報(bào)服務(wù)系統(tǒng)是利用搜索引擎技術(shù)和網(wǎng)絡(luò)信息挖掘技術(shù),通過(guò)網(wǎng)頁(yè)內(nèi)容的自動(dòng)采集處理、敏感詞過(guò)濾、智能聚類分類、主題檢測(cè)、專題聚焦、統(tǒng)計(jì)分析,實(shí)現(xiàn)各單位對(duì)自己相關(guān)網(wǎng)絡(luò)情報(bào)監(jiān)督管理的需要,最終形成情報(bào)簡(jiǎn)報(bào)、情報(bào)專報(bào)、分析報(bào)告、移動(dòng)快報(bào),為決策層全面掌握情報(bào)動(dòng)態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。
傳統(tǒng)的情報(bào)服務(wù)系統(tǒng)上信息閱讀方式是逐條瀏覽,如果頁(yè)面上出現(xiàn)了重復(fù)了相似的文本,也不得不在閱讀以后才會(huì)發(fā)現(xiàn)內(nèi)容重復(fù),這樣就造成了用戶時(shí)間的浪費(fèi)。另一方面,用戶閱讀一條信息后,發(fā)現(xiàn)對(duì)此類信息比較有興趣,希望快速并集中地獲得此類信息,傳統(tǒng)的情報(bào)服務(wù)系統(tǒng)并沒(méi)有一種簡(jiǎn)單快捷的操作方式完成此目的。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,有必要針對(duì)上述問(wèn)題,提供一種面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法及系統(tǒng),能夠快速將相似的文本聚合在一起,頁(yè)面上展現(xiàn)代表性文章的標(biāo)題和摘要等基本信息,方便用戶快速瀏覽發(fā)現(xiàn)自己感興趣的信息以及在發(fā)現(xiàn)感興趣信息后,點(diǎn)開(kāi)詳細(xì)閱讀,極大地提高了用戶閱讀效率以及關(guān)鍵情報(bào)信息定位的準(zhǔn)確率。
為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:
一種面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法,包括以下步驟:
S1、對(duì)長(zhǎng)短文本進(jìn)行多維度劃分,包括長(zhǎng)文本、短文本和無(wú)意義文本;
S2、對(duì)長(zhǎng)文本通過(guò)topN相似度算法計(jì)算相似度度量;
S3、對(duì)短文本進(jìn)行SimHash算法計(jì)算相似度度量;
S4、文本聚合展示,在展示文本時(shí),將相似的文本聚合到一起進(jìn)行展示。
作為優(yōu)選的,所述步驟S1中包括,將來(lái)源文本劃分成長(zhǎng)文本、短文本及無(wú)意義文本三種,其中無(wú)信息文本會(huì)直接拋棄而不做處理。
作為優(yōu)選的,所述無(wú)意義文本為信息量低或無(wú)意義信息。
作為優(yōu)選的,所述步驟S2具體包括:從文本中提取N句代表性的詞語(yǔ),組成特征詞語(yǔ),將此N個(gè)句子按從長(zhǎng)到短拼接成一個(gè)特征句,使用MD5生成此特征句的hash值,存入數(shù)據(jù)庫(kù),擁有相同hash值的文本被認(rèn)為是相似文本。
作為優(yōu)選的,所述步驟S3具體包括:將文本進(jìn)行分詞,分詞后過(guò)濾去掉標(biāo)點(diǎn)符號(hào),使用SimHash計(jì)算各個(gè)文本間的相似度,相似的文本會(huì)被賦予相同的ID號(hào),將此ID號(hào)存入數(shù)據(jù)庫(kù)。
作為優(yōu)選的,所述步驟S4具體包括:將相似類文本聚合成一個(gè)按關(guān)注度排序的堆上,展示堆頂上的文本摘要信息,瀏覽時(shí)只有點(diǎn)擊率排名最高的文本摘要會(huì)展示,點(diǎn)擊進(jìn)入會(huì)展示詳細(xì)的文本列表。
一種根據(jù)上述方法進(jìn)行文本聚合及展現(xiàn)的系統(tǒng),包括長(zhǎng)短文本分類器、topN算法模塊和SimHash算法模塊和數(shù)據(jù)庫(kù);
所述長(zhǎng)短文本分類器用于對(duì)長(zhǎng)短文本進(jìn)行分類區(qū)別,并將長(zhǎng)文本傳輸?shù)絫opN算法模塊、短文本傳輸?shù)絊imHash算法模塊、無(wú)意義文本直接拋棄;
所述topN算法模塊用于將長(zhǎng)文本文本按照標(biāo)點(diǎn)符號(hào)分割成有意義的句子,提取N句代表性的語(yǔ)句,將此N個(gè)句子按從長(zhǎng)到短拼接成一個(gè)特征句,使用MD5生成此特征句的hash值,存入數(shù)據(jù)庫(kù);
所述SimHash算法模塊用于將短文本進(jìn)行分詞,分詞后過(guò)濾去掉標(biāo)點(diǎn)符號(hào),使用SimHash計(jì)算各個(gè)文本間的相似度,對(duì)相似的文本會(huì)賦予相同的ID號(hào),將此ID號(hào)存入數(shù)據(jù)庫(kù)。
作為優(yōu)選的,所述長(zhǎng)短文本分類器通過(guò)海量情報(bào)系統(tǒng)的海量文本訓(xùn)練得出。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明能夠快速將相似的文本聚合在一起,頁(yè)面上展現(xiàn)代表性文章的標(biāo)題和摘要等基本信息,方便用戶快速瀏覽發(fā)現(xiàn)自己感興趣的信息以及在發(fā)現(xiàn)感興趣信息后,點(diǎn)開(kāi)詳細(xì)閱讀。此系統(tǒng)極大地提高了用戶閱讀效率以及關(guān)鍵情報(bào)信息定位的準(zhǔn)確率。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的方法流程圖;
圖2為本發(fā)明實(shí)施例中topN算法生成長(zhǎng)文本流程圖;
圖3為本發(fā)明實(shí)施例中系統(tǒng)結(jié)構(gòu)框圖;
圖4為本發(fā)明實(shí)施例中長(zhǎng)短文本分類器結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明所述的一種面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法及系統(tǒng)作進(jìn)一步說(shuō)明。
以下是本發(fā)明所述的面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法及系統(tǒng)的最佳實(shí)例,并不因此限定本發(fā)明的保護(hù)范圍。
圖1示出了一種面向大規(guī)模數(shù)據(jù)的情報(bào)系統(tǒng)中文本聚合及展現(xiàn)方法,包括以下步驟:
S1、對(duì)長(zhǎng)短文本進(jìn)行多維度劃分,包括長(zhǎng)文本、短文本和無(wú)意義文本;
S2、對(duì)長(zhǎng)文本通過(guò)topN相似度算法計(jì)算相似度度量;
S3、對(duì)短文本進(jìn)行SimHash算法計(jì)算相似度度量;
S4、文本聚合展示,在展示文本時(shí),將相似的文本聚合到一起進(jìn)行展示。
在本實(shí)施例中,所述步驟S1中包括,將來(lái)源文本劃分成長(zhǎng)文本、短文本及無(wú)意義文本三種,其中無(wú)信息文本會(huì)直接拋棄而不做處理。
作為優(yōu)選的,所述無(wú)意義文本為信息量低或無(wú)意義信息。
當(dāng)前查看情報(bào)信息是否相似是采用文本精確匹配技術(shù)的掃描技術(shù),盡管該方法處理速度快,但是其存在模糊識(shí)別能力不強(qiáng)、學(xué)習(xí)能力不足的缺點(diǎn),匹配出來(lái)文本間并不存在明顯的相似性。情報(bào)信息中往往存在如新聞?lì)惖拈L(zhǎng)文本和如微博、論壇的短文本。SimHash算法在計(jì)算文本間相似度上具有優(yōu)勢(shì),但是其在計(jì)算長(zhǎng)文本時(shí)需先分詞,然后按照文本中每個(gè)詞來(lái)生成整篇文章的Hash值,造成對(duì)于海量的長(zhǎng)文本效率不高。
當(dāng)前相似文檔度量算法一般基于精準(zhǔn)匹配技術(shù)的掃描策略,該方法效率低,準(zhǔn)確度也不夠理想,更是無(wú)法滿足海量文本數(shù)據(jù)的處理需求。為提升相似度測(cè)量的效率和準(zhǔn)確度,在本實(shí)施例中,如圖2所示,所述步驟S2具體包括:從文本中提取N句代表性的詞語(yǔ),組成特征詞語(yǔ),將此N個(gè)句子按從長(zhǎng)到短拼接成一個(gè)特征句,使用MD5生成此特征句的hash值,存入數(shù)據(jù)庫(kù),擁有相同hash值的文本被認(rèn)為是相似文本;在本實(shí)施例中,通過(guò)基于長(zhǎng)文本的topN相似度度量算法,該算法通過(guò)提取長(zhǎng)文本中最具代表性句子組成內(nèi)容指紋;topN算法只需要從長(zhǎng)文本中提取很少幾句話組成特征語(yǔ)句,效率較SimHash要高許多,極大滿足了處理海量數(shù)據(jù)的效率要求。
在本實(shí)施例中,所述步驟S3具體包括:將文本進(jìn)行分詞,分詞后過(guò)濾去掉標(biāo)點(diǎn)符號(hào),使用SimHash計(jì)算各個(gè)文本間的相似度,相似的文本會(huì)被賦予相同的ID號(hào),將此ID號(hào)存入數(shù)據(jù)庫(kù),通過(guò)基于短文本的SimHash相似度度量算法,該算法生可用來(lái)度量文本間的相似度。topN算法效率較SimHash高,但是在短文本上由于語(yǔ)句太少,沒(méi)有辦法發(fā)揮topN算法的優(yōu)勢(shì),同時(shí)由于文本短,處理效率顯得沒(méi)那么重要,同時(shí)topN算法在長(zhǎng)文本上的效率優(yōu)勢(shì)彌補(bǔ)了整個(gè)系統(tǒng)的處理效率。
在本實(shí)施例中,所述步驟S4具體包括:將相似類文本聚合成一個(gè)按關(guān)注度排序的堆上,展示堆頂上的文本摘要信息,瀏覽時(shí)只有點(diǎn)擊率排名最高的文本摘要會(huì)展示,點(diǎn)擊進(jìn)入會(huì)展示詳細(xì)的文本列表。
本實(shí)施例中還提出了一種根據(jù)上述方法進(jìn)行文本聚合及展現(xiàn)的系統(tǒng),如圖3至圖4所示,包括長(zhǎng)短文本分類器、topN算法模塊和SimHash算法模塊和數(shù)據(jù)庫(kù);
如圖4所示,所述長(zhǎng)短文本分類器用于對(duì)長(zhǎng)短文本進(jìn)行分類區(qū)別,并將長(zhǎng)文本傳輸?shù)絫opN算法模塊、短文本傳輸?shù)絊imHash算法模塊、無(wú)意義文本直接拋棄;
所述topN算法模塊用于將長(zhǎng)文本文本按照標(biāo)點(diǎn)符號(hào)分割成有意義的句子,提取N句代表性的語(yǔ)句,將此N個(gè)句子按從長(zhǎng)到短拼接成一個(gè)特征句,使用MD5生成此特征句的hash值,存入數(shù)據(jù)庫(kù);
所述SimHash算法模塊用于將短文本進(jìn)行分詞,分詞后過(guò)濾去掉標(biāo)點(diǎn)符號(hào),使用SimHash計(jì)算各個(gè)文本間的相似度,對(duì)相似的文本會(huì)賦予相同的ID號(hào),將此ID號(hào)存入數(shù)據(jù)庫(kù)。
作為優(yōu)選的,所述長(zhǎng)短文本分類器通過(guò)海量情報(bào)系統(tǒng)的海量文本訓(xùn)練得出。
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:本發(fā)明能夠快速將相似的文本聚合在一起,頁(yè)面上展現(xiàn)代表性文章的標(biāo)題和摘要等基本信息,方便用戶快速瀏覽發(fā)現(xiàn)自己感興趣的信息以及在發(fā)現(xiàn)感興趣信息后,點(diǎn)開(kāi)詳細(xì)閱讀。此系統(tǒng)極大地提高了用戶閱讀效率以及關(guān)鍵情報(bào)信息定位的準(zhǔn)確率。
以上所述實(shí)施例僅表達(dá)了本發(fā)明的幾種實(shí)施方式,其描述較為具體和詳細(xì),但并不能因此而理解為對(duì)本發(fā)明專利范圍的限制。應(yīng)當(dāng)指出的是,對(duì)于本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進(jìn),這些都屬于本發(fā)明的保護(hù)范圍。因此,本發(fā)明專利的保護(hù)范圍應(yīng)以所附權(quán)利要求為準(zhǔn)。