技術(shù)總結(jié)
本發(fā)明涉及一種面向大規(guī)模數(shù)據(jù)的情報系統(tǒng)中文本聚合及展現(xiàn)方法及系統(tǒng),包括以下步驟:S1、對長短文本進(jìn)行多維度劃分,包括長文本、短文本和無意義文本;S2、對長文本通過topN相似度算法計(jì)算相似度度量;S3、對短文本進(jìn)行SimHash算法計(jì)算相似度度量;S4、文本聚合展示,在展示文本時,將相似的文本聚合到一起進(jìn)行展示。本發(fā)明能夠快速將相似的文本聚合在一起,頁面上展現(xiàn)代表性文章的標(biāo)題和摘要等基本信息,方便用戶快速瀏覽發(fā)現(xiàn)自己感興趣的信息以及在發(fā)現(xiàn)感興趣信息后,點(diǎn)開詳細(xì)閱讀,極大地提高了用戶閱讀效率以及關(guān)鍵情報信息定位的準(zhǔn)確率。
技術(shù)研發(fā)人員:李靖;杜魯;金俏;楊緒升
受保護(hù)的技術(shù)使用者:武漢烽火普天信息技術(shù)有限公司
文檔號碼:201610707151
技術(shù)研發(fā)日:2016.08.23
技術(shù)公布日:2017.01.04