欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

互聯(lián)網(wǎng)信息內(nèi)容相似定義方法與流程

文檔序號(hào):11154962閱讀:609來源:國(guó)知局

本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法。



背景技術(shù):

隨著信息技術(shù)的快速發(fā)展,“大數(shù)據(jù)(big data,或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的資訊)”的概念已經(jīng)廣為熟知。伴隨著大數(shù)據(jù)產(chǎn)生的便是對(duì)大量數(shù)據(jù)進(jìn)行檢索與對(duì)比。對(duì)比大量數(shù)據(jù),或者對(duì)一定數(shù)量的數(shù)據(jù)檢索只能依靠電腦完成,人工檢索幾乎是不可能完成的。

在當(dāng)今這個(gè)信息爆炸的時(shí)代,我們會(huì)發(fā)現(xiàn)在互聯(lián)網(wǎng)上對(duì)于一個(gè)新聞事件的報(bào)道,在傳播的過程中可能由于轉(zhuǎn)載、修改或其他的原因。導(dǎo)致很多的新聞信息的文章存在一些差異,但是其主要表達(dá)的內(nèi)容相似。從而造成用戶在查看某個(gè)新聞信息數(shù)據(jù)時(shí),由于沒有對(duì)相似的新聞進(jìn)行歸類顯示,而出現(xiàn)大量的冗余信息,對(duì)用戶的閱讀造成很大的影響。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,以解決上述背景技術(shù)中提出的問題。

本發(fā)明所解決的技術(shù)問題采用以下技術(shù)方案來實(shí)現(xiàn):本發(fā)明提供一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,步驟如下:

第一步:每次文章入庫(kù)前,根據(jù)語義將文章內(nèi)容中的所有完整的句子分割出來,

第二步:然后將句子按照由長(zhǎng)到短的順序排序,選取前十個(gè)句子,如果文章內(nèi)容中沒有十個(gè)句子,就選取所有的句子;

第三步:然后將選取的句子進(jìn)行取MD5數(shù)據(jù)指紋,并對(duì)句子的MD5數(shù)據(jù)指紋碼進(jìn)行自然排序,最后存入到數(shù)據(jù)庫(kù)中;

第四步:在比較兩個(gè)文章內(nèi)容的相似性時(shí),就比較兩個(gè)文章內(nèi)容的MD5數(shù)據(jù)指紋。

本發(fā)明的有益效果為:內(nèi)容相似定義方法就是在ElasticSearch搜索服務(wù)器的基礎(chǔ)上開發(fā)的一個(gè)插件,文章數(shù)據(jù)在存入ElasticSearch時(shí)最多找出文章中10個(gè)最長(zhǎng)句子,然后進(jìn)行取MD5數(shù)據(jù)指紋存入ElasticSearch庫(kù)中。在對(duì)兩條文章內(nèi)容進(jìn)行相似比較時(shí),對(duì)比兩條數(shù)據(jù)的MD5數(shù)據(jù)指紋的相同比率,來判斷是否相似。

具體實(shí)施方式

以下對(duì)本發(fā)明做進(jìn)一步描述:一種互聯(lián)網(wǎng)信息內(nèi)容相似定義方法,消重的步驟如下:

第一步:每次文章入庫(kù)前,根據(jù)語義將文章內(nèi)容中的所有完整的句子分割出來,

第二步:然后將句子按照由長(zhǎng)到短的順序排序,選取前十個(gè)句子,如果文章內(nèi)容中沒有十個(gè)句子,就選取所有的句子;

第三步:然后將選取的句子進(jìn)行取MD5數(shù)據(jù)指紋,并對(duì)句子的MD5數(shù)據(jù)指紋碼進(jìn)行自然排序,最后存入到數(shù)據(jù)庫(kù)中;

第四步:在比較兩個(gè)文章內(nèi)容的相似性時(shí),就比較兩個(gè)文章內(nèi)容的MD5數(shù)據(jù)指紋。

例如:A文章內(nèi)容有n個(gè)MD5數(shù)據(jù)指紋,B文章內(nèi)容有m個(gè)MD5數(shù)據(jù)指紋,他們比較后有y個(gè)相同的MD5數(shù)據(jù)指紋,最后判斷文章內(nèi)容是否相似,可以根據(jù)自適應(yīng)的閥值來判斷內(nèi)容資訊是否語義相同。

內(nèi)容相似定義方法就是在ElasticSearch搜索服務(wù)器的基礎(chǔ)上開發(fā)的一個(gè)插件,文章數(shù)據(jù)在存入ElasticSearch時(shí)最多找出文章中10個(gè)最長(zhǎng)句子,然后進(jìn)行取MD5數(shù)據(jù)指紋存入ElasticSearch庫(kù)中。在對(duì)兩條文章內(nèi)容進(jìn)行相似比較時(shí),對(duì)比兩條數(shù)據(jù)的MD5數(shù)據(jù)指紋的相同比率,來判斷是否相似。

最后說明的是,選取上述實(shí)施例并對(duì)其進(jìn)行了詳細(xì)的說明和描述是為了更好的說明本發(fā)明專利的技術(shù)方案,并不是想要局限于所示的細(xì)節(jié)。本領(lǐng)域的技術(shù)人員對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或同等替換,而不脫離本發(fā)明技術(shù)方案的宗旨和范圍的,均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
新密市| 营口市| 新乡市| 巴彦县| 阿尔山市| 枣庄市| 清水河县| 沧源| 盱眙县| 萝北县| 海盐县| 石景山区| 满城县| 湟源县| 竹溪县| 泰安市| 巴彦淖尔市| 清涧县| 淮滨县| 房山区| 胶州市| 铜山县| 通海县| 门头沟区| 和平县| 榆林市| 砚山县| 志丹县| 台前县| 宝应县| 阿瓦提县| 手游| 丹棱县| 瑞安市| 嘉祥县| 招远市| 赣榆县| 九龙城区| 贞丰县| 通州区| 宝鸡市|