欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于倒序索引的微博去重方法和系統(tǒng)的制作方法

文檔序號(hào):6523524閱讀:238來(lái)源:國(guó)知局
基于倒序索引的微博去重方法和系統(tǒng)的制作方法【專(zhuān)利摘要】本發(fā)明涉及一種基于倒序索引的微博去重方法和系統(tǒng)。所述方法包括:由模型訓(xùn)練模塊根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞;由simhash模塊根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì)以將其轉(zhuǎn)換為N維向量,并且對(duì)所述N維向量進(jìn)行simhash運(yùn)算以便獲得f位的二進(jìn)制簽名;由去重運(yùn)算模塊執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述f位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引;根據(jù)所建立的倒序索引來(lái)分段檢索第一分段下的簽名集合,并計(jì)算所述第一分段中的對(duì)應(yīng)的海明距離;以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。【專(zhuān)利說(shuō)明】基于倒序索引的微博去重方法和系統(tǒng)【
技術(shù)領(lǐng)域
】[0001]本發(fā)明涉及基于微博的信息分析領(lǐng)域,并且具體地涉及基于倒序索引的微博去重方法和系統(tǒng)。【
背景技術(shù)
】[0002]隨著互聯(lián)網(wǎng)的發(fā)展,微博正在成為信息傳播、普通消費(fèi)者反饋問(wèn)題以及投訴的主要渠道。對(duì)于企業(yè)來(lái)說(shuō),及時(shí)主動(dòng)處理微博所反映問(wèn)題并且阻止負(fù)面信息的大量擴(kuò)散是企業(yè)客服部門(mén)以及公關(guān)部門(mén)的主要任務(wù),并且將直接影響企業(yè)的品牌形象以及商業(yè)價(jià)值。信息分析系統(tǒng)在微博抓取到的大量微博的時(shí)效性和有效性將直接影響客服部門(mén)以及公關(guān)部門(mén)的處理效率以及及時(shí)性。[0003]為了避免重復(fù)內(nèi)容的出現(xiàn),需要進(jìn)行重復(fù)判斷(簡(jiǎn)稱(chēng)“判重”),以減少存儲(chǔ)、增強(qiáng)計(jì)算效率和改善用戶(hù)的體驗(yàn)。對(duì)微博文本內(nèi)容的判重,現(xiàn)有的技術(shù)方案主要采取字符串比較編輯距離、余弦定理相似度計(jì)算、simhash去重等方法。[0004]關(guān)于字符串比較編輯距離方法,該方法基于在兩個(gè)字符串之間由一個(gè)轉(zhuǎn)換成另一個(gè)所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個(gè)字符替換成另一個(gè)字符,插入一個(gè)字符,刪除一個(gè)字符。例如字符串A內(nèi)容為X1X2X3X4X5…,字符串B內(nèi)容為yiy2y3y4y5…,如果將B變?yōu)锳需要編輯個(gè)數(shù)M,則相似度為1-M/N,其中N為字符串長(zhǎng)度,相似度越接近1,說(shuō)明越相似。[0005]關(guān)于余弦定理相似度計(jì)算方法,首先建立詞庫(kù),根據(jù)詞庫(kù)所記錄的詞語(yǔ)對(duì)微博數(shù)據(jù)進(jìn)行分詞,分詞以后對(duì)分詞統(tǒng)計(jì)單詞出現(xiàn)次數(shù)進(jìn)行統(tǒng)計(jì),例如文本Zlc;1,Zlc2,Zlc3,Zlc4……Zlcn;它們?cè)谖谋局械膫€(gè)數(shù)為:ZinUZln2,Zjn3......Zlnm,力Z2cJ,Z2c2)Z2c3)Z2c4......Z2cn;匕們?cè)谡鹿?jié)中的個(gè)數(shù)為:z2nl,Z2n2,Z2n3……Z2nm,這樣將兩個(gè)文本轉(zhuǎn)換成為兩個(gè)向量,兩向量之間的可以通過(guò)余弦定理計(jì)算其相似度,計(jì)算公式如下:[0006]'十gf以度值—(ZinixZ2nl)+CZln2XZ2n2)+(Zln3XZ2n3)......+(ZltmXZ2llll)公式I\jZlnl+^1?2+^1?3......+ZlnnXyjZ2nl+Z2n2+Z2n3......+Z2nn[0007]計(jì)算結(jié)果越接近I表明相似度越高。[0008]關(guān)于simhash去重方法,將微博中文分詞后,轉(zhuǎn)換為向量值是詞頻的N維向量,simhash運(yùn)算的輸入是該向量,輸出是一個(gè)f位的簽名值,通過(guò)計(jì)算兩個(gè)簽名值的海明距離,通過(guò)判斷海明距離是否在設(shè)定參數(shù)范圍之內(nèi),如果在設(shè)定范圍之內(nèi),則判定這兩個(gè)文本相似,特征權(quán)重為詞頻,再將該向量轉(zhuǎn)換為一個(gè)簽名值。Simhash過(guò)程如圖1所示,整個(gè)去重流程圖如圖2所示,其中simhash過(guò)程為:[0009]1.將一個(gè)f維的向量V初始化為O;f位的二進(jìn)制數(shù)S初始化為O;[0010]2.對(duì)每一個(gè)特征:用傳統(tǒng)的hash算法對(duì)該特征產(chǎn)生一個(gè)f位的簽名b。對(duì)i=l到f:[0011]如果b的第i位為1,則V的第i個(gè)元素加上該特征的權(quán)重;[0012]否則,V的第i個(gè)元素減去該特征的權(quán)重。[0013]3.如果V的第i個(gè)元素大于0,則S的第i位為1,否則為O;[0014]4.輸出S作為簽名。[0015]現(xiàn)有技術(shù)方案的缺點(diǎn)[0016]在大量微博數(shù)據(jù)的情況下,任何一種去重方法效率都比較低,尤其是在微博抓取進(jìn)信息分析系統(tǒng)時(shí),還需要判斷在系統(tǒng)中是否已存在與該微博相似的微博(轉(zhuǎn)發(fā)微博),這時(shí)的運(yùn)算量過(guò)大,會(huì)直接影響微博的時(shí)效性。[0017]對(duì)于上述的去重方法,都是基于文本兩兩比較來(lái)進(jìn)行判定是否重復(fù),對(duì)于現(xiàn)在互聯(lián)網(wǎng)信息來(lái)說(shuō),每天的微博數(shù)據(jù)非常大的情況下,在信息分析系統(tǒng)抓取到微博后,進(jìn)行判定是否重復(fù)的運(yùn)算就非常巨大,以先有微博數(shù)據(jù)N條為例,系統(tǒng)抓取到微博后,進(jìn)行判定是否重復(fù),最壞需要比較N次,才能判斷是否重復(fù)。這樣的運(yùn)算效率太低。[0018]基于現(xiàn)有技術(shù)存在的缺點(diǎn),我們提出了一種基于倒序索引的simhash去重方法,該方法是基于simhash的一種改進(jìn)算法,能滿(mǎn)足大數(shù)據(jù)運(yùn)算下運(yùn)算效率的保證。本發(fā)明彌補(bǔ)了去重方法針對(duì)大數(shù)據(jù)運(yùn)算的效率低下,迎合了針對(duì)微博數(shù)據(jù)的有效提煉,提高了企業(yè)在應(yīng)對(duì)微博信息擴(kuò)散及時(shí)性?!?br/>發(fā)明內(nèi)容】[0019]根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種基于倒序索引的微博去重的方法,所述方法包括:由模型訓(xùn)練模塊根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞;由simhash模塊根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì)以將其轉(zhuǎn)換為N維向量,并且對(duì)所述N維向量進(jìn)行simhash運(yùn)算以便獲得f位的二進(jìn)制簽名;由去重運(yùn)算模塊執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述f位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引;根據(jù)所建立的倒序索引來(lái)分段檢索第一分段下的簽名集合,并計(jì)算與所述第一分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。[0020]優(yōu)選地,所述方法進(jìn)一步包括:如果所計(jì)算的海明距離不在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為所述文本不重復(fù)而將所述分段存儲(chǔ)在倒序索引存儲(chǔ)模塊中。[0021]優(yōu)選地,所述方法進(jìn)一步包括:如果在所述第一分段中的所計(jì)算的海明距離在所述設(shè)定的參數(shù)范圍內(nèi),則根據(jù)所建立的倒序索引來(lái)分段檢索第二分段下的簽名集合并計(jì)算與所述第二分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第二分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。[0022]優(yōu)選地,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值。[0023]優(yōu)選地,所述設(shè)定的參數(shù)范圍是0-7。[0024]根據(jù)本發(fā)明的另一個(gè)實(shí)施例,提供了一種基于倒序索引的微博去重的系統(tǒng),所述系統(tǒng)包括:模型訓(xùn)練模塊,所述模型訓(xùn)練模塊被配置成根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞;simhash模塊,所述simhash模塊被配置成根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì)以將其轉(zhuǎn)換為N維向量,并且對(duì)所述N維向量進(jìn)行simhash運(yùn)算以便獲得f位的二進(jìn)制簽名;去重運(yùn)算模塊,所述去重運(yùn)算模塊被配置成執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述f位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引;根據(jù)所建立的倒序索引來(lái)分段檢索第一分段下的簽名集合,并計(jì)算與所述第一分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。[0025]優(yōu)選地,所述去重運(yùn)算模塊進(jìn)一步被配置成:如果所計(jì)算的海明距離不在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為所述文本不重復(fù)而將所述分段存儲(chǔ)在倒序索引存儲(chǔ)模塊中。[0026]優(yōu)選地,所述去重運(yùn)算模塊進(jìn)一步被配置成:如果在所述第一分段中的所計(jì)算的海明距離在所述設(shè)定的參數(shù)范圍內(nèi),則根據(jù)所建立的倒序索引來(lái)分段檢索第二分段下的簽名集合并計(jì)算與所述第二分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第二分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)[0027]優(yōu)選地,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值。[0028]優(yōu)選地,所述設(shè)定的參數(shù)范圍是0-7。[0029]根據(jù)本發(fā)明的去重技術(shù)方案,可以在降低空間和時(shí)間復(fù)雜性的同時(shí),保證計(jì)算的精確度。根據(jù)本公開(kāi)和附圖的下面的詳細(xì)描述,對(duì)本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō)其它的目的、特征、以及優(yōu)點(diǎn)將是顯而易見(jiàn)的?!緦?zhuān)利附圖】【附圖說(shuō)明】[0030]附圖圖示了本發(fā)明的實(shí)施例,并與說(shuō)明書(shū)一起用于解釋本發(fā)明的原理。在附圖中:[0031]圖1是simhash哈希過(guò)程的示意圖。[0032]圖2是simhash去重處理的流程圖。[0033]圖3是根據(jù)本發(fā)明的實(shí)施例的基于倒序索引的simhash去重的系統(tǒng)的框圖。[0034]圖4A是根據(jù)本發(fā)明的實(shí)施例的倒序索引的示意圖。[0035]圖4B是根據(jù)本發(fā)明的實(shí)施例的倒序索引的實(shí)例的示意圖。[0036]圖5是根據(jù)本發(fā)明的實(shí)施例的基于倒序索引的simhash微博去重方法的流程圖?!揪唧w實(shí)施方式】[0037]下面將參照附圖詳細(xì)解釋根據(jù)本發(fā)明的實(shí)施例的技術(shù)方案。[0038]如在此使用的術(shù)語(yǔ)“微博信息監(jiān)控系統(tǒng)”是指通過(guò)整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù)對(duì)微博網(wǎng)站進(jìn)行快速的抓取,通過(guò)自然語(yǔ)言處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行去重、垃圾過(guò)濾、聚類(lèi)等處理,形成有價(jià)值的數(shù)據(jù)信息,從而為客戶(hù)全面掌握消費(fèi)人群信息分部,做出正確信息引導(dǎo),提供分析依據(jù)。[0039]本發(fā)明公開(kāi)的基于倒序索引的simhash微博去重方法的技術(shù)方案是在原有simhash去重方法的基礎(chǔ)上改進(jìn)的新的技術(shù)方案。[0040]如在此使用的術(shù)語(yǔ)“分詞”指的是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。為了進(jìn)行中文信息過(guò)濾,首先就要對(duì)文本預(yù)處理,進(jìn)行中文分詞,將其表示成可計(jì)算和推理的模型。中文分詞就是把中文的漢字序列分成有意義的詞。分詞只是中文信息處理的一部分,分詞本身并不是目的,而是后續(xù)處理過(guò)程的必要階段,是中文信息處理的基礎(chǔ)技術(shù)。盡管在本發(fā)明中以中文文本為例進(jìn)行了說(shuō)明,但是本領(lǐng)域技術(shù)人員理解,所述文本不僅限于中文文本,基于需要確定詞語(yǔ)邊界的語(yǔ)言的任何文本都可應(yīng)用本發(fā)明的技術(shù)方案,例如日文文本、韓文文本等。[0041]盡管存在各種分詞算法,但是對(duì)于一個(gè)成熟的分詞系統(tǒng)來(lái)說(shuō),不可能單獨(dú)依靠某一個(gè)算法來(lái)實(shí)現(xiàn),都需要綜合不同的算法,在實(shí)際的應(yīng)用中,要根據(jù)具體的情況來(lái)選擇不同的分詞方案。分詞的準(zhǔn)確性關(guān)系到檢索結(jié)果的質(zhì)量。目前中文詞語(yǔ)分析采取的主要步驟是:先采取最大匹配、最短路徑、概率統(tǒng)計(jì)或全切分等方法,得到一個(gè)相對(duì)好的粗分結(jié)果,然后進(jìn)行排歧、未登錄詞識(shí)別,最后標(biāo)注詞性。在實(shí)際的系統(tǒng)中,這三個(gè)過(guò)程可能相互交叉、反復(fù)融合,也可能不存在明顯的先后次序。[0042]雖然分詞準(zhǔn)確性對(duì)去重來(lái)說(shuō)十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于信息分析系統(tǒng)來(lái)說(shuō)也是不可用的。因?yàn)樾畔⒎治鱿到y(tǒng)需要處理數(shù)以?xún)|計(jì)的網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響信息分析系統(tǒng)內(nèi)容更新的速度。因此對(duì)于信息分析系統(tǒng)來(lái)說(shuō),分詞的準(zhǔn)確性和速度,二者都需要達(dá)到很高的要求。[0043]如在此使用的術(shù)語(yǔ)“詞頻”指的是一個(gè)句子或一篇文章中各種詞出現(xiàn)的頻率,它是中文信息處理的一項(xiàng)基本技術(shù),在很多領(lǐng)域都有重要的應(yīng)用。從形式上看,詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好地反應(yīng)成詞的可信度。除去特別常用的詞,一篇文章中出現(xiàn)頻率較高的詞通常能反映這篇文章的主題,因此可以使用詞頻來(lái)對(duì)中文文章進(jìn)行文本聚類(lèi)。[0044]此外,在正常的情況下,非常相似的網(wǎng)頁(yè)內(nèi)容不能給用戶(hù)提供新信息或只能給用戶(hù)提供少量的新信息,但是對(duì)像素網(wǎng)頁(yè)內(nèi)容的處理會(huì)消耗大量的服務(wù)器資源。同時(shí),應(yīng)當(dāng)考慮到,如果某個(gè)網(wǎng)頁(yè)重復(fù)性很高,則表明該內(nèi)容比較受歡迎,也預(yù)示著該網(wǎng)頁(yè)相對(duì)比較重要,應(yīng)當(dāng)賦予較高的權(quán)重。[0045]如在此使用的海明距離指的是在信息編碼中兩個(gè)合法代碼對(duì)應(yīng)位上編碼不同的位數(shù)。兩個(gè)碼字的對(duì)應(yīng)比特取值不同的比特?cái)?shù)稱(chēng)為這兩個(gè)碼字的海明距離。一個(gè)有效編碼集中,任意兩個(gè)碼字的海明距離的最小值稱(chēng)為該編碼集的海明距離。兩個(gè)文檔的二進(jìn)制位數(shù)不同的個(gè)數(shù)越多,則海明距離越大。海明距離越大,說(shuō)明兩個(gè)文檔不相似性越大,反之,則越小。不同的系統(tǒng)可能會(huì)以不同的海明距離值來(lái)判斷兩個(gè)網(wǎng)頁(yè)內(nèi)容是否近似重復(fù)。通常,對(duì)于一個(gè)64位的二進(jìn)制數(shù)值來(lái)說(shuō),將海明距離小于或等于33)作為判斷是否近似重復(fù)的標(biāo)準(zhǔn)。例如:10101和00110從第一位開(kāi)始依次有第一位、第四、第五位不同,則海明距離為3。如果參數(shù)設(shè)定為3,則可判定這兩段文本重復(fù)。[0046]根據(jù)本發(fā)明的技術(shù)方案將從simhash運(yùn)算中得到的簽名進(jìn)行分段并建立倒序索引以逐個(gè)分段地進(jìn)行判重和海明距離的計(jì)算。本發(fā)明的原理與鴿籠原理類(lèi)似,在鴿籠原理中,5個(gè)鴿子放在4個(gè)籠子必有一個(gè)籠子中的鴿子>2。在本發(fā)明中如果在本發(fā)明中將參數(shù)設(shè)定為7,這相當(dāng)于將7個(gè)不同的二進(jìn)制位放入8個(gè)分段中,那么必有一個(gè)分段是相等的。本發(fā)明的基于倒序索引的去重是依據(jù)此原理。[0047]圖3是根據(jù)本發(fā)明的實(shí)施例的基于倒序索引的simhash去重的系統(tǒng)300的框圖。如圖3所示,系統(tǒng)300包括數(shù)據(jù)管理模塊301、模型訓(xùn)練模塊303、simhash哈希模塊305、去重運(yùn)算模塊307和倒序索引存儲(chǔ)模塊309。[0048]數(shù)據(jù)管理模塊301用于對(duì)從微薄中收集的消息內(nèi)容進(jìn)行詞庫(kù)管理。所述消息內(nèi)容包括微博內(nèi)容、轉(zhuǎn)發(fā)關(guān)系、博主ID、發(fā)布時(shí)間等信息。[0049]模型訓(xùn)練模塊303用于對(duì)來(lái)自詞庫(kù)管理子模塊302的內(nèi)容進(jìn)行微博中文分詞。Simhash哈希模塊305用于進(jìn)行向量轉(zhuǎn)換和simhash運(yùn)算。例如“基于倒序索引的simhash微博去重方法”,分詞結(jié)果為“基于,倒序,索引,simhash,微博,去重,方法”,對(duì)應(yīng)權(quán)重分別為(1,I,I,I,I,I,I),這便是一個(gè)7維向量。[0050]去重運(yùn)算模塊307用于進(jìn)行hash值截?cái)唷⒎侄尾檎液秃C骶嚯x計(jì)算。具體地,去重運(yùn)算模塊307根據(jù)設(shè)定的參數(shù)將該f位的二進(jìn)制簽名分段,其中,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值,并且依據(jù)分段結(jié)果建立倒序索引來(lái)進(jìn)行分段檢索和海明距離計(jì)算,以便進(jìn)行重復(fù)判斷。即,如果重復(fù),則返回判斷結(jié)果重復(fù);如果不重復(fù),則基于倒序索引檢索下一個(gè)分段下的簽名集合,以此類(lèi)推直到最后一個(gè)分段。[0051]例如,去重運(yùn)算模塊307將待判重的簽名分成8個(gè)分段,并且依據(jù)所建立的倒序索引按照第一個(gè)分段檢索該分段下的簽名集合,逐個(gè)地計(jì)算與簽名集合相對(duì)應(yīng)的海明距離以判斷重復(fù),直到遍歷所有的與其相等的索引集合。然后,去重運(yùn)算模塊307判斷所計(jì)算的海明距離是否在設(shè)定參數(shù)范圍內(nèi)。如果所計(jì)算的海明距離是在設(shè)定參數(shù)范圍內(nèi),則判斷重復(fù)并返回判斷結(jié)果重復(fù);如果所計(jì)算的海明距離不是在設(shè)定參數(shù)范圍內(nèi),則判斷不重復(fù),并且按照第二個(gè)分段檢索第二個(gè)分段下的簽名集合,以此類(lèi)推直到第8段。[0052]更具體地,首先,將從simhash哈希模塊得到的f位簽名分段,例如分成8段,然后將每一段映射到該簽名,如圖4A所示。參見(jiàn)圖4A,是根據(jù)本發(fā)明的實(shí)施例的倒序索引的示意圖。64位的二進(jìn)制串“1011011010001111…0101011110011100”被等分成八段“10110110”、“1000111”、......、“10110111”、“10011100”。然后,調(diào)整上述64位二進(jìn)制,將任意一塊作為前8位,總共有8種組合,生成8份映射。接著,利用精確匹配的方式查找前8位。這樣,加入樣本庫(kù)中存有234(差不多10億)的哈希指紋,則每個(gè)段位對(duì)應(yīng)的簽名集合(SP,每個(gè)table)返回2(34_16)=262144個(gè)候選結(jié)果,大大減少了海明距離的計(jì)算成本。[0053]倒序索引存儲(chǔ)模塊309用于將簽名分段進(jìn)行存儲(chǔ),具體地,進(jìn)行hash值存儲(chǔ)和倒序索引存儲(chǔ)。[0054]例如,圖4B是根據(jù)本發(fā)明的實(shí)施例的倒序索引的實(shí)例的示意圖。在16位的簽名并且將海明距離小于或等于33)作為判斷是否近似重復(fù)的標(biāo)準(zhǔn)的情況下,系統(tǒng)300抓取到微博內(nèi)容“京東雙十一,我為自己代言,商家讓利30萬(wàn),呈現(xiàn)最優(yōu)質(zhì)的食物,最低的價(jià)格,最給力的促銷(xiāo)”,然后通過(guò)系統(tǒng)300的模型訓(xùn)練模塊303和simhash哈希模塊305將該微博分詞并進(jìn)行simhash處理,從而得到16位的簽名fl:1010111101010011。接著,建立倒序索引并存儲(chǔ),得到如圖4B所示的結(jié)構(gòu)。當(dāng)系統(tǒng)300抓取到微博內(nèi)容“京東就是快,上午交的訂單下午電腦就送到了”時(shí),如上所述進(jìn)行分詞和simhash處理,得到簽名f2:1101011111001001。對(duì)于簽名f2,首先得到第一個(gè)分段1101,檢索上述倒序索引存儲(chǔ)結(jié)構(gòu)的第一個(gè)集合,得到簽名H。然后,計(jì)算fl與f2的海明距離,并且當(dāng)該海明距離大于3時(shí),根據(jù)第二個(gè)分段0111檢索上述倒序索引存儲(chǔ)結(jié)構(gòu)的第二個(gè)集合,得到又一Π,再計(jì)算其海明距離,依次類(lèi)推。如果判定重復(fù),則直接返回結(jié)果;否則將該簽名也按照簽名fl建立倒序索引并存儲(chǔ)。[0055]圖5是根據(jù)本發(fā)明的實(shí)施例的基于倒序索引的simhash微博去重方法500的流程圖。如圖5所述,該方法500在步驟S501開(kāi)始,在步驟S501中,當(dāng)系統(tǒng)抓取到微博數(shù)據(jù)時(shí),模型訓(xùn)練模塊303根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞。然后,在步驟S503中,simhash模塊305根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì),并將其轉(zhuǎn)換為N維向量。接著,在步驟S505中simhash模塊305進(jìn)行simhash運(yùn)算,并且在步驟S507中獲得一個(gè)f位的二進(jìn)制簽名。接著,在步驟S509中,去重運(yùn)算模塊307根據(jù)設(shè)定參數(shù)將該f位的二進(jìn)制簽名分段,其中,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值,并且依據(jù)分段結(jié)果建立倒序索引,即“關(guān)鍵字(key)”為簽名的每一段,“值(value)”為該簽名。在步驟S511中,去重運(yùn)算模塊307根據(jù)所建立的倒序索引來(lái)分段檢索分段下的簽名集合并計(jì)算對(duì)應(yīng)的海明距離,直到遍歷所有的與其相等的索引集合。在步驟S513中確定所計(jì)算的海明距離是否在設(shè)定參數(shù)范圍內(nèi)。如果所計(jì)算的海明距離在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為文本重復(fù)而不需要存儲(chǔ)的操作,該方法返回步驟S511以根據(jù)所建立的倒序索引來(lái)分段檢索下一個(gè)分段下的簽名集合并計(jì)算對(duì)應(yīng)的海明距離。如果所計(jì)算的海明距離不在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為所述文本不重復(fù)而在步驟S515中將所述分段存儲(chǔ)在倒序索引存儲(chǔ)模塊中。[0056]例如,經(jīng)過(guò)大量中文文本海明距離運(yùn)算后,在simhash值hash結(jié)果集為64位二進(jìn)制碼時(shí),海明距離優(yōu)選的是在0-7的范圍之內(nèi),可以認(rèn)為是文本重復(fù)。[0057]在本申請(qǐng)的技術(shù)方案中,根據(jù)建立的倒序索引存儲(chǔ)進(jìn)行simhash去重是本發(fā)明關(guān)鍵點(diǎn)。對(duì)傳統(tǒng)的去重方法進(jìn)行了突破,提升企業(yè)在處理微博信息時(shí)的時(shí)效性和及時(shí)性;更重要的是判斷去重中對(duì)于中文的海明距離參數(shù)設(shè)定將直接影響到去重的準(zhǔn)確性,將直接影響到對(duì)重大信息的處理。這些都對(duì)企業(yè)在微博上的信息監(jiān)控的及時(shí)性起到了關(guān)鍵作用。[0058]上述實(shí)施例僅是本發(fā)明的優(yōu)選實(shí)施例,并不用于限制本發(fā)明。對(duì)本領(lǐng)域技術(shù)人員顯而易見(jiàn)的是,在不脫離本發(fā)明精神和范圍的情況下,可以對(duì)本發(fā)明的實(shí)施例進(jìn)行各種修改和改變。因此,本發(fā)明意在涵蓋落入如權(quán)利要求所限定的本發(fā)明的范圍之內(nèi)的所有的修改或變型?!緳?quán)利要求】1.一種基于倒序索引的微博去重的方法,所述方法包括:由模型訓(xùn)練模塊根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞;由simhash模塊根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì)以將其轉(zhuǎn)換為N維向量,并且對(duì)所述N維向量進(jìn)行simhash運(yùn)算以便獲得f位的二進(jìn)制簽名;由去重運(yùn)算模塊執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述f位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引;根據(jù)所建立的倒序索引來(lái)分段檢索第一分段下的簽名集合,并計(jì)算所述第一分段中的對(duì)應(yīng)的海明距離;以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。2.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:如果所計(jì)算的海明距離不在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為所述文本不重復(fù)而將所述分段存儲(chǔ)在倒序索引存儲(chǔ)模塊中。3.根據(jù)權(quán)利要求1或2所述的方法,進(jìn)一步包括:如果在所述第一分段中的所計(jì)算的海明距離在所述設(shè)定的參數(shù)范圍內(nèi),則根據(jù)所建立的倒序索引來(lái)分段檢索第二分段下的簽名集合并計(jì)算所述第二分段中的對(duì)應(yīng)的海明距離;以及確定在所述第二分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。4.根據(jù)權(quán)利要求1所述的方法,其中,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值。5.根據(jù)權(quán)利要求1所述的方法,其中,所述設(shè)定的參數(shù)范圍是0-7。6.一種基于倒序索引的微博去重的系統(tǒng),所述系統(tǒng)包括:模型訓(xùn)練模塊,所述模型訓(xùn)練模塊被配置成根據(jù)詞庫(kù)數(shù)據(jù)對(duì)文本進(jìn)行分詞;simhash模塊,所述simhash模塊被配置成根據(jù)分詞后的結(jié)果對(duì)文本進(jìn)行詞頻統(tǒng)計(jì)以將其轉(zhuǎn)換為N維向量,并且對(duì)所述N維向量進(jìn)行simhash運(yùn)算以便獲得f位的二進(jìn)制簽名;去重運(yùn)算模塊,所述去重運(yùn)算模塊被配置成執(zhí)行以下操作:根據(jù)設(shè)定參數(shù)將所述f位的二進(jìn)制簽名分段,并依據(jù)分段結(jié)果建立倒序索引;根據(jù)所建立的倒序索引來(lái)分段檢索第一分段下的簽名集合,并計(jì)算與所述第一分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第一分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中所述去重運(yùn)算模塊進(jìn)一步被配置成:如果所計(jì)算的海明距離不在所述設(shè)定的參數(shù)范圍內(nèi),則認(rèn)為所述文本不重復(fù)而將所述分段存儲(chǔ)在倒序索引存儲(chǔ)模塊中。8.根據(jù)權(quán)利要求6所述的系統(tǒng),所述去重運(yùn)算模塊進(jìn)一步被配置成:如果在所述第一分段中的所計(jì)算的海明距離在所述設(shè)定的參數(shù)范圍內(nèi),則根據(jù)所建立的倒序索引來(lái)分段檢索第二分段下的簽名集合并計(jì)算與所述第二分段的簽名集合相對(duì)應(yīng)的海明距離;以及確定在所述第二分段中的所計(jì)算的海明距離是否在所述設(shè)定參數(shù)范圍內(nèi)。9.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述分段的數(shù)目大于所述設(shè)定的參數(shù)的值。10.根據(jù)權(quán)利要求6所述的系統(tǒng),其中,所述設(shè)定的參數(shù)范圍是0-7?!疚臋n編號(hào)】G06F17/30GK103646080SQ201310681714【公開(kāi)日】2014年3月19日申請(qǐng)日期:2013年12月12日優(yōu)先權(quán)日:2013年12月12日【發(fā)明者】王鑫文申請(qǐng)人:北京京東尚科信息技術(shù)有限公司,北京京東世紀(jì)貿(mào)易有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
永城市| 澳门| 云龙县| 沁水县| 张家界市| 六枝特区| 南昌县| 海丰县| 龙川县| 五指山市| 兴安县| 汽车| 中方县| 河池市| 南安市| 江城| 滁州市| 乌兰察布市| 南宫市| 顺义区| 玉田县| 磐安县| 建德市| 白山市| 彭州市| 红河县| 怀化市| 普洱| 杭州市| 镇雄县| 金秀| 乌恰县| 陇南市| 大安市| 双桥区| 泸州市| 濉溪县| 南靖县| 泸西县| 丁青县| 柯坪县|