欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

Ugc指紋簽名確定方法、裝置及ugc去重方法、裝置的制造方法

文檔序號:9914261閱讀:693來源:國知局
Ugc指紋簽名確定方法、裝置及ugc去重方法、裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及網(wǎng)頁處理技術(shù)領(lǐng)域,更具體地說,涉及一種UGC(User GeneratedContent,用戶原創(chuàng)內(nèi)容)指紋簽名確定方法、裝置及UGC去重方法、裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)科學(xué)技術(shù)與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)已經(jīng)成為人們獲取重要信息的重要途徑。許多平臺都提供了網(wǎng)上購物功能,產(chǎn)品供應(yīng)商可以制作產(chǎn)品對應(yīng)的UGC,將該UGC提交給平臺,由平臺將UGC制作成網(wǎng)頁,并放在購物平臺上進(jìn)行推廣。
[0003]產(chǎn)品供應(yīng)商為了更好的宣傳自己的產(chǎn)品,有可能會提交重復(fù)或稍作改動的UGC到購物平臺,而這些重復(fù)的UGC占用了平臺大量的有效資源,同時(shí)也給用戶帶來額外困擾。如何確定UGC身份,進(jìn)而能夠利用UGC身份實(shí)現(xiàn)UGC去重成為亟待解決的問題。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本申請?zhí)峁┝艘环NUGC指紋簽名確定方法、裝置及UGC去重方法、裝置,以確定UGC的身份,并基于此實(shí)現(xiàn)UGC去重。
[0005]為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006]一種UGC指紋簽名確定方法,包括:
[0007]獲取用戶原創(chuàng)內(nèi)容UGC;
[0008]過濾所述UGC中的排版信息,得到文字信息;
[0009]對所述文字信息進(jìn)行分詞以及詞頻統(tǒng)計(jì),得到若干詞以及各詞的詞頻數(shù);
[0010]計(jì)算各個(gè)詞的hash值;
[0011 ]利用各詞的詞頻數(shù)對相應(yīng)詞的hash值進(jìn)行加權(quán),得到加權(quán)后hash值;
[0012]將各詞的加權(quán)后hash值進(jìn)行累加,得到序列串信息;
[0013]將所述序列串信息轉(zhuǎn)換為二進(jìn)制格式,得到所述UGC的指紋簽名。
[0014]優(yōu)選地,所述過濾所述UGC中的排版信息,包括:
[0015]過濾所述UGC中的html標(biāo)簽類符號、標(biāo)點(diǎn)符號和特殊字符。
[0016]優(yōu)選地,所述計(jì)算各個(gè)詞的hash值,包括:
[0017]利用md5算法對各詞進(jìn)行計(jì)算,得到16進(jìn)制的32位數(shù)字信息;
[0018]將所述16進(jìn)制的32位數(shù)字信息轉(zhuǎn)換為2進(jìn)制的128位數(shù)字信息,作為詞的hash值。
[0019]優(yōu)選地,所述利用各詞的詞頻數(shù)對相應(yīng)詞的hash值進(jìn)行加權(quán),包括:
[0020]確定詞的hash值中各序位數(shù)字為O還是I;
[0021 ]對于序位數(shù)字為I的序位,將該序位數(shù)字替換為詞頻數(shù),詞頻數(shù)與詞對應(yīng);
[0022]對于序位數(shù)字為O的序位,將該序位數(shù)字替換為負(fù)的詞頻數(shù),詞頻數(shù)與詞對應(yīng)。[0023 ]優(yōu)選地,所述將各詞的加權(quán)后hash值進(jìn)行累加,包括:
[0024]將各詞的加權(quán)后hash值中,相同序位的數(shù)字進(jìn)行相加,得到128位的序列串信息。
[0025]優(yōu)選地,所述將所述序列串信息轉(zhuǎn)換為二進(jìn)制格式,包括:
[0026]判斷128位的序列串信息中各序位的數(shù)字是否大于O;
[0027]對于大于O的序位,將該序位數(shù)字替換為I;
[0028]對于不大于O的序位,將該序位數(shù)字替換為O。
[0029]一種UGC去重方法,包括:
[0030]獲取待處理的用戶原創(chuàng)內(nèi)容UGC,按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
[0031]調(diào)取預(yù)置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述所述的UGC指紋簽名確定方法所得到的;
[0032]對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
[0033]若UGC指紋簽名庫中存在相似度滿足相似度設(shè)定條件的指紋簽名,則拒絕處理所述 UGC 0
[0034]優(yōu)選地,所述對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度,包括:
[0035]采用漢明距離計(jì)算方法,計(jì)算所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的距離;
[0036]若UGC指紋簽名庫中某個(gè)指紋簽名與所述UGC的指紋簽名的距離超過設(shè)定距離閾值,則確定二者相似度滿足相似度設(shè)定條件。
[0037]一種UGC指紋簽名確定裝置,包括:
[0038]UGC獲取單元,用于獲取UGC;
[0039]排版信息過濾單元,用于過濾所述UGC中的排版信息,得到文字信息;
[0040]分詞及詞頻統(tǒng)計(jì)單元,用于對所述文字信息進(jìn)行分詞以及詞頻統(tǒng)計(jì),得到若干詞以及各詞的詞頻數(shù);
[0041 ] hash計(jì)算單元,用于計(jì)算各個(gè)詞的hash值;
[0042]加權(quán)處理單元,用于利用各詞的詞頻數(shù)對相應(yīng)詞的hash值進(jìn)行加權(quán),得到加權(quán)后hash 值;
[0043]累加單元,用于將各詞的加權(quán)后hash值進(jìn)行累加,得到序列串信息;
[0044]二進(jìn)制轉(zhuǎn)換單元,用于將所述序列串信息轉(zhuǎn)換為二進(jìn)制格式,得到UGC的指紋簽名。
[0045]一種UGC去重裝置,包括:
[0046]待處理UGC獲取單元,用于獲取待處理UGC,并按照上述所述的UGC指紋簽名確定方法確定所述UGC的指紋簽名;
[0047]UGC指紋簽名庫調(diào)取單元,用于調(diào)取預(yù)置的UGC指紋簽名庫,所述UGC指紋簽名庫中存儲有若干UGC的指紋簽名,且存儲的各指紋簽名均是按照上述權(quán)利要求1所述的UGC指紋簽名確定方法所得到的;
[0048]相似度對比單元,用于對比所述UGC的指紋簽名與所述UGC指紋簽名庫中各指紋簽名的相似度;
[0049]UGC處理單元,用于在確定UGC指紋簽名庫中存在相似度滿足相似度設(shè)定條件的指紋簽名時(shí),拒絕處理所述UGC。
[0050]從上述的技術(shù)方案可以看出,本申請實(shí)施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進(jìn)行分詞以及詞頻統(tǒng)計(jì),得到若干詞以及各詞的詞頻數(shù);計(jì)算各個(gè)詞的hash值;利用各詞的詞頻數(shù)對相應(yīng)詞的hash值進(jìn)行加權(quán),得到加權(quán)后hash值;將各詞的加權(quán)后hash值進(jìn)行累加,得到序列串信息;將所述序列串信息轉(zhuǎn)換為二進(jìn)制格式,得到UGC的指紋簽名。本申請參考了UGC中各分詞及分詞詞頻數(shù)確定最終的指紋簽名,其指紋簽名能夠很好的標(biāo)識UGC的身份。
【附圖說明】
[0051]為了更清楚地說明本申請實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
[0052]圖1為本申請實(shí)施例公開的一種UGC指紋簽名確定方法流程圖;
[0053]圖2為本申請實(shí)施例公開的另一種UGC指紋簽名確定方法流程圖;
[0054]圖3為本申請實(shí)施例公開的又一種UGC指紋簽名確定方法流程圖;
[0055]圖4為本申請實(shí)施例公開的一種UGC去重方法流程圖;
[0056]圖5為本申請實(shí)施例公開的一種UGC指紋簽名確定裝置結(jié)構(gòu)示意圖;
[0057]圖6為本申請實(shí)施例公開的一種UGC去重裝置結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0058]下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例。基于本申請中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。
[0059]參見圖1,圖1為本申請實(shí)施例公開的一種UGC指紋簽名確定方法流程圖。
[0060]如圖1所示,該方法包括:
[0061 ]步驟 S100、獲取 UGC;
[0062]步驟S110、過濾所述UGC中的排版信息,得到文字信息;
[0063]其中,排版信息可以包括UGC中的html標(biāo)簽類符號、標(biāo)點(diǎn)符號和特殊字符等信息。過濾掉UGC中的這些排版信息之后,只剩下文字信息。
[0064]步驟S120、對所述文字信息進(jìn)行分詞以及詞頻統(tǒng)計(jì),得到若干詞以及各詞的詞頻數(shù);
[0065]具體地,可以采用現(xiàn)有的分詞工具對文字信息進(jìn)行分詞。分詞后統(tǒng)計(jì)各詞的詞頻數(shù)。
[ΟΟ??] 步驟S130、計(jì)算各個(gè)詞的hash值;
[0067 ]步驟SI 40、利用各詞的詞頻數(shù)對相應(yīng)詞的hash值進(jìn)行加權(quán),得到加權(quán)后hash值;
[0068]具體地,對于每個(gè)詞的hash值,利用該詞的詞頻數(shù)對hash值進(jìn)行加權(quán),得到加權(quán)后hash 值。
[0069]步驟S150、將各詞的加權(quán)后hash值進(jìn)行累加,得到序列串信息;
[0070]具體地,每個(gè)詞都對應(yīng)一個(gè)加權(quán)后hash值。在進(jìn)行hash值累加時(shí),對多個(gè)hash值中相同序位的數(shù)值進(jìn)行累加,累加后得到序列串信息。
[0071]步驟S160、將所述序列串信息轉(zhuǎn)換為二進(jìn)制格式,得到UGC的指紋簽名。
[0072]具體地,上述序列串信息并不是標(biāo)準(zhǔn)的二進(jìn)制格式,本步驟中將序列串信息轉(zhuǎn)換為二進(jìn)制格式,得到UGC的指紋簽名。
[0073]本申請實(shí)施例提供的UGC指紋簽名確定方法,獲取UGC;過濾所述UGC中的排版信息,得到文字信息;對所述文字信息進(jìn)行分詞以及詞頻統(tǒng)計(jì),得
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
新平| 济阳县| 根河市| 兴和县| 正宁县| 鹤岗市| 新河县| 洛阳市| 股票| 神农架林区| 龙门县| 普定县| 积石山| 米易县| 台前县| 吴川市| 四平市| 新乐市| 淮安市| 阿勒泰市| 沁阳市| 大竹县| 伊宁市| 武义县| 台前县| 望都县| 陕西省| 洱源县| 普安县| 宁晋县| 青川县| 西华县| 桐庐县| 镇巴县| 乌拉特后旗| 花莲县| 石景山区| 南通市| 湖口县| 萍乡市| 镶黄旗|