專(zhuān)利名稱(chēng):一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,以WEB2. O技術(shù)為基礎(chǔ),各種互聯(lián)網(wǎng)應(yīng)用得以普遍應(yīng)用,例如,BBS、社交平臺(tái)等,在這些平臺(tái)上,用戶不再被動(dòng)的接收信息,而是可以隨時(shí)隨地將自己的觀點(diǎn)和想法通過(guò)互聯(lián)網(wǎng)發(fā)布。然而,由于無(wú)法從技術(shù)上阻止用戶發(fā)布不規(guī)范的內(nèi)容,所以導(dǎo)致用戶在互聯(lián)網(wǎng)上所發(fā)布的言論不能?chē)@其所討論的主題。例如,在視頻網(wǎng)站上,網(wǎng)站通常為視頻播放提供評(píng)論平臺(tái),以讓觀看用戶發(fā)表自己的觀看評(píng)論。然而,在視頻評(píng)論中經(jīng)常充斥著各種各樣的評(píng)論行為,有些評(píng)論內(nèi)容和視頻內(nèi)容無(wú)關(guān)。大量的重復(fù)評(píng)論會(huì)對(duì)視頻評(píng)論產(chǎn)生消極的影響,影響整體評(píng)論質(zhì)量,不利于建立優(yōu)質(zhì)的評(píng)論環(huán)境。比如一個(gè)視頻下的重復(fù)評(píng)論內(nèi)容過(guò)多會(huì)影響自動(dòng)精華評(píng)論的識(shí)別,所以需要有效的防止精華評(píng)論中出現(xiàn)這些內(nèi)容。針對(duì)這種情況,現(xiàn)有技術(shù)中通常在熱門(mén)視頻區(qū)域的評(píng)論內(nèi)容進(jìn)行人工審核,去掉低俗、無(wú)關(guān)等需要屏蔽的評(píng)論信息,運(yùn)營(yíng)高質(zhì)量評(píng)論內(nèi)容。但重復(fù)性評(píng)論內(nèi)容會(huì)多次引起審核,影響工作效率,增大了系統(tǒng)的處理負(fù)荷,需要人工干預(yù),導(dǎo)致用戶發(fā)表的評(píng)論內(nèi)容不能盡快的呈現(xiàn)在評(píng)論區(qū)域。本發(fā)明采用了正如本申請(qǐng)人申請(qǐng)的申請(qǐng)?zhí)枮?01210132078X的發(fā)明專(zhuān)利申請(qǐng)中描述的一種快速計(jì)算評(píng)論相似度的方法,該方法包括了以下步驟具體執(zhí)行過(guò)程如下S1、提取新評(píng)論關(guān)鍵字;具體提取過(guò)程如下步驟S11,將評(píng)論原始文本轉(zhuǎn)化為可用處理文本,如去掉內(nèi)部標(biāo)簽、表情等信息;轉(zhuǎn)化程序可以使用自身程序來(lái)進(jìn)行文本處理,例如,可以將短文本中的內(nèi)部標(biāo)簽、新浪微博標(biāo)簽、表情標(biāo)簽信息去掉,僅抽取評(píng)論的自身內(nèi)容。步驟S12,接著使用分詞程序?qū)σ烟幚淼脑u(píng)論文本進(jìn)行分詞;該過(guò)程可以使用自身程序?qū)崿F(xiàn),也可以使用第三方中文分詞程序,詞典從互聯(lián)網(wǎng)上抓取,從而可以不斷豐富了本地分詞詞庫(kù);分詞算法采用最大逆向匹配原則,根據(jù)詞典中的詞對(duì)文本進(jìn)行分詞。步驟S13,根據(jù)文本分詞結(jié)果,抽取名詞、動(dòng)詞等句子主干;抽取名詞、動(dòng)詞、形容詞等是根據(jù)程序進(jìn)行詞性標(biāo)注得來(lái)的,使用外部程序完成。步驟S14,最后根據(jù)停用詞詞表進(jìn)一步過(guò)濾步驟S13所得到特征關(guān)鍵字,最終提取得到有用的新的評(píng)論關(guān)鍵字。停用詞詞表中的詞,表示這些詞對(duì)文本意思的影響不大,可以忽略。停用詞詞表部分來(lái)源于互聯(lián)網(wǎng),少部分使用統(tǒng)計(jì)方法得出,比如統(tǒng)計(jì)大規(guī)模評(píng)論中發(fā)現(xiàn)后“沙發(fā)”這個(gè)關(guān)鍵字得分非常低,可以加入停用詞詞表。此外,更多的停用詞,例如似乎、的、當(dāng)然等等。S2、為提取的每個(gè)關(guān)鍵字查倒排索引及文本信息,找出與新評(píng)論文本有相同關(guān)鍵字的文本;對(duì)每個(gè)關(guān)鍵字建立一個(gè)索引,索引文本為需要做相似度分析的文本。倒排索引的目的以便于快速查找文本及文本信息;倒排索引是搜索引擎中使用的一種技術(shù)方法。倒排索引實(shí)質(zhì)是根據(jù)文本中的關(guān)鍵詞建立一個(gè)查找機(jī)制,來(lái)查找文本的一種方法。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來(lái)確定屬性值,而是由屬性值來(lái)確定記錄的位置,因而稱(chēng)為倒排索引(inverted index)。帶有倒排索引的文件我們稱(chēng)為倒排索引文件,簡(jiǎn)稱(chēng)倒排文件。建立倒排索引具體過(guò)程如下定義兩張表a和b ;其中,表a的每一行存儲(chǔ)評(píng)論的文本、抽取的特征關(guān)鍵字信息、以及一個(gè)代表文本的唯一 id號(hào);表b是每一行存儲(chǔ)關(guān)鍵字及一組id序列。根據(jù)表a的文本所生成關(guān)鍵字對(duì)應(yīng)一個(gè)文本的id序列。表b生成規(guī)則是遍歷表a中所有文本,對(duì)每一個(gè)文本中出現(xiàn)的關(guān)鍵字,將id號(hào)添加到表b關(guān)鍵字對(duì)應(yīng)的id序列中,如果沒(méi)有該關(guān)鍵字則加入一組新的關(guān)鍵字。倒排索引使用過(guò)程,例如,找出含有關(guān)鍵字“你好”的文檔,可以根據(jù)表b快速定位到關(guān)鍵字“你好”,并獲取到對(duì)應(yīng)的id序列,根據(jù)id查找表a中id對(duì)應(yīng)的文檔。S3、計(jì)算新評(píng)論文本與索引文本間相同關(guān)鍵字的數(shù)量;具體過(guò)程如下根據(jù)S2步驟中新評(píng)論文本與其他所有文本中包含相同的關(guān)鍵字的索引文本,計(jì)算新評(píng)論文本與所有文本的關(guān)鍵字個(gè)數(shù),由于S2步驟已經(jīng)找出了與新文本有相同關(guān)鍵字的文本,所以本步驟中“所有文本”是一個(gè)被簡(jiǎn)化的區(qū)間,所得到的結(jié)果為文本間相同關(guān)鍵字的個(gè)數(shù),這個(gè)關(guān)鍵字個(gè)數(shù)就是下面相似度計(jì)算公式Dice方法中comm(sl, s2)值。統(tǒng)計(jì)各文本與新文本之間相同特征的信息,這一信息可以是關(guān)鍵字,文本特征只使用文本中的關(guān)鍵字來(lái)表示,所以計(jì)算相似度的時(shí)候只使用SI步驟中抽取出來(lái)的特征關(guān)鍵字。評(píng)論特征信息指公式中l(wèi)eng(s2)這個(gè)值,這個(gè)值表示使用特種關(guān)鍵字計(jì)算的一個(gè)文本信息值,在計(jì)算文本相似度時(shí),該值為文本中特征關(guān)鍵字的個(gè)數(shù)。這個(gè)值可以保存在S2的表a中,以方便與其他文本進(jìn)行相似度時(shí)使用。S4、根據(jù)新評(píng)論文本與索引文本間相同關(guān)鍵字的數(shù)量計(jì)算新文本與索引中文本的相似度;該步驟的具體實(shí)現(xiàn)過(guò)程如下步驟S41,采用采用布爾權(quán)重的方法計(jì)算特征關(guān)鍵字權(quán)重;由于評(píng)論內(nèi)容為短文本,文本包含的特征詞數(shù)量較少,所以采用布爾權(quán)重的方法計(jì)算特征權(quán)重;常用的特征權(quán)重方法有布爾權(quán)重、詞頻(tf)權(quán)重、tf-1df權(quán)重。步驟S42,根據(jù)步驟S41獲得的各個(gè)關(guān)鍵字的權(quán)重,采用Dice系數(shù)計(jì)算文本相似度,以?xún)蓚€(gè)文本間相同關(guān)鍵字的個(gè)數(shù)以及各個(gè)關(guān)鍵字的權(quán)重來(lái)衡量文本間的相似程度;Dice系數(shù)計(jì)算公式為Dice (si, s2) = 2Xcomm(sl, s2) / (I eng (si) +Ieng (s2));其中,comm(sl, s2)是 s1、s2 中相同字符的個(gè)數(shù),leng(sl),leng(s2)是字符串sl、s2的長(zhǎng)度。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的在于提供一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的方法,其包括如下步驟步驟(I)如果評(píng)論內(nèi)容審核未通過(guò)則將該評(píng)論內(nèi)容放入樣本庫(kù)中,自動(dòng)識(shí)別模塊將與視頻內(nèi)容不相關(guān)的評(píng)論內(nèi)容過(guò)濾到樣本庫(kù)中;步驟(2)對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成樣本指紋特征存入樣本指紋庫(kù);步驟(3)對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋,與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配,匹配成功后計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F)-1evel (F) X0.1,其中sim (F)為(樣本指紋的字符個(gè)數(shù)X2)/ (樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù)),level (F)為指紋級(jí)另1J,當(dāng)其中一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值時(shí),該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) X0.1)小于預(yù)定閾值時(shí),推送至人工進(jìn)行審核。進(jìn)一步,指紋規(guī)則包括以下幾種
指紋規(guī)則I為將評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則2為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,去掉停用詞詞表中列出的停用詞,然后根據(jù)對(duì)剩余詞進(jìn)行排重,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則3為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理,設(shè)定指紋級(jí)別為2級(jí)。進(jìn)一步,指紋規(guī)則I或2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序;指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序。進(jìn)一步,還可添加其他指紋規(guī)則。進(jìn)一步,步驟(I)所述不相關(guān)內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值時(shí),可以判斷為樣本內(nèi)容或者以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,判斷一個(gè)用戶發(fā)送的N條評(píng)論內(nèi)容相似,則判定為樣本內(nèi)容。進(jìn)一步,還可以設(shè)立白名單,當(dāng)評(píng)論內(nèi)容與白名單中的樣本指紋特征匹配時(shí),認(rèn)定為與視頻相關(guān)內(nèi)容。本發(fā)明還提供了一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的裝置,其包括如下單元樣本庫(kù),存有審核未通過(guò)的評(píng)論內(nèi)容以及自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)評(píng)論內(nèi)容;樣本指紋庫(kù),存有對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成的樣本指紋特征;評(píng)論內(nèi)容指紋生成單元,對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋;匹配單元,將評(píng)論內(nèi)容指紋與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配;匹配分析單元,匹配成功后計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F)-1evel (F) X0.1,其中sim (F)為(樣本指紋的字符個(gè)數(shù)X2)/ (樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù)),level (F)為指紋級(jí)另1J,當(dāng)其中一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值時(shí),該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) X0.1)小于預(yù)定閾值時(shí),推送至人工進(jìn)行審核。進(jìn)一步,指紋規(guī)則包括以下幾種指紋規(guī)則I為將評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則2為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,去掉停用詞詞表中列出的停用詞,然后根據(jù)對(duì)剩余詞進(jìn)行排重,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則3為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理,設(shè)定指紋級(jí)別為2級(jí)。進(jìn)一步,指紋規(guī)則I或2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序;指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序。進(jìn)一步,還可添加其他指紋規(guī)則。進(jìn)一步,所述自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值時(shí),可以判斷為樣本內(nèi)容或者以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,判斷一個(gè)用戶發(fā)送的N條評(píng)論內(nèi)容相似,則判定為樣本內(nèi)容。
進(jìn)一步,還可以在樣本指紋庫(kù)中設(shè)置作為白名單的樣本指紋,當(dāng)評(píng)論內(nèi)容與白名單中的樣本指紋特征匹配時(shí),認(rèn)定為與視頻相關(guān)內(nèi)容。本發(fā)明取得了以下技術(shù)效果自動(dòng)過(guò)濾需要屏蔽的內(nèi)容,提高了系統(tǒng)效率。建立了基于內(nèi)容的“白名單” “黑名單”機(jī)制,避免了重復(fù)審核的工作,提高了審核效率。
圖1是根據(jù)本發(fā)明裝置的模塊示意圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明這里的指紋是指從文本中提取的內(nèi)容,本發(fā)明中把這個(gè)內(nèi)容叫做評(píng)論的指紋特征,簡(jiǎn)稱(chēng)指紋。提取結(jié)果與指紋規(guī)則有關(guān),本發(fā)明中可加入多種指紋規(guī)則,是可擴(kuò)展的。比如一個(gè)評(píng)論內(nèi)容為“昨天你吃晚飯了嗎”,根據(jù)某個(gè)指紋規(guī)則可變?yōu)椤白蛱炷愠酝盹垺薄?指紋規(guī)則實(shí)質(zhì)就是把文本中主要漢字保留)指紋規(guī)則例如可以具體實(shí)現(xiàn)如下設(shè)置一個(gè)專(zhuān)有的停用詞詞表,該詞表列出來(lái)哪些字可以刪除,例如“的”、“ 了”、“嗎”等。去掉這些詞不影響原句主要意思,能加快計(jì)算速度。生成樣本指紋特征是根據(jù)樣本內(nèi)容和后面所述的指紋規(guī)則生樣本指紋特征(這里不設(shè)置指紋級(jí)別),保存在指紋存儲(chǔ)庫(kù)中。“生成樣本指紋特征”實(shí)質(zhì)就是把樣本中的文本通過(guò)指紋規(guī)則生成新的文本,把新生成的文本叫做樣本指紋特征。評(píng)論樣本內(nèi)容。評(píng)論樣本內(nèi)容為大量的需要屏蔽的評(píng)論內(nèi)容,這些樣本內(nèi)容主要來(lái)源于內(nèi)容人工審核未通過(guò)和自動(dòng)識(shí)別模塊。自動(dòng)識(shí)別模塊的功能實(shí)現(xiàn)如下a、如果發(fā)現(xiàn)大量相同內(nèi)容,則推送至樣本庫(kù),由于這些內(nèi)容為需要屏蔽的內(nèi)容,以后會(huì)重復(fù)出現(xiàn)所以加入到樣本中,這里所述的大量相同內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值(例如可以設(shè)置為10 — 20條)時(shí),可以判斷為樣本內(nèi)容。b、以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,發(fā)現(xiàn)一個(gè)用戶或IP在不同頻道下發(fā)送多條相似內(nèi)容(計(jì)算相似度的方法與背景技術(shù)中描述的本申請(qǐng)人的在先申請(qǐng)相同,當(dāng)計(jì)算的相似度超過(guò)一定閾值時(shí),可判定為相似內(nèi)容,該閾值可人工設(shè)定),這些內(nèi)容多數(shù)與視頻內(nèi)容不相關(guān)系,則判定為樣本內(nèi)容。后臺(tái)運(yùn)營(yíng)人員可操作樣本內(nèi)容,如刪除,新增等操作。后臺(tái)有一個(gè)系統(tǒng)專(zhuān)門(mén)用于垃圾評(píng)論內(nèi)容發(fā)現(xiàn)。指紋規(guī)則。指紋規(guī)則是指生成指紋特征的方法,把這個(gè)方法叫做指紋規(guī)則。本發(fā)明定義了多個(gè)指紋規(guī)則,所以一個(gè)評(píng)論樣本或者一個(gè)評(píng)論內(nèi)容可以生成多個(gè)樣本指紋特征或評(píng)論內(nèi)容指紋特征。指紋規(guī)則1:評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符。設(shè)定指紋級(jí)別為I級(jí)(I級(jí)代表的意思是對(duì)原文意思的影響最小)。優(yōu)選地,指紋規(guī)則I還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序。指紋規(guī)則2 :按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞(分詞詞表后臺(tái)維護(hù),可包括常用詞語(yǔ)、地名、人名等),去掉停用詞詞表中列出的停用詞(停用詞詞表后臺(tái)維護(hù),諸如包括“的”、“了”、“么”等),然后根據(jù)對(duì)剩余詞進(jìn)行排重。設(shè)定指紋級(jí)別為I級(jí)(也就是認(rèn)為指紋規(guī)則2對(duì)原文意思的影響也最小,與指紋規(guī)則I 一樣,同樣都設(shè)定為I級(jí))。優(yōu)選地,指紋規(guī)則2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序。指紋規(guī)則3 :按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理。設(shè)定指紋級(jí)別為2級(jí)。舉例“今天天氣很不錯(cuò)”,根據(jù)分詞詞表進(jìn)行分詞處理后為“今天天氣不錯(cuò)”。優(yōu)選地,指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理(切字處理指的是對(duì)每一分詞切割為單個(gè)字)后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序,首先按照分詞的首字符的計(jì)算機(jī)內(nèi)碼進(jìn)行分詞的排序,在首字符相同的情況下按照第二位置的字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序,依此類(lèi)推。指紋規(guī)則N :還可添加其他指紋規(guī)則,本系統(tǒng)中指紋規(guī)則可以再次添加修改。生成樣本指紋。將所有評(píng)論樣本內(nèi)容通過(guò)上面所述的指紋規(guī)則生成多個(gè)樣本指紋特征,再提取樣本長(zhǎng)度(即樣本內(nèi)容字符的個(gè)數(shù),也即未經(jīng)過(guò)處理的樣本內(nèi)容實(shí)際長(zhǎng)度)保存這信息到數(shù)據(jù)存儲(chǔ)引擎中。評(píng)論內(nèi)容。用戶發(fā)表評(píng)論后,這些評(píng)論內(nèi)容需要進(jìn)入評(píng)論內(nèi)容過(guò)濾服務(wù)(本系統(tǒng))進(jìn)行一次識(shí)別,標(biāo)記內(nèi)容是否為需要屏蔽的內(nèi)容,如果是則過(guò)濾。指紋匹配。新發(fā)表評(píng)論內(nèi)容通過(guò)指紋規(guī)則生成多個(gè)指紋特征,將這些指紋特征與樣本指紋存儲(chǔ)庫(kù)中的樣本指紋進(jìn)行匹配(即多個(gè)評(píng)論內(nèi)容指紋特征與多個(gè)樣本指紋之間的匹配,因此存在多次匹配成功的情況,也就是說(shuō)可能出現(xiàn)后述的多個(gè)匹配分?jǐn)?shù)值)。匹配從與指紋級(jí)別為I的樣本指紋開(kāi)始,指紋級(jí)別相同的隨機(jī)選擇,只要有一個(gè)匹配成功即可停止。這里的匹配采用背景技術(shù)中描述的本申請(qǐng)人在先申請(qǐng)的匹配技術(shù),也就是說(shuō),采用計(jì)算的Dice系數(shù)作為相似度,當(dāng)相似度超過(guò)預(yù)設(shè)值時(shí),認(rèn)定為匹配,Dice系統(tǒng)的具體計(jì)算過(guò)程如上所述。如果匹配成功,說(shuō)明該內(nèi)容為與樣本內(nèi)容高度相似。指紋匹配分析(1)獲取匹配上的指紋級(jí)別,指紋級(jí)別是對(duì)匹配結(jié)果分析的一個(gè)重要因素。指紋級(jí)別是在設(shè)計(jì)指紋規(guī)則時(shí)設(shè)定,設(shè)定級(jí)別1、2、3等級(jí)別,數(shù)字越小,匹配結(jié)果的得分越大。指紋級(jí)別表示為level。(2)計(jì)算評(píng)論內(nèi)容與樣本內(nèi)容的相似度,評(píng)論與樣本匹配成功后,使用(樣本指紋的字符個(gè)數(shù)X2)/ (樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù))估算得出相似度sim (F)。(3)計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F)-level (F) Χ0· I。其中 sim (F)為相似度得分,level 為指紋級(jí)別,當(dāng) score與預(yù)定閾值比較后判斷為大于預(yù)定閾值,則認(rèn)定該評(píng)論內(nèi)容為需要屏蔽的內(nèi)容,自動(dòng)進(jìn)行過(guò)濾處理。當(dāng)score小于預(yù)定閾值時(shí),繼續(xù)后續(xù)的匹配,也就是說(shuō),只要其中一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值,該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) X0.1)小于預(yù)定閾值時(shí),推送至人工進(jìn)行審核。如果匹配不成功,則不作任何處理,也不進(jìn)行后續(xù)的指紋匹配分析。本發(fā)明所取得的技術(shù)效果有如下自動(dòng)過(guò)濾需要屏蔽的內(nèi)容,提高了系統(tǒng)效率。建立內(nèi)容“黑名單” “白名單”作為樣本庫(kù),黑名單表示需要屏蔽的內(nèi)容,白名單表示安全內(nèi)容不需要再次審核。通過(guò)內(nèi)容匹配,如果與“黑名單”內(nèi)容匹配成功則可送去人工審核或直接刪除,如果與白名單內(nèi)容匹配成功,則可立即發(fā)布到評(píng)論中,減少人工審核工作量??焖僭u(píng)論內(nèi)容匹配,評(píng)論內(nèi)容快速響應(yīng)至評(píng)論區(qū)域或評(píng)論內(nèi)容被屏蔽。本發(fā)明建立了一種基于內(nèi)容的“白名單” “黑名單”機(jī)制,盡量避免重復(fù)審核的工作,提高了審核效率。如圖1所示,本發(fā)明裝置包括如下單元樣本庫(kù),存有審核未通過(guò)的評(píng)論內(nèi)容以及自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)評(píng)論內(nèi)容;樣本指紋庫(kù),存有對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成的樣本指紋特征;評(píng)論內(nèi)容指紋生成單元,對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋;匹配單元,將評(píng)論內(nèi)容指紋與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配;匹配分析單元,匹配成功后計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F) -level (F) XO. 1,其中sim(F)為(樣本指紋的字符個(gè)數(shù)X 2)/(樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù)),level (F)為指紋級(jí)別,當(dāng)其中一個(gè)惡匹配分?jǐn)?shù)值大于預(yù)定閾值,該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) XO.1)小于預(yù)定閾值,也就是說(shuō),沒(méi)有任何一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值,則推送至人工進(jìn)行審核。指紋規(guī)則包括以下幾種指紋規(guī)則I為將評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則2為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,去掉停用詞詞表中列出的停用詞,然后根據(jù)對(duì)剩余詞進(jìn)行排重,設(shè)定指紋級(jí)別為I級(jí);指紋規(guī)則3為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理,設(shè)定指紋級(jí)別為2級(jí)。優(yōu)選地,指紋規(guī)則I或2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序;指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序。還可添加其他指紋規(guī)則。所述自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值時(shí),可以判斷為樣本內(nèi)容或者以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,判斷一個(gè)用戶發(fā)送的N條評(píng)論內(nèi)容相似,則判定為樣本內(nèi)容。還可以在樣本指紋庫(kù)中設(shè)置作為白名單的樣本指紋,當(dāng)評(píng)論內(nèi)容與白名單中的樣本指紋特征匹配時(shí),認(rèn)定為與視頻相關(guān)內(nèi)容。以上是對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行的詳細(xì)描述,但本領(lǐng)域的普通技術(shù)人員應(yīng)該意識(shí)到,在本發(fā)明的范圍內(nèi)和精神指導(dǎo)下,各種改進(jìn)、添加和替換都是可能的,例如調(diào)整接口調(diào)用順序、改變消息格式和內(nèi)容、使用不同的編程語(yǔ)言(如C、C++、Java等)實(shí)現(xiàn)等。這些都在本發(fā)明的權(quán)利要求所限定的保護(hù)范圍內(nèi)。
權(quán)利要求
1.一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的方法,其特征在于包括如下步驟 步驟(I)如果評(píng)論內(nèi)容審核未通過(guò)則將該評(píng)論內(nèi)容放入樣本庫(kù)中,自動(dòng)識(shí)別模塊將與視頻內(nèi)容不相關(guān)的評(píng)論內(nèi)容過(guò)濾到樣本庫(kù)中; 步驟(2)對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成樣本指紋特征存入樣本指紋庫(kù);步驟(3)對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋,與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配,匹配成功后計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F)-1evel (F) XO.1,其中sim (F)為(樣本指紋的字符個(gè)數(shù)X2)/ (樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù)),level (F)為指紋級(jí)另1J,當(dāng)其中一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值時(shí),該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) XO.1)小于預(yù)定閾值時(shí),推送至人工進(jìn)行審核。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于指紋規(guī)則包括以下幾種 指紋規(guī)則I為將評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符,設(shè)定指紋級(jí)別為I級(jí); 指紋規(guī)則2為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,去掉停用詞詞表中列出的停用詞,然后根據(jù)對(duì)剩余詞進(jìn)行排重,設(shè)定指紋級(jí)別為I級(jí); 指紋規(guī)則3為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理,設(shè)定指紋級(jí)別為2級(jí)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于 指紋規(guī)則I或2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序;指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于 還可添加其他指紋規(guī)則。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于 步驟(I)所述不相關(guān)內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值時(shí),可以判斷為樣本內(nèi)容或者以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,判斷一個(gè)用戶發(fā)送的N條評(píng)論內(nèi)容相似,則判定為樣本內(nèi)容。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于 還可以設(shè)立白名單,當(dāng)評(píng)論內(nèi)容與白名單中的樣本指紋特征匹配時(shí),認(rèn)定為與視頻相關(guān)內(nèi)容。
7.—種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的裝置,其特征在于包括如下單元 樣本庫(kù),存有審核未通過(guò)的評(píng)論內(nèi)容以及自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)評(píng)論內(nèi)容; 樣本指紋庫(kù),存有對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成的樣本指紋特征; 評(píng)論內(nèi)容指紋生成單元,對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋; 匹配單元,將評(píng)論內(nèi)容指紋與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配; 匹配分析單元,匹配成功后計(jì)算匹配分?jǐn)?shù),根據(jù)指紋級(jí)別和相似度,計(jì)算匹配成功的評(píng)論內(nèi)容的分?jǐn)?shù),Score=Sim(F)-1evel (F) XO.1,其中sim (F)為(樣本指紋的字符個(gè)數(shù)X2)/ (樣本指紋的字符個(gè)數(shù)+評(píng)論內(nèi)容的字符個(gè)數(shù)),level (F)為指紋級(jí)別,當(dāng)其中一個(gè)匹配分?jǐn)?shù)值大于預(yù)定閾值時(shí),該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)score的最大值=MAX(sim(F)-level (F) XO.1)小于預(yù)定閾值時(shí),推送至人工進(jìn)行審核。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于指紋規(guī)則包括以下幾種 指紋規(guī)則I為將評(píng)論樣本或評(píng)論內(nèi)容去掉標(biāo)點(diǎn)符號(hào)后提取漢字及英文單詞,然后對(duì)剩余字符進(jìn)行排重處理,去掉相同的字符,設(shè)定指紋級(jí)別為I級(jí); 指紋規(guī)則2為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,去掉停用詞詞表中列出的停用詞,然后根據(jù)對(duì)剩余詞進(jìn)行排重,設(shè)定指紋級(jí)別為I級(jí); 指紋規(guī)則3為按照分詞詞表對(duì)評(píng)論樣本或評(píng)論內(nèi)容文本分詞,對(duì)劃分的詞語(yǔ)進(jìn)行排重處理,設(shè)定指紋級(jí)別為2級(jí)。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于 指紋規(guī)則I或2還包括按照每個(gè)字符的計(jì)算機(jī)內(nèi)碼進(jìn)行排序;指紋規(guī)則3還包括對(duì)每個(gè)分詞進(jìn)行切字處理后對(duì)每個(gè)字符按照計(jì)算機(jī)內(nèi)碼進(jìn)行排序。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于 還可添加其他指紋規(guī)則。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于 所述自動(dòng)識(shí)別模塊過(guò)濾的不相關(guān)內(nèi)容是指對(duì)評(píng)論內(nèi)容按照指紋規(guī)則生成指紋,相互之間進(jìn)行匹配,如果匹配相同則記為兩條相同的評(píng)論,當(dāng)超過(guò)閾值時(shí),可以判斷為樣本內(nèi)容或者以評(píng)論時(shí)用戶登錄的用戶名或IP地址為維度,判斷一個(gè)用戶發(fā)送的N條評(píng)論內(nèi)容相似,則判定為樣本內(nèi)容。
12.根據(jù)權(quán)利要求1所述的裝置,其特征在于 還可以在樣本指紋庫(kù)中設(shè)置作為白名單的樣本指紋,當(dāng)評(píng)論內(nèi)容與白名單中的樣本指紋特征匹配時(shí),認(rèn)定為與視頻相關(guān)內(nèi)容。
全文摘要
本發(fā)明提供了一種對(duì)互聯(lián)網(wǎng)用戶評(píng)論內(nèi)容自動(dòng)過(guò)濾的方法和裝置,該方法包括如果評(píng)論內(nèi)容審核未通過(guò)則將該評(píng)論內(nèi)容放入樣本庫(kù)中,自動(dòng)識(shí)別模塊將與視頻內(nèi)容不相關(guān)的評(píng)論內(nèi)容過(guò)濾到樣本庫(kù)中;對(duì)樣本庫(kù)中的評(píng)論內(nèi)容根據(jù)指紋規(guī)則生成樣本指紋特征存入樣本指紋庫(kù);對(duì)用戶針對(duì)視頻的評(píng)論內(nèi)容按照指紋規(guī)則生成評(píng)論內(nèi)容指紋,與樣本指紋庫(kù)中的樣本指紋進(jìn)行匹配,匹配成功后計(jì)算匹配分?jǐn)?shù),其中一個(gè)的匹配分?jǐn)?shù)大于預(yù)定閾值時(shí),該評(píng)論內(nèi)容可自動(dòng)過(guò)濾,當(dāng)最大的匹配分?jǐn)?shù)值小于預(yù)定閾值時(shí),送去人工審核。該裝置包括樣本庫(kù)、存有樣本指紋特征的樣本指紋庫(kù)、將評(píng)論內(nèi)容指紋與樣本指紋進(jìn)行匹配的匹配單元、計(jì)算匹配分?jǐn)?shù)的匹配分析單元。
文檔編號(hào)G06F17/30GK103020140SQ20121047706
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年11月21日 優(yōu)先權(quán)日2012年11月21日
發(fā)明者陳學(xué)文, 張宇峰, 姚健, 潘柏宇, 盧述奇 申請(qǐng)人:合一網(wǎng)絡(luò)技術(shù)(北京)有限公司