作弊文本的識(shí)別方法和系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明實(shí)施例提供一種作弊文本的識(shí)別方法和系統(tǒng),方法包括:接收文本信息;將文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各所述語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率;根據(jù)文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定文本信息是否為作弊文本。本發(fā)明的技術(shù)方案實(shí)現(xiàn)了一種針對(duì)作弊文本的有效識(shí)別方法,同時(shí)也提高了識(shí)別的準(zhǔn)確率。
【專(zhuān)利說(shuō)明】作弊文本的識(shí)別方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及通信【技術(shù)領(lǐng)域】,尤其涉及一種作弊文本的識(shí)別方法和系統(tǒng)。
【背景技術(shù)】
[0002] 現(xiàn)有互聯(lián)網(wǎng)中的一些社區(qū)論壇上常出現(xiàn)這樣一類(lèi)作弊文本,如【成】67【人】YC【游】 yd【戲】,其通過(guò)加入干擾隨機(jī)字符的方式,繞過(guò)了系統(tǒng)的識(shí)別,從而污染整個(gè)論壇,嚴(yán)重?fù)p 害用戶的體驗(yàn)。因此,如何對(duì)這些作弊文本進(jìn)行有效的識(shí)別已成為一個(gè)亟需解決的問(wèn)題。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的實(shí)施例提供一種作弊文本的識(shí)別方法和系統(tǒng),以實(shí)現(xiàn)對(duì)作弊文本的有效 識(shí)別。
[0004] 為達(dá)到上述目的,本發(fā)明的實(shí)施例提供了一種作弊文本的識(shí)別方法,包括:
[0005] 接收文本信息;
[0006] 將所述文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各所述語(yǔ)句段在訓(xùn)練語(yǔ)料 中出現(xiàn)的概率;
[0007] 根據(jù)所述文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定所述文本信 息是否為作弊文本。
[0008] 本發(fā)明的實(shí)施例還提供了一種作弊文本的識(shí)別系統(tǒng),包括:
[0009] 接收模塊,用于接收文本信息;
[0010] 處理模塊,用于將所述文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各所述語(yǔ) 句段在在訓(xùn)練語(yǔ)料中出現(xiàn)的概率;
[0011] 確定模塊,用于根據(jù)所述文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確 定所述文本信息是否為作弊文本。
[0012] 本發(fā)明實(shí)施例提供的作弊文本的識(shí)別方法和系統(tǒng),通過(guò)接收文本信息;將文本信 息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率;根據(jù)文本信 息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定文本信息是否為作弊文本,由此實(shí)現(xiàn)對(duì) 作弊文本的識(shí)別,同時(shí)提高了識(shí)別的準(zhǔn)確率。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0013] 圖1為本發(fā)明提供的作弊文本的識(shí)別方法一個(gè)實(shí)施例的方法流程圖;
[0014] 圖2為本發(fā)明提供的作弊文本的識(shí)別方法另一個(gè)實(shí)施例的方法流程圖;
[0015] 圖3為圖2提供的作弊文本的識(shí)別方法對(duì)應(yīng)的一個(gè)識(shí)別概率圖;
[0016] 圖4為圖2提供的作弊文本的識(shí)別方法對(duì)應(yīng)的另一個(gè)識(shí)別概率圖;
[0017] 圖5為圖2提供的作弊文本的識(shí)別方法對(duì)應(yīng)的又一個(gè)識(shí)別概率圖;
[0018] 圖6為本發(fā)明提供的作弊文本的識(shí)別系統(tǒng)一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0019] 圖7為本發(fā)明提供的作弊文本的識(shí)別系統(tǒng)另一個(gè)實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0020] 本發(fā)明的實(shí)施例利用文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率來(lái)確 定該文本信息是否為作弊文本。本發(fā)明實(shí)施例的技術(shù)方案可以適用于針對(duì)用戶輸入的文本 信息進(jìn)行識(shí)別的作弊文本的識(shí)別系統(tǒng)。
[0021] 實(shí)施例一
[0022] 圖1為本發(fā)明提供的作弊文本的識(shí)別方法一個(gè)實(shí)施例的方法流程圖,該方法的執(zhí) 行主體可以為具有文本識(shí)別功能的系統(tǒng)。如圖1所示,該作弊文本的識(shí)別方法具體包括:
[0023] SlOl,接收文本信息;
[0024] 現(xiàn)有互聯(lián)網(wǎng)中的社區(qū)論壇上,一些不法用戶常常通過(guò)發(fā)布加入有干擾隨機(jī)字串的 文本信息來(lái)繞過(guò)系統(tǒng)的識(shí)別,從而達(dá)到散布違法信息或惡意廣告的目的。本實(shí)施例中的文 本信息即為從上述社區(qū)論壇或是其他網(wǎng)站收集的用戶鍵入的信息。
[0025] S102,將文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各語(yǔ)句段在訓(xùn)練語(yǔ)料中 出現(xiàn)的概率;
[0026] 在接收到上述文本信息后,可以根據(jù)文本信息的自然語(yǔ)序?qū)⒃撐谋拘畔澐譃槎?個(gè)語(yǔ)句段S = W1, W2,…,Wk(已標(biāo)明語(yǔ)序),每個(gè)語(yǔ)句段S內(nèi)包含的詞語(yǔ)的個(gè)數(shù),即k的大小 可依據(jù)接收文本信息的具體長(zhǎng)度而定,且每個(gè)語(yǔ)句段S對(duì)應(yīng)的k值大小可以相同也可以不 同。其中,Wi, (I < i < k)具體可以為一個(gè)漢字、一個(gè)英文單詞、一個(gè)字符符號(hào)或英文字母 等。根據(jù)各語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)可以得到該語(yǔ)句段在訓(xùn)練語(yǔ)料中相應(yīng)的概率 P(S)0
[0027] 其中,上述訓(xùn)練語(yǔ)料為預(yù)先收集訓(xùn)練得到的具有一定規(guī)模的文本集合。
[0028] S103,根據(jù)文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定文本信息是 否為作弊文本;
[0029] 通常,非法用戶采用的文本作弊方式是通過(guò)在欲散布的文本信息中添加隨機(jī)干擾 字符或字符串如數(shù)字、字母等,而這些干擾字符和字符串通常是沒(méi)有語(yǔ)義的,且在現(xiàn)有的正 常文本中也是很少甚至是不出現(xiàn)的。因此通過(guò)判斷上述各語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概 率P(S)的大小可以有效估算出該語(yǔ)句段S中包含的無(wú)語(yǔ)義的詞語(yǔ)的數(shù)量。P(S)越小表征 該語(yǔ)句段S中包含的無(wú)語(yǔ)義的詞語(yǔ)的數(shù)量越多,該語(yǔ)句段S被進(jìn)行文本作弊處理的可能性 越大。最后,根據(jù)文本信息中各語(yǔ)句段S對(duì)應(yīng)的P(S)的分布情況,可以得到該文本信息被 作弊的概率,從而確定該文本信息是否為作弊文本。例如:當(dāng)各語(yǔ)句段S對(duì)應(yīng)的P(S)都很 大時(shí),可確定該文本信息未經(jīng)作弊處理為非作弊文本,當(dāng)各語(yǔ)句段S對(duì)應(yīng)的P (S)都很小時(shí), 則確定該文本信息已經(jīng)過(guò)作弊處理為作弊文本。
[0030] 本發(fā)明實(shí)施例提供的作弊文本的識(shí)別方法,通過(guò)接收文本信息;將所述文本信息 按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各語(yǔ)句段在在訓(xùn)練語(yǔ)料中出現(xiàn)的概率;根據(jù)文本信 息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定文本信息是否為作弊文本,由此實(shí)現(xiàn)對(duì) 作弊文本的識(shí)別,同時(shí)提高了識(shí)別的準(zhǔn)確率。
[0031] 實(shí)施例二
[0032] 圖2為本發(fā)明提供的作弊文本的識(shí)別方法另一個(gè)實(shí)施例的方法流程圖,是如圖1 所示方法實(shí)施例的一種具體實(shí)現(xiàn)方式,如圖2所示,該作弊文本的識(shí)別方法具體包括:
[0033] S201,接收文本信息;該步驟具體執(zhí)行過(guò)程可參見(jiàn)步驟101的相應(yīng)內(nèi)容。
[0034] S202,將文本信息按自然語(yǔ)序劃分為多個(gè)詞語(yǔ)長(zhǎng)度相同的語(yǔ)句段S = W1, W2^- ,Wk ;其中,上述各語(yǔ)句段S中包括的詞語(yǔ)的長(zhǎng)度為所包含的詞語(yǔ)的個(gè)數(shù),即k。
[0035] 在步驟202之后可繼續(xù)執(zhí)行步驟S102中,計(jì)算各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概 率;
[0036] 現(xiàn)有技術(shù)中,常依據(jù)公式:
[0037] P⑶=POV1, W2,…,Wk) =P (W1)P(W2Iwi) ...POVkIW1, W2,…,Wh)..................? ? (1) 獲得各語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概率P(S),其中,Wi (1 < i < k)為語(yǔ)句段S中第i個(gè) 詞語(yǔ),所述k為正整數(shù);
[0038] 其中p (W1)為詞語(yǔ)W1在訓(xùn)練語(yǔ)料中出現(xiàn)的概率;P (W21W1)為一個(gè)條件概率,即在訓(xùn) 練語(yǔ)料中,當(dāng)詞語(yǔ)W1出現(xiàn)時(shí)W2出現(xiàn)的概率;P (Wk IW1, W2,…,Wlrt)為一個(gè)條件概率,即在訓(xùn)練 語(yǔ)料中,當(dāng)詞語(yǔ)序列W1, W2,…,Wlrt順序出現(xiàn)時(shí)Wk出現(xiàn)的概率。依據(jù)公式⑴可以獲得各語(yǔ) 句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概率P (S)的相應(yīng)步驟。
[0039] 在實(shí)際應(yīng)用場(chǎng)景中,由于上述(1)式中的參數(shù)過(guò)多,計(jì)算復(fù)雜度高,因此需要對(duì)其 進(jìn)行必要的近似計(jì)算。常用的模型方法有n-gram模型方法、決策樹(shù)方法、最大熵模型方法、 最大熵馬爾科夫模型方法、條件隨機(jī)域方法、神經(jīng)網(wǎng)絡(luò)方法,等等,這些方法均可實(shí)現(xiàn)對(duì)(1) 式中的近似計(jì)算過(guò)程。本實(shí)施例中,以n-gram模型方法為例,給出一種依據(jù)公式(1)獲得各 語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概率P(S)的具體實(shí)現(xiàn)方式。步驟如下(步驟203?205):
[0040] S203,采用最大似然估計(jì)對(duì)P (WiIwiM1,…,WiJ進(jìn)行參數(shù)估計(jì),即通過(guò)公式 :
[0041] P (Wi I Wi^1, --?, Wi^1) = C (Wi^1, - , Wi^1, Wi) /C (Wi^1, - , Wi^1)..................? (2)
[0042] 獲取P (Wi I Wi_n+1,…,U的估計(jì)值;
[0043] 其中,PWlW^,…,WiJ為采用n-gram模型方法對(duì)公式⑴進(jìn)行近似運(yùn)算時(shí) 用到的參數(shù),其為一個(gè)條件概率,即在訓(xùn)練語(yǔ)料中,當(dāng)詞語(yǔ)序列Wi_n+1,…,W^1順序出現(xiàn)時(shí)W i出現(xiàn)的概率,1彡i彡k。其中,n為采用的n-gram模型的元數(shù)。當(dāng)n取1、2、3時(shí),相應(yīng)的 n-gram模型分別稱(chēng)為unigram、bigram和trigram語(yǔ)言模型。
[0044] 本實(shí)施例中,通過(guò)上述公式(2)即最大似然估計(jì)對(duì)PCWi |Wi_n+1,…,Wp1)進(jìn)行參數(shù)估 計(jì)。其中,C (Wi_n+1,…,Wi^ Wi)和C (Wi_n+1,…,WiJ均可簡(jiǎn)寫(xiě)為C (X),其表示X在訓(xùn)練語(yǔ)料 中出現(xiàn)的次數(shù),訓(xùn)練語(yǔ)料的規(guī)模越大,參數(shù)估計(jì)的結(jié)果越可靠。
[0045] S204,對(duì)得到的每個(gè)P^lWh+i,…,WiJ的估計(jì)值進(jìn)行平滑處理,并將平滑處理后 的各P (Wi I Wi_n+1,…,U的估計(jì)值確定為最終的P (Wi I Wi_n+1,…,U ;
[0046] 在采用最大似然估計(jì)對(duì)P^lWh+i,…,WiJ進(jìn)行估計(jì)運(yùn)算時(shí),即使訓(xùn)練數(shù)據(jù)的規(guī) 模很大,但還是會(huì)有很多語(yǔ)言現(xiàn)象在訓(xùn)練語(yǔ)料中沒(méi)有出現(xiàn)過(guò),這就會(huì)導(dǎo)致很多估計(jì)出來(lái)的 參數(shù)(某n元對(duì)的概率)為0。這種問(wèn)題也被稱(chēng)為數(shù)據(jù)稀疏(Data Sparseness),通過(guò)對(duì)估 計(jì)得到的參數(shù)進(jìn)行數(shù)據(jù)平滑(Data Smoothing)處理可有效解決數(shù)據(jù)稀疏問(wèn)題。所謂數(shù)據(jù) 平滑是對(duì)頻率為〇的n元對(duì)進(jìn)行估計(jì),已使得到的概率不為0。典型的平滑算法有加法平 滑、Good-Turing平滑、線性插值平滑、Katz平滑,等等。
[0047] 具體算法如下:
[0048] 1 ?加法平滑
[0049] 基本思想是為避免零概率問(wèn)題,將每個(gè)n元對(duì)的出現(xiàn)次數(shù)加上一個(gè)常數(shù) 8 (0< 6 ^ I):
[0050] P (Wi I Wi-^1, - , Wi^1) = (C (Wi^1, - , Wi^1, Wi) + 6 ) / (C (Wi^1, - , Wi^1) +N 6 ).........? (3)
[0051] 其中,N為大于I的整數(shù)。
[0052] 2. Good-Turing
[0053] 利用頻率的類(lèi)別信息對(duì)頻率進(jìn)行平滑:
【權(quán)利要求】
1. 一種作弊文本的識(shí)別方法,其特征在于,包括: 接收文本信息; 將所述文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各所述語(yǔ)句段在訓(xùn)練語(yǔ)料中出 現(xiàn)的概率; 根據(jù)所述文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定所述文本信息是 否為作弊文本。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,每個(gè)所述語(yǔ)句段具體記為:S=Wi,W2,? ,wk; 所述計(jì)算各所述語(yǔ)句段在在訓(xùn)練語(yǔ)料中出現(xiàn)的概率,包括: 根據(jù)P(S) =PdW2,…,Wk) =p(Wi)P(W21Wi)…P(Wk |Wi,W2,…,Wh),獲得所述語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概率P(S),其中,Wk為所述語(yǔ)句段S中第k個(gè)詞語(yǔ),所述k為正整數(shù)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述依據(jù) P⑶=P(A,W2,…,Wk) =p(A)P(W21A)…P(Wk |A,W2,…,Wh),獲得所述語(yǔ)句段S在 訓(xùn)練語(yǔ)料中出現(xiàn)的概率P(S),包括: 對(duì)所述P⑶=P(Wi,W2,…,Wk) =p(A)P(W21A)…P(Wk |A,W2,…,Wh)進(jìn)行n-gram語(yǔ) 言模型近似,即通過(guò): />0) = ?沐,%,...凡)=[1丨'(%|%,,|,...5%|)茯得所述語(yǔ)句段3在訓(xùn)練語(yǔ)料中出 現(xiàn)的概率P(S)。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述通過(guò): />(S) =P(HVF2,.…% )=印,| % )茯得所述語(yǔ)句段S在訓(xùn)練語(yǔ)料中出 現(xiàn)的概率P(S)之前,包括: 采用最大似然估計(jì)對(duì)所述P^lWh+i,…,Wh)進(jìn)行參數(shù)估計(jì),即通過(guò): P(111"+1,…,Wh) =C〇^+1,…,1)/C〇^+1,…,U獲取所述P% 1,…,Wh)的估計(jì)值。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,在所述采用最大似然估計(jì)對(duì)所述 P(Wi|Wi_n+1,…,Wg)進(jìn)行參數(shù)估計(jì)之后,還包括: 對(duì)得到的每個(gè)所述P(Wi|Wi_n+1,…,Wg)的估計(jì)值進(jìn)行平滑處理,并將所述平滑處理后 的各所述P(Wi|Wi_n+1,…,Wg)的估計(jì)值確定為最終的所述P(WiIWi_n+1,…,Wh)。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述將所述文本信息按自然語(yǔ)序劃分的 多個(gè)所述語(yǔ)句段S的詞語(yǔ)長(zhǎng)度相同; 所述根據(jù)所述文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定所述文本信 息是否為作弊文本,包括: 若所述文本信息中包含的各語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的最小的固定個(gè)數(shù)的所述概 率P(S)的平均值小于預(yù)設(shè)的概率閾值,則確定所述文本信息為作弊文本。
7. 一種作弊文本的識(shí)別系統(tǒng),其特征在于,包括: 接收模塊,用于接收文本信息; 處理模塊,用于將所述文本信息按自然語(yǔ)序劃分為多個(gè)語(yǔ)句段,并計(jì)算各所述語(yǔ)句段 在訓(xùn)練語(yǔ)料中出現(xiàn)的概率; 確定模塊,用于根據(jù)所述文本信息中包含的各語(yǔ)句段在訓(xùn)練語(yǔ)料中出現(xiàn)的概率確定所 述文本信息是否為作弊文本。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,每個(gè)所述語(yǔ)句段具體記為:S=Wi,W2,? ,wk; 所述處理模塊具體用于: 根據(jù)P(S) =PdW2,…,Wk) =p(A)P(W21A)…P(Wk |A,W2,…,Wh),獲得所述語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的概率P(S),其中,Wk為所述語(yǔ)句段S中第k個(gè)詞語(yǔ),所述k為正整數(shù)。
9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述處理模塊用于: 對(duì)所述P⑶=P(W!,W2,…,Wk) =p%)P(W21A)…P(Wk |A,W2,…,U進(jìn)行n-gram語(yǔ) 言模型近似,即通過(guò): 尸(%,%,...,%) =nL |%"+1,…,U獲得所述語(yǔ)句段S在訓(xùn)練語(yǔ)料中出 現(xiàn)的概率P(S)。
10. 根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,還包括: 估計(jì)模塊,用于采用最大似然估計(jì)對(duì)所述P% |Wi_n+1,…,Wd進(jìn)行參數(shù)估計(jì),即通過(guò):P(111"+1,…,Wh) =C〇^+1,…,Wh,%)/C〇^+1,…,U獲取所述P% 1,…,U 的估計(jì)值。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 平滑處理模塊,用于對(duì)得到的每個(gè)所述PWilWh+i,…,Wg)的估計(jì)值進(jìn)行平滑處理,并 將所述平滑處理后的各所述P(Wi|Wi_n+1,…,Wg)的估計(jì)值確定為最終的所述P(WiIWi_n+1,--? ,Wh)。
12. 根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述將所述文本信息按自然語(yǔ)序劃分 的多個(gè)所述語(yǔ)句段S的詞語(yǔ)長(zhǎng)度相同; 所述確定模塊具體用于:若所述文本信息中包含的各語(yǔ)句段S在訓(xùn)練語(yǔ)料中出現(xiàn)的最 小的固定個(gè)數(shù)的所述概率P(S)的平均值小于預(yù)設(shè)的概率閾值,則確定所述文本信息為作 弊文本。
【文檔編號(hào)】G06F17/27GK104408087SQ201410641811
【公開(kāi)日】2015年3月11日 申請(qǐng)日期:2014年11月13日 優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】楊燕, 于佃海 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司