基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng)和方法,其中該系統(tǒng)包括:信息截取模塊,對新收到的短信息進(jìn)行信息截??;緩存;黑名單過濾模塊,基于預(yù)先設(shè)定的黑名單對新短信息進(jìn)行過濾處理;關(guān)鍵詞過濾模塊,基于預(yù)先設(shè)定的關(guān)鍵詞對對新短信息進(jìn)行過濾處理;樸素貝葉斯分類智能過濾模塊,基于預(yù)先訓(xùn)練好的特征詞庫,采用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果概率比超過預(yù)設(shè)的閥值,則判斷為垃圾短信,否則為正常短信。本發(fā)明的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng)和方法通過黑名單、關(guān)鍵字、樸素貝葉斯分類技術(shù)和中文分詞技術(shù)結(jié)合的方法,智能判別短信是否為垃圾短信,從而實(shí)現(xiàn)對垃圾短信的過濾。
【專利說明】基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信【技術(shù)領(lǐng)域】,尤其是短信處理技術(shù),具體而言涉及一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法與系統(tǒng)。
【背景技術(shù)】
[0002]隨著飛速發(fā)展的移動通信技術(shù)和手機(jī)普及率的快速增長,使得手機(jī)短信的使用率迅速增加,短信業(yè)務(wù)正以其短小、迅速、簡便、價格低廉等諸多優(yōu)點(diǎn)日益成為人們的一種重要通信和交流方式。移動短信業(yè)務(wù)在飛速發(fā)展的過程中,一方面給廣大使用者帶來了各種方便;另一方面由于各種垃圾短信的大量出現(xiàn),也帶來了信息安全上的問題,影響了人們的正常生活。因而非常有必要將這些垃圾短信過濾掉。
[0003]通過對短信業(yè)務(wù)結(jié)構(gòu)的分析,短信都是通過短信服務(wù)中心進(jìn)行存儲、轉(zhuǎn)發(fā),再到用戶手機(jī)上。所以可以從兩個方面對垃圾短信進(jìn)行過濾,一種是短信息服務(wù)中心的過濾方式,另一種是手機(jī)終端的過濾方式。短信息中心目前尚未提供一個良好的垃圾短信過濾機(jī)制,在用戶端仍然不間斷地接收到垃圾短信、詐騙短信,甚至因?yàn)檫@些短信而發(fā)生財產(chǎn)損失和人生傷害。因此,有必要在手機(jī)終端采用過濾方式來實(shí)現(xiàn)垃圾短信過濾,但現(xiàn)有的有些手機(jī)軟件使用黑名單技術(shù)來實(shí)現(xiàn)垃圾短信的過濾,其功能有限,并不能實(shí)現(xiàn)對垃圾短信的智能識別和過濾,尤其是針對垃圾短信、詐騙短信的內(nèi)容帶有干擾字符的情況下。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法與系統(tǒng),采用了手機(jī)終端的過濾方式,通過黑名單、關(guān)鍵字技術(shù),過濾黑名單中號碼發(fā)送的垃圾短信和包含關(guān)鍵詞的垃圾短信,并用樸素貝葉斯分類技術(shù)和中文分詞技術(shù)結(jié)合的方法,智能判別短信是否為垃圾短信,從而實(shí)現(xiàn)對垃圾短信的過濾。
[0005]為達(dá)成上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0006]一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,包括以下步驟:
[0007]步驟1、準(zhǔn)備階段,其包括以下過程:
[0008]步驟1-1、選擇一個或多個聯(lián)系人號碼作為黑名單號碼,并將這些聯(lián)系人號碼存入
一黑名單數(shù)據(jù)庫;
[0009]步驟1-2、選擇一個或多個關(guān)鍵詞作為過濾詞,并將這些關(guān)鍵詞存入一關(guān)鍵詞數(shù)據(jù)庫;
[0010]步驟1-3、對正常短信樣本庫和垃圾短信樣本庫進(jìn)行分詞和訓(xùn)練處理,得到特征詞庫,其中包括每種類別特征詞的先驗(yàn)概率、特征詞以及特征詞在每種類別中的條件概率組成特征向量;
[0011]步驟2、垃圾短信判定階段,其包括以下過程:
[0012]步驟2-1、監(jiān)聽手機(jī)系統(tǒng)的短信事件,對新收到的短信息進(jìn)行信息截??;
[0013]步驟2-2、判斷短信息是否由黑名單數(shù)據(jù)庫中的至少一個黑名單號碼發(fā)送的,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-3 ;
[0014]步驟2-3、判斷短信息的內(nèi)容是否包含關(guān)鍵詞數(shù)據(jù)庫中的至少一個關(guān)鍵詞,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-4 ;
[0015]步驟2-4、基于前述步驟1-3所得特征詞庫中的特征向量,使用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判定該短信息為垃圾短信,并進(jìn)入步驟2-5,否則,判斷為正常短信,進(jìn)入步驟2-6 ;
[0016]步驟2-5、將判斷為垃圾短信的短信息存入一垃圾短信數(shù)據(jù)庫;
[0017]步驟2-6、將判斷為正常短信的短信息存入手機(jī)系統(tǒng)收信箱。
[0018]進(jìn)一步,前述步驟1-3包括以下步驟:
[0019]步驟1-3-1、獲取正常短信樣本庫和垃圾短信樣本庫;
[0020]步驟1-3-2、對正常短信和垃圾短信進(jìn)行分詞處理,采用正向最大匹配算法和逆向最大匹配算法抽取詞組,取該兩種算法抽取結(jié)果的并集得到詞組組合,為樸素貝葉斯分類訓(xùn)練提供樣本詞組;
[0021]步驟1-3-3、重復(fù)上述步驟1-3-2,直到對正常短信樣本庫和垃圾短信樣本庫中所有的正常短信和垃圾短信分詞處理完畢,得到樣本詞組庫;
[0022]步驟1-3-4、對樣本詞組庫的分詞結(jié)果進(jìn)行統(tǒng)計,通過樸素貝葉斯分類算法進(jìn)行訓(xùn)練處理,統(tǒng)計出正常短信和垃圾短信中每種類別特征詞及特征詞在每種類別中的條件概率,組成特征向量,從而得到整個樣本詞組庫的特征詞庫。
[0023]進(jìn)一步,前述步驟1-3-2包括以下步驟:
[0024]a)正常短信或垃圾短信的短信文本輸入;
[0025]b)對輸入的短信文本進(jìn)行去噪處理;
[0026]c)采用正向最大匹配算法抽取詞組;
[0027]d)采用逆向最大匹配算法抽取詞組;
[0028]e)合并上述步驟c和d的抽取結(jié)果;以及
[0029]f)輸出分詞結(jié)果。
[0030]進(jìn)一步,前述步驟2-4,包含以下步驟:
[0031]a)對短信息內(nèi)容進(jìn)行去噪處理,刪除無用符號和/或數(shù)字;
[0032]b)匹配出短信息內(nèi)容包含的特征詞;
[0033]c)根據(jù)所包含特征詞的條件概率計算此短信是或不是垃圾短信的概率;
[0034]d)判斷是垃圾短信與不是垃圾短信的概率比是否高于一指定閾值:如果是,則判斷為正常短信;如果否,則判斷為垃圾短信;以及
[0035]e)輸出判斷結(jié)果。
[0036]進(jìn)一步,前述基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,在步驟2之后還包括以下步驟:
[0037]步驟3、查看存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信攔截記錄。
[0038]進(jìn)一步,前述基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,在步驟3之后還包括以下步驟:
[0039]步驟4、刪除或恢復(fù)存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信。[0040]根據(jù)本發(fā)明的改進(jìn),還提出一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng),包括:
[0041]一信息截取模塊,用于監(jiān)聽手機(jī)系統(tǒng)的短信事件,對新收到的短信息進(jìn)行信息截取;
[0042]一緩存,與所述信息截取模塊數(shù)據(jù)連接,用于存儲所述截取的短信息;
[0043]一黑名單過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,用于基于預(yù)先設(shè)定的黑名單對新短信息進(jìn)行過濾處理;
[0044]—關(guān)鍵詞過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,用于基于預(yù)先設(shè)定的關(guān)鍵詞對對新短信息進(jìn)行過濾處理; [0045]一樸素貝葉斯分類智能過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,基于預(yù)先訓(xùn)練好的特征詞庫,采用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判斷為垃圾短信,否則判斷為正常短?目;
[0046]—垃圾短信存儲模塊,用于存儲被判斷為垃圾短信的新短信息;以及
[0047]一垃圾短信操作控制模塊,與前述垃圾短信存儲模塊以及一手機(jī)系統(tǒng)短信箱數(shù)據(jù)交互,用于根據(jù)外部輸入的操作對垃圾短信存儲模塊中的新短信息進(jìn)行下述操作中的一種:查看、刪除、恢復(fù)以及答復(fù)。
[0048]進(jìn)一步,所述黑名單過濾模塊包括黑名單輸入控制模塊、黑名單數(shù)據(jù)庫、號碼獲取模塊以及黑名單判斷模塊,其中:
[0049]黑名單輸入控制模塊,用于根據(jù)外部輸入的操作控制黑名單號碼的存儲;
[0050]黑名單數(shù)據(jù)庫,用于存儲黑名單號碼;
[0051]號碼獲取模塊,與所述信息截取模塊數(shù)據(jù)連接,用于獲取新短信息的發(fā)信人號碼;
[0052]黑名單判斷模塊,與號碼獲取模塊數(shù)據(jù)連接,用于判斷新短信息的發(fā)信人號碼是否包含在黑名單數(shù)據(jù)庫內(nèi)。
[0053]進(jìn)一步,所述關(guān)鍵詞過濾模塊包括關(guān)鍵詞輸入控制模塊、關(guān)鍵詞數(shù)據(jù)庫、短信內(nèi)容獲取模塊以及關(guān)鍵詞判斷模塊,其中:
[0054]關(guān)鍵詞輸入控制模塊,用于根據(jù)外部輸入的操作控制關(guān)鍵詞的存儲;
[0055]關(guān)鍵詞數(shù)據(jù)庫,用于存儲關(guān)鍵詞;
[0056]短信內(nèi)容獲取模塊,與所述信息截取模塊數(shù)據(jù)連接,用于獲取新短信息的短信內(nèi)容;
[0057]關(guān)鍵詞判斷模塊,與短信內(nèi)容獲取模塊數(shù)據(jù)連接,用于判斷新短信息的短信內(nèi)容是否包含關(guān)鍵詞數(shù)據(jù)庫中的至少一個關(guān)鍵詞。
[0058]進(jìn)一步,所述樸素貝葉斯分類智能過濾模塊包括樣本短信庫輸入模塊、分詞模塊、特征向量抽取模塊、去噪處理模塊以及樸素貝葉斯分類的垃圾短信判斷模塊,其中:
[0059]樣本短信庫輸入模塊,用于輸入正常短信樣本庫以及垃圾短信樣本庫;
[0060]分詞模塊,用于對正常短信樣本庫和垃圾短信樣本庫中的樣本短信采用正向最大匹配算法和逆向最大匹配算法相結(jié)合的方法抽取樣本詞組,組成樣本詞組庫;
[0061]特征向量抽取模塊,用于對樣本詞組庫進(jìn)行特征抽取,獲取正常短信和垃圾短信中每種類別特征詞及特征詞在每種類別中的條件概率,得到整個樣本詞組庫的特征詞庫;
[0062]去噪處理模塊,與所述信息截取模塊數(shù)據(jù)連接,用于對新短信息的短信內(nèi)容進(jìn)行去噪處理,刪除無用符號和/或數(shù)字;
[0063]樸素貝葉斯分類的垃圾短信判斷模塊,與去噪處理模塊數(shù)據(jù)連接,用于基于預(yù)先訓(xùn)練好的特征詞庫,采用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判斷為垃圾短信,否則判斷為正常短?目。
[0064]由以上本發(fā)明的技術(shù)方案可知,本發(fā)明的有益效果在于:
[0065]1、針對不法商販經(jīng)常變換號碼發(fā)送垃圾短信,如果僅使用黑名單判斷是否為垃圾短信,用戶還是會經(jīng)常受到騷擾,如果僅使用關(guān)鍵詞作為判別條件,判定的錯誤率會很高,而且用戶也會為敏感詞的設(shè)置煩惱。為了彌補(bǔ)這兩種判定的單一性和不準(zhǔn)確性,本發(fā)明使用了樸素貝葉斯分類技術(shù),通過對樣本庫(包括正常短信和垃圾短信)訓(xùn)練,得到特征庫,以此作為判定短信的依據(jù),實(shí)現(xiàn)智能識別垃圾短信。系統(tǒng)在接收短信的時候,自動通過短信內(nèi)容對新短信息進(jìn)行判斷。例如短信“恭喜您在《快樂大本營》節(jié)目的抽獎中了小轎車一部,請盡快登陸kldby.com領(lǐng)取獎品”會被直接判定為中獎類垃圾短信。
[0066]2、由于中文的復(fù)雜性,難以在中文句子中獲得特征詞,樸素貝葉斯分類獲取普遍應(yīng)用只在對英文處理上,而本發(fā)明結(jié)合了中文分詞算法,可以為樸素貝葉斯分類算法提供中文短信分割后的詞組作為特征詞,實(shí)現(xiàn)了對中文短信的分類判定。
[0067]3、分詞處理時,如 果只采用一種分詞算法,可能會有關(guān)鍵詞被遺漏。本發(fā)明對樣本庫進(jìn)行分詞處理時,采用逆向最大匹配算法和正向最大匹配算法相結(jié)合的方法,得到可能的所有的詞組組合,彌補(bǔ)了僅使用一種分詞匹配算法帶來的誤差,為樸素貝葉斯分類算法提供了更完整的樣本,大大提高了智能判定短信的正確率。
[0068]4、對新短信息進(jìn)行去噪處理,去除符號的干擾,提高垃圾短信判定的正確率。
[0069]5、為了使用戶能夠自主的排除不想要接收的垃圾短息,系統(tǒng)設(shè)計了數(shù)據(jù)庫存儲黑名單、關(guān)鍵詞,用戶可以自主的設(shè)置黑名單號碼,可以自主的增刪關(guān)鍵詞,用此作為攔截垃圾短信的判別條件。
[0070]6、為了使用戶能夠查看垃圾短信記錄,系統(tǒng)設(shè)計數(shù)據(jù)庫存儲垃圾短信記錄,方便用戶查看和恢復(fù)一些誤刪的垃圾短信。
【專利附圖】
【附圖說明】
[0071]圖1為本發(fā)明一實(shí)施方式種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法的實(shí)現(xiàn)過程示意圖。
[0072]圖2為圖1實(shí)施例中垃圾短信判定過程的示例性流程示意圖。
[0073]圖3為圖1實(shí)施例中樸素貝葉斯分類的垃圾短信智能過濾的實(shí)現(xiàn)流程示意圖。
[0074]圖4為圖1實(shí)施例中分詞處理的一個示例性流程示意圖。
[0075]圖5為圖4實(shí)施例中正向最大匹配算法的實(shí)現(xiàn)流程示意圖。
[0076]圖6為本發(fā)明一實(shí)施方式種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng)的結(jié)構(gòu)示意圖。
[0077]圖7為圖6實(shí)施例中黑名單過濾模塊的一個示例性結(jié)構(gòu)示意圖。[0078]圖8為圖6實(shí)施例中關(guān)鍵詞過濾模塊的一個示例性結(jié)構(gòu)示意圖。
[0079]圖9為圖6實(shí)施例中樸素貝葉斯分類智能過濾模塊的一個示例性結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0080]為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說明如下。
[0081]圖1所示為本發(fā)明一實(shí)施方式種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法的實(shí)現(xiàn)過程,其中,基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,包括以下2個基本步驟:步驟I—準(zhǔn)備階段,以及步驟2—垃圾短信判定階段。下面結(jié)合圖1-圖5所示,對這兩個階段進(jìn)行具體的說明。
[0082]如圖1所示,步驟1、準(zhǔn)備階段,其包括以下過程:
[0083]步驟1-1、選擇一個或多個聯(lián)系人號碼作為黑名單號碼,并將這些聯(lián)系人號碼存入
一黑名單數(shù)據(jù)庫;
[0084]步驟1-2、選擇一個或多個關(guān)鍵詞作為過濾詞,并將這些關(guān)鍵詞存入一關(guān)鍵詞數(shù)據(jù)庫;
[0085]步驟1-3、對正常短信樣本庫和垃圾短信樣本庫進(jìn)行分詞和訓(xùn)練處理,得到特征詞庫,其中包括每種類別特征詞的先驗(yàn)概率、特征詞以及特征詞在每種類別中的條件概率組成特征向量。
[0086]作為較佳的實(shí)施例,黑名單號碼和關(guān)鍵詞的選擇具有用戶自主性,用戶可以自行設(shè)定黑名單號碼與關(guān)鍵詞,并存儲在對應(yīng)的黑名單數(shù)據(jù)庫和關(guān)鍵詞數(shù)據(jù)庫中。黑名單數(shù)據(jù)庫和關(guān)鍵詞數(shù)據(jù)庫可以配置在手機(jī)系統(tǒng)的數(shù)據(jù)庫中,例如安卓手機(jī)系統(tǒng)的SQLite數(shù)據(jù)庫中。
[0087]當(dāng)用戶欲添加黑名單時,可以手動添加或者從手機(jī)聯(lián)系人中選擇,可以查看和刪除黑名單,從黑名單聯(lián)系人發(fā)來的任意短信都將被攔截,存入垃圾短信數(shù)據(jù)庫內(nèi)。該垃圾短信數(shù)據(jù)庫也可以是配置在手機(jī)系統(tǒng)的數(shù)據(jù)庫中,例如安卓手機(jī)系統(tǒng)的SQLite數(shù)據(jù)庫中。
[0088]同理地,用戶可以自主添加關(guān)鍵詞,如“中獎、“匯錢”等,當(dāng)新短信包含關(guān)鍵詞時,不論新短信的號碼是否在黑名單中,此短信都將被攔截,存入垃圾短信記錄數(shù)據(jù)庫。用戶可以查看和刪除已有的關(guān)鍵詞。
[0089]作為優(yōu)選的實(shí)施例,如圖3并參考圖1所示,前述步驟1-3包括以下步驟:
[0090]步驟1-3-1、獲取正常短/[目樣本庫和垃圾短/[目樣本庫;
[0091]步驟1-3-2、對正常短信和垃圾短信進(jìn)行分詞處理,采用正向最大匹配算法和逆向最大匹配算法抽取詞組,取該兩種算法抽取結(jié)果的并集得到詞組組合,為樸素貝葉斯分類訓(xùn)練提供樣本詞組;
[0092]步驟1-3-3、重復(fù)上述步驟1-3-2,直到對正常短信樣本庫和垃圾短信樣本庫中所有的正常短信和垃圾短信分詞處理完畢,得到樣本詞組庫;
[0093]步驟1-3-4、對樣本詞組庫的分詞結(jié)果進(jìn)行統(tǒng)計,通過樸素貝葉斯分類算法進(jìn)行訓(xùn)練處理,統(tǒng)計出正常短信和垃圾短信中每種類別特征詞及特征詞在每種類別中的條件概率,組成特征向量,從而得到整個樣本詞組庫的特征詞庫。
[0094]在該步驟1-3中,準(zhǔn)備短信樣本庫(包括正常短信樣本庫和垃圾短信樣本庫)后,對其進(jìn)行分詞處理,對切割后的詞組進(jìn)行詞頻統(tǒng)計,選擇特征向量,得到特征庫,其中包含每種類別特征詞的先驗(yàn)概率、特征詞以及特征詞在每種類別中的條件概率組成特征向量。
[0095]將短信分為K類:,記為C= IC1, C2, C3, , CJ,垃圾短信和正常短信S和S’,則每個類Ci的先驗(yàn)概率為P (Ci), i=l, 2,...,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)η。對分詞結(jié)果提供的詞組進(jìn)行統(tǒng)計,得出特征詞的條件概率。
[0096]在可選的實(shí)施例中,正常短信樣本庫和垃圾短信樣本庫可以從網(wǎng)絡(luò)中更新,也可以手動添加。
[0097]作為優(yōu)選的實(shí)施例,參考圖4所示,前述步驟1-3-2的分詞處理包括以下步驟:
[0098]a)正常短信或垃圾短信的短信文本輸入;
[0099]b)對輸入的短信文本進(jìn)行去噪處理;
[0100]c)采用正向最大匹配算法抽取詞組;
[0101]d)采用逆向最大匹配算法抽取詞組;
[0102]e)合并上述步驟c和d的抽取結(jié)果;以及
[0103]f)輸出分詞結(jié)果。
[0104]例如,對于分詞文本“有意見分歧”,通過兩種算法分詞得到的結(jié)果為“有意”、“見”、“分歧”和“有”、“意見”、“分歧”。本實(shí)施例中取結(jié)果的并集,得到可能的所有的詞組組合,彌補(bǔ)了僅使用一種分詞匹配算法帶來的誤差,為樸素貝葉斯分類算法提供了更完整的樣本,大大提高了智能判定短信的正確率。
[0105]圖5所示為分詞程序中正向最大匹配算法的流程圖。正向最大匹配算法,從左到右將待分詞文本中的幾個連續(xù)字符與詞表匹配,如果匹配上,則切分出一個詞。圖中詞典是分詞匹配算法中匹配為詞組的依據(jù),本實(shí)施例中選新華字典作為分詞程序詞典,當(dāng)然并不以此為限制。
[0106]如圖5所示,正向最大匹配法完成分詞的一部分處理,其包括以下過程:
[0107]a)將詞典的每個詞條讀入內(nèi)存,最長是4字詞,最短是I字詞;
[0108]b)從樣本短信中讀入一段(一行)文字,保存為字符串;
[0109]c)如果字符串長度大于4個中文字符,則取字符串最左邊的4個中文字符,作
[0110]為候選詞;否則取出整個字符串作為候選詞;
[0111]d)在詞典中查找這個候選詞,如果查找失敗,則去掉這個候選詞的最右字,重復(fù)這步進(jìn)行查找,直到候選詞為I個中文字符;
[0112]e)將候選詞從字符串中取出、刪除,回到第3步直到字符串為空;
[0113]f)回到第b步,直到樣本短信已讀完。
[0114]逆向最大匹配算法,與正向最大匹配算法相反,從右到左將待分詞文本中的幾個連續(xù)字符與詞表匹配,如果匹配上,則切分出一個詞。在此不做贅述。
[0115]下面介紹步驟2—垃圾短信判定階段。
[0116]參考圖1、圖2結(jié)合圖3所示,步驟2——垃圾短信判定階段,其包括以下過程:
[0117]步驟2-1、監(jiān)聽手機(jī)系統(tǒng)的短信事件,對新收到的短信息進(jìn)行信息截取;
[0118]步驟2-2、判斷短信息是否由黑名單數(shù)據(jù)庫中的至少一個黑名單號碼發(fā)送的,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-3 ;
[0119]步驟2-3、判斷短信息的內(nèi)容是否包含關(guān)鍵詞數(shù)據(jù)庫中的至少一個關(guān)鍵詞,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-4 ;[0120]步驟2-4、基于前述步驟1-3所得特征詞庫中的特征向量,使用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判定該短信息為垃圾短信,并進(jìn)入步驟2-5,否則,判斷為正常短信,進(jìn)入步驟2-6 ;
[0121]步驟2-5、將判斷為垃圾短信的短信息存入一垃圾短信數(shù)據(jù)庫;
[0122]步驟2-6、將判斷為正常短信的短信息存入手機(jī)系統(tǒng)收信箱。
[0123]作為優(yōu)選的實(shí)施例,在上述步驟2之后還包括以下步驟:
[0124]步驟3、查看存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信攔截記錄。
[0125]作為更優(yōu)選的實(shí)施例,在上述步驟3之后還包括以下步驟:[0126]步驟4、刪除或恢復(fù)存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信。
[0127]如圖2所示,作為優(yōu)選的實(shí)施例,前述步驟2-4,包含以下步驟:
[0128]a)對短信息內(nèi)容進(jìn)行去噪處理,刪除無用符號和/或數(shù)字;
[0129]b)匹配出短信息內(nèi)容包含的特征詞;
[0130]c)根據(jù)所包含特征詞的條件概率計算此短信是或不是垃圾短信的概率;
[0131]d)判斷是垃圾短信與不是垃圾短信的概率比是否高于一指定閾值:如果是,則判斷為正常短信;如果否,則判斷為垃圾短信;以及
[0132]e)輸出判斷結(jié)果。
[0133]為了方便理解和說明,下面簡要介紹下樸素貝葉斯分類的實(shí)現(xiàn)原理,如下:
[0134]將短信分為K類,記為C=IC1, C2, C3,...,Ck},則每個類Ci的先驗(yàn)概率為P(Ci), i=l, 2,...,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)η。
[0135]在給定的C類文本中第i個詞出現(xiàn)的概率可以表示為:p(Wi|C)
[0136]對于一個給定類別C,詞Wi的出現(xiàn)在短信D的概率表示為
[0137]P(D I O = Π I C)⑴
[0138]短信D屬于類C的概率即P (C|D)有:
[0139]p(D I C) =( 2 )
'p(C)
p1./)Π ο
[0140]p(C I D) = ^.....................?................'.....................^(3)
P(D)
[0141]通過樸素貝葉斯定理將上述概率處理成似然度的形式:
[0142]P(ClD) = ^P(OlC)(4)
/>(()
[0143]即,去垃圾短信和正常短信為類S和S’,則
[0144]P(DIS) = IIP(WiIS)(5)
[0145]P(DIS) = OMwfIS')(6)
[0146]每個短彳目是或不是垃圾短彳目的概率是:[0147]是垃圾短信_率=抑ID、=器Is)(7)
[0148]不是垃圾短信的概率:
【權(quán)利要求】
1.一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,包括以下步驟: 步驟1、準(zhǔn)備階段,其包括以下過程: 步驟1-1、選擇一個或多個聯(lián)系人號碼作為黑名單號碼,并將這些聯(lián)系人號碼存入一黑名單數(shù)據(jù)庫; 步驟1-2、選擇一個或多個關(guān)鍵詞作為過濾詞,并將這些關(guān)鍵詞存入一關(guān)鍵詞數(shù)據(jù)庫;步驟1-3、對正常短信樣本庫和垃圾短信樣本庫進(jìn)行分詞和訓(xùn)練處理,得到特征詞庫,其中包括每種類別特征詞的先驗(yàn)概率、特征詞以及特征詞在每種類別中的條件概率組成特征向量; 步驟2、垃圾短信判定階段,其包括以下過程: 步驟2-1、監(jiān)聽手機(jī)系統(tǒng)的短信事件,對新收到的短信息進(jìn)行信息截?。? 步驟2-2、判斷短信息是否由黑名單數(shù)據(jù)庫中的至少一個黑名單號碼發(fā)送的,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-3 ; 步驟2-3、判斷短信息的內(nèi)容是否包含關(guān)鍵詞數(shù)據(jù)庫中的至少一個關(guān)鍵詞,如果是,則判斷為垃圾短信,并進(jìn)入步驟2-5,否則,進(jìn)入步驟2-4 ; 步驟2-4、基于前述步驟1-3所得特征詞庫中的特征向量,使用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判定該短信息為垃圾短信,并進(jìn)入步驟2-5,否則,判斷為正常短信,進(jìn)入步驟2-6 ;步驟2-5、將判斷為垃圾短信的短信息存入一垃圾短信數(shù)據(jù)庫; 步驟2-6、將判斷為正常短信的短信息存入手機(jī)系統(tǒng)收信箱。
2.根據(jù)權(quán)利要求1所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,前述步驟1-3包括以下步驟: 步驟1-3-1、獲取正常短信樣本庫和垃圾短信樣本庫; 步驟1-3-2、對正常短信和垃圾短信進(jìn)行分詞處理,采用正向最大匹配算法和逆向最大匹配算法抽取詞組,取該兩種算法抽取結(jié)果的并集得到詞組組合,為樸素貝葉斯分類訓(xùn)練提供樣本詞組; 步驟1-3-3、重復(fù)上述步驟1-3-2,直到對正常短/[目樣本庫和垃圾短/[目樣本庫中所有的正常短信和垃圾短信分詞處理完畢,得到樣本詞組庫; 步驟1-3-4、對樣本詞組庫的分詞結(jié)果進(jìn)行統(tǒng)計,通過樸素貝葉斯分類算法進(jìn)行訓(xùn)練處理,統(tǒng)計出正常短信和垃圾短信中每種類別特征詞及特征詞在每種類別中的條件概率,組成特征向量,從而得到整個樣本詞組庫的特征詞庫。
3.根據(jù)權(quán)利要求2所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,前述步驟1-3-2包括以下步驟: a)正常短信或垃圾短信的短信文本輸入; b)對輸入的短信文本進(jìn)行去噪處理; c)采用正向最大匹配算法抽取詞組; d)采用逆向最大匹配算法抽取詞組; e)合并上述步驟c和d的抽取結(jié)果;以及 f )輸出分詞結(jié)果。
4.根據(jù)權(quán)利要求1-3中任意一項(xiàng)所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,前述步驟2-4,包含以下步驟: a)對短信息內(nèi)容進(jìn)行去噪處理,刪除無用符號和/或數(shù)字; b)匹配出短信息內(nèi)容包含的特征詞; c)根據(jù)所包含特征詞的條件概率計算此短信是或不是垃圾短信的概率; d)判斷是垃圾短信與不是垃圾短信的概率比是否高于一指定閾值:如果是,則判斷為正常短信;如果否,則判斷為垃圾短信;以及 e)輸出判斷結(jié)果。
5.根據(jù)權(quán)利要求1所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,前述基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,在步驟2之后還包括以下步驟: 步驟3、查看存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信攔截記錄。
6.根據(jù)權(quán)利要求5所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,其特征在于,前述基于樸素貝葉斯分類的手機(jī)垃圾短信過濾方法,在步驟3之后還包括以下步驟: 步驟4、刪除或恢復(fù)存儲于垃圾短信數(shù)據(jù)庫中的垃圾短信。
7.一種基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng),其特征在于,包括: 一信息截取模塊,用于監(jiān)聽手機(jī)系統(tǒng)的短信事件,對新收到的短信息進(jìn)行信息截?。? 一緩存,與所述信息截取模塊數(shù)據(jù)連接,用于存儲所述截取的短信息; 一黑名單過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,用于基于預(yù)先設(shè)定的黑名單對新短信息進(jìn)行過濾處理; 一關(guān)鍵詞過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,用于基于預(yù)先設(shè)定的關(guān)鍵詞對對新短信息進(jìn)行過濾處理; 一樸素貝葉斯分類智能過濾模塊,與所述信息截取模塊數(shù)據(jù)連接,基于預(yù)先訓(xùn)練好的特征詞庫,采用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比超過預(yù)設(shè)的閥值,則判斷為垃圾短信,否則判斷為正常短信;一垃圾短信存儲模塊,用于存儲被判斷為垃圾短信的新短信息;以及一垃圾短信操作控制模塊,與前述垃圾短信存儲模塊以及一手機(jī)系統(tǒng)短信箱數(shù)據(jù)交互,用于根據(jù)外部輸入的操作對垃圾短信存儲模塊中的新短信息進(jìn)行下述操作中的一種:查看、刪除、恢復(fù)以及答復(fù)。
8.根據(jù)權(quán)利要求7所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng),其特征在于,所述黑名單過濾模塊包括黑名單輸入控制模塊、黑名單數(shù)據(jù)庫、號碼獲取模塊以及黑名單判斷模塊,其中: 黑名單輸入控制模塊,用于根據(jù)外部輸入的操作控制黑名單號碼的存儲; 黑名單數(shù)據(jù)庫,用于存儲黑名單號碼; 號碼獲取模塊,與所述信息截取模塊數(shù)據(jù)連接,用于獲取新短信息的發(fā)信人號碼; 黑名單判斷模塊,與號碼獲取模塊數(shù)據(jù)連接,用于判斷新短信息的發(fā)信人號碼是否包含在黑名單數(shù)據(jù)庫內(nèi)。
9.根據(jù)權(quán)利要求7所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng),其特征在于,所述關(guān)鍵詞過濾模塊包括關(guān)鍵詞輸入控制模塊、關(guān)鍵詞數(shù)據(jù)庫、短信內(nèi)容獲取模塊以及關(guān)鍵詞判斷模塊,其中: 關(guān)鍵詞輸入控制模 塊,用于根據(jù)外部輸入的操作控制關(guān)鍵詞的存儲;關(guān)鍵詞數(shù)據(jù)庫,用于存儲關(guān)鍵詞; 短信內(nèi)容獲取模塊,與所述信息截取模塊數(shù)據(jù)連接,用于獲取新短信息的短信內(nèi)容; 關(guān)鍵詞判斷模塊,與短信內(nèi)容獲取模塊數(shù)據(jù)連接,用于判斷新短信息的短信內(nèi)容是否包含關(guān)鍵詞數(shù)據(jù)庫中的至少一個關(guān)鍵詞。
10.根據(jù)權(quán)利要求7所述的基于樸素貝葉斯分類的手機(jī)垃圾短信過濾系統(tǒng),其特征在于,所述樸素貝葉斯分類智能過濾模塊包括樣本短信庫輸入模塊、分詞模塊、特征向量抽取模塊、去噪處理模塊以及樸素貝葉斯分類的垃圾短信判斷模塊,其中: 樣本短信庫輸入模塊,用于輸入正常短信樣本庫以及垃圾短信樣本庫; 分詞模塊,用于對正常短信樣本庫和垃圾短信樣本庫中的樣本短信采用正向最大匹配算法和逆向最大匹配算法相結(jié)合的方法抽取樣本詞組,組成樣本詞組庫; 特征向量抽取模塊,用于對樣本詞組庫進(jìn)行特征抽取,獲取正常短信和垃圾短信中每種類別特征詞及特征詞在每種類別中的條件概率,得到整個樣本詞組庫的特征詞庫; 去噪處理模塊,與所述信息截取模塊數(shù)據(jù)連接,用于對新短信息的短信內(nèi)容進(jìn)行去噪處理,刪除無用符號和/或數(shù)字; 樸素貝葉斯分類的垃圾短信判斷模塊,與去噪處理模塊數(shù)據(jù)連接,用于基于預(yù)先訓(xùn)練好的特征詞庫,采用樸素貝葉斯算法計算新短信息是或不是垃圾短信的概率,如果是垃圾短信與不是垃圾短信的概率比`超過預(yù)設(shè)的閥值,則判斷為垃圾短信,否則判斷為正常短信。
【文檔編號】H04M1/725GK103634473SQ201310654754
【公開日】2014年3月12日 申請日期:2013年12月5日 優(yōu)先權(quán)日:2013年12月5日
【發(fā)明者】李文娟, 李千目, 戚湧, 候君, 孫向軍 申請人:南京理工大學(xué)連云港研究院