基于逆向詞頻的貝葉斯文本分類器的制造方法
【專利摘要】本發(fā)明提供一種基于逆向詞頻的貝葉斯文本分類器,以單詞的逆向詞頻作為單詞的區(qū)分度,加權(quán)單詞在不同類別中頻率得到單詞的綜合先驗概率;根據(jù)貝葉斯定理,由先驗概率求得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類的目的。本發(fā)明的基于逆向詞頻的貝葉斯文本分類器和現(xiàn)有技術(shù)相比,我們首先假設(shè)各個單詞出現(xiàn)的概率相互獨立,根據(jù)訓(xùn)練數(shù)據(jù)集估計出各個單詞的先驗概率,由此計算出在測試文檔中出現(xiàn)的各個單詞之后,屬于不同類別分檔的后驗概率。我們依據(jù)最大后驗概率值,將文檔分類到具體的類別中,本發(fā)明具有設(shè)計合理、結(jié)構(gòu)簡單、使用方便等特點,因而,具有很好的使用價值。
【專利說明】基于逆向詞頻的貝葉斯文本分類器
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息科學和機器學習領(lǐng)域,具體地說是一種基于逆向詞頻的貝葉斯文 本分類器。
【背景技術(shù)】
[0002] 當前,大數(shù)據(jù)時代來臨逐漸被行業(yè)認可,大數(shù)據(jù)應(yīng)用也逐漸落地。而在大數(shù)據(jù)時 代,數(shù)據(jù)分析、數(shù)據(jù)挖掘和機器學習等科學變得炙手可熱,成為了大數(shù)據(jù)時代掘金的利器。 隨著數(shù)據(jù)量的激增,尤其是文本數(shù)據(jù)的明顯上升,有越來越多的信息積累,而需要信息的人 還沒有特別方便的工具去從多數(shù)據(jù)源的大規(guī)模的文本信息資源中提取符合需要的簡潔、精 煉、可理解的知識。文本數(shù)據(jù)的復(fù)雜性和多場景使用,使得文本分類顯得非常重要。無論是 新聞聚合、垃圾郵件分類,還是微博內(nèi)容分析,文本分類都將扮演重要的角色。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的是克服現(xiàn)有技術(shù)中存在的不足,提供一種基于逆向詞頻的貝葉斯文 本分類器。
[0004] 文本分類是數(shù)據(jù)挖掘和機器學習中非常重要的研究領(lǐng)域,文本分類的目標是對新 文檔標以合適的類標簽。文本自動分類的過程首先是對訓(xùn)練集中文檔的內(nèi)容進行分析,構(gòu) 造一個分類方案,即分類器。在分類器學習之后,每個類有一個不同的分類方案,可用這些 分類方案對新文檔分類。
[0005] 樸素貝葉斯分類器是一種應(yīng)用基于獨立假設(shè)的貝葉斯定理的簡單概率分類器。貝 葉斯分類的基礎(chǔ)是概率推理,就是在各種條件的存在不確定,僅知其出現(xiàn)概率的情況下,如 何完成推理和決策任務(wù)。在文本分類中,我們首先假設(shè)各個單詞出現(xiàn)的概率相互獨立(盡管 實際生活中,各個單詞并不完全相互獨立,但是樸素貝葉斯分類效果仍然很有效),根據(jù)訓(xùn) 練數(shù)據(jù)集估計出各個單詞的先驗概率,由此計算出在測試文檔中出現(xiàn)的各個單詞之后,屬 于不同類別分檔的后驗概率。我們依據(jù)最大后驗概率值,將文檔分類到具體的類別中。
[0006] 本發(fā)明的技術(shù)方案是按以下方式實現(xiàn)的,其特點在于以單詞的逆向詞頻作為單詞的 區(qū)分度,加權(quán)單詞在不同類別中頻率得到單詞的綜合先驗概率;根據(jù)貝葉斯定理,由先驗概率 求得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類的目的; 主要考慮該單詞在所有文檔中出現(xiàn)的次數(shù)和該單詞在本文檔中出現(xiàn)的次數(shù)兩個方面; 而根據(jù)大數(shù)定律,單詞先驗概率值以單詞在該分類中頻率來表示,而我們考慮了不同單詞 的區(qū)分度,換句話說此時得到的先驗概率不是純粹代表了該單詞在該分類中出現(xiàn)的概率, 而是代表了該分類中出現(xiàn)該單詞的綜合先驗概率。
[0007] 本發(fā)明的優(yōu)點是: 本發(fā)明的基于逆向詞頻的貝葉斯文本分類器和現(xiàn)有技術(shù)相比,我們首先假設(shè)各個單詞 出現(xiàn)的概率相互獨立,根據(jù)訓(xùn)練數(shù)據(jù)集估計出各個單詞的先驗概率,由此計算出在測試文 檔中出現(xiàn)的各個單詞之后,屬于不同類別分檔的后驗概率。我們依據(jù)最大后驗概率值,將文 檔分類到具體的類別中,本發(fā)明具有設(shè)計合理、結(jié)構(gòu)簡單、使用方便等特點,因而,具有很好 的使用價值。
【具體實施方式】
[0008] 下面對本發(fā)明的基于逆向詞頻的貝葉斯文本分類器作以下詳細說明。
[0009] 本發(fā)明的基于逆向詞頻的貝葉斯文本分類器,其特點在于以單詞的逆向詞頻作為 單詞的區(qū)分度,加權(quán)單詞在不同類別中頻率得到單詞的綜合先驗概率;根據(jù)貝葉斯定理,由 先驗概率求得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類 的目的; 主要考慮該單詞在所有文檔中出現(xiàn)的次數(shù)和該單詞在本文檔中出現(xiàn)的次數(shù)兩個方面; 而根據(jù)大數(shù)定律,單詞先驗概率值以單詞在該分類中頻率來表示,而我們考慮了不同單詞 的區(qū)分度,換句話說此時得到的先驗概率不是純粹代表了該單詞在該分類中出現(xiàn)的概率, 而是代表了該分類中出現(xiàn)該單詞的綜合先驗概率。
[0010] 標示說明 這里,我們以垃圾郵件分類為例。假設(shè)A類為垃圾郵件,B類為非垃圾郵件,Vi表示各 個單詞,由此,我們做出如下標示: Nums表示樣本總數(shù)Counts表示總單詞數(shù) NumsA表示垃圾郵件個數(shù)NumsB表示非垃圾郵件個數(shù) CountsA表示垃圾郵件中單詞總數(shù)SumB表示非垃圾郵件單詞總數(shù) CountsViA表示單詞在垃圾郵件中出現(xiàn)次數(shù) CountsViB表示單詞在非垃圾郵件中出現(xiàn)次數(shù) P(A) = NumsA / Nums 表示一封郵件為垃圾郵件的概率 P(B) = NumsB / Nums 表示一封郵件為非垃圾郵件的概率 Ρ(\)表示所有文檔中出現(xiàn)單詞\的概率 P(Vi | A) = CountsViA/ CountsA 表示單詞在垃圾郵件中出現(xiàn)的概率 P(Vi | B) = CountsViA/ CountsA 表示單詞\在非垃圾郵件中出現(xiàn)的概率 P(A | V,)表示在單詞\出現(xiàn)時,郵件為垃圾郵件的概率 P(B | V,)表示在單詞\出現(xiàn)時,郵件為非垃圾郵件的概率 貝葉斯定理 根據(jù)貝葉斯定理,可以得到: P(A | V) = P(Vi | A)* P(A)/ P(Vi) P(B I V) = P% I B)* P⑶/ P(Vi) 對于多個單詞組成的文本而言: P(A I Y^n) = P(V!_n I A)* P(A)/ 根據(jù)假設(shè)各個單詞之間相互獨立,那么P(Vi_n | A) * P(A)
【權(quán)利要求】
1.基于逆向詞頻的貝葉斯文本分類器,其特征在于以單詞的逆向詞頻作為單詞的區(qū)分 度,加權(quán)單詞在不同類別中頻率得到單詞的綜合先驗概率;根據(jù)貝葉斯定理,由先驗概率求 得這些單詞屬于不同類別的后驗概率,選擇最大后驗概率值的分類以達到分類的目的; 主要考慮該單詞在所有文檔中出現(xiàn)的次數(shù)和該單詞在本文檔中出現(xiàn)的次數(shù)兩個方面; 而根據(jù)大數(shù)定律,單詞先驗概率值以單詞在該分類中頻率來表示,而我們考慮了不同單詞 的區(qū)分度,換句話說此時得到的先驗概率不是純粹代表了該單詞在該分類中出現(xiàn)的概率, 而是代表了該分類中出現(xiàn)該單詞的綜合先驗概率。
【文檔編號】G06F17/30GK104142997SQ201410376416
【公開日】2014年11月12日 申請日期:2014年8月1日 優(yōu)先權(quán)日:2014年8月1日
【發(fā)明者】關(guān)丹輝 申請人:浪潮電子信息產(chǎn)業(yè)股份有限公司