欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種新聞分類方法和系統(tǒng)與流程

文檔序號(hào):11697391閱讀:499來源:國知局
一種新聞分類方法和系統(tǒng)與流程
本申請屬于自然語言處理及模式識(shí)別技術(shù)領(lǐng)域,尤其涉及一種新聞分類方法和系統(tǒng)。

背景技術(shù):
在用戶的活動(dòng)中,用戶對(duì)事或者物的態(tài)度往往與用戶的情緒是緊密相聯(lián)系的,也就是說可以從用戶的情緒觀察到用戶對(duì)事物的觀點(diǎn)傾向。目前用戶可以通過多種網(wǎng)絡(luò)這一平臺(tái)對(duì)新聞中的人物、事件和現(xiàn)象等表達(dá)自己的情緒。其中情緒是指用戶內(nèi)在的心理反應(yīng)與感受,例如喜、怒、哀、樂等。然而對(duì)于不同的新聞不同用戶會(huì)產(chǎn)生不同的情緒,例如“新臺(tái)幣最快下周見到28字頭”,有的用戶對(duì)于該新聞會(huì)產(chǎn)生“開心”的情緒,而有的用戶對(duì)于該新聞則會(huì)產(chǎn)生“火大”的情緒,因此對(duì)于看到該新聞會(huì)產(chǎn)生“火大”的情緒的用戶,則想盡快轉(zhuǎn)到能讓自身產(chǎn)生“開心”情緒的新聞。但是目前新聞推薦系統(tǒng)在組織新聞時(shí)是按照主題進(jìn)行劃分,例如按照經(jīng)濟(jì)、體育和娛樂等主題進(jìn)行劃分,而不同主題的新聞?dòng)脩舢a(chǎn)生的情緒也會(huì)不同,因此急需一種按照情緒對(duì)新聞進(jìn)行分類的方法。

技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本申請的目的在于提供一種新聞分類方法,以獲得待分類新聞含有的所有情緒類別,即可將所述待分類新聞劃分到其含有的所有情緒類別對(duì)應(yīng)的新聞中,并按照不同情緒推薦該待分類新聞。本申請還提供了一種新聞分類系統(tǒng),用以保證上述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。一方面,本申請?zhí)峁┮环N新聞分類方法,預(yù)先構(gòu)建不同情緒對(duì)應(yīng)的基分類器,所述新聞分類方法包括:使用預(yù)先構(gòu)建的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果;依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果,其中情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒;使用所述判定結(jié)果,得到所述待分類新聞含有的所有情緒類別。優(yōu)選地,所述分類結(jié)果包括第一后驗(yàn)概率和第二后驗(yàn)概率,其中第一后驗(yàn)概率是指所述待分類新聞含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率,第二后驗(yàn)概率是指所述待分類新聞不含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率;所述依據(jù)基分類器的分類結(jié)果,對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果包括:比較所述第一后驗(yàn)概率和所述第二后驗(yàn)概率;當(dāng)所述第一后驗(yàn)概率大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒;當(dāng)所述第一后驗(yàn)概率不大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞不含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒。優(yōu)選地,構(gòu)建所述基分類器包括:采集已獲知情緒類別的預(yù)設(shè)數(shù)量的新聞;從所述預(yù)設(shè)數(shù)量的新聞中,得到含有一種情緒類別的新聞;將含有相同情緒類別的所有新聞作為一個(gè)基分類器的訓(xùn)練集合;對(duì)所述訓(xùn)練集合采用機(jī)器學(xué)習(xí)分類方法進(jìn)行分類,得到基分類器,其中所述基分類器對(duì)應(yīng)的情緒類別是所述訓(xùn)練集合對(duì)應(yīng)的情緒類別。優(yōu)選地,所述從所述預(yù)設(shè)數(shù)量的新聞中,得到含有一種情緒類別的新聞包括:當(dāng)新聞含有的至少兩種情緒類別時(shí),對(duì)含有至少兩種情緒類別的新聞進(jìn)行單一化處理,得到含有一種情緒的新聞,其中所述單一化處理是指僅保留新聞所含有的一種情緒。優(yōu)選地,所述機(jī)器學(xué)習(xí)分類方法為最大熵分類方法。另一方面,本申請還提供一種新聞分類系統(tǒng),包括:構(gòu)建模塊,用于預(yù)先構(gòu)建不同情緒對(duì)應(yīng)的基分類器;分類模塊,用于使用預(yù)先構(gòu)建的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果;判定模塊,用于依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果,其中情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒;統(tǒng)計(jì)模塊,用于使用所述判定結(jié)果,得到所述待分類新聞含有的所有情緒類別。優(yōu)選地,所述分類結(jié)果包括第一后驗(yàn)概率和第二后驗(yàn)概率,其中第一后驗(yàn)概率是指所述待分類新聞含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率,第二后驗(yàn)概率是指所述待分類新聞不含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率;所述判定模塊包括:比較單元,用于比較所述第一后驗(yàn)概率和所述第二后驗(yàn)概率;判定單元,用于當(dāng)所述第一后驗(yàn)概率大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒;以及用于當(dāng)所述第一后驗(yàn)概率不大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞不含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒。優(yōu)選地,所述構(gòu)建模塊包括:采集單元,用于采集已獲知情緒類別的預(yù)設(shè)數(shù)量的新聞;第一獲取單元,用于從所述預(yù)設(shè)數(shù)量的新聞中,得到含有一種情緒類別的新聞;第二獲取單元,用于將含有相同情緒類別的所有新聞作為一個(gè)基分類器的訓(xùn)練集合;分類單元,用于對(duì)所述訓(xùn)練集合采用機(jī)器學(xué)習(xí)分類系統(tǒng)進(jìn)行分類,得到基分類器,其中所述基分類器對(duì)應(yīng)的情緒類別是所述訓(xùn)練集合對(duì)應(yīng)的情緒類別。優(yōu)選地,所述第一獲取單元具體用于當(dāng)新聞含有的至少兩種情緒類別時(shí),對(duì)含有至少兩種情緒類別的新聞進(jìn)行單一化處理,得到含有一種情緒的新聞,其中所述單一化處理是指僅保留新聞所含有的一種情緒。優(yōu)選地,所述機(jī)器學(xué)習(xí)分類系統(tǒng)為最大熵分類系統(tǒng)。在本申請中,使用預(yù)先得到的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果,再依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果。由于所述情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒,所以使用所述判定結(jié)果,即可以得到所述待分類新聞含有的所有情緒類別。當(dāng)獲知待分類新聞含有的所有情緒類別后,可以將所述待分類新聞劃分到其含有的所有情緒類別對(duì)應(yīng)的新聞中,實(shí)現(xiàn)依據(jù)情緒對(duì)新聞劃分。當(dāng)然,本申請?zhí)峁┑男侣劮诸惙椒ㄟ€可以應(yīng)用到新聞推薦系統(tǒng)中,在依據(jù)情緒對(duì)待分類新聞進(jìn)行劃分后,進(jìn)一步依據(jù)不同情緒推薦新聞,使推薦給用戶的新聞更能滿足用戶當(dāng)前的需求。附圖說明為了更清楚地說明本申請實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請?zhí)峁┑囊环N新聞分類方法的流程圖;圖2是本申請?zhí)峁┑囊环N新聞分類方法的子流程圖;圖3是本申請?zhí)峁┑囊环N新聞分類系統(tǒng)的結(jié)構(gòu)示意圖;圖4是本申請?zhí)峁┑囊环N新聞分類系統(tǒng)中構(gòu)建模塊的結(jié)構(gòu)示意圖。具體實(shí)施方式下面將結(jié)合本申請實(shí)施例中的附圖,對(duì)本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。請參閱圖1,其示出了本申請實(shí)施例提供的一種新聞分類方法的一種流程圖,在使用圖1所示的新聞分類方法對(duì)待分類新聞進(jìn)行分類時(shí),首先需要預(yù)先構(gòu)建不同情緒對(duì)應(yīng)的基分類器,其中基分類器用于判定待分類新聞所含有的情緒,并且每個(gè)所述基分類器對(duì)應(yīng)一種情緒。需要注意的是,不同情緒對(duì)應(yīng)的基分類器在進(jìn)行新聞分類之前構(gòu)建,并且在構(gòu)建完成后可以一直使用基分類器對(duì)每個(gè)待分類新聞進(jìn)行處理,而無需重復(fù)構(gòu)建基分類器。在本實(shí)施例中,圖1所示的新聞分類方法可以包括:步驟101:使用預(yù)先構(gòu)建的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果。在本實(shí)施例中,每個(gè)基分類器對(duì)應(yīng)一種情緒,因此待分類新聞需要經(jīng)過每個(gè)基分類器進(jìn)行分類后,可以從分類結(jié)果中確定待分類新聞中是否含有某種情緒,待分類新聞通過基分類器分類得到的情緒是基分類器所對(duì)應(yīng)的情緒。例如,基分類器A對(duì)應(yīng)“高興”的情緒,基分類器B對(duì)應(yīng)“悲傷”的情緒,則基分類器A和B分別對(duì)待分類新聞進(jìn)行分類,然后從得到的分類結(jié)果中確定待分類新聞中是否包括“高興”的情緒和“悲傷”的情緒。需要說明的是:情緒的類型和總數(shù)可以由操作人員預(yù)先確定。由于每個(gè)基分類器對(duì)應(yīng)一種情緒,不同基分類器對(duì)應(yīng)的情緒不同,所以基分類器的總數(shù)和情緒的總數(shù)相同,得到的每個(gè)基分類器都需要對(duì)待分類新聞進(jìn)行分類,從而得到與情緒總數(shù)相同的分類結(jié)果。步驟102:依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果。其中情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒。在本實(shí)施例中,對(duì)于單獨(dú)的基分類器來說,分類結(jié)果包括第一后驗(yàn)概率和第二后驗(yàn)概率,其中第一后驗(yàn)概率是指所述待分類新聞含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率,第二后驗(yàn)概率是指所述待分類新聞不含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率。例如,對(duì)應(yīng)“高興”情緒所對(duì)應(yīng)的基分類器,第一后驗(yàn)概率是待分類新聞含有“高興”這種情緒的后驗(yàn)概率,第二后驗(yàn)概率則是待分類新聞不含有“高興”這種情緒的后驗(yàn)概率。第一后驗(yàn)概率可以標(biāo)記為Pi(cEMOi|D),Pi(cEMOi|D)表示待分類新聞含有cEMOi情緒的后驗(yàn)概率,第二后驗(yàn)概率可以標(biāo)記為Pi(cNEMOi|D),Pi(cNEMOi|D)表示所述待分類新聞不含有cEMOi情緒的后驗(yàn)概率。其中,第一后驗(yàn)概率Pi(cEMOi|D)的計(jì)算公式是:Z(D)是歸一化因子,是特征函數(shù),是特征函數(shù)的權(quán)值,在構(gòu)建基分類器的過程中可以獲得的取值。的取值通過最大熵模型學(xué)習(xí)的擬牛頓BFGS(BroydenFletcherGoldfarbShann,變尺度法)得到。Z(D)的計(jì)算公式如下:其中D是輸入特征,n是特征的總數(shù),例如若待分類新聞使用詞特征,則n是待分類新聞中所有詞的個(gè)數(shù)。特征函數(shù)的定義如下:其中,nk(d)是待分類新聞所含特征的長度,cEMOi=c表明含有此特征的待分類新聞含有c情緒。當(dāng)特征的長度nk(d)>0,并且含有此特征的待分類新聞含有c這種情緒時(shí),特征函數(shù)的取值為1,否則特征函數(shù)的取值為0。第二后驗(yàn)概率的計(jì)算公式為:Pi(cNEMOi|D)=1-Pi(cEMOi|D)。需要說明的是:在計(jì)算第一后驗(yàn)概率時(shí),假設(shè)待分類新聞含有所有基分類器對(duì)應(yīng)的情緒,然后使用第一后驗(yàn)概率的計(jì)算公式計(jì)算出含有每種情緒的第一后驗(yàn)概率,并在得出第一后驗(yàn)概率后計(jì)算第二后驗(yàn)概率。然后將某一種情緒對(duì)應(yīng)的第一后驗(yàn)概率和第二后驗(yàn)概率的大小進(jìn)行判斷,通過判斷結(jié)果最終確認(rèn)待分類新聞含有的情緒類別。如果Pi(cEMOi|D)>Pi(cNEMOi|D),則判定結(jié)果是所述待分類新聞含有cEMOi情緒,如果Pi(cEMOi|D)≤Pi(cNEMOi|D),則判定結(jié)果是所述待分類新聞不含有cEMOi情緒。步驟103:使用所述判定結(jié)果,得到所述待分類新聞含有的所有情緒類別。由于不同用戶看到同一個(gè)待分類新聞可以產(chǎn)生相同的情緒,也可以產(chǎn)生不同的情緒,所以待分類新聞經(jīng)過本實(shí)施例提供的新聞分類方法后可能得到一種情緒,也可能得到多種情緒。在本實(shí)施例中,待分類新聞含有幾種情緒可以從判定結(jié)果得出,其中判定結(jié)果用于表明待分類新聞含有的情緒。當(dāng)?shù)玫脚卸ńY(jié)果后,對(duì)判定結(jié)果進(jìn)行統(tǒng)計(jì)即可以得到待分類新聞含有的所有情緒類別和含有的情緒個(gè)數(shù)。為了便于對(duì)判定結(jié)果的統(tǒng)計(jì),在本實(shí)施例所有情緒用不同序號(hào)表示。例如所有情緒包括:“高興”情緒、“傷心”情緒和“憤怒”情緒,則“高興”情緒是第一種情緒,“傷心”情緒是第二種情緒,“憤怒”情緒是第三種情緒。判定結(jié)果采用Emotion[i]表示,Emotion[i]=1時(shí),表明待分類新聞含有第i種情緒,Emotion[i]=0時(shí),表明待分類新聞不含有第i種情緒。當(dāng)然,在得到待分類新聞的所有情緒類別后,還可以依據(jù)情緒類別將待分類新聞劃分至不同情緒類別的數(shù)據(jù)庫中。此外,用戶在觀看新聞時(shí),還可以將劃分到數(shù)據(jù)庫中的待分類新聞推薦給用戶觀看,其中在推薦新聞時(shí),可以根據(jù)用戶選擇的情緒類別進(jìn)行推薦。在本實(shí)施例中,用戶選擇的情緒類別是用戶通過點(diǎn)擊遙控器中的“情緒”按鈕時(shí),“情緒”按鈕所對(duì)應(yīng)的情緒。應(yīng)用上述技術(shù)方案,在確定待分類新聞的情緒類別時(shí),可以首先使用預(yù)先得到的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果,再依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果。由于所述情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒,所以使用所述判定結(jié)果,即可以得到所述待分類新聞含有的所有情緒類別。當(dāng)獲知待分類新聞含有的所有情緒類別后,可以將所述待分類新聞劃分到其含有的所有情緒類別對(duì)應(yīng)的新聞中,實(shí)現(xiàn)依據(jù)情緒對(duì)新聞劃分。當(dāng)然,本申請?zhí)峁┑男侣劮诸惙椒ㄟ€可以應(yīng)用到新聞推薦系統(tǒng)中,在依據(jù)情緒對(duì)待分類新聞進(jìn)行劃分后,進(jìn)一步依據(jù)不同情緒推薦新聞,使推薦給用戶的新聞更能滿足用戶當(dāng)前的需求。在本實(shí)施例中,基分類器的構(gòu)建過程請參閱圖2所示,可以包括以下步驟:步驟201:采集已獲知情緒類別的預(yù)設(shè)數(shù)量的新聞。在本實(shí)施例中,新聞的情緒可以是每個(gè)用戶看到同一個(gè)新聞時(shí)產(chǎn)生的情緒,當(dāng)然也可以統(tǒng)計(jì)看到同一個(gè)新聞時(shí)產(chǎn)生相同情緒的用戶數(shù)量占看到該新聞的所有用戶數(shù)量的比例,當(dāng)該比例不小于預(yù)設(shè)比例時(shí),判定該新聞含有此種情緒,當(dāng)該比例小于預(yù)設(shè)比例時(shí),判定該新聞不含有此種情緒。其中預(yù)設(shè)比例可以根據(jù)不同應(yīng)用設(shè)定不同取值,對(duì)此本實(shí)施例不加以限制。所有用戶數(shù)量可以設(shè)定為一定數(shù)量,例如可以是1000人,而無需設(shè)定為某個(gè)市或者某個(gè)省的全部人口數(shù)量,否則會(huì)提高計(jì)算時(shí)間,降低效率。其中,所采集新聞數(shù)量也可以預(yù)先設(shè)定,即采用預(yù)設(shè)數(shù)量的新聞。在本實(shí)施例中預(yù)設(shè)數(shù)量可以依據(jù)不同應(yīng)用場景設(shè)定不同取值,對(duì)此本實(shí)施例不加以限制。步驟202:從所述預(yù)設(shè)數(shù)量的新聞中,得到含有一種情緒類別的新聞。不同用戶看到一個(gè)新聞時(shí)可以產(chǎn)生相同的情緒,也可以產(chǎn)生不同的情緒。而在構(gòu)建基分類器時(shí)所使用的新聞需要僅含有一種情緒類別,因此在構(gòu)建之前首先對(duì)新聞是否含有多種情緒類別進(jìn)行判斷。當(dāng)新聞含有一種情緒類別時(shí),可以直接得到該新聞。當(dāng)新聞含有至少兩種情緒類別時(shí),需要對(duì)其進(jìn)行單一化處理,在單一化處理后,得到的新聞僅含有一種情緒。其中單一化處理是指僅包括新聞所含有的一種情緒。需要注意的是:在構(gòu)建每個(gè)基分類器時(shí),需要對(duì)預(yù)設(shè)數(shù)量的所有新聞含有的情緒數(shù)量進(jìn)行判斷。判斷次數(shù)與預(yù)設(shè)數(shù)量的所有新聞含有的情緒類別總量相同。步驟203:將含有相同情緒類別的所有新聞作為一個(gè)基分類器的訓(xùn)練集合。為了便于理解,下面以一具體的應(yīng)用場景對(duì)上述實(shí)施例中描述單一化處理進(jìn)行詳細(xì)的描述,具體的:使用的預(yù)設(shè)數(shù)量的所有新聞中共有五種情緒類別,分別為:高興、古怪、無聊、難過、生氣。首先,考慮“高興”這一情緒,將新聞分為產(chǎn)生“高興”情緒和不產(chǎn)生“高興”情緒這兩類新聞,然后將含有“高興”情緒的所有新聞作為“高興”情緒的基分類器的訓(xùn)練集合。同樣地,依次考慮“古怪”情緒、“無聊”情緒、“難過”情緒和“生氣”情緒對(duì)預(yù)設(shè)數(shù)量的所有新聞進(jìn)行劃分,總共可以得到5組訓(xùn)練集合。步驟204:對(duì)所述訓(xùn)練集合采用機(jī)器學(xué)習(xí)分類方法進(jìn)行分類,得到基分類器,其中所述基分類器對(duì)應(yīng)的情緒類別是所述訓(xùn)練集合對(duì)應(yīng)的情緒類別。在本實(shí)施例中,機(jī)器學(xué)習(xí)方法優(yōu)選采用最大熵分類。最大熵分類方法基于最大熵信息理論,其基本思想是得到一種概率分布,滿足所有已知的事實(shí),并讓未知事實(shí)隨機(jī)化。在最大熵分類下,可以采用第一后驗(yàn)概率和第二后驗(yàn)概率預(yù)測待分類新聞含有的情緒類別描述基分類器。其中第一后驗(yàn)概率的計(jì)算公式如下:Z(D)是歸一化因子,是特征函數(shù),是特征函數(shù)的權(quán)值,在構(gòu)建基分類器的過程中可以獲得的取值。的取值通過最大熵模型學(xué)習(xí)的擬牛頓BFGS得到。特征函數(shù)的定義如下:其中,nk(d)是待分類新聞所含特征的長度,ci=c表明含有此特征的待分類新聞含有c情緒。當(dāng)待分類新聞所含特征的長度nk(d)>0,并且含有此特征的待分類新聞含有c這種情緒時(shí),特征函數(shù)的取值為1,否則特征函數(shù)的取值為0。第二后驗(yàn)概率的計(jì)算公式為:Pi(cNi|D)=1-Pi(ci|D)。在得出基分類器的第一后驗(yàn)概率和第二后驗(yàn)概率的計(jì)算公式后,可以用基分類器對(duì)待分類新聞進(jìn)行分類,得到待分類新聞的第一后驗(yàn)概率和第二后驗(yàn)概率,從而經(jīng)過第一后驗(yàn)概率和第二后驗(yàn)概率比較確定出待分類新聞含有的情緒類別。為了驗(yàn)測本申請?zhí)峁┑男侣劮诸惙椒ㄔ谛侣劮诸惿系挠行?,本?shí)施例使用一定的訓(xùn)練樣本和測試樣本進(jìn)行訓(xùn)練和測試。實(shí)驗(yàn)中使用的樣本是在雅虎網(wǎng)上搜集的新聞樣本,并且有用戶對(duì)每一篇新聞的情緒投票,然后根據(jù)投票總?cè)藬?shù)對(duì)樣本進(jìn)行篩選,實(shí)驗(yàn)所用的樣本一共有6000篇。根據(jù)用戶的投票結(jié)果來確定其所有的情緒標(biāo)簽,一共含有5種情緒,分別為:高興、古怪、無聊、難過、生氣。在進(jìn)行新聞分類時(shí),對(duì)新聞含有的情緒類別進(jìn)行單一化處理,即每次分類只考慮一種情緒類別,分為含有此類情緒的樣本(正類樣本)和不含此類情緒的樣本(負(fù)類樣本)。從6000篇樣本中選用500篇作為測試樣本,整個(gè)實(shí)驗(yàn)過程中保持不變。在剩下的樣本中,選取每類情緒的訓(xùn)練樣本。本實(shí)施例采用如下三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),三個(gè)評(píng)價(jià)標(biāo)準(zhǔn)如下:其中,D表示一個(gè)測試數(shù)據(jù)集,形式可以表示為:(xi,Yi),其中i=1...|D|,|D|表示測試數(shù)據(jù)集的數(shù)量,L是標(biāo)簽集合;H表示一個(gè)基分類器,Zi指的是樣本xi通過分類器H分類后所得到的一系列標(biāo)簽,即Zi=H(xi)。表1為進(jìn)行分類后采用上述三種評(píng)價(jià)標(biāo)準(zhǔn)得到的測試效果,其中每類情緒的正負(fù)樣本數(shù)量分別取了1000,1500,2000。表1測試結(jié)果樣本數(shù)量AccPreRecall10000.29560.37860.346515000.29980.37260.349720000.30140.36900.3489從表1所示的數(shù)據(jù)可以看出,本申請?zhí)峁┑男侣劮诸惙椒ㄒ呀?jīng)能夠取得不錯(cuò)的效果,正確率達(dá)到0.3左右。隨著樣本規(guī)模的增大,本申請?zhí)峁┑男侣劮诸惙椒▽?duì)新聞的多種情緒分類的正確率還會(huì)有進(jìn)一步的提升,這為根據(jù)情緒類別進(jìn)行新聞推薦提供了有效的依據(jù)。與上述方法實(shí)施例相對(duì)應(yīng),本申請實(shí)施例還提供一種新聞分類系統(tǒng),其結(jié)構(gòu)示意圖請參閱圖3所示,可以包括:構(gòu)建模塊11、分類模塊12、判定模塊13和統(tǒng)計(jì)模塊14。其中,構(gòu)建模塊11,用于預(yù)先構(gòu)建不同情緒對(duì)應(yīng)的基分類器。該分類器用于判定待分類新聞所含有的情緒,并且每個(gè)所述基分類器對(duì)應(yīng)一種情緒。需要說明的一點(diǎn)是:不同情緒對(duì)應(yīng)的基分類器在進(jìn)行新聞分類之前由構(gòu)建模塊11構(gòu)建,并且在構(gòu)建完成后可以一直使用基分類器對(duì)每個(gè)待分類新聞進(jìn)行處理,而無需重復(fù)構(gòu)建基分類器。分類模塊12,用于使用預(yù)先構(gòu)建的每個(gè)基分類器對(duì)待分類新聞進(jìn)行分類,得到每個(gè)基分類器的分類結(jié)果。判定模塊13,用于依據(jù)每個(gè)基分類器的分類結(jié)果,分別對(duì)所述待分類新聞進(jìn)行情緒判定,得到判定結(jié)果,其中情緒判定是指判定所述待分類新聞是否含有用戶看到所述待分類新聞時(shí)產(chǎn)生的情緒,所述判定結(jié)果表明所述待分類新聞含有的情緒。在本實(shí)施例中,分類結(jié)果包括第一后驗(yàn)概率和第二后驗(yàn)概率,其中第一后驗(yàn)概率是指所述待分類新聞含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率,第二后驗(yàn)概率是指所述待分類新聞不含有所述基分類器對(duì)應(yīng)的情緒的后驗(yàn)概率。第一后驗(yàn)概率和第二后驗(yàn)概率的計(jì)算公式以及具體計(jì)算過程可以參閱步驟102中的闡述,對(duì)此本實(shí)施例不再加以闡述。相對(duì)應(yīng)的,判定模塊可以包括:比較單元和判定單元。其中比較單元,用于比較所述第一后驗(yàn)概率和所述第二后驗(yàn)概率。判定單元,用于當(dāng)所述第一后驗(yàn)概率大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒;以及用于當(dāng)所述第一后驗(yàn)概率不大于所述第二后驗(yàn)概率時(shí),判定結(jié)果是所述待分類新聞不含有所述第一后驗(yàn)概率對(duì)應(yīng)的情緒。統(tǒng)計(jì)模塊14,用于使用所述判定結(jié)果,得到所述待分類新聞含有的所有情緒類別。由于不同用戶看到同一個(gè)待分類新聞可以產(chǎn)生相同的情緒,也可以產(chǎn)生不同的情緒,所以待分類新聞經(jīng)過本實(shí)施例提供的新聞分類系統(tǒng)后可能得到一種情緒,也可能得到多種情緒。在本實(shí)施例中,判定結(jié)果用于表明待分類新聞含有的情緒。當(dāng)?shù)玫脚卸ńY(jié)果后,對(duì)判定結(jié)果進(jìn)行統(tǒng)計(jì)即可以得到待分類新聞含有的所有情緒類別和含有的情緒個(gè)數(shù)。當(dāng)然,在得到待分類新聞的所有情緒類別后,還可以依據(jù)情緒類別將待分類新聞劃分至不同情緒類別的數(shù)據(jù)庫中。此外,用戶在觀看新聞時(shí),還可以將劃分到數(shù)據(jù)庫中的待分類新聞推薦給用戶觀看,其中在推薦新聞時(shí),可以根據(jù)用戶選擇的情緒類別進(jìn)行推薦。在本實(shí)施例中,用戶選擇的情緒類別是用戶通過點(diǎn)擊遙控器中的“情緒”按鈕時(shí),“情緒”按鈕所對(duì)應(yīng)的情緒。本實(shí)施例提供的新聞分類系統(tǒng)可以依據(jù)基分類器對(duì)待分類新聞的分類結(jié)果,對(duì)待分類新聞進(jìn)行情緒判定,得到待分類新聞含有的所有情緒類別。當(dāng)獲知待分類新聞含有的所有情緒類別后,可以將所述待分類新聞劃分到其含有的所有情緒類別對(duì)應(yīng)的新聞中,實(shí)現(xiàn)依據(jù)情緒對(duì)新聞劃分。當(dāng)然,本申請?zhí)峁┑男侣劮诸愊到y(tǒng)還可以應(yīng)用到新聞推薦系統(tǒng)中,在依據(jù)情緒對(duì)待分類新聞進(jìn)行劃分后,進(jìn)一步依據(jù)不同情緒推薦新聞,使推薦給用戶的新聞更能滿足用戶當(dāng)前的需求。本實(shí)施例提供的新聞分類系統(tǒng)中構(gòu)建模塊的結(jié)構(gòu)示意圖請參閱圖4所示,可以包括:采集單元111、第一獲取單元112、第二獲取單元113和分類單元114。采集單元111,用于采集已獲知情緒類別的預(yù)設(shè)數(shù)量的新聞。在本實(shí)施例中,新聞的情緒可以是每個(gè)用戶看到同一個(gè)新聞時(shí)產(chǎn)生的情緒,當(dāng)然也可以統(tǒng)計(jì)看到同一個(gè)新聞時(shí)產(chǎn)生相同情緒的用戶數(shù)量占看到該新聞的所有用戶數(shù)量的比例,當(dāng)該比例不小于預(yù)設(shè)比例時(shí),判定該新聞含有此種情緒,當(dāng)該比例小于預(yù)設(shè)比例時(shí),判定該新聞不含有此種情緒。其中預(yù)設(shè)比例以及預(yù)設(shè)數(shù)量可以根據(jù)不同應(yīng)用設(shè)定不同取值,對(duì)此本實(shí)施例不加以限制。第一獲取單元112,用于從所述預(yù)設(shè)數(shù)量的新聞中,得到含有一種情緒類別的新聞。當(dāng)新聞含有一種情緒類別時(shí),第一獲取單元112可以直接得到該新聞。當(dāng)新聞含有至少兩種情緒類別時(shí),第一獲取單元112需要對(duì)其進(jìn)行單一化處理,在單一化處理后,得到的新聞僅含有一種情緒。其中單一化處理是指僅包括新聞所含有的一種情緒。第二獲取單元113,用于將含有相同情緒類別的所有新聞作為一個(gè)基分類器的訓(xùn)練集合。分類單元114,用于對(duì)所述訓(xùn)練集合采用機(jī)器學(xué)習(xí)分類系統(tǒng)進(jìn)行分類,得到基分類器,其中所述基分類器對(duì)應(yīng)的情緒類別是所述訓(xùn)練集合對(duì)應(yīng)的情緒類別。在本實(shí)施例中,機(jī)器學(xué)習(xí)方法優(yōu)選采用最大熵分類,具體請參閱步驟204中的說明,對(duì)此不再加以介紹。需要說明的是,本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。對(duì)于系統(tǒng)類實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)......”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。以上所述僅是本申請的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請?jiān)淼那疤嵯?,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本申請的保護(hù)范圍。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
赫章县| 灵璧县| 辉县市| 阿拉善右旗| 马尔康县| 寿阳县| 彭山县| 和林格尔县| 宁化县| 龙岩市| 自贡市| 张家口市| 贡觉县| 固安县| 缙云县| 民县| 五峰| 荔波县| 天全县| 青岛市| 宁远县| 莒南县| 左权县| 阳泉市| 临颍县| 共和县| 兴和县| 临潭县| 诸暨市| 湖口县| 广东省| 山阳县| 英吉沙县| 衢州市| 和硕县| 武山县| 云龙县| 海宁市| 朝阳市| 孝感市| 永仁县|