本發(fā)明涉及計算機應(yīng)用技術(shù)領(lǐng)域,特別是指一種基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法。
背景技術(shù):
近年來,互聯(lián)網(wǎng)已經(jīng)成為人們發(fā)表言論、查找信息以及進行信息交互的首選平臺,同時隨著互聯(lián)網(wǎng)廣告業(yè)、機器人對話系統(tǒng)以及網(wǎng)頁建設(shè)需求的日漸興起,需要在對網(wǎng)頁文本數(shù)據(jù)分析的基礎(chǔ)上,根據(jù)分析結(jié)果進行相關(guān)信息推薦,進而使得推薦的內(nèi)容能夠適應(yīng)用戶的需求。目前對于網(wǎng)頁信息推薦的方法大多都是利用歷史數(shù)據(jù)中的瀏覽記錄進行信息推薦,雖然這樣比較符合大數(shù)據(jù)分析的預(yù)測,但是并不能針對網(wǎng)頁文本數(shù)據(jù)對用戶實際產(chǎn)生的影響或者引起的興趣方面進行分析,因而無法正真把握用戶的實際需求,尤其是網(wǎng)頁文本數(shù)據(jù)對用戶情感方面的影響。因此,網(wǎng)頁文本數(shù)據(jù)的情感分類在互聯(lián)網(wǎng)廣告、機器人對話系統(tǒng)、個性化推薦等場景中,對提高用戶體驗方面有較大的幫助。
雖然,已有部分對于情感分類的研究結(jié)果,但是,一方面,目前針對網(wǎng)頁文本數(shù)據(jù)的情感分類都是對情感分類中的極性進行分類,例如好評、中評和差評;褒獎或貶低。這些情感分類是屬于用戶對文本的分類,與當(dāng)前用戶的情感狀態(tài)關(guān)系不大,導(dǎo)致多數(shù)情況下并不能夠引起瀏覽者的情感共鳴,也即很難影響用戶去觀看推薦的信息。另一方面,現(xiàn)有的分類算法多是采用監(jiān)督學(xué)習(xí)的方法,需要大量的訓(xùn)練語料,而這些訓(xùn)練語料和測試用的數(shù)據(jù)都是通過線下人工標(biāo)注的。這不僅會造成大量的人力財力的浪費,且不能夠適應(yīng)互聯(lián)網(wǎng)數(shù)據(jù)千變?nèi)f化的需求。此外,現(xiàn)有的分類算法不僅復(fù)雜度較高,計算量較大,不適合在線實時識別。而且單純根據(jù)人為判定的常規(guī)情感類別對網(wǎng)頁文本數(shù)據(jù)進行分類,并不能準(zhǔn)確把握網(wǎng)頁文本數(shù)據(jù)對用戶產(chǎn)生的影響。
因此,在實現(xiàn)本發(fā)明的過程中發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺陷:網(wǎng)頁推薦的指定信息并不能完全適應(yīng)用戶的需求,導(dǎo)致推薦的指定信息的點擊率不高;推薦信息大多數(shù)依據(jù)用戶的瀏覽記錄或者單純的對網(wǎng)頁文本信息的分析得到的,與用戶對指定信息的點擊的關(guān)聯(lián)性不高。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提出一種基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法,能夠適應(yīng)用戶需求并且提高推薦的指定信息的點擊率。
基于上述目的本發(fā)明提供的一種基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法,包括:
獲取當(dāng)前網(wǎng)頁文本數(shù)據(jù)中帶有情感傾向的情緒詞,提取所述情緒詞作為特征數(shù)據(jù),并根據(jù)提取出的所述情緒詞生成特征向量;
將所述特征向量輸入預(yù)先構(gòu)建的分類模型中,計算得到當(dāng)前網(wǎng)頁文本數(shù)據(jù)的情感類型;其中,所述分類模型是指預(yù)先基于網(wǎng)頁文本數(shù)據(jù)中的情感詞對網(wǎng)頁文本的情感傾向進行分類的數(shù)據(jù)計算模型,且所述分類模型采用的訓(xùn)練數(shù)據(jù)包括基于用戶對與網(wǎng)頁文本數(shù)據(jù)的情感類型匹配的指定信息的點擊率提高相關(guān)的網(wǎng)頁文本數(shù)據(jù);
根據(jù)所述網(wǎng)頁文本數(shù)據(jù)的情感類型,向當(dāng)前網(wǎng)頁推送與所述情感類型匹配的指定信息。
可選的,所述分類模型的構(gòu)建方法為:
通過標(biāo)注明顯帶有情緒傾向的文本數(shù)據(jù),訓(xùn)練得到一個初始分類模型;
利用所述初始分類模型對網(wǎng)頁文本數(shù)據(jù)進行情感傾向分類識別,初步判斷當(dāng)前網(wǎng)頁文本數(shù)據(jù)的情感類型;
根據(jù)判斷結(jié)果,向當(dāng)前網(wǎng)頁推送或者替換成與所述情感類型匹配的指定信息;
獲取用戶對當(dāng)前網(wǎng)頁指定信息的點擊率,判斷點擊率是否提高;
若點擊率提高,則將當(dāng)前網(wǎng)頁中的文本數(shù)據(jù)作為具有判斷結(jié)果中所述情感類型的訓(xùn)練數(shù)據(jù);
否則,將當(dāng)前網(wǎng)頁中的文本數(shù)據(jù)作為具有正常情緒的訓(xùn)練數(shù)據(jù)或者作為無效數(shù)據(jù);
根據(jù)獲取得到的訓(xùn)練數(shù)據(jù)對初始分類模型進行訓(xùn)練,得到最終的用于情感分類的分類模型。
可選的,所述分類模型包括第一分類模型和第二分類模型;
所述第一分類模型用于對正常情緒和非正常情緒進行分類;
所述第二分類模型用于對非正常情緒中更為細致的情緒類型進行分類。
可選的,所述非正常情緒包括:高興、憤怒和悲傷。
可選的,所述第一分類模型為SVM分類模型,所述第二分類模型為最大熵分類模型。
可選的,所述向當(dāng)前網(wǎng)頁推送與所述情感類型匹配的指定信息的步驟之后還包括:
獲取推送的指定信息的點擊率;
判斷所述指定信息的點擊率是否提高,若是,則將網(wǎng)頁文本的情感類型作為新的訓(xùn)練數(shù)據(jù)對分類模型進行再次訓(xùn)練;
否則,將網(wǎng)頁文本的情感類型作為正常情緒對分類模型進行再次訓(xùn)練或者將網(wǎng)頁文本作為無效數(shù)據(jù)。
可選的,所述根據(jù)提取出的所述情緒詞生成特征向量的步驟還包括:
根據(jù)已有的情感極性詞典,篩選出帶有情緒特征的詞作為情緒字典庫中的情緒詞;
獲取大量帶有明顯情緒的副詞、形容詞、名詞、動詞、標(biāo)點符號和圖標(biāo);
獲取特定詞組合以及特定詞組合所代表的情緒;
根據(jù)帶有情緒傾向的特定詞組合以及相關(guān)帶有情緒特征的情緒詞、副詞、形容詞、名詞、動詞、標(biāo)點符號和圖標(biāo)構(gòu)建情緒字典庫;
將當(dāng)前網(wǎng)頁文本數(shù)據(jù)中的文本進行分詞,根據(jù)所述情緒字典庫篩選出屬于情緒字典庫中的情緒詞,并記錄該情緒詞的位置信息,進而獲得當(dāng)前網(wǎng)頁文本數(shù)據(jù)中情緒詞的集合;
獲取當(dāng)前網(wǎng)頁文本數(shù)據(jù)中情緒詞出現(xiàn)的數(shù)量、情緒詞前后各n個詞以及該n個詞各自的詞性、情緒標(biāo)點符號的數(shù)量、情緒標(biāo)點符號前面n個詞和n個詞各自的詞性、情緒圖標(biāo)的數(shù)量、情緒圖標(biāo)前面n個詞和n個詞各自的詞性,按照預(yù)設(shè)的規(guī)則生成特征向量;其中,n為預(yù)先設(shè)定的情緒詞前后詞的數(shù)量。
可選的,所述按照預(yù)設(shè)的規(guī)則生成特征向量的步驟還包括:
針對不同的情緒詞、情緒標(biāo)點符號和情緒圖標(biāo)以及對應(yīng)的特定詞組合,根據(jù)所代表情緒傾向程度的不同,分別賦予不同的權(quán)重;
將情緒詞、情緒標(biāo)點符號和情緒圖標(biāo)以及對應(yīng)的特定詞組合所代表的情緒傾向分別與對應(yīng)的權(quán)重相乘,作為特征向量的組成部分。
可選的,獲取情緒詞前后預(yù)設(shè)數(shù)量的詞時,若遇到標(biāo)點符號就停止,將已獲取的詞與情緒詞進行組合。
可選的,n為2。
從上面所述可以看出,本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法通過將網(wǎng)頁文本數(shù)據(jù)中帶有情感傾向的情緒詞提取出來并生成相應(yīng)的特征向量,使得能夠依據(jù)情感詞對網(wǎng)頁文本數(shù)據(jù)進行情感分類。這樣,將會使得所述網(wǎng)頁文本數(shù)據(jù)的分類更加符合其對用戶或者瀏覽者情緒的影響,進而使得通過推送與這種方法分類得到的網(wǎng)頁文本數(shù)據(jù)的情感類型匹配的指定信息能夠更加適應(yīng)用戶的需求。同時,通過將情緒詞生成特征向量,使得不僅能夠考慮情緒詞對情感分類的影響,而且通過特征向量,使得情緒詞的組合也會對情感分類起到較大作用,最終使得對網(wǎng)頁文本數(shù)據(jù)的情感分類更為準(zhǔn)確。
此外,所述方法還通過將用戶對匹配的指定信息的點擊率提高的網(wǎng)頁文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練得到分類模型,使得分類模型的分類結(jié)果將會直接與用戶對指定信息的點擊率有關(guān),也即通過與所述分類模型分類得到的情感類型匹配的指定信息的進行推送后的點擊率將會提高。因此,所述基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法能夠適應(yīng)用戶需求,并且提高推薦的指定信息的點擊率,使得用戶需求、廣告主的利益及網(wǎng)絡(luò)平臺對用戶粘性三者之間得到有機的結(jié)合。
附圖說明
圖1為本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法的一個實施例的流程圖;
圖2為本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法中分類模型構(gòu)建方法的一個實施例的流程圖;
圖3為本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法的另一個實施例的流程圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
需要說明的是,本發(fā)明實施例中所有使用“第一”和“第二”的表述均是為了區(qū)分兩個相同名稱非相同的實體或者非相同的參量,可見“第一”“第二”僅為了表述的方便,不應(yīng)理解為對本發(fā)明實施例的限定,后續(xù)實施例對此不再一一說明。
本發(fā)明針對于目前具有海量信息交互的互聯(lián)網(wǎng)技術(shù)領(lǐng)域中,在進行海量數(shù)據(jù)交互的過程中將會產(chǎn)生大量含有情感信息的文本數(shù)據(jù)。例如:常見的網(wǎng)頁文本數(shù)據(jù)中含有較為明顯的情感傾向,從而使得閱讀者能夠通過閱讀這些網(wǎng)頁文本數(shù)據(jù)產(chǎn)生相應(yīng)的情緒變化。對這些海量的情感信息文本數(shù)據(jù),現(xiàn)有技術(shù)中大多數(shù)通過人工瀏覽的方法進行分類,導(dǎo)致分類的效率低、成本高、時效性差,已經(jīng)不能滿足實際應(yīng)用場景的要求。一方面,當(dāng)前依據(jù)文本數(shù)據(jù)的屬性進行分類的方法也較難與用戶行為關(guān)聯(lián)起來,另一方面,當(dāng)前在進行分類模型構(gòu)建時,所有的訓(xùn)練數(shù)據(jù)都是通過人工標(biāo)注的方法獲得的,這樣不僅費時費力,而且準(zhǔn)確性不高,尤其是在網(wǎng)頁信息推送相關(guān)領(lǐng)域。因此,本發(fā)明針對于上述問題,提出一種基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法,能夠克服現(xiàn)有技術(shù)中存在的問題。
在本發(fā)明一些可選的實施例中,參照圖1所示,為本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法的一個實施例的流程圖。所述基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法包括:
步驟101,獲取當(dāng)前網(wǎng)頁文本數(shù)據(jù)中帶有情感傾向的情緒詞,提取所述情緒詞作為特征數(shù)據(jù),并根據(jù)提取出的所述情緒詞生成特征向量;其中,說是當(dāng)前網(wǎng)頁文本數(shù)據(jù)是指當(dāng)前用戶正在瀏覽的網(wǎng)頁中包含的文本數(shù)據(jù)信息,包括網(wǎng)頁中的文字信息。所述帶有情感傾向的情緒詞是指通常在使用過程中具有明顯的情感類別傾向的一類詞語,例如:“哭泣”一詞通常都表示悲傷。所述情緒詞通常是預(yù)先構(gòu)建有一個情緒詞庫,然后將當(dāng)前詞語與情緒詞庫中的詞進行檢索或者比較,進而判斷當(dāng)前詞語是否屬于情緒詞,且?guī)в心姆N情感類型的傾向。所述情緒詞既可以是單獨的詞語,也可以是一個詞組。通過將情緒詞作為特征向量,使得對于當(dāng)前網(wǎng)頁文本數(shù)據(jù)的分類是基于情感類型的不同進行的分類,從而能夠更多的反應(yīng)用戶的情緒狀態(tài),也即基于當(dāng)前網(wǎng)頁文本數(shù)據(jù)中的情緒詞能夠一定程度上引起用戶的情緒反應(yīng),不僅能夠使得后續(xù)指定信息更加符合用戶的需求,而且這樣的情感共鳴也有利于用戶對指定信息的點擊。
步驟102,將所述特征向量輸入預(yù)先構(gòu)建的分類模型中,計算得到當(dāng)前網(wǎng)頁文本數(shù)據(jù)的情感類型;其中,所述分類模型是指預(yù)先基于網(wǎng)頁文本數(shù)據(jù)中的情感詞對網(wǎng)頁文本的情感傾向進行分類的數(shù)據(jù)計算模型,且所述分類模型采用的訓(xùn)練數(shù)據(jù)包括基于用戶對與網(wǎng)頁文本數(shù)據(jù)的情感類型匹配的指定信息的點擊率提高相關(guān)的網(wǎng)頁文本數(shù)據(jù);通過將基于用戶對指定信息的點擊相關(guān)的網(wǎng)頁文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),不僅節(jié)省了大量人工標(biāo)注的工作量,而且這樣訓(xùn)練出來的分類模型更加傾向于提高用戶對指定信息的點擊。
步驟103,根據(jù)所述網(wǎng)頁文本數(shù)據(jù)的情感類型,向當(dāng)前網(wǎng)頁推送與所述情感類型匹配的指定信息。其中,所述指定信息為已知其情感類型或者情感傾向的數(shù)據(jù)信息。既可以是創(chuàng)建指定信息時就明確其情感類型是否與哪種情感類型匹配,也可以根據(jù)指定信息中包含的文字信息、圖片信息、符號信息等等確定是否與哪種情感類型匹配。所述指定信息包括:廣告、網(wǎng)頁連接、新聞、視頻推薦等等。
由上述實施例可知,本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法通過將網(wǎng)頁文本數(shù)據(jù)中帶有情感傾向的情緒詞提取出來并生成相應(yīng)的特征向量,使得能夠依據(jù)情感詞對網(wǎng)頁文本數(shù)據(jù)進行情感分類,這樣,將會使得所述網(wǎng)頁文本數(shù)據(jù)的分類更加符合其對用戶或者瀏覽者情緒的影響,進而使得通過推送與這種方法分類得到的網(wǎng)頁文本數(shù)據(jù)的情感類型匹配的指定信息能夠更加適應(yīng)用戶的需求。同時,通過將情緒詞生成特征向量,使得不僅能夠考慮情緒詞對情感分類的影響,而且通過特征向量,使得情緒詞的組合也會對情感分類起到較大作用,最終使得對網(wǎng)頁文本數(shù)據(jù)的情感分類更為準(zhǔn)確。
此外,所述方法還通過將用戶對匹配的指定信息的點擊率提高的網(wǎng)頁文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)訓(xùn)練得到分類模型,使得分類模型的分類結(jié)果將會直接與用戶對指定信息的點擊率有關(guān),也即通過與所述分類模型分類得到的情感類型匹配的指定信息的進行推送后的點擊率將會提高。因此,所述基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法能夠適應(yīng)用戶需求并且提高推薦的指定信息的點擊率。
在本發(fā)明一些可選的實施例中,參照圖2所示,所述分類模型的構(gòu)建方法為:
步驟201,通過標(biāo)注明顯帶有情緒傾向的文本數(shù)據(jù),訓(xùn)練得到一個初始分類模型;其中,所述初始分類模型的構(gòu)建與常見的分類模型構(gòu)建方法原理相同。但是,所述初始分類模型所需要標(biāo)注的數(shù)據(jù)遠遠小于現(xiàn)有技術(shù)中模型構(gòu)建所需要的數(shù)據(jù)量。這是因為,互聯(lián)網(wǎng)數(shù)據(jù)千變?nèi)f化,初始分類模型所用的標(biāo)注數(shù)據(jù),只能反映了非常局限的數(shù)據(jù)情況,這樣的數(shù)據(jù)訓(xùn)練出的模型并不能對整個互聯(lián)網(wǎng)數(shù)據(jù)進行準(zhǔn)確的刻畫。因此,本發(fā)明中,用于訓(xùn)練的數(shù)據(jù)都是基于后續(xù)與用戶點擊操作相關(guān)的網(wǎng)頁文本數(shù)據(jù),而并不需要進行大量的人工標(biāo)注。這樣,既節(jié)省了人力,使得分類模型更能準(zhǔn)確的刻畫一些網(wǎng)絡(luò)數(shù)據(jù)。
步驟202,利用所述初始分類模型對網(wǎng)頁文本數(shù)據(jù)進行情感傾向分類識別,初步判斷當(dāng)前網(wǎng)頁文本數(shù)據(jù)的情感類型;
步驟203,根據(jù)判斷結(jié)果,向當(dāng)前網(wǎng)頁推送或者替換成與所述情感類型匹配的指定信息。這里的指定信息的數(shù)量可以為多個,且對于當(dāng)前網(wǎng)頁文本數(shù)據(jù)的判斷也可以分為不同的區(qū)域。例如:一個完整的網(wǎng)頁根據(jù)其功能區(qū)分為不同的區(qū)域,每個區(qū)域中均包含不同的網(wǎng)頁文本數(shù)據(jù),因此,可以針對不同區(qū)域單獨判斷并且分別推薦不同的指定信息。
步驟204,獲取用戶對當(dāng)前網(wǎng)頁指定信息的點擊率,判斷點擊率是否提高。其中,所述點擊率是否提高既可以是基于替換前后指定信息的點擊率進行判斷,也可以是依據(jù)設(shè)定的點擊率閾值進行判斷。進一步,所述點擊率判斷還包括設(shè)定一個提高閾值,當(dāng)替換后的點擊率大于替換之前的點擊率與提高閾值之和時,才表示點擊率提高,否則判斷點擊率處于正常波動范圍。
步驟205,若點擊率提高,則將當(dāng)前網(wǎng)頁中的文本數(shù)據(jù)作為具有判斷結(jié)果中所述情感類型的訓(xùn)練數(shù)據(jù);也即,將當(dāng)前網(wǎng)頁文本數(shù)據(jù)作為情感類型已知的文本數(shù)據(jù),且其情感類型為判斷結(jié)果中判定的情感類型。
步驟206,否則,將當(dāng)前網(wǎng)頁中的文本數(shù)據(jù)作為具有正常情緒的訓(xùn)練數(shù)據(jù)或者作為無效數(shù)據(jù);對于不能引起用戶點擊率提高的網(wǎng)頁文本數(shù)據(jù),既可以是作為具有正常情緒的訓(xùn)練數(shù)據(jù),也可以作為無效數(shù)據(jù),即該網(wǎng)頁文本數(shù)據(jù)不能作為訓(xùn)練數(shù)據(jù)。
步驟207,根據(jù)獲取得到的訓(xùn)練數(shù)據(jù)對初始分類模型進行訓(xùn)練,得到最終的用于情感分類的分類模型。其中,所述分類模型在使用過程中,是通過訓(xùn)練數(shù)據(jù)不斷的更新訓(xùn)練的,最終使分類模型更加符合實際的應(yīng)用場景。
這樣,根據(jù)用戶對指定信息的點擊操作來選取訓(xùn)練數(shù)據(jù),進而使得訓(xùn)練得到的分類模型將會提高用戶對指定信息的點擊,而且這樣獲得的訓(xùn)練數(shù)據(jù)不需要進行大量的人工標(biāo)注,節(jié)省了大量的人力物力。因此,通過上述構(gòu)建分類模型的方法既可以提高訓(xùn)練數(shù)據(jù)獲取的效率和準(zhǔn)確性,而且基于訓(xùn)練數(shù)據(jù)與用戶行為的相關(guān)性,使得得到的訓(xùn)練模型將會更加適應(yīng)用戶的實際需求。
在本發(fā)明一些可選的實施例中,所述分類模型包括第一分類模型和第二分類模型;所述第一分類模型用于對正常情緒和非正常情緒進行分類;所述第二分類模型用于對非正常情緒中更為細致的情緒類型進行分類。本發(fā)明采用兩個分類模型是因為網(wǎng)頁文本數(shù)據(jù)中還存在大量不帶有任何情感傾向的描述性數(shù)據(jù)信息,在情感分類中作為正常情緒,而基于正常情緒包含的內(nèi)容信息較為廣泛,因此,確定正常情緒將會需要更多的特征數(shù)據(jù),更多的訓(xùn)練數(shù)據(jù),若是采用同一個分類模型,將會使得訓(xùn)練數(shù)據(jù)偏移,最終導(dǎo)致分類錯誤率提高。因此,本發(fā)明基于正常情緒與其他情緒訓(xùn)練特點的不同,構(gòu)建兩個分類模型,先用一個分類模型區(qū)分網(wǎng)頁文本數(shù)據(jù)屬于正常情緒還是非正常情緒,然后在非正常情緒中進一步區(qū)分更為細致的情緒類別。這樣,能夠提高分類的效率和準(zhǔn)確性。
進一步,還可以設(shè)置更多的分類模型進行不同層次的分類。
在本發(fā)明一些可選的實施例中,所述非正常情緒包括:高興、憤怒和悲傷。
在本發(fā)明一些可選的實施例中,所述第一分類模型為SVM分類模型,所述第二分類模型為最大熵分類模型。針對不同類型情感類別進行區(qū)分的特點以及不同分類模型的特點,采用SVM分類模型區(qū)分正常情緒和非正常情緒,采用最大熵分類模型區(qū)分高興、憤怒和悲傷等更為細致的情感類型將會提高分類的效率和準(zhǔn)確性。
在本發(fā)明一些可選的實施例中,參照圖3所示,為本發(fā)明提供的基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法的另一個實施例的流程圖。所述基于網(wǎng)頁文本數(shù)據(jù)情感分類的指定信息推送方法包括:
步驟301,獲取當(dāng)前網(wǎng)頁文本數(shù)據(jù)中帶有情感傾向的情緒詞,提取所述情緒詞作為特征數(shù)據(jù),并根據(jù)提取出的所述情緒詞生成特征向量;
步驟302,將所述特征向量輸入預(yù)先構(gòu)建的分類模型中,計算得到當(dāng)前網(wǎng)頁文本數(shù)據(jù)的情感類型;
步驟303,根據(jù)所述網(wǎng)頁文本數(shù)據(jù)的情感類型,向當(dāng)前網(wǎng)頁推送與所述情感類型匹配的指定信息。
步驟304,獲取推送的指定信息的點擊率;
步驟305,判斷所述指定信息的點擊率是否提高,若是,則執(zhí)行步驟306,否則,執(zhí)行步驟307;
步驟306,將網(wǎng)頁文本的情感類型作為新的訓(xùn)練數(shù)據(jù)對分類模型進行再次訓(xùn)練;
步驟307,將網(wǎng)頁文本的情感類型作為正常情緒對分類模型進行再次訓(xùn)練或者將網(wǎng)頁文本作為無效數(shù)據(jù)。
這樣,通過利用后續(xù)網(wǎng)頁文本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)進一步對分類模型進行訓(xùn)練,使得分類模型能夠不斷的根據(jù)用戶的點擊結(jié)果進行分類的優(yōu)化和學(xué)習(xí),逐漸提高分類的準(zhǔn)確性和可靠性,也即使得分類模型越來越準(zhǔn)確,最終使得推薦的指定信息的點擊率提高更為準(zhǔn)確和可靠。
在本發(fā)明一些可選的實施例中,所述根據(jù)提取出的所述情緒詞生成特征向量的步驟還包括:
首先,根據(jù)已有的情感極性詞典,篩選出帶有情緒特征的詞作為情緒字典庫中的情緒詞;其中,所述情緒字典庫是基于本發(fā)明實施例中特征向量的特點而建立的,所述情緒字典庫用于篩選文本數(shù)據(jù)中的情緒詞。已有的情感極性詞典包括臺灣大學(xué)的NTUSD-簡體中文情感極性詞典。
其次,獲取大量帶有明顯情緒的副詞、形容詞、名詞、動詞、標(biāo)點符號和圖標(biāo);其中,這里獲取各類詞以及標(biāo)點符號、圖標(biāo)的途徑可以是所有已知能夠獲取的途徑,例如:網(wǎng)絡(luò)、教材等等。
最后,獲取特定詞組合以及特定詞組合所代表的情緒;例如兩個動詞組合+感嘆號通常表示憤怒,完成情緒字典的建立。
然后在情緒字典庫的基礎(chǔ)上,生成特征數(shù)據(jù),步驟如下:
將當(dāng)前網(wǎng)頁文本數(shù)據(jù)中的文本進行分詞,根據(jù)所述情緒字典庫篩選出屬于情緒字典庫中的情緒詞,并記錄該情緒詞的位置信息,進而獲得當(dāng)前網(wǎng)頁文本數(shù)據(jù)中情緒詞的集合;其中,需要依次判斷每一個詞是否在情緒字典庫里,如果存在,就記錄下來,同時記錄這個詞的在文本中的位置信息;否則,就跳過。這樣,就得到文本數(shù)據(jù)的情緒詞集合。
獲取當(dāng)前網(wǎng)頁文本數(shù)據(jù)中情緒詞出現(xiàn)的數(shù)量、情緒詞前后各n個詞以及該n個詞各自的詞性、情緒標(biāo)點符號的數(shù)量、情緒標(biāo)點符號前面n個詞和n個詞各自的詞性、情緒圖標(biāo)的數(shù)量、情緒圖標(biāo)前面n個詞和n個詞各自的詞性,按照預(yù)設(shè)的規(guī)則生成特征向量;其中,n為預(yù)先設(shè)定的情緒詞前后詞的數(shù)量。其中,所述情緒詞前后的詞、情緒標(biāo)點符號以及情緒圖標(biāo)前面的詞包括非情緒詞,而情緒詞、情緒標(biāo)點符號、情緒圖標(biāo)以及非情緒詞,經(jīng)過特定組合后,形成帶有情緒特征的詞組,如“開門開門!”,“走開走開!”,這些都是表示生氣情緒的正常動詞組合后構(gòu)成帶有情緒特征的詞組。這樣能夠進一步精確體現(xiàn)文本數(shù)據(jù)的特征。
優(yōu)選的,n取值為2。
將獲取的情緒詞、情緒標(biāo)點符號和情緒圖標(biāo)以及對應(yīng)的特定詞組合,按照預(yù)設(shè)的規(guī)則生成特征向量。
最后,情緒字典庫的構(gòu)建和更新,步驟如下:
首先,由于現(xiàn)有的情緒詞庫,通常都是對正負極性判斷的詞,不能直接使用。需要從中篩選出一些帶有明顯情緒的詞,寫入情緒詞庫。
其次,根據(jù)一些常見表示情緒的圖標(biāo)、標(biāo)點符號等,設(shè)計相應(yīng)的規(guī)則,篩選出一些詞,寫入情緒詞庫。
最后,根據(jù)系統(tǒng)的實際使用中,發(fā)現(xiàn)一些出現(xiàn)頻率比較的高且影響用戶的情緒的詞,寫入情緒詞庫,不斷的豐富情緒詞庫。這樣,通過對情緒詞的預(yù)先構(gòu)建情緒字典庫,使得對網(wǎng)頁文本數(shù)據(jù)中情緒詞的提取更為準(zhǔn)確,且構(gòu)建的情緒字典庫是通用的,也即構(gòu)建的情緒字典庫可以無限次使用。
在本發(fā)明一些可選的實施例中,所述按照預(yù)設(shè)的規(guī)則生成特征向量的步驟還包括:
針對不同的情緒詞、情緒標(biāo)點符號和情緒圖標(biāo)以及對應(yīng)的特定詞組合,根據(jù)所代表情緒傾向程度的不同,分別賦予不同的權(quán)重;
將情緒詞、情緒標(biāo)點符號和情緒圖標(biāo)以及對應(yīng)的特定詞組合所代表的情緒傾向分別與對應(yīng)的權(quán)重相乘,作為特征向量的組成部分。
通過對不同的情緒詞賦予不同的權(quán)重,使得能夠?qū)ν磺楦蓄悇e中的不同情緒詞進行區(qū)分,是的情感分類更為準(zhǔn)確。而且,基于不同情緒詞具有不同的值,即使同一個網(wǎng)頁文本數(shù)據(jù)中包含不同情感類型的情緒詞,也能夠準(zhǔn)確對其具有的情感類別傾向進行分類。
在本發(fā)明一些可選的實施例中,獲取情緒詞前后預(yù)設(shè)數(shù)量的詞時,若遇到標(biāo)點符號就停止,將已獲取的詞與情緒詞進行組合。例如:“辛辣味嗆得我直翻白眼,恨得牙根直發(fā)麻,手指骨節(jié)癢,想揍他一頓?!痹谶@個句子中,“白眼”、“恨”、“發(fā)麻”、“癢”、“揍”,是情感詞。情感詞為5個,加上各自前后面的2個詞,就能夠組成一個特征向量:“5,直翻白眼+副詞+動詞,恨得牙根+連詞+名詞,牙根直發(fā)麻+名詞+副詞,手指關(guān)節(jié)癢+名詞+名詞,想揍他一頓+動詞+人稱代詞+量詞”。而對于“恨”這個情感詞,前面是標(biāo)點符號“,”,所以,它對應(yīng)前面的2個特征詞就沒有,只有后面的2個特征詞,即為“恨得牙根”。
需要說明的是,本發(fā)明并不限于網(wǎng)頁文本數(shù)據(jù)中指定信息的推薦,也包括其他類型的具有文本數(shù)據(jù)多媒體上的信息推薦。
所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:以上任何實施例的討論僅為示例性的,并非旨在暗示本公開的范圍(包括權(quán)利要求)被限于這些例子;在本發(fā)明的思路下,以上實施例或者不同實施例中的技術(shù)特征之間也可以進行組合,步驟可以以任意順序?qū)崿F(xiàn),并存在如上所述的本發(fā)明的不同方面的許多其它變化,為了簡明它們沒有在細節(jié)中提供。
另外,為簡化說明和討論,并且為了不會使本發(fā)明難以理解,在所提供的附圖中可以示出或可以不示出與集成電路(IC)芯片和其它部件的公知的電源/接地連接。此外,可以以框圖的形式示出裝置,以便避免使本發(fā)明難以理解,并且這也考慮了以下事實,即關(guān)于這些框圖裝置的實施方式的細節(jié)是高度取決于將要實施本發(fā)明的平臺的(即,這些細節(jié)應(yīng)當(dāng)完全處于本領(lǐng)域技術(shù)人員的理解范圍內(nèi))。在闡述了具體細節(jié)(例如,電路)以描述本發(fā)明的示例性實施例的情況下,對本領(lǐng)域技術(shù)人員來說顯而易見的是,可以在沒有這些具體細節(jié)的情況下或者這些具體細節(jié)有變化的情況下實施本發(fā)明。因此,這些描述應(yīng)被認為是說明性的而不是限制性的。
盡管已經(jīng)結(jié)合了本發(fā)明的具體實施例對本發(fā)明進行了描述,但是根據(jù)前面的描述,這些實施例的很多替換、修改和變型對本領(lǐng)域普通技術(shù)人員來說將是顯而易見的。例如,其它存儲器架構(gòu)(例如,動態(tài)RAM(DRAM))可以使用所討論的實施例。
本發(fā)明的實施例旨在涵蓋落入所附權(quán)利要求的寬泛范圍之內(nèi)的所有這樣的替換、修改和變型。因此,凡在本發(fā)明的精神和原則之內(nèi),所做的任何省略、修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。