欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于微博文本的人物性格刻畫方法與流程

文檔序號:11950226閱讀:390來源:國知局
一種基于微博文本的人物性格刻畫方法與流程

本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域,涉及用戶畫像技術(shù),具體是一種基于微博文本的人物性格刻畫方法。



背景技術(shù):

隨著網(wǎng)民規(guī)模的不斷增大,社會化媒體也得到迅速發(fā)展。以論壇、微博、微信為代表的社會化媒體逐漸滲透到全民生活和工作的每一個層面,對人們的行為模式、心理模式產(chǎn)生了極為深遠(yuǎn)的影響。社會化媒體每天都會產(chǎn)生大量的短文本,在一定程度上反映人物的特征。通過刻畫人物的特征,人們一方面可以了解社會化媒體中人物的個人偏好,根據(jù)個人偏好,企業(yè)通過社會化媒體給相關(guān)群體推薦產(chǎn)品,增加企業(yè)的效益。另一方面,人們可以了解社會化媒體中,針對某一事件的意見領(lǐng)袖、輿論煽動者,以及一些潛在的具有巨大影響力的用戶的影響,這對政府相關(guān)部門的輿情監(jiān)控有著非常重要的作用。

刻畫人物性格是人物畫像的一方面,對社會化媒體輿情監(jiān)控、社會化媒體營銷等方面有著重要的作用,已經(jīng)成為當(dāng)前研究的重點(diǎn)。

現(xiàn)有技術(shù)都是使用傳統(tǒng)的實(shí)證研究方法來刻畫人物性格,如問卷調(diào)查、訪談等。傳統(tǒng)的實(shí)證研究需要投入大量的人力、物力、財力來分析人物性格,具有一定的局限性,主要體現(xiàn)在以下三個方面:1)傳統(tǒng)的實(shí)證方法需要經(jīng)過長時間的調(diào)查或訪談來采集數(shù)據(jù);2)通過調(diào)查或訪談采集的數(shù)據(jù)的可用性較低,存在大量的無效數(shù)據(jù);3)傳統(tǒng)的調(diào)查研究無法保證所采集數(shù)據(jù)的真實(shí)性。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對輿情監(jiān)控以及社會化營銷對人物性格刻畫的需求,為了解決傳統(tǒng)調(diào)查研究帶來的成本高、數(shù)據(jù)可用性低等困難,規(guī)避被調(diào)查者填寫不真實(shí)信息的情況,借助當(dāng)前普及的社會化媒體,提出了一種基于微博文本的人物性格刻畫方法。

具體步驟如下:

步驟一、針對某個用戶,利用情緒詞典對該用戶在某段時間內(nèi)發(fā)的每一條微博文本標(biāo)注情緒標(biāo)簽。

情緒詞典包括高興、生氣、悲傷、厭惡和焦慮五種情緒。

首先,計算每一條微博文本屬于某種情緒的權(quán)重w_sentiment;

計算如下:

<mrow> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </munder> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow>

w_s表示某條微博文本中的詞語word在情緒詞典中對應(yīng)的權(quán)重;詞語word是指情緒詞典中某種情緒包括的具體體現(xiàn)詞;count(word)表示該詞語word在某條微博文本中出現(xiàn)的頻數(shù)。

比較每一條微博文本在五類情緒下的權(quán)重,取權(quán)重最高的情緒作為該微博文本的情緒標(biāo)簽。

步驟二、根據(jù)情緒標(biāo)簽,統(tǒng)計該用戶每天沖動類和抑郁類情緒的數(shù)量;

沖動類包括生氣和厭惡兩種情緒,抑郁類包括悲傷和焦慮兩種情緒;

步驟三、根據(jù)該用戶沖動類和抑郁類情緒的數(shù)量,計算該用戶沖動類情緒的主導(dǎo)天數(shù)以及抑郁類情緒的主導(dǎo)天數(shù);

步驟301、計算該用戶沖動類和抑郁類情緒的微博數(shù)量之和,占該用戶當(dāng)天發(fā)的所有微博總數(shù)的比例;

步驟302、判斷步驟301的占比是否大于等于閾值R,如果是,進(jìn)入步驟303,否則,不做任何處理;

閾值R根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟303、將該用戶沖動類情緒占比與抑郁類情緒的占比作差;

步驟304、判斷得到的差值絕對值是否大于等于閾值M,如果是,進(jìn)入步驟305;否則,不做任何處理;

閾值M根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟305、判斷沖動類情緒占比是否大于抑郁類情緒占比,如果是,將該用戶沖動類情緒的天數(shù)累加1天;否則,將該用戶抑郁類情緒的天數(shù)累加1天。

步驟四、根據(jù)該用戶沖動類情緒的主導(dǎo)天數(shù)以及抑郁類情緒的主導(dǎo)天數(shù),從情緒特征角度對用戶進(jìn)行標(biāo)記;

具體為:對于沖動類情緒主導(dǎo)天數(shù)大于抑郁類情緒主導(dǎo)天數(shù)的情況,判斷沖動類情緒主導(dǎo)天數(shù)是否大于或等于閾值D,如果是,則標(biāo)記該用戶為“易沖動”;否則,標(biāo)記該用戶為“情緒穩(wěn)定”;

閾值D根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

對于抑郁類情緒主導(dǎo)天數(shù)大于沖動類情緒主導(dǎo)天數(shù)的情況,判斷抑郁類情緒主導(dǎo)天數(shù)是否大于或等于閾值D,如果是,則標(biāo)記該用戶為“易抑郁”,否則,則標(biāo)記該用戶為“情緒穩(wěn)定”。

當(dāng)沖動類情緒主導(dǎo)天數(shù)等于抑郁類情緒主導(dǎo)天數(shù),標(biāo)記該用戶為“情緒穩(wěn)定”。

步驟五、利用話題詞典對該用戶的所有微博文本進(jìn)行關(guān)注話題分類,并選擇該用戶的關(guān)注話題;

話題詞典有政治類、民生類、軍事類、娛樂類和體育類。

首先,計算用戶的微博文本所涉及各種類型的話題的權(quán)重公式w_topic,如下:

<mrow> <mi>w</mi> <mo>_</mo> <mi>t</mi> <mi>o</mi> <mi>p</mi> <mi>i</mi> <mi>c</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </munder> <mi>w</mi> <mo>_</mo> <mi>t</mi> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow>

w_t表示某個用戶在某段時間內(nèi)發(fā)布的所有微博文本中的詞語word在話題詞典中對應(yīng)的權(quán)重;

針對某個用戶,分別計算該用戶在某段時間內(nèi)發(fā)布的所有微博涉及的五種話題的權(quán)重,然后,對五種話題的權(quán)重進(jìn)行排序,取權(quán)重較高的前N個話題作為該用戶微博文本所關(guān)注的話題;N大于等于1,小于等于3。

步驟六、判斷該用戶選取的關(guān)注話題中,是否包括政治類和民生類,如果有,利用批判性詞典對該用戶進(jìn)行語言特征刻畫;否則,不做任何處理。

批判性詞典包括的詞語為表達(dá)諷刺、批評語氣的詞語。

具體為:統(tǒng)計該用戶在某段時間內(nèi)發(fā)布的所有微博文本,計算微博文本中出現(xiàn)的批判性詞典中包括的詞語,判斷出現(xiàn)不同詞語的個數(shù)是否大于或等于閾值K,如果是,將該用戶標(biāo)記為“批判型”,否則,將用戶標(biāo)記為“其他”。

閾值K根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟七、融合該用戶的情緒特征和語言特征刻畫該用戶的性格,得到該用戶的人物性格標(biāo)簽;

具體融合方法如下:

最終得到的人物性格標(biāo)簽有“急躁型”、“悲觀型”、“批判型”、“沖動型”、“抑郁型”和“穩(wěn)定型”。

本發(fā)明的優(yōu)點(diǎn)是:

1)、一種基于微博文本的人物性格刻畫方法,適用于對微博中人物性格特征刻畫和分析,在輿情監(jiān)控、人物屬性刻畫和信息傳播擴(kuò)散等領(lǐng)域有重要的應(yīng)用價值。

2)、一種基于微博文本的人物性格刻畫方法,具有高效性和易用性,能夠?qū)ηЪ壱?guī)模的人物進(jìn)行性格刻畫。

3)、一種基于微博文本的人物性格刻畫方法,能降低傳統(tǒng)調(diào)查研究在人力、物力、財力等方面的成本,而且能較好地規(guī)避調(diào)查信息不真實(shí)的情況。

附圖說明

圖1為本發(fā)明基于微博文本的人物性格刻畫方法的流程圖;

圖2是本發(fā)明計算用戶沖動類情緒以及抑郁類情緒的主導(dǎo)天數(shù)的流程圖。

具體實(shí)施方式

下面將結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)說明。

本發(fā)明研究基于微博文本的人物性格刻畫的用戶畫像技術(shù),考慮微博中人們的用語和用詞習(xí)慣,建立情緒和話題的詞典,從情緒和語言兩個角度對人物的性格特征進(jìn)行刻畫,再融合這兩個角度的特征得到人物的性格特征。首先對微博文本進(jìn)行情緒分類,以天為單位統(tǒng)計情緒的數(shù)量和波動特征,再根據(jù)這些特征從情緒角度刻畫人物性格。與此同時,根據(jù)話題詞典對人物的微博文本進(jìn)行話題分類,選取關(guān)注政治類和民生類話題的用戶;利用詞典對關(guān)注政治類和民生類話題的人物進(jìn)行語言特征的分析,以此刻畫人物性格。最后,綜合情緒和語言角度得到的性格,對人物的總體性格特征進(jìn)行刻畫。

如圖1所示,具體實(shí)施步驟如下:

步驟一、針對某個用戶,利用情緒詞典對該用戶在某段時間內(nèi)發(fā)的每一條微博文本標(biāo)注情緒標(biāo)簽。

情緒詞典主要包括高興、生氣、悲傷、厭惡和焦慮五種情緒。根據(jù)詞典對微博文本進(jìn)行情緒分類,主要是通過計算每一條微博文本屬于上述五類情緒的權(quán)重。該權(quán)重是某類情緒出現(xiàn)在文本中詞語的權(quán)重總和,每一條微博文本屬于某類情緒的權(quán)重w_sentiment,計算公式如下所示:

<mrow> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mi>i</mi> <mi>m</mi> <mi>e</mi> <mi>n</mi> <mi>t</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </munder> <mi>w</mi> <mo>_</mo> <mi>s</mi> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow>

其中,w_s表示某條微博文本中的詞語word在情緒詞典中對應(yīng)的權(quán)重,count(word)表示詞語word在某條微博文本中出現(xiàn)的頻數(shù)。

例如:表示高興情緒的詞語有:哈哈,呵呵,嘻嘻,開心等;

針對某條微博,根據(jù)“哈哈”在情緒詞典中對應(yīng)的權(quán)重w_s,與“哈哈”在該微博文本中出現(xiàn)的頻數(shù)相乘,同理分別計算“呵呵”“嘻嘻”和“開心”等詞,將每個詞語權(quán)重與頻數(shù)的乘積再相加,最終得到該微博文本屬于高興情緒的權(quán)重;

最后,比較每一條微博文本在這五類情緒下的權(quán)重,取權(quán)重最高的情緒作為該微博文本的情緒標(biāo)簽。

本步驟的偽代碼如下所示:

for weibo_text in所有微博:

for sentiment_type in[高興,生氣,悲傷,厭惡,焦慮]:

total_weight=∑w*count(word)

sentiment_type=max(total_weight);

步驟二、根據(jù)情緒標(biāo)簽,統(tǒng)計該用戶每天沖動類和抑郁類情緒的數(shù)量;

根據(jù)上一步驟情緒分類的結(jié)果,按人和時間為組織單位,計算每人每天沖動類和抑郁類情緒的數(shù)量;沖動類包括生氣和厭惡兩種情緒,抑郁類包括悲傷和焦慮兩種情緒。

步驟三、根據(jù)該用戶沖動類和抑郁類的數(shù)量,計算該用戶沖動類情緒的主導(dǎo)天數(shù)以及抑郁類情緒的主導(dǎo)天數(shù);

根據(jù)上一步驟統(tǒng)計的結(jié)果,比較沖動類和抑郁類情緒的數(shù)量,按人按天比較情緒的數(shù)量和波動性。

首先,比較沖動類和抑郁類情緒的數(shù)量之和與其他情緒的數(shù)量,用沖動類和抑郁類情緒的微博數(shù)量和該用戶當(dāng)天所發(fā)的微博總數(shù)之比來衡量。本步驟中設(shè)置一個閾值R,對于占比大于或等于閾值R的情況,再計算沖動類情緒和抑郁類情緒的數(shù)量占比的差值,如果該差值大于或等于閾值M,若沖動類情緒數(shù)量大于抑郁類情緒數(shù)量,則該用戶沖動類情緒的天數(shù)累加1天,若抑郁類情緒數(shù)量大于沖動類情緒數(shù)量,則該用戶抑郁類情緒的天數(shù)累加1天。如果占比小于閾值R或沖動類和抑郁類情緒數(shù)量差值小于閾值M,則不做任何處理。

如圖2所示,具體步驟如下:

步驟301、計算該用戶沖動類和抑郁類情緒的微博數(shù)量之和,占該用戶當(dāng)天發(fā)的所有微博總數(shù)的比例;

步驟302、判斷步驟301的占比是否大于等于閾值R,如果是,進(jìn)入步驟303,否則,不做任何處理;

閾值R根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟303、將該用戶沖動類情緒占比與抑郁類情緒的占比作差;

步驟304、判斷得到的差值絕對值是否大于等于閾值M,如果是,進(jìn)入步驟305;否則,不做任何處理;

閾值M根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟305、判斷沖動類情緒占比是否大于抑郁類情緒占比,如果是,將該用戶沖動類情緒的天數(shù)累加1天;否則,將該用戶抑郁類情緒的天數(shù)累加1天。

步驟四、根據(jù)該用戶沖動類情緒的主導(dǎo)天數(shù)以及抑郁類情緒的主導(dǎo)天數(shù),從情緒特征角度對用戶進(jìn)行標(biāo)記;

根據(jù)上一步驟計算出的結(jié)果,每一個用戶都有兩個特征值:一個是沖動類情緒主導(dǎo)天數(shù),另一個是抑郁類情緒主導(dǎo)天數(shù);根據(jù)情緒特征進(jìn)行情緒類性格刻畫。

本步驟中設(shè)置一個天數(shù)閾值D,對于沖動類情緒主導(dǎo)天數(shù)大于抑郁類情緒主導(dǎo)天數(shù)的情況,如果沖動類情緒主導(dǎo)天數(shù)大于或等于閾值D,則標(biāo)記該用戶為“易沖動”,否則,沖動類情緒主導(dǎo)天數(shù)小于閾值D,標(biāo)記該用戶為“情緒穩(wěn)定”;

對于抑郁類情緒主導(dǎo)天數(shù)大于沖動類情緒主導(dǎo)天數(shù)的情況,如果抑郁類情緒主導(dǎo)天數(shù)大于或等于閾值D,則標(biāo)記該用戶為“易抑郁”,否則,如果抑郁類情緒主導(dǎo)天數(shù)小于閾值D,則標(biāo)記該用戶為“情緒穩(wěn)定”。

當(dāng)沖動類情緒主導(dǎo)天數(shù)等于抑郁類情緒主導(dǎo)天數(shù),標(biāo)記該用戶為“情緒穩(wěn)定”。

本步驟從情緒特征角度將每個用戶分為“易沖動”、“易抑郁”和“情緒穩(wěn)定”三種性格特征。

步驟五、利用話題詞典對該用戶的所有微博文本進(jìn)行關(guān)注話題分類,并選擇該用戶的關(guān)注話題;

根據(jù)話題詞典對關(guān)注話題分類:政治類、民生類、軍事類、娛樂類和體育類。

以用戶為單位,統(tǒng)計該用戶微博文本中出現(xiàn)的各類關(guān)注話題的詞語;

每個用戶關(guān)注各種類型的話題的權(quán)重w_topic計算公式如下:

<mrow> <mi>w</mi> <mo>_</mo> <mi>t</mi> <mi>o</mi> <mi>p</mi> <mi>i</mi> <mi>c</mi> <mo>=</mo> <munder> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> </mrow> </munder> <mi>w</mi> <mo>_</mo> <mi>t</mi> <mo>*</mo> <mi>c</mi> <mi>o</mi> <mi>u</mi> <mi>n</mi> <mi>t</mi> <mrow> <mo>(</mo> <mi>w</mi> <mi>o</mi> <mi>r</mi> <mi>d</mi> <mo>)</mo> </mrow> </mrow>

w_t表示某個用戶在某段時間內(nèi)發(fā)布的所有微博文本中的詞語word在話題詞典中對應(yīng)的權(quán)重;

例如:表示民生類的詞語有:衣、食、住、行、就業(yè)、娛樂、家庭、社團(tuán)、公司、旅游等;

針對某個用戶在某段時間內(nèi)發(fā)布的所有微博,根據(jù)“衣”在話題詞典中對應(yīng)的權(quán)重w_s,與在所有微博文本中出現(xiàn)的頻數(shù)相乘,同理分別計算其他詞語的權(quán)重與頻數(shù)的乘積,最后將所有乘積相加,得到民生類話題的權(quán)重;

針對某個用戶,對計算出的五類話題權(quán)重進(jìn)行排序,取權(quán)重較高的前N個話題類別作為該用戶的關(guān)注話題;N大于等于1,小于等于3。

步驟六、判斷該用戶選取的關(guān)注話題中,是否包括政治類和民生類,如果有,利用批判性詞典對該用戶進(jìn)行語言特征刻畫;否則,不做任何處理。

批判性詞典包括的詞語為:我暈、糊涂、無恥等表達(dá)諷刺、批評語氣的詞語。

根據(jù)上一步驟的結(jié)果,選出關(guān)注政治類、民生類的微博用戶,利用批判性詞典對該用戶進(jìn)行語言特征的分析。具體為:統(tǒng)計該用戶在某段時間內(nèi)發(fā)布的所有微博文本,計算微博文本中出現(xiàn)的批判性詞典中包括的不同詞語的數(shù)量,判斷出現(xiàn)不同詞語的數(shù)量是否大于或等于閾值K,如果是,將該用戶標(biāo)記為“批判型”,否則,將出現(xiàn)不同詞語數(shù)量小于閾值K的用戶標(biāo)記為“其他”。

例如:某段微博文本出現(xiàn)了2次“我暈”,3次“糊涂”和1次“無恥”,則該段微博文本出現(xiàn)不同的詞語數(shù)為3個;

閾值K根據(jù)專家經(jīng)驗(yàn)設(shè)定,或者根據(jù)微博文本數(shù)據(jù)的統(tǒng)計數(shù)量得到的經(jīng)驗(yàn)值。

步驟七:融合該用戶的情緒特征和語言特征刻畫該用戶的性格,得到該用戶的人物性格標(biāo)簽;

本步驟是將根據(jù)情緒特征和語言特征刻畫的人物性格結(jié)果進(jìn)行融合。采用的組合方法如下表所示。

最終得到的人物性格標(biāo)簽有“急躁型”、“悲觀型”、“批判型”、“沖動型”、“抑郁型”、“穩(wěn)定型”。

本發(fā)明鑒于微博文本的口語化、實(shí)時性等特征,利用通過微博文本學(xué)習(xí)得到的詞典,對人物所發(fā)的微博文本進(jìn)行情緒分類,并根據(jù)情緒數(shù)量和波動特征對人物性格進(jìn)行刻畫。同時,對人物關(guān)注的話題進(jìn)行劃分,并根據(jù)人物關(guān)注的話題對人物性格進(jìn)行刻畫。最后,融合情緒特征和語言特征兩個維度的結(jié)果刻畫人物性格??紤]人物在微博文本中的用語習(xí)慣,從詞典角度出發(fā),考慮人物的情緒和關(guān)注的話題,對千級規(guī)模的人物進(jìn)行性格刻畫,具有高效性、魯棒性和易用性等特點(diǎn)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
防城港市| 蚌埠市| 厦门市| 泽库县| 白朗县| 望奎县| 开原市| 鄱阳县| 邓州市| 耒阳市| 德令哈市| 年辖:市辖区| 普陀区| 佛冈县| 宜都市| 阳江市| 扶绥县| 鄂州市| 岳普湖县| 溧阳市| 广水市| 从江县| 吉林省| 九江市| 正阳县| 宁远县| 察哈| 霸州市| 武威市| 武乡县| 漳州市| 鄂托克前旗| 全南县| 马龙县| 沂水县| 东明县| 于田县| 阿城市| 定结县| 澄迈县| 库尔勒市|