本發(fā)明涉及智能算法和情感計(jì)算領(lǐng)域,尤其是一種基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法。
背景技術(shù):
在突發(fā)事件(如自然災(zāi)害、工業(yè)技術(shù)災(zāi)難)中,人們往往會(huì)采取一系列行為來(lái)應(yīng)對(duì)、抵御突發(fā)事件帶來(lái)的危害影響。其中,情緒狀態(tài)對(duì)人們的行為有重要影響。例如,Goltz發(fā)現(xiàn)在地震中恐懼情緒較高的人群,或者表達(dá)了強(qiáng)烈意愿想與其他人結(jié)伴的人群更有可能逃離災(zāi)區(qū)。從社會(huì)心理學(xué)角度來(lái)看,雖然恐慌情緒相比其他情緒出現(xiàn)的概率低,但恐慌情緒及其造成的行為在突發(fā)事件中帶來(lái)的次生危害尤為嚴(yán)重。雖然在2002年,美國(guó)當(dāng)代災(zāi)難研究中心負(fù)責(zé)人Quaranteli表示,未來(lái)集體恐慌的概念作為社會(huì)學(xué)中的技術(shù)術(shù)語(yǔ)可能會(huì)消失,然而,新的通信平臺(tái)和交流渠道(如社交網(wǎng)絡(luò)、災(zāi)難實(shí)時(shí)畫面直播等)會(huì)擴(kuò)大現(xiàn)代社會(huì)中突發(fā)事件的影響范圍,事件的不確定性級(jí)別將引發(fā)情緒從焦慮到恐慌的轉(zhuǎn)移,進(jìn)而增加導(dǎo)致集體恐慌的風(fēng)險(xiǎn)。例如,2011年日本核危機(jī)時(shí)美國(guó)西海岸和中國(guó)東南沿海爆發(fā)了恐慌性購(gòu)買碘伏和碘鹽的熱潮。因此,許多研究者致力于研究人類對(duì)突發(fā)事件的情緒反應(yīng)動(dòng)力學(xué)。
傳統(tǒng)社會(huì)科學(xué)通常采用采訪和問卷調(diào)查的方式研究人們對(duì)突發(fā)事件的反應(yīng),但這類方式的缺陷在于采訪或問卷通常無(wú)法囊括一些可能直接反應(yīng)人們情緒的私人問題。隨著信息技術(shù)的進(jìn)步,人們?cè)絹?lái)越多的使用社交媒體(如博客,Twitter)與家人朋友表達(dá)和交流思想。一方面救援機(jī)構(gòu)可以通過(guò)社交媒體監(jiān)測(cè)災(zāi)區(qū)和未受影響地區(qū)人們的情緒反應(yīng),另一方面救援機(jī)構(gòu)也可以通過(guò)社交媒體發(fā)布最新的情況報(bào)道,提高信息發(fā)布速度,降低事件不確定性對(duì)人們的情緒影 響。因此,網(wǎng)絡(luò)新聞和社交媒體提供給我們新的機(jī)會(huì)和角度來(lái)監(jiān)測(cè)突發(fā)事件下人們的情緒反應(yīng)。隨著在線媒體被愈發(fā)廣泛的運(yùn)用,社會(huì)計(jì)算機(jī)科學(xué)領(lǐng)域?yàn)榱酥С滞话l(fā)事件管理,提出了一些從社會(huì)行為中提取有價(jià)值的信息和知識(shí)的計(jì)算方法,比如情感計(jì)算、意見挖掘和事件監(jiān)測(cè)。
通過(guò)在線媒體監(jiān)測(cè)人們對(duì)突發(fā)事件的反應(yīng)有兩種類型的方法,分別是基于內(nèi)容的分析方法和基于關(guān)鍵詞的分析方法?;趦?nèi)容的分析是一種基于人工分析的定性分析方法,根據(jù)不同的編碼方案,如RIAS(包含14個(gè)類型)或者泰勒的IUE模型(包含8個(gè)類型)對(duì)文本分類。利用這些方法,Meckel等人分析了2010年美國(guó)墨西哥灣石油泄露的相關(guān)報(bào)道,他們發(fā)現(xiàn)傳統(tǒng)的媒體更多的關(guān)注政治新聞和事實(shí),然而社會(huì)媒體傾向于報(bào)道謠言和人們感興趣的故事。Oh和Bollen等人也分別監(jiān)測(cè)了在股票危機(jī)和海地地震中人類的情感變化。但是我們發(fā)現(xiàn),盡管基于內(nèi)容的分析方法在社會(huì)科學(xué)中有較好的理論基礎(chǔ),但一些局限性仍限制了它的廣泛應(yīng)用:(1)盡管編碼員受過(guò)良好的訓(xùn)練,但對(duì)某些文本,編碼員的評(píng)判意見無(wú)法統(tǒng)一;(2)多個(gè)編碼員評(píng)估一篇文章導(dǎo)致人力資源浪費(fèi),并由于需要協(xié)商分歧而造成耗時(shí)較長(zhǎng);(3)編碼員的情緒對(duì)評(píng)估結(jié)果有一定影響,特別是在災(zāi)難事件中閱讀悲傷消息時(shí)影響尤為嚴(yán)重。
為了進(jìn)行實(shí)時(shí)分析,研究者提出了一些計(jì)算機(jī)輔助方法來(lái)監(jiān)測(cè)人們對(duì)突發(fā)事件的反應(yīng)。最有效的一種方法就是基于關(guān)鍵詞的分析。SATO等人通過(guò)在線新聞媒體比較了關(guān)鍵詞隨時(shí)間變化特征。他們發(fā)現(xiàn)在地震的不同階段人們有著不同的行為活動(dòng),如前100小時(shí)聚焦于拯救生命,而1000小時(shí)后更多著眼于重建工作。然而,由于人們會(huì)用不同情感詞語(yǔ)去描述同一個(gè)事件,我們無(wú)法僅僅基于少量的人工選擇的詞語(yǔ)來(lái)描述人們的情感反應(yīng)。同時(shí)有研究發(fā)現(xiàn),基于關(guān)鍵詞的分析僅僅提供了人們情感的宏觀反應(yīng),而無(wú)法從微觀上解釋人們情感變化到底是由哪些子事件引起。除此之外,新聞報(bào)道中的一些不相關(guān)內(nèi)容也會(huì)影響情感監(jiān)測(cè)結(jié)果的質(zhì)量,函待進(jìn)一步解決。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供了基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法,用以解決上述技術(shù)問題。
本發(fā)明的基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法,包括下列步驟:S1、從相應(yīng)媒介提取事件相關(guān)的新聞文章、報(bào)道以及微博信息,并將事件相關(guān)的數(shù)據(jù)以天數(shù)為單位分別建立文件夾;S2、為每個(gè)所述的文件夾分別構(gòu)建單詞矩陣;S3、基于所述的單詞矩陣,構(gòu)建聚類非對(duì)稱相似矩陣;S4、基于所述的聚類非對(duì)稱相似矩陣,將單詞的小集群合并成大集群,進(jìn)而將單詞矩陣中的詞匯劃分成不同集群;S5、基于所述的詞匯集群劃分,利用情感計(jì)算領(lǐng)域的LIWC詞典進(jìn)行情緒監(jiān)測(cè),挖掘不同集群內(nèi)用戶行為和情緒變化原因。
其中,步驟S1中所述的文件夾以Di表示,其中i∈[1,maxD],maxD表示文件夾總數(shù);每個(gè)Di包括當(dāng)天的文章fij,則Di={fil,...,fij},其中j∈[1,maxF(Di)],maxF(Di)表示Di中文章總數(shù)。
其中,步驟S2中所述的單詞矩陣以Mi表示,步驟S2具體包括:S21、基于停用詞列表,從Di中移除冗余單詞;S22、Di中剩余的單詞形成矩陣Mi[NDi][NDi],其中NDi表示移除冗余單詞后,不同單詞的總數(shù);S23、計(jì)算Mi中的同現(xiàn)詞;對(duì)于Di中的每一篇文章fij,如果兩個(gè)詞出現(xiàn)在同一句中,則通過(guò)下述公式計(jì)算Mi中的同現(xiàn)詞:Mi[x][y]++;Mi[x][x]++;Mi[y][y]++。
其中,步驟S3中非對(duì)稱相似矩陣定義為:其中α表示系數(shù)參數(shù)。
其中,步驟S4中通過(guò)下述公式將單詞的小集群合并成大集群: 其中,Ckl表示連接集群Ck和集群Cl單詞的邊緣部分,且通過(guò)循環(huán)計(jì)算,將小集群合并成大集群使Q值最大化。
其中,步驟S4中,基于矩陣每一個(gè)單詞都有一個(gè)集群ID,被分到不同的集群Ck,從而獲得描述同一事件的不同單詞。
其中,步驟S4執(zhí)行后,Di進(jìn)一步表示為{Ci1,...,Cip},即第i天有p個(gè)集群,其中描述同一情節(jié)的相關(guān)性大的詞將被聚集在一起形成一個(gè)集群。
其中,步驟S5中,通過(guò)LIWC詞典計(jì)算特定類型的情感詞數(shù)量,或者每個(gè)Di中根據(jù)LIWC詞典規(guī)定的特定類型情感詞和同一類型中所有情感詞的比率,反映了人們對(duì)一個(gè)突發(fā)事件的情緒反應(yīng)。
本發(fā)明的基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法與現(xiàn)有技術(shù)相比,優(yōu)勢(shì)主要在于以下兩點(diǎn):(1)利用聚類技術(shù),不僅可以去除干擾詞匯的影響,還可以進(jìn)一步劃分為子事件(subevents,episodes),從而分析用戶行為變化的具體原因;(2)實(shí)現(xiàn)在線媒體實(shí)時(shí)監(jiān)測(cè)。
【附圖說(shuō)明】
圖1是本發(fā)明實(shí)施例的方法步驟流程圖;
圖2以2011年3月日本地震事件為例,展示從BBC和ReliefWeb網(wǎng)站監(jiān)測(cè)的(a)每天關(guān)于日本地震事件文章總數(shù)、(b)每天的詞匯總數(shù)、(c)每天文章的平均詞匯數(shù)、(d)刪除停用詞后剩下的詞匯總數(shù);
圖3(a)是2011年3月日本地震事件發(fā)生時(shí)從Twitter中監(jiān)測(cè)的每天推文數(shù)量;(b)2009年1月海地地震發(fā)生時(shí)從ReliefWeb中監(jiān)測(cè)的每天的災(zāi)情信息報(bào)道數(shù)量;(c)是2009年4月至5月H1N1流感事件期間從ReliefWeb中監(jiān)測(cè)的新聞報(bào)道數(shù)量。在4月份該危機(jī)發(fā)生后,報(bào)道數(shù)迎來(lái)了爆發(fā)性增長(zhǎng);
圖4是從BBC、ReliefWeb和Twitter三種不同媒體中監(jiān)測(cè)的2011年3月日本地震期間正向和負(fù)向情緒的動(dòng)態(tài)變化情況。(a)(c)圖表明無(wú)論是傳統(tǒng)的新聞媒體還是新興的社交媒體,人們都是負(fù)向情緒占主導(dǎo)地位,因此會(huì)誘發(fā)一系列非理智行為。而(b)圖表明ReliefWeb發(fā)布的信息中,正向情緒占主導(dǎo),這是由ReliefWeb媒體的救援職能決定的,其通過(guò)一系列積極主動(dòng)的救災(zāi)行為緩解突發(fā)事件的影響;
圖5是2011年3月日本地震期間根據(jù)LIWC字典情緒詞分類展示不同媒體(BBC、ReliefWeb和Twitter)中負(fù)面情緒中的三個(gè)子類型情緒(恐懼焦慮、悲 傷、憤怒)動(dòng)態(tài)變化情況。根據(jù)現(xiàn)代心理學(xué)理論:悲傷(Sad)情緒屬于一級(jí)情緒,是人們面對(duì)突發(fā)事件時(shí)的本能反應(yīng),而恐懼焦慮(Anxiety)和憤怒(Anger)情緒則屬于二級(jí)情緒,其中憤怒(Anger)情緒是驅(qū)使人們采取行動(dòng)控制威脅情況以及克服所遇到困難的能量源泉;而恐懼焦慮(Anxiety)情緒保護(hù)人們免受潛在的危險(xiǎn),驅(qū)使人們采取即刻的保護(hù)行動(dòng)來(lái)逃避這些危害。不同于圖(a)(b),突發(fā)事件期間人們通過(guò)發(fā)布和轉(zhuǎn)發(fā)救援信息相互支持,輔助開展災(zāi)害的救援工作,因此圖(c)中代表克服困難的憤怒(Anger)情緒占主導(dǎo)地位。雖然圖5展示了情緒動(dòng)態(tài)變化情況,但從圖中很難解釋哪一個(gè)子事件(如地震、海嘯、核泄露危機(jī))影響了人群情緒反應(yīng)的變化,也就是說(shuō),基于整個(gè)新聞報(bào)道的內(nèi)容,我們難以捕捉到在某個(gè)事件中是什么影響了人群的情緒反應(yīng);
圖6是2011年3月日本地震期間根據(jù)LIWC字典分類展示Twitter中感知反應(yīng)(視覺、聽覺和感覺)和社會(huì)關(guān)注(朋友、家庭和人類)變化情況。(a)表示在帶有感知詞語(yǔ)的推文中,大部分信息包含聽覺(Hear)詞語(yǔ)而非視覺詞語(yǔ),這表明突發(fā)事件過(guò)程中第三方信息是主要信息來(lái)源。(b)表明人群在突發(fā)事件中更關(guān)注全社會(huì)的安全問題,而非僅僅家人、朋友;
圖7是根據(jù)ReliefWeb報(bào)道監(jiān)測(cè)到的人們?cè)诓煌录腥N負(fù)向情緒(恐懼焦慮、悲傷和憤怒)的變化,分別是:(a)2011年3月日本地震事件,(b)2010年1月海地地震事件,(c)2009年4月至5月期間H1N1流感事件。圖(a)(b)表明在導(dǎo)致大規(guī)模人員傷亡的突發(fā)自然災(zāi)害面前,悲傷情緒一直占據(jù)主導(dǎo)地位。而圖(c)表明在突發(fā)生物安全危害事件中,代表逃避危險(xiǎn)的恐懼焦慮情緒占據(jù)了最高的比例,而悲傷情緒相比自然災(zāi)害事件比例較低且走勢(shì)平緩,這一方面是由于在突發(fā)生物安全危害事件中死亡人數(shù)比突發(fā)自然災(zāi)害低,另一方面是由于人們對(duì)未知突發(fā)生物安全危害事件的恐慌程度高,想即刻采取保護(hù)行動(dòng)來(lái)逃避其所帶來(lái)的潛在危害;
圖8是根據(jù)2011年3月11日日本地震時(shí)BBC新聞產(chǎn)生的聚類層次結(jié)構(gòu)圖,其中含有11個(gè)子類集群(即從D1到D11)。其中一些不相關(guān)事件分別被聚集在單獨(dú)的子類集群中,例如“菅直人總理的非法政治捐贈(zèng)”和“倫敦舉辦奧林匹亞運(yùn) 動(dòng)會(huì)”事件。為了精確獲取人群情緒變化的原因,我們監(jiān)測(cè)并比較了每天同一子類集群中情感詞比率的變化(比如第i天核泄露危機(jī)子事件Ci{nuclear}),而不是第i天的所有詞的數(shù)量變化(即Di)?;谶@些統(tǒng)計(jì)特征,我們可以進(jìn)一步監(jiān)測(cè)并識(shí)別人群情緒波動(dòng)具體是由哪些子事件引起;
圖9是從ReliefWeb媒體中監(jiān)測(cè)的2011年3月日本地震期間針對(duì)“earthquake”子事件和2009年4-5月H1N1流感期間針對(duì)“swine flu”子事件時(shí),人們?nèi)N負(fù)向情緒(恐懼焦慮、悲傷和憤怒)變化對(duì)比圖。首先,與圖7(a)展示的依靠全部監(jiān)測(cè)數(shù)據(jù)得到的結(jié)果相比,經(jīng)過(guò)聚類后圖9(a)監(jiān)測(cè)到的二級(jí)情緒(焦慮與憤怒)間的相對(duì)關(guān)系發(fā)生了明顯變化:圖7(a)中恐懼焦慮情緒在后半程在主導(dǎo)地位,也就是說(shuō)人們展現(xiàn)出一種想要逃避危險(xiǎn)的行為傾向;但是經(jīng)過(guò)聚類后的圖9(a)發(fā)現(xiàn),人們針對(duì)“earthquake”子事件表現(xiàn)出的憤怒情緒一直在主導(dǎo)位置,也就是說(shuō)人們一直表現(xiàn)出克服困難的行為意愿。因此,我們可以得到結(jié)論:在整個(gè)日本地震期間,人群的恐慌焦慮情緒并非是由“earthquake”子事件造成。其次,通過(guò)直接對(duì)比圖9(a)和9(b),我們發(fā)現(xiàn)人群面對(duì)“earthquake”子事件和“swine flu”子事件有著明顯不同的情緒反應(yīng):在突發(fā)自然災(zāi)害期間,面對(duì)大量人員傷亡,人們感到悲傷并積極采取行動(dòng)克服遇到的困難;而面對(duì)突發(fā)生物安全危害事件時(shí),由于人們對(duì)流感病毒變異和缺乏有效防御手段的擔(dān)憂,更多的表現(xiàn)出恐懼焦慮情緒,并展現(xiàn)出想采取行動(dòng)逃避流感所帶來(lái)的潛在危害的意愿。因此,鑒于突發(fā)事件的不確定性和偶發(fā)性,事態(tài)進(jìn)展和威脅影響信息常常無(wú)法及時(shí)發(fā)布,由此人們會(huì)因?yàn)闊o(wú)法及時(shí)了解這些信息而產(chǎn)生恐懼焦慮情緒,進(jìn)而產(chǎn)生非理性行為。這時(shí),突發(fā)事件應(yīng)急管理部門應(yīng)及時(shí)發(fā)布更多具體信息來(lái)降低人們的風(fēng)險(xiǎn)感知(如流感病毒的癥狀和醫(yī)療注意事項(xiàng)等);
圖10是2011年3月日本地震期間分別從BBC、ReliefWeb和Twitter中監(jiān)測(cè)的人們針對(duì)“earthquake”和“nuclear”不同子事件的三種負(fù)向情緒(恐懼焦慮、悲傷和憤怒)變化。首先,通過(guò)分別對(duì)比(a)(d),(b)(e)和(c)(f),可以發(fā)現(xiàn)人們針對(duì)不同子事件有著不同的情緒反應(yīng):由于“nuclear”子事件存在著諸多不確定性的 潛在風(fēng)險(xiǎn),影響范圍在不斷擴(kuò)大,人群的恐懼焦慮情緒高于“earthquake”子事件,展現(xiàn)出一種想要逃避危險(xiǎn)的行為傾向;而對(duì)于“earthquake”子事件,人群的憤怒情緒則強(qiáng)于恐懼焦慮情緒,也就是說(shuō)人們表現(xiàn)出克服困難的行為意愿。其次,通過(guò)對(duì)比圖5和圖10,可以展現(xiàn)本發(fā)明相對(duì)于現(xiàn)有技術(shù)的優(yōu)勢(shì):通過(guò)聚類分析監(jiān)測(cè)突發(fā)事件發(fā)生發(fā)展過(guò)程中人們對(duì)每個(gè)子事件的態(tài)度。例如,圖10(d)(e)(f)中監(jiān)測(cè)到的恐懼焦慮情緒解釋了圖5中恐懼焦慮情緒出現(xiàn)峰值的原因,它反映出2011年日本地震期間人群所表現(xiàn)出的恐懼焦慮情緒是由于“nuclear”子事件而并非“earthquake”子事件引起。而這種強(qiáng)烈的恐懼焦慮情緒可能帶來(lái)的結(jié)果就是引起謠言迅速傳播,從而導(dǎo)致一些非理性行為(例如美國(guó)恐慌性購(gòu)買碘和中國(guó)恐慌性購(gòu)買鹽的熱潮)。事實(shí)上,人群恐懼焦慮情緒的急劇增加是由于缺乏對(duì)事件相關(guān)動(dòng)態(tài)和可能產(chǎn)生影響的了解。因此,應(yīng)急管理部門應(yīng)及時(shí)發(fā)布有針對(duì)性的信息來(lái)緩和人群對(duì)風(fēng)險(xiǎn)的恐慌情緒;
圖11是2011年3月日本地震期間根據(jù)LIWC字典中的感知分類從BBC中監(jiān)測(cè)到的人們面對(duì)不同子事件(地震、海嘯、核泄漏危機(jī))時(shí)(a)“視覺(See)”和(b)“聽覺(Hear)”反應(yīng)變化對(duì)比圖。首先,對(duì)于地震和海嘯子事件,BBC提供了很多現(xiàn)場(chǎng)照片和視頻,因此人們更多是通過(guò)視覺感知事件的影響與危害;而對(duì)于無(wú)法采集直接危害的核危機(jī)事件,人們更多是通過(guò)專家解讀和歷史回顧的方式了解其影響與危害。其次,由于日本政府和國(guó)際原子能組織IAEA在14日至17日發(fā)布了多條報(bào)道來(lái)解釋核泄露危機(jī)情況和進(jìn)展(例如IAEA于15日在ReliefWeb上持續(xù)發(fā)布了6篇報(bào)道),因此圖11(b)中核泄露危機(jī)信息出現(xiàn)了爆發(fā)性增長(zhǎng)。根據(jù)本發(fā)明涉及的聚類分析法,多數(shù)來(lái)自權(quán)威機(jī)構(gòu)的評(píng)論被聚集到一個(gè)獨(dú)立基本子群中(如圖8底部所示),然而只有核泄露危機(jī)子事件相關(guān)詞匯與這些來(lái)自權(quán)威機(jī)構(gòu)的評(píng)論被聚集成一個(gè)更大的詞匯集群(如圖8頂部所示),由此我們可以推斷出當(dāng)時(shí)核泄露危機(jī)的嚴(yán)重性;
圖12是2011年3月日本地震期間從Twitter中監(jiān)測(cè)到的(a)人群對(duì)“Libya”子事件的三種負(fù)向情緒(恐懼焦慮、悲傷和憤怒)變化,(b)人群針對(duì)四種不同子事件“Family”詞匯子類變化。首先,人們?cè)诶葋單C(jī)中表現(xiàn)出憤怒情緒而 非悲傷和恐懼焦慮情緒,這是因?yàn)閼嵟榫w通常可以激發(fā)人們采取主動(dòng)行動(dòng)去克服各類威脅。面對(duì)“Libya”危機(jī),從3月16日開始社交網(wǎng)絡(luò)中監(jiān)測(cè)到越來(lái)越多包含軍事行動(dòng)的推文(一種控制“Libya”危機(jī)的方法),而與此同時(shí),憤怒情緒正在逐漸增長(zhǎng),這一發(fā)現(xiàn)可進(jìn)一步解釋圖5(c)中憤怒情緒的變化。其次,利用本發(fā)明涉及的聚類分析法,圖12(b)進(jìn)一步解釋了圖6(b)中社會(huì)關(guān)注“Family”子類變化原因:海嘯子事件是導(dǎo)致“Family”子類在20日出現(xiàn)峰值的原因,核泄漏子事件是導(dǎo)致“Family”子類在17日出現(xiàn)峰值的原因,這是本發(fā)明展示技術(shù)優(yōu)勢(shì)的又一示例。
【具體實(shí)施方式】
為了消除不相關(guān)詞匯對(duì)監(jiān)測(cè)方法的影響,以及能夠分析一個(gè)事件中各子事件對(duì)人們情緒的影響,提出了一個(gè)基于聚類的分析方法來(lái)對(duì)同現(xiàn)詞進(jìn)行評(píng)估,并利用情感計(jì)算領(lǐng)域的LIWC(Linguistic Inquiry and Word Count)詞典作為情感分析工具。以2011年日本地震、2010年海地地震和2009年甲型流感H1N1流行病三個(gè)突發(fā)事件作為示例,通過(guò)分析典型大眾媒介(如BBC)、專救援媒體(如ReliefWeb)和社交媒體(如Twitter)的內(nèi)容,來(lái)揭示人們?cè)谕话l(fā)事件期間的情感反應(yīng)模式,挖掘情感變化的原因。本發(fā)明的基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法,首先,從文章中提取了所有詞語(yǔ),以天數(shù)為單位構(gòu)建詞語(yǔ)矩陣;其次,通過(guò)兩個(gè)詞語(yǔ)在同一句中是否同時(shí)出現(xiàn)測(cè)量它們的非對(duì)稱相似性。它們相關(guān)性越大,相近出現(xiàn)的概率就越大;接著,最大限度的使Q模塊化來(lái)對(duì)相似矩陣進(jìn)行聚類。在每個(gè)聚類集群中單詞被分為兩部分:(1)特定情節(jié)詞;(2)基于LIWC詞典分類的情緒相關(guān)詞。通過(guò)計(jì)算每個(gè)聚類集群中的情感詞來(lái)分析對(duì)于不同事件情節(jié)人們的情感反應(yīng)模式。以下通過(guò)實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
實(shí)施例1、本實(shí)施例的基于聚類分析的突發(fā)事件在線群體行為監(jiān)測(cè)方法,參見圖1所示,包括下列主要步驟:
S101、從相應(yīng)媒介監(jiān)測(cè)事件相關(guān)的新聞文章、報(bào)道以及微博信息,將事件相關(guān)的數(shù)據(jù)以天數(shù)為單位分為文件夾Di,i∈[1,maxD],maxD表示文件夾總數(shù); 每個(gè)Di包括當(dāng)天大量新聞報(bào)道或者微博信息fij,即Di={fil,...,fij},其中j∈[1,maxF(Di)],maxF(Di)表示Di中文章總數(shù)。
S102、為每個(gè)Di構(gòu)建一個(gè)單詞矩陣Mi。
基于現(xiàn)有語(yǔ)義分析中的停用詞列表,首先,從Di中移除了冗余單詞(如前置詞)。剩下的Di中的詞形成一個(gè)矩陣Mi[NDi][NDi],其中NDi表示已經(jīng)移除停用詞后不同詞的總數(shù);其次,計(jì)算Mi中的同現(xiàn)詞:對(duì)于Di中的每一篇文章fij,如果兩個(gè)詞(如nx,ny)出現(xiàn)在同一句中,將執(zhí)行Mi[x][y]++;Mi[x][x]++;Mi[y][y]++。
S103、構(gòu)建聚類非對(duì)稱相似矩陣
計(jì)算Mi中單詞的非對(duì)稱相似性,非對(duì)稱相似矩陣定義為: 其中a表示系數(shù)參數(shù)。如果a=1,則為科學(xué)計(jì)量學(xué)中的古典接近指數(shù)。需要注意的是如果較低,較高,且a>>1,則代表y一般相關(guān)于x,x屬于y的特殊相關(guān)子域。以兩組數(shù)據(jù)為例,在3月11日,“kill”和“earthquake”在Mi的第684行和第3行,當(dāng)α=10時(shí),這表示“kill”一般相關(guān)于“earthquake”。“kill”總是伴隨著“earthquake”發(fā)生。在原始數(shù)據(jù)中,在3月8號(hào)有8個(gè)報(bào)道包含“kill”,這些報(bào)道同時(shí)出現(xiàn)了“kill”和“earthquake”。
S104、基于將單詞的聚類小集群合并成大集群,進(jìn)而將單詞矩陣中的詞劃分成不同集群。
為了找出何種類型的詞會(huì)在描述一個(gè)事件時(shí)聚集在一起,我們需要識(shí)別每個(gè)事件對(duì)人類反應(yīng)的影響。Newman提出了一種基于模塊度Q的快速社團(tuán)檢測(cè)算法,定義為每個(gè)單詞最開始都被認(rèn)為是一個(gè)社團(tuán),Ckl被定義為連接集群Ck和集群Cl單詞的邊緣部分,且這種貪婪算法通過(guò)不停將小集群合并成大集群使Q值最大化,每一步(每一次合并)最大化值為Q=2(Ckl-akal),其中當(dāng)Q達(dá)到最大值時(shí),此時(shí)達(dá)到最好的分割。
基于矩陣每一個(gè)單詞都有一個(gè)集群ID,分到不同的集群Ck,從而獲得描述同一事件的不同單詞。而后,可以通過(guò)計(jì)數(shù)集群中同一類型的情感詞分析過(guò)去時(shí)間里人類反應(yīng)變化。
Mi中的詞被劃分成不同集群,即Di可以進(jìn)一步表示為{Ci1,…,Cip},第i天有p個(gè)集群。
S105、基于所述的詞匯集群劃分,利用情感計(jì)算領(lǐng)域的LIWC詞典進(jìn)行情緒監(jiān)測(cè),挖掘不同集群內(nèi)用戶行為和情緒變化原因。
一些描述同一情節(jié)的相關(guān)性大的詞將被聚集在一起。更具體的說(shuō),基于LIWC詞典我們可以將一些Cip中的情感詞提取出來(lái)。通過(guò)計(jì)算某一特定類型的情感詞數(shù)量,或者每個(gè)Di中特定類型情感詞和同一類型中所有情感詞的比率,我們可以觀察出人們對(duì)一個(gè)突發(fā)事件的情緒反應(yīng)。例如我們可以通過(guò)從Di的Ci{nuclear}中提取相關(guān)詞揭露人們對(duì)核危機(jī)的情緒反應(yīng)。
在具體監(jiān)測(cè)實(shí)例中,對(duì)于從BBC,ReliefWeb和Twitter中監(jiān)測(cè)的數(shù)據(jù)集的整體信息描述,參見圖2所示的從BBC和ReliefWeb中監(jiān)測(cè)的(a)每天的文章總數(shù)、(b)每天的詞匯總數(shù)、(c)每天文章的平均長(zhǎng)度和(d)刪除停用詞后剩下的詞匯數(shù);參見圖3所示的(a)從Twitter中監(jiān)測(cè)的2011年3月日本地震事件發(fā)生時(shí)每天的推文數(shù);(b)從ReliefWeb中監(jiān)測(cè)的2009年1月海地地震發(fā)生時(shí)每天的新聞報(bào)道數(shù)量;(c)從ReliefWeb中監(jiān)測(cè)的2009年4月至5月發(fā)生H1N1流感事件時(shí)每天的新聞報(bào)道數(shù)量;
基于LIWC字典對(duì)數(shù)據(jù)集中所有單詞進(jìn)行的情緒和認(rèn)知行為分類,參見圖4所示的在2011年3月日本地震期間從(a)BBC、(b)ReliefWeb和(c)Twitter中監(jiān)測(cè)的正向和負(fù)向情緒的動(dòng)態(tài)變化情況;參見圖5所示的2011年3月日本地震期間,從(a)BBC、(b)ReliefWeb和(c)Twitter中監(jiān)測(cè)的負(fù)向情緒的三種子情緒(恐懼焦慮、悲傷和憤怒)隨時(shí)間的動(dòng)態(tài)變化圖;參見圖6所示的Twitter上人群對(duì)2011年3月日本地震期間(a)人群三種感知反應(yīng)(視覺、聽覺和感覺)的變化圖,(b)三個(gè)社會(huì)關(guān)注問題(朋友、家庭和人類)的社交詞匯比例的變化圖;參見圖7 所示的從ReliefWeb中監(jiān)測(cè)的人群對(duì)于(a)2011年3月日本地震事件、(b)2010年1月海地地震事件和(c)2009年4月至5月期間H1N1流感事件的三種負(fù)向情緒(恐懼焦慮、悲傷和憤怒)的情緒詞比例變化圖;
本發(fā)明涉及的聚類分析法中,對(duì)于每天同一子類集群中情感詞比率變化的檢測(cè)和比較,參見圖8所示的2011年3月11日日本地震時(shí)BBC新聞產(chǎn)生的聚類結(jié)果層次結(jié)構(gòu)示例圖,圖中含有11個(gè)子類集群;
基于聚類分析法和LIWC字典對(duì)情緒詞的分類結(jié)果,首先,參見圖9所示的根據(jù)Reliefweb媒體信息監(jiān)測(cè)的(a)2011年3月日本地震期間“earthquake”子事件和(b)2009年4月至5月H1N1流感事件期間“swine flu”子事件人群的三種負(fù)向情緒(恐懼焦慮、悲傷和憤怒)的變化對(duì)比圖。通過(guò)圖9(a)與圖7(a)的對(duì)比,我們可以發(fā)現(xiàn)在日本地震期間,人群的恐懼焦慮情緒并非是由“earthquake”子事件造成;參見圖10所示的從BBC、ReliefWeb和Twitter中監(jiān)測(cè)的2011年3月日本地震期間,人群對(duì)“earthquake”和“nuclear”子事件的負(fù)向情緒的三種子情緒(恐懼焦慮、悲傷和憤怒)變化圖。對(duì)比圖5,本發(fā)明方法的優(yōu)勢(shì)在于:可以監(jiān)測(cè)出突發(fā)事件期間人們對(duì)每個(gè)子事件的態(tài)度和觀點(diǎn),并解釋人群情緒波動(dòng)的具體原因是什么;其次,參見圖11所示的從BBC中監(jiān)測(cè)的2011年3月日本地震期間海嘯、地震和核危機(jī)的(a)“視覺(See)”和(b)“聽覺(Hear)”過(guò)程比較。對(duì)比圖8聚類分析結(jié)果,我們可以推斷出核泄漏危機(jī)的嚴(yán)重性;最后,參見圖12所示的從Twitter中監(jiān)測(cè)的(a)人群對(duì)于2011年3月日本地震期間“Libya”子事件的三種負(fù)向情緒(恐懼焦慮、悲傷和憤怒)的變化圖;(b)對(duì)于2011年3月日本地震期間海嘯、地震、核危機(jī)以及利比亞事件中,人群對(duì)于“Family”子類的詞匯數(shù)目變化圖。通過(guò)對(duì)比圖5(c),可以進(jìn)一步解釋圖5(c)中憤怒情緒的變化;對(duì)比圖6(b),進(jìn)一步解釋了圖6(b)中社會(huì)關(guān)注“Family”子類的變化原因。
這里本發(fā)明的描述和應(yīng)用都只是說(shuō)明性和示意性的,并非是想要將本發(fā)明的范圍限制在上述實(shí)施例中。這里所披露的實(shí)施例的變形和改變是完全可能的,對(duì)于那些本領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),實(shí)施例的替換和等效的各種部件均是公知的。本領(lǐng)域技術(shù)人員還應(yīng)該清楚的是,在不脫離本發(fā)明的精神或本質(zhì)特征的 情況下,本發(fā)明可以以其它形式、結(jié)構(gòu)、布置、比例,以及用其它組件、數(shù)據(jù)源和部件來(lái)實(shí)現(xiàn),以及在不脫離本發(fā)明范圍和精神的情況下,可以對(duì)這里所披露的實(shí)施例進(jìn)行其它變形和改變。