專(zhuān)利名稱(chēng):一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息檢索、抽取與管理以及自然語(yǔ)言處理技術(shù),特別是涉及一種面向在線(xiàn)即時(shí)交互文本的事件識(shí)別與跟蹤。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)應(yīng)用的日趨廣泛,基于交互式文本的網(wǎng)絡(luò)應(yīng)用不斷發(fā)展,已經(jīng)成為人們獲取和發(fā)布信息的主要手段之一,例如網(wǎng)絡(luò)聊天室、微博等典型的交互文本應(yīng)用。這些文本中蘊(yùn)含著大量豐富的信息資源,如何實(shí)現(xiàn)對(duì)這些交互文本應(yīng)用中發(fā)生的事件按主題類(lèi)別查找、組織和利用,成為當(dāng)務(wù)之急。比如自動(dòng)識(shí)別網(wǎng)絡(luò)學(xué)習(xí)者的情感變化事件,從而調(diào)節(jié)其學(xué)習(xí)效率;識(shí)別各種社會(huì)敏感的突發(fā)事件或者新事件等。申請(qǐng)人經(jīng)過(guò)查新,未檢索本發(fā)明相關(guān)的專(zhuān)利。但是找相似的幾篇文章,分別是1)基于頻繁模式的消息文本聚類(lèi)研究。胡吉祥,中國(guó)科學(xué)院研究生院(計(jì)算技術(shù)研究所)。2)用于聊天詞匯的權(quán)重計(jì)算方法⑶TF_IDF。高鵬,曹先彬,計(jì)算機(jī)仿真,2007. 12。文章1)的作者發(fā)現(xiàn)了頻繁模式(稱(chēng)之為關(guān)鍵頻繁模式)包含了詞序和鄰近上下文等更多的語(yǔ)義信息對(duì)交互文本特征抽取的關(guān)鍵性,提出了一種無(wú)指導(dǎo)的基于頻繁模式的特征選擇算法,應(yīng)用于文本分類(lèi)和聚類(lèi)。文章2)主要針對(duì)聊天室的內(nèi)容監(jiān)控應(yīng)用,通過(guò)分別離線(xiàn)計(jì)算詞匯在不同數(shù)據(jù)源中的權(quán)值并匯總、并對(duì)重點(diǎn)詞匯提高權(quán)重等方式來(lái)計(jì)算聊天數(shù)據(jù)的詞匯權(quán)重,從而達(dá)到識(shí)別聊天室主題的目的。根據(jù)上述查新,現(xiàn)有相似技術(shù)與本發(fā)明方法主要有以下幾方面的不同1.現(xiàn)有技術(shù)的研究對(duì)象為以整個(gè)新聞(事件)或者段落,而本方法針對(duì)話(huà)輪級(jí)別。2.現(xiàn)有技術(shù)為離線(xiàn)主題識(shí)別方法,而本方法為在線(xiàn)事件識(shí)別方法。3.現(xiàn)有技術(shù)識(shí)別的結(jié)果僅為整個(gè)新聞(事件)或段落是否屬于哪一類(lèi)主題,以及相關(guān)的新聞(事件)發(fā)生,即主題級(jí)的識(shí)別與跟蹤;而本方法主要是發(fā)現(xiàn)在線(xiàn)交互雙方討論的事件是否一致,該事件是否完整(開(kāi)始和結(jié)束),參與的人有那些,即對(duì)單一、具體事件的識(shí)別與跟蹤。4.在交互文本的特征表示方面,現(xiàn)有技術(shù)離線(xiàn)收集僅為當(dāng)前新聞(事件)的詞頻特征進(jìn)行計(jì)算,而本方法發(fā)現(xiàn)了時(shí)間依賴(lài)特性,引入時(shí)間閾值內(nèi)的所有話(huà)輪特征的聚集來(lái)進(jìn)行主題分類(lèi)。5.現(xiàn)有方法以無(wú)監(jiān)督的概率潛在語(yǔ)義分析方法為主,而本方法針對(duì)主題的分層模型,提出了有監(jiān)督的、分層PLSA主題模型訓(xùn)練方法,并定時(shí)更新主題模型。
發(fā)明內(nèi)容
針對(duì)前述相關(guān)技術(shù)與本發(fā)明比較中所存在的問(wèn)題,本發(fā)明提供了一種面向在線(xiàn)即時(shí)交互文本的事件識(shí)別與跟蹤方法,包括如下步驟
第一步話(huà)輪級(jí)主題類(lèi)別分類(lèi)階段(1)在即時(shí)交互文本中,以用戶(hù)一次輸入的發(fā)言Speech為一個(gè)話(huà)輪Turn,用五元組表示為T(mén)i = (i, id, role, stamp, content)其中,Ti表示第i個(gè)話(huà)輪,且i e z,Z是正整數(shù)集合;id表示區(qū)分說(shuō)話(huà)人的唯一標(biāo)示符;role表示說(shuō)話(huà)人的角色,它分兩個(gè)類(lèi)別說(shuō)話(huà)人Speaker和接受者recipient ;stamp 表示話(huà)輪發(fā)生的時(shí)間戳;content表示一次話(huà)輪中發(fā)言的所有文本;那么Ti. stamp就表示第i個(gè)話(huà)輪發(fā)生的時(shí)間,Ti. content就表示第i個(gè)話(huà)輪的內(nèi)容,所述的交互文本是來(lái)自于同一個(gè)聊天室或者討論群組內(nèi)的話(huà)輪;(2)對(duì)當(dāng)前話(huà)輪Ti的內(nèi)容Ti. content進(jìn)行文本預(yù)處理,按照特征詞典提取其中的
特征詞,計(jì)算語(yǔ)言特征向量 =(1^1,化2”",1^,".1^),其中 ,0<11彡11表示第h個(gè)特征詞在Ti. content中出現(xiàn)的次數(shù),η表示特征詞的個(gè)數(shù);所述的特征詞典,是從訓(xùn)練數(shù)據(jù)中提取的;(3)如果話(huà)輪凡是系統(tǒng)中出現(xiàn)的首次話(huà)輪,也即T1,轉(zhuǎn)至IJ (5);否則,執(zhí)行(4);(4)計(jì)算話(huà)輪Ti的自適應(yīng)語(yǔ)言特征聚集向量W^ = (^1,14^2,...,^1.,...^1),其中 ,0<h'彡 n 表示第
h'個(gè)特征詞在該語(yǔ)言特征聚集中出現(xiàn)的次數(shù),η表示特征詞的個(gè)數(shù);(5)利用有監(jiān)督分層概率潛在語(yǔ)義分析模型進(jìn)行話(huà)輪級(jí)主題類(lèi)別分類(lèi);第二步,話(huà)輪級(jí)事件識(shí)別與跟蹤階段(1)依據(jù)話(huà)輪所屬主題類(lèi)別,前后話(huà)輪發(fā)生的時(shí)間差以及前后話(huà)輪說(shuō)話(huà)人在社會(huì)網(wǎng)絡(luò)級(jí)上的緊度來(lái)判斷當(dāng)前話(huà)輪Ti是否是事件的開(kāi)始、延續(xù)與結(jié)束;(2)如果話(huà)輪Ti是事件結(jié)束語(yǔ)句,也就是形成了一個(gè)完整的事件,那么標(biāo)記Ti為已結(jié)束事件的話(huà)輪,否則標(biāo)記為未結(jié)束事件的話(huà)輪;(3)判斷是否到達(dá)定期更新時(shí)間;如果到達(dá),則對(duì)有監(jiān)督分層概率潛在語(yǔ)義分析模型進(jìn)行模型更新;否則,結(jié)束算法,所述的定期更新是指每一個(gè)月末將新識(shí)別的完整事件加入到訓(xùn)練集中,對(duì)模型重新訓(xùn)練;第一步的步驟(4)所述的自適應(yīng)語(yǔ)言特征聚集向量的計(jì)算過(guò)程是Stepl 計(jì)算當(dāng)前話(huà)輪Ti發(fā)生后,在時(shí)間間隔[Ti. stamp-Δ T, Ti. stamp]內(nèi)話(huà)輪發(fā)生的頻次V (Ti)
權(quán)利要求
1. 一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法,其特征在于包括如下步驟 第一步話(huà)輪級(jí)主題類(lèi)別分類(lèi)階段(1)在即時(shí)交互文本中,以用戶(hù)一次輸入的發(fā)言Speech為一個(gè)話(huà)輪Turn,用五元組表示為T(mén)i = (i, id, role, stamp, content)其中,Ti表示第i個(gè)話(huà)輪,且i e Z,Z是正整數(shù)集合;id表示區(qū)分說(shuō)話(huà)人的唯一標(biāo)示符;role表示說(shuō)話(huà)人的角色,它分兩個(gè)類(lèi)別說(shuō)話(huà)人Speaker和接受者recipient ;stamp表示話(huà)輪發(fā)生的時(shí)間戳;content表示一次話(huà)輪中發(fā)言的所有文本;那么Ti. stamp就表示第i個(gè)話(huà)輪發(fā)生的時(shí)間,Ti. content就表示第i個(gè)話(huà)輪的內(nèi)容, 所述的交互文本是來(lái)自于同一個(gè)聊天室或者討論群組內(nèi)的話(huà)輪;(2)對(duì)當(dāng)前話(huà)輪Ti的內(nèi)容Ti.content進(jìn)行文本預(yù)處理,按照特征詞典提取其中的特征詞,計(jì)算語(yǔ)言特征向量
2.如權(quán)利要求1所述的一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法,其特征在于 第一步中步驟( 利用有監(jiān)督分層概率潛在語(yǔ)義分析模型進(jìn)行話(huà)輪級(jí)主題類(lèi)別分類(lèi)的過(guò)程為Mepl:計(jì)算當(dāng)前話(huà)輪Ti的語(yǔ)言特征聚集向量『%,利用有監(jiān)督分層概率潛在語(yǔ)義分析算法學(xué)習(xí)得到的WZ將H7t^映射到潛在語(yǔ)義空間Z上,也就是利用潛在語(yǔ)義空間Z表示 Ti的語(yǔ)言特征聚集的內(nèi)容,即
3.如權(quán)利要求1所述的一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法,其特征在于 所述的第二步中步驟(1)的具體過(guò)程如下Stepl 查找并獲得[Ti. Stamp-Th5Ti. stamp]時(shí)間間隔內(nèi)發(fā)生的、并且不是事件結(jié)束的話(huà)輪集合 ^ = {rg,...,r,|0<g</};Step2 如果U只含有元素Ti,那么標(biāo)記Ti為一個(gè)新的事件的起始句,算法結(jié)束;否則, 令1 = i_l,執(zhí)行乂印3 ;St印3 判斷Ti與T1的主題類(lèi)別是否相同;Step4 如果Ti與T1的主題類(lèi)別相同,那么將Ti歸屬到T1所屬的事件中,算法結(jié)束;否則令1 = 1-1,執(zhí)行乂印5 ;St印5 如果1彡g,那么,轉(zhuǎn)到St印3 ;否則,轉(zhuǎn)到St印6 ;St印6 如果Ti的所屬的事件為空,那么令Γ = i_l,轉(zhuǎn)到St印7 ;否則,結(jié)束算法; St印7 計(jì)算Ti. id與T1' .id在社會(huì)網(wǎng)絡(luò)級(jí)上的緊度d ;乂印8:如果d>0. 5,那么將Ti歸屬到T1,所屬事件中,算法結(jié)束;否則令1' =1' -1, 執(zhí)行乂印9 ;St印9 如果Γ ^ g,那么,轉(zhuǎn)到St印7 ;否則,標(biāo)記Ti為一個(gè)新事件的起始句,結(jié)束算法。
4.如權(quán)利要求3所述的一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法,其特征在于所述的社會(huì)網(wǎng)絡(luò)緊度的計(jì)算方法為IO(TiMJ1^id)d(TJd, Ti , .id)=-! 1 I (T1 id) + O (T1 id) +1 (Tll id) + O (Tll id)其中IdV id)表示Ti. id的入度之和,0(Ti. id)表示Ti. id的出度之和,Th. id類(lèi)似;IO(Ti. id,Th. id)表示Ti. id對(duì)IV1. id談話(huà)次數(shù)以及Th. id對(duì)Ti. id說(shuō)話(huà)的次數(shù)之和,出度、入度的統(tǒng)計(jì)是歷史數(shù)據(jù)的總和,社會(huì)網(wǎng)絡(luò)的緊度每月更新一次。
全文摘要
本發(fā)明公開(kāi)了一種面向即時(shí)交互文本的事件識(shí)別與跟蹤方法,按照兩個(gè)大步驟實(shí)施I、在話(huà)輪級(jí)主題類(lèi)別分類(lèi)階段,利用自適應(yīng)語(yǔ)言特征聚集表示模型來(lái)表示話(huà)輪內(nèi)容以及訓(xùn)練所得的有監(jiān)督分層概率潛在語(yǔ)義分析模型來(lái)進(jìn)行話(huà)輪主題類(lèi)別的分類(lèi);II、在話(huà)輪級(jí)事件識(shí)別與跟蹤階段,依據(jù)話(huà)輪所屬主題類(lèi)別,前后話(huà)輪發(fā)生的時(shí)間差以及前后話(huà)輪說(shuō)話(huà)人在社會(huì)網(wǎng)絡(luò)級(jí)上的緊度來(lái)判斷事件的開(kāi)始、延續(xù)與結(jié)束。其中,(1)提出依據(jù)當(dāng)前話(huà)輪發(fā)生后時(shí)間序列數(shù)據(jù)波動(dòng)的大小來(lái)自適應(yīng)調(diào)整話(huà)輪緊密程度閾值Th的思想,進(jìn)而進(jìn)行自適應(yīng)語(yǔ)言特征聚集計(jì)算;(2)在實(shí)施中定時(shí)更新有監(jiān)督分層概率潛在語(yǔ)義分析模型。所提方法是一個(gè)在線(xiàn)識(shí)別與跟蹤算法。
文檔編號(hào)G06F17/30GK102411611SQ201110312540
公開(kāi)日2012年4月11日 申請(qǐng)日期2011年10月15日 優(yōu)先權(quán)日2011年10月15日
發(fā)明者張惠三, 田鋒, 鄭慶華 申請(qǐng)人:西安交通大學(xué)