專利名稱::一種基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種數(shù)據(jù)挖掘系統(tǒng)及方法,特別是關(guān)于一種基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng)及方法。
背景技術(shù):
:文本傾向性分析是指文本所包含的某一主題所持的觀點、態(tài)度和立場,對該文本進行傾向性分類。通常將文本分為正面的、中立的、負面的三種傾向。文本傾向性分類在信息過濾、信息內(nèi)容安全管理、輿情分析等方面有著重要應(yīng)用。國外對文本傾向性研究在20世紀90年代中期開始得到普遍關(guān)注,并出現(xiàn)許多較為通用的方法,如傳統(tǒng)的文本分類方法、基于語義模式分類方法和基于觀點基準詞組分類方法等。其中,傳統(tǒng)的文本分類方法是將文本傾向性分析作為一個基于主題的文本分類問題來對待,那么就可以使用任意一種文本分類算法,如NaiveBayesian、SVM、KNN等方法?;谡Z義模式分類方法是使用語義模式作為文本的基本特征,把語義信息體現(xiàn)到語義模式之中?;谟^點基準詞組分類方法是通過計算詞匯與具有強烈傾向意義的基準詞的關(guān)聯(lián)程度,來確定文本中詞匯的傾向性度量,從而確定文本的傾向性,這種方法的代表就是Turney的SO-PMI算法。以上三種常用方法各有缺陷,傳統(tǒng)的文本分類方法需要花費很大的精力建立訓練集,如訓練樣本不足,則會導致泛化性不足從而使得準確率得不到保證;基于語義模式分類方法的工作量大,而且當主題或領(lǐng)域發(fā)生變化時,需要重新構(gòu)建尋找新的語義模式;基于觀點基準詞組分類方法只考慮到了詞匯的傾向性,沒有從整體上對文本的傾向性進行把握,因此準確率較差。國內(nèi)對于文本傾向性的研究起步較晚,目前的研究方向主要集中在產(chǎn)品評論、影評和詞匯的傾向性研究等幾個方面。到目前為止,不管是國內(nèi)還是國外,尚未將觀點分類技術(shù)應(yīng)用到股評觀點分類領(lǐng)域。通過實驗發(fā)現(xiàn),如果直接將上述的三種方法移植到股評觀點分類領(lǐng)域中,則查準率和査全率均較差。
發(fā)明內(nèi)容針對上述問題,本發(fā)明的目的是提供一種可以輸出精簡、明確的股評觀點分類信息的基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng)及方法。為實現(xiàn)上述目的,本發(fā)明采取以下技術(shù)方案一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于它包括文本選擇模塊、基于篇章結(jié)構(gòu)分析的分類器模塊和股評輸出模塊;所述基于篇章結(jié)構(gòu)分析的分類器模塊包括標題分類器和預測性語句分類器;所述文本選擇模塊從股評數(shù)據(jù)庫中提取股評文本后,對所述股評文本的標題和正文進行分離;判斷所述標題是否為疑問句,如果是疑問句,則標題可信度S/m(^7^"0;否則利用標題分類器對標題進行觀點分類,輸出標題可信度S/柳(Ce);同時,所述文本選擇模塊在所述正文中循環(huán)檢測預測特征詞表中的每一個預測性特征詞,如果存在所述預測特征詞,則提取出所述預測特征詞所在的句子,放入預測性語句集S中;循環(huán)結(jié)束后,如果所述預測性語句集S為空,則提取所述正文的最后一個句子,放入所述預測性語句集s中;將所述預測性語句集S輸入所述預測性語句分類器,輸出相應(yīng)的預測性語句可信度S/m(Cc);設(shè)置可信度閾值">0,當所述&'mO;,。2w且&'mO;,A)〈w時,則將所述S/mO;,7^作為所述股評輸出模塊的輸出結(jié)果CWe"/"to"(巧);當所述S/m(。A)^w且S/m(^:^)〈c;時,則將所述S/m",^)作為所述股評輸出模塊的輸出結(jié)果CWe"toto"(O;否貝IJ,利用方程l)和方程2)計算得到所述股評輸出模塊的輸出結(jié)果<formula>formulaseeoriginaldocumentpage5</formula>其中,^和4是位置權(quán)重,所述&'m(/",,:Tc)的權(quán)重為a,所述S/m",5c)的權(quán)重為^,且a+^-i;;,…,7;分別為所述標題的傾向性類別,a,…,化分別為所述預測性語句集s的傾向性類別。所述預測特征詞表和股評數(shù)據(jù)庫由用戶定義。所述預測特征詞為表示預測的動詞、表示預測的名詞、指示詞和人稱代詞。所述可信度閾值w為0.8。本發(fā)明由于采取以上技術(shù)方案,其具有以下優(yōu)點1、本發(fā)明由于只對股評文本的標題和預測性語句集分別進行訓練,從而減少了文本分類算法中訓練集的文本長度,無需對股評文本進行全篇幅的特征匹配,進而提高了算法的執(zhí)行速度。2、本發(fā)明通過利用篇章結(jié)構(gòu)的分析結(jié)果很好的過濾了客觀性表述,識別并抽取表示預測觀點的語句,該方法對其他領(lǐng)域的觀點分類也具有指導意義。3、本發(fā)明與觀點分類領(lǐng)域的三種主流方法對比,在股評觀點分類領(lǐng)域,本發(fā)明取得了較好的分類結(jié)果,査準率和査全率有了很大的提高。圖1是本發(fā)明的股評觀點分類系統(tǒng)的模塊示意圖圖2是本發(fā)明的股評觀點分類方法的流程示意圖具體實施例方式下面結(jié)合附圖和實施例對本發(fā)明進行詳細的描述。在股票投資活動中,散戶投資者既不知道內(nèi)幕信息,也沒有足夠的時間來研判股市,因此他們在投資時常常會依賴電視、網(wǎng)絡(luò)、報刊雜志上專業(yè)股評家的選股建議。然而大部分的股民都沒有時間或精力來閱讀這些股評,他們關(guān)心的只是股票在未來是漲還是跌,所以需要為他們提供更為精簡、明確的分類的股評信息。股評觀點分類方法是指給定一個股評文本集A通過構(gòu)造觀點分類器將股評文本集W中的每一個股評文本ne^分成三個類別看多、看平和看空。其中,看多是指股評文本n'預測大盤短期未來走勢是看多;看平指股評文本^預測大盤短期未來走勢是看平;看空則是指股評文本^預測大盤短期未來走勢是看空。其中,看多表示這篇評論認為某只股票后市良好,投資者應(yīng)該考慮買進;看平表示這篇股評認為某只股票將是橫盤震蕩,投資者應(yīng)該持有或觀望;看空表示這篇評論認為某只股票后市慘淡,投資者應(yīng)該考慮賣出。通常,文本的篇章結(jié)構(gòu)特征主要有標題、句子位置、文本的開頭和結(jié)尾、過渡句和過渡段、段落相似度和句子相關(guān)度等。由于股評文本的特性,本發(fā)明的方法重點關(guān)注股評文本的標題、預測性語句的位置、開頭和結(jié)尾。其中預測性語句是指明確的預測大盤短期未來走勢的語句,也即股評撰寫者所表達的傾向性觀點。因此本發(fā)明的原理是通過對文本篇章結(jié)構(gòu)進行分析,分別提取股評文本中的標題和預測性語句,利用文本分類算法構(gòu)造標題分類器和預測性語句分類器,然后選擇合適的閾值和權(quán)值對兩個分類器輸出的結(jié)果進行有效融合,自動的將股評文本分為多個傾向性類別,如看多、看平和看空。如圖1所示,基于以上思想,本發(fā)明的系統(tǒng)包括文本選擇模塊l、基于篇章結(jié)構(gòu)分析的分類器模塊2和股評輸出模塊3。其中,用戶首先在股評數(shù)據(jù)庫中設(shè)置一股評數(shù)據(jù)庫A根據(jù)股評文本^ei的篇章結(jié)構(gòu),文本選擇模塊l分別提取股評數(shù)據(jù)庫W中每個股評文本5的標題T和正文B,然后分析標題T并查找正文B的預測特征詞,預測特征詞由用戶指定的預測特征詞表提供,/為股評數(shù)據(jù)庫R中的股評文本標號。提取預測特征詞所在的預測性語句作為預測性語句集S,與標題T一同作為基于篇章結(jié)構(gòu)分析的分類器模塊2的訓練樣本集、校正樣本集和測試樣本集?;谄陆Y(jié)構(gòu)分析的分類器模塊2包括利用文本分類算法構(gòu)建的標題分類器4和預測性語句分類器5,分別對文本選擇模塊1中的標題T和預測性語句集S進行標題可信度57m",r》和預測性語句可信度S^k,A)的輸出,其中C表示股評文本集7中的傾向性類別,C={l,—,"},n為傾向性類別標號。^'m",:Tc)e、S/wO;,^)e[O,l],如S/mO;.,:^)=0,則股評文本^完全不屬于傾向性類別C;如&附(^7^)=1等于1,則股評文本;;完全屬于傾向性類別C;^m",A)同理。在股評輸出模塊3中對標題分類器4和預測性語句分類器5輸出的標題可信度&^(Cc:)和預測性語句可信度S/m(^A)進行有效融合,輸出最終結(jié)果OWe"to"o"(。)。在本發(fā)明的系統(tǒng)在使用時,首先由用戶提供一股評數(shù)據(jù)庫和一預測特征詞表,作為先驗知識輸入到文本選擇模塊l中。股評數(shù)據(jù)庫由股評文本組成,預測特征詞表中包含多個預測特征詞,預測特征詞的詞性以具有預測含義的動詞、具有預測含義的名詞、指示詞、人稱代詞為主。如圖2所示,本發(fā)明的基于篇章結(jié)構(gòu)分析的股評觀點分類方法為,文本選擇模塊1從股評數(shù)據(jù)庫中提取股評文本c后,對股評文本A;的標題T和正文B進行分離。判斷股評文本^的標題T是否為疑問句,即判斷標題T中是否包含字符"?",如果是疑問句,則標題可信度Sfm(^:Te)二0。否則利用標題分類器4,對標題T進行觀點分類,輸出相應(yīng)的標題可信度&'/n(^7^)。同時,文本選擇模塊1在股評文本^;的正文B中循環(huán)檢測預測特征詞表中的每一個詞,如果存在該預測特征詞,則提取出該預測特征詞所在的句子,放入預測性語句集S中;循環(huán)結(jié)束后,如果預測特征詞對應(yīng)的預測性語句集S為空,則提取該正文的最后一個句子,放入預測性語句集S中。將預測性語句集S輸入預測性語句分類器5,輸出相應(yīng)的預測性語句可信度&m",A)。股評輸出模塊3中,由于標題分類器4和預測性語句分類器5分別對同一股評文本^的歸屬傾向性類別的可信度進行輸出,因此需要對兩個分類器的輸出結(jié)果進行融合。設(shè)置可信度閾值">(),當標題分類器4輸出的S^(^r》^w且5^(^^)<"時,則認為標題分類器4的結(jié)果可信并作為股評輸出模塊3的輸出結(jié)果On^ton'卵W;當預測性語句分類器5輸出的S/m(。^)^w且&'^,7^<時,則認為預測性語句分類器5的結(jié)果可信并作為股評輸出模塊3的輸出結(jié)果CWe"toto"("。否則,利用方程(1)和方程(2)計算得到股評輸出模塊3的輸出結(jié)果7<formula>formulaseeoriginaldocumentpage8</formula>(1)SV/w(5,")=AS/附(s,r")+AiSV/w"',srt)0/ew她ow(5)二Mox[57/w(;,i),…,57附",m)](2)其中,4和;^是位置權(quán)重,標題t的可信度s/m(^7^)的權(quán)重為A,正文b中預測性語句集s的可信度s—Cc)的權(quán)重為;^,且;^+;i^1。?;,…,7;分別指代標題分類器4中的標題T的傾向性類別,A,…,5"分別指代預測性語句分類器5中的預測性語句集S的傾向性類別。下面通過一個實施例,對本發(fā)明的系統(tǒng)及方法進一步說明。通常股評文本的傾向性類別包括三種,即看多、看平和看空。本實施例首先利用SVM(SupportVectorMachine,支持向量機)算法,構(gòu)造標題分類器4和預測性語句分類器5。其中標題分類器4的特點是訓練樣本、校正樣本和測試樣本均只采用股評文本的標題;預測性語句分類器5的特點是訓練樣本、校正樣本和測試樣本均只采用股評文本中的預測性語句。首先利用文本選擇模塊1從股評數(shù)據(jù)庫中,提取標題T和預測性語句集S,其中所用到的預測特征詞表由用戶自定義,如表l所示表l:預測特征詞表<table>tableseeoriginaldocumentpage8</column></row><table>然后將標題T和預測性語句集S輸入到基于篇章結(jié)構(gòu)分析的分類器模塊2中,執(zhí)行相應(yīng)操作,輸出可信度57m(Cc)和S/m(^A)。最后在股評輸出模塊3中進行兩個可信度的融合,從而得到股評文章的觀點分類結(jié)果。在意見挖掘中,查全率(Recall)和查準率(Precision)是衡量分類結(jié)果的兩個重要指標,因此在本發(fā)明的系統(tǒng)及方法中,同樣采用這兩個指標衡量股評觀點分類結(jié)果的好壞。在本實施例中由160篇股評文本組成的測試樣本集,其中看多的股評共95個,看平的股評共32個,看空的股評共33個,設(shè)置參數(shù)w=0.8,4=0.5,4=0.5。分類結(jié)果如表2所示表2:分類結(jié)果<table>tableseeoriginaldocumentpage9</column></row><table>本發(fā)明提供了一種基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng)及方法,它通過分析股評篇章結(jié)構(gòu),分別提取股評的標題和預測性語句,利用分類器算法構(gòu)造標題分類器和預測性語句分類器,然后選擇合適的閾值和位置權(quán)重融合兩大分類器的分類結(jié)果,自動的對股評文本進行觀點分類。權(quán)利要求1、一種基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng),其特征在于它包括文本選擇模塊、基于篇章結(jié)構(gòu)分析的分類器模塊和股評輸出模塊,所述文本選擇模塊將股評數(shù)據(jù)庫中股評文本分為標題和正文中的預測性語句;所述基于篇章結(jié)構(gòu)分析的分類器模塊包括標題分類器和預測性語句分類器,標題分類器輸出標題可信度,預測性語句分類器輸出預測性語句可信度;所述股評輸出模塊對所述標題可信度和預測性語句可信度進行融合,并輸出最終結(jié)果。2、一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于它包括文本選擇模塊、基于篇章結(jié)構(gòu)分析的分類器模塊和股評輸出模塊;所述基于篇章結(jié)構(gòu)分析的分類器模塊包括標題分類器和預測性語句分類器;所述文本選擇模塊從股評數(shù)據(jù)庫中提取股評文本后,對所述股評文本的標題和正文進行分離;判斷所述標題是否為疑問句,如果是疑問句,則標題可信度s^(。r》=0;否則利用標題分類器對標題進行觀點分類,輸出標題可信度同時,所述文本選擇模塊在所述正文中循環(huán)檢測預測特征詞表中的每一個預測性特征詞,如果存在所述預測特征詞,則提取出所述預測特征詞所在的句子,放入預測性語句集S中;循環(huán)結(jié)束后,如果所述預測性語句集S為空,則提取所述正文的最后一個句子,放入所述預測性語句集S中;將所述預測性語句集S輸入所述預測性語句分類器,輸出相應(yīng)的預測性語句可信度&m(a;,A);設(shè)置可信度閾值67〉0,當所述S^(a;,:rc)2w且57附",5e)〈w時,則將所述S/m",:Q作為所述股評輸出模塊的輸出結(jié)果OWe"torio"(。;當所述S/m",^)^w且S^",re)<時,則將所述Sz'm",A)作為所述股評輸出模塊的輸出結(jié)果Ov^加Zo"(0;否則,利用方程l)和方程2)計算得到所述股評輸出模塊的輸出結(jié)果<formula>formulaseeoriginaldocumentpage2</formula>其中,A和A是位置權(quán)重,所述s/m(c,rc)的權(quán)重為A,所述s/加(巧,^)的權(quán)重為^,且^+^=1;;,…,7;分別為所述標題的傾向性類別,g,…,s"分別為所述預測性語句集s的傾向性類別。3、如權(quán)利要求2所述的一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于所述預測特征詞表和股評數(shù)據(jù)庫由用戶定義。4、如權(quán)利要求2所述的一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于所述預測特征詞為表示預測的動詞、表示預測的名詞、指示詞和人稱代詞。5、如權(quán)利要求3所述的一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于所述預測特征詞為表示預測的動詞、表示預測的名詞、指示詞和人稱代詞。6、如權(quán)利要求2或3或4或5所述的一種基于篇章結(jié)構(gòu)分析的股評觀點分類方法,其特征在于所述可信度閾值"為0.8。全文摘要本發(fā)明涉及一種基于篇章結(jié)構(gòu)分析的股評觀點分類系統(tǒng)及方法,其特征在于它包括文本選擇模塊、基于篇章結(jié)構(gòu)分析的分類器和股評輸出模塊,文本選擇模塊將股評文本集中文本分為標題和正文中的預測性語句;基于篇章結(jié)構(gòu)分析的分類器包括標題分類器和預測性語句分類器,前者輸出標題可信度,后者輸出預測性語句可信度;股評輸出模塊融合標題可信度和預測性語句可信度,并輸出最終結(jié)果;文本選擇模塊對標題進行判斷,如標題為疑問句,則其可信度置0;否則輸入標題分類器;文本選擇模塊在正文中循環(huán)提取預測特征詞所在的預測性語句;如沒有對應(yīng)于預測特征詞的預測性語句,則提取正文的最后一個句子作為預測性語句;將預測性語句輸入預測性語句分類器。文檔編號G06F17/30GK101556580SQ200910084120公開日2009年10月14日申請日期2009年5月20日優(yōu)先權(quán)日2009年5月20日發(fā)明者胡航麗,倩莫申請人:北京工商大學