專利名稱:Web主題傾向性挖掘與決策支持的方法
技術領域:
本發(fā)明涉及Web數(shù)據(jù)的主題傾向性挖掘和決策支持的方法,尤其是針對海量Web數(shù)據(jù)的主題情感傾向性分析及決策支持。
背景技術:
全球金融危機給許多傳統(tǒng)產業(yè)帶來了深度影響,使產業(yè)人士和投資者更加認識到可信賴商業(yè)資訊及其獲取技術的重要性。對于企業(yè)來說,這些技術能輔助他們迅速有效地形成商業(yè)決策,有效地對風險進行管理和控制,提高他們的商業(yè)競爭力并最終令他們在市場競爭中獲勝?;谏鲜龉沧R,產業(yè)界對網(wǎng)絡信息挖掘和智能決策服務的需求變得日益迫切。網(wǎng)絡信息挖掘和智能決策服務涉及信息獲取技術、文本分類技術、文本聚類技術、主題識別與跟蹤技術以及文本傾向性分析等。這些技術一向是國內外資訊工作者關注的領域。文本檢索會議(TREC)、情報檢索專業(yè)組會議(SIGIR)、文本檢測與跟蹤會議(TDT)等都是展示此類技術最新研究成果的最主要的國際會議和論壇。當前研究者提出了不少網(wǎng)絡文本傾向性分析算法,主要集中在句子級和篇章級的文本傾向性分析上。目前的研究工作可分為兩種研究思路:基于情感知識的方法以及基于特征分類的方法。前者主要是依靠一些已有的情感詞典或領域詞典,以及主觀文本中帶有情感極性的組合評價單元進行計算,來獲取主觀文本的極性。后者主要是使用機器學習的方法,選取大量的有意義的特征來完成分類任務。這兩種研究思路有很多代表性的研究工作。在基于特征分類的方法中,Pang首次將機器學習的方法應用于篇章級的情感分類任務中。他們嘗試使用了 n-gram詞語特征和詞性特征,并對比了 Navie Bayes> Max Entropy和Support Vector Machine (SVM)三種分類模型,發(fā)現(xiàn)unigram特征效果最好。然而,Cui通過實驗證明,當訓練語料較少的時候,unigram的效果較優(yōu),但隨著訓練語料的增多,n-gram(n>3)發(fā)揮了越來越重要的作用。Kim除了考察傳統(tǒng)的n-gram模型外,還引入了位置特征和評價詞特征來完成句子級的褒貶分類。Zhao則將句子級情感分類任務提煉為一個三層分類任務,利用各層之間類別標簽的相互作用,并考慮上下句之間情感的互相影響,使用Conditional Random Field (CRF)模型將這些特征進行融合。類似于主客觀信息分類任務,基于特征的方法的研究重點在于有效特征的發(fā)現(xiàn),以及特征選擇和特征融合等問題的研究。除了對主觀文本信息的褒貶二元分類之外,還有一些研究工作進行更細致的情感分類任務。Pang將褒貶等級分為三類,并使用了 one-vs-all多元分類算法和回歸分類算法完成情感分類。Goldberg則使用了一種基于圖的半指導的分類算法,完成評論的褒貶包括四個等級的分類。綜上所述,目前針對互聯(lián)網(wǎng)上企業(yè)熱點話題的傾向性情感分析和挖掘的方法還很少,距離即時商業(yè)智慧尚有距離。因此,有必要提供一種Web主題傾向性情感分析挖掘和決策支持的方法與系統(tǒng),以彌補現(xiàn)有技術的不足。主題檢測與跟蹤可自動從Web數(shù)據(jù)流中自動發(fā)現(xiàn)主題并把主題相關的內容聯(lián)系在一起,對企業(yè)相關的Web主題進行傾向性情感分析和挖掘,實現(xiàn)即時商業(yè)智慧,能更好地為企業(yè)提供決策支持服務。
發(fā)明內容
基于此,針對上述現(xiàn)有技術中存在的問題,本發(fā)明的目的在于提供一種Web主題傾向性挖掘與決策支持的方法,旨在針對互聯(lián)網(wǎng)上企業(yè)熱點話題的傾向性情感分析和挖掘,為企業(yè)的決策提供參考與支持。為達到上述目的,本發(fā)明技術方案為:
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
51.網(wǎng)絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);
52.信息的觀點主題檢測與跟蹤,利用專題評論數(shù)據(jù),檢測識別出感興趣的具有完整語義信息的觀點主題,并持續(xù)跟蹤和關注該觀點主題;
53.觀點主題情感傾向性識別,對企業(yè)的熱點話題進行話題情感傾向性分類,挖掘出觀點主題的情感傾向性。進一步地,所述步驟SI還包括:
Sll.自然語言處理對原始網(wǎng)絡信息進行預處理,包括:中文分詞、詞性標注、停用詞處理,命名實體識別。進一步地,所述步驟S2中網(wǎng)絡資訊的觀點主題檢測與跟蹤的過程具體包括:
521.從網(wǎng)絡上采集到的信息,經(jīng)過基于模板的信息分類,過濾噪聲信息;
522.將過濾后的相關信息,采用基于時間函數(shù)的增量聚類方法,實現(xiàn)子話題的檢測,并將結果存儲到數(shù)據(jù)庫子話題表中;
523.根據(jù)子話題的結果,提取出子話題的摘要和關鍵詞,并修改子話題表相關信息;
524.在根據(jù)子話題的信息,再次根據(jù)間窗口相似度比較的增量聚類方法,進行話題檢測,并提取關鍵詞,得到話題信息存入數(shù)據(jù)庫;
525.根據(jù)話題中信息的時間和話題中信息的數(shù)量,發(fā)現(xiàn)熱點話題,并呈現(xiàn)給用戶。進一步地,所述步驟S22中子話題的檢測的過程具體包括:
5221.順序處理信息中的每篇文檔;
5222.利用層次聚類方法對未處理過的文檔進行聚類;
5223.若不存在歷史聚類,則根據(jù)當前聚類結果,存儲子話題;
5224.若存在歷史聚類,則對歷史子話題和新聚類出的子話題,再次進行層次聚類;
5225.將新產生的子話題存入數(shù)據(jù)庫;
5226.更新子話題與文檔的關系;
5227.計算新產生和更新過的子話題的關鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫。進一步地,所述步驟S24中話題的檢測的過程具體包括:
5241.順序處理每個子話題;
5242.第一個子話題的向量自動成為第一個聚類的聚類中心;
5243.如果相似度大于某個閾值,則該子話題被分配給這個聚類;
5244.當一篇子話題分配給某個聚類的時候,重新計算這個聚類的聚類中心;
5245.若某子話題沒有分配給任何的聚類,則該子話題成為一個新的聚類,同時也是這個聚類的聚類中心; 5246.將新產生的話題,添加到數(shù)據(jù)庫;
5247.更新話題的信息。進一步地,所述步驟S3中網(wǎng)絡主題情感傾向性識別的過程具體包括:
531.訓練話題情感分類模型,讀取標注好的話題語料和情感詞典,利用SVM分類算法,通過訓練得到話題情感分類模型;
532.子話題情感分類,對子話題抽取情感特征,利用話題情感分類模型及SVM分類算法獲取子話題分類結果;
533.話題情感分類,利用子話題情感分類的結果,構建基于子話題的圖模型,根據(jù)圖模型輸出話題情感分類結果;
進一步地,所述步驟S31中訓練話題情感分類模型的過程具體包括:
5311.讀入標注好的話題情感分類語料;
5312.通過自然語言處理,得到經(jīng)中文分詞和詞性標注好的語料;
5313.根據(jù)情感詞典和語法模式庫,從語料中抽取情感特征,構造話題分類訓練數(shù)據(jù)
集;
5314.分類器讀取訓練數(shù)據(jù)集,利用SVM分類算法,通過訓練得到話題情感分類模型。進一步地,所述步驟S32中子話題情感分類的過程具體包括:
5321.讀入待分類的子話題;
5322.通過自然語言處理,得到經(jīng)中文分詞和詞性標注好的子話題;
5323.根據(jù)情感詞典和語法模式庫,從子話題中抽取情感特征,構造測試數(shù)據(jù)集;
5324.分類器讀取測試數(shù)據(jù)和之前訓練好的話題情感分類模型,利用SVM分類算法,輸出子話題情感分類結果。進一步地,所述步驟S33中話題情感分類的過程具體包括:
5331.讀入待分類話題;
5332.對待分類話題進行解析,得到子話題集;
5333.調用子話題情感分類器,對每個子話題進行分類,得到子話題情感分類結果;
5334.根據(jù)子話題之間的相似度,構建LexRank圖模型,利用所構建的圖模型,計算子話題的重要性和冗余度,最終輸出話題情感分類結果。與現(xiàn)有技術相比,本發(fā)明具有如下有益效果:本發(fā)明通過網(wǎng)絡挖掘和信息抽取技術從互聯(lián)網(wǎng)中獲取相關商業(yè)資訊,對商業(yè)資訊進行分析,發(fā)現(xiàn)新的話題,并持續(xù)跟蹤和關注該話題,通過對話題的得到話題的情感傾向性及情感趨勢。本發(fā)明能快速有效地從海量網(wǎng)絡資訊中挖掘企業(yè)相關的主題傾向性走勢,實現(xiàn)即時商業(yè)智慧,能更好地為企業(yè)提供決策支持服務。
圖1是本發(fā)明的實施例一流程示意圖。圖2是本發(fā)明的實施例二流程示意圖。
具體實施例方式下面結合附圖和實施例對本發(fā)明作進一步詳細的說明。
實施例一
圖1中示出了本發(fā)明實施例一的流程示意圖。如圖1所示,在該實施例中,一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5101.網(wǎng)絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);
5102.自然語言處理對原始網(wǎng)絡信息進行預處理,包括:中文分詞、詞性標注、停用詞處理,命名實體識別;
5103.信息的觀點主題檢測與跟蹤,利用專題評論數(shù)據(jù),檢測識別出感興趣的具有完整語義信息的觀點主題。并持續(xù)跟蹤和關注該觀點主題;
5104.觀點主題情感傾向性識別,對企業(yè)的熱點話題進行話題情感傾向性分類,挖掘出觀點主題的情感傾向性。實施例二
圖2中示出了本發(fā)明實施例二的流程示意圖。如圖2所示,在該實施例中,
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5201.網(wǎng)絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);
5202.自然語言處理對原始網(wǎng)絡信息進行預處理,包括:中文分詞、詞性標注、停用詞處理,命名實體識別;
5203.將從網(wǎng)絡上采集到的信息,經(jīng)過基于模板的信息分類,過濾噪聲信息;
5204.將過濾后的相關信息,采用基于時間函數(shù)的增量聚類方法,實現(xiàn)子話題的檢測,并將結果存儲到數(shù)據(jù)庫子話題表中;
5205.根據(jù)子話題的結果,提取出子話題的摘要和關鍵詞,并修改子話題表相關信息;
5206.在根據(jù)子話題的信息,再次根據(jù)間窗口相似度比較的增量聚類方法,進行話題檢測,并提取關鍵詞,得到話題信息存入數(shù)據(jù)庫;
5207.根據(jù)話題中信息的時間和話題中信息的數(shù)量,發(fā)現(xiàn)熱點話題,并呈現(xiàn)給用戶;
5208.訓練話題情感分類模型,讀取標注好的話題語料和情感詞典,利用SVM分類算法,通過訓練得到話題情感分類模型;
5209.子話題情感分類,對子話題抽取情感特征,利用話題情感分類模型及SVM分類算法獲取子話題分類結果;
5210.話題情感分類,利用子話題情感分類的結果,構建基于子話題的圖模型,根據(jù)圖模型輸出話題情感分類結果。實施例三
一種Web主題傾向性挖掘與決策支持的方法,包括步驟:
5301.網(wǎng)絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);
5302.自然語言處理對原始網(wǎng)絡信息進行預處理,包括:中文分詞、詞性標注、停用詞處理,命名實體識別; 5303.從網(wǎng)絡上采集到的信息,經(jīng)過基于模板的信息分類,過濾噪聲信息;
5304.順序處理信息中的每篇文檔;
5305.利用層次聚類方法對未處理過的文檔進行聚類;
5306.若不存在歷史聚類,則根據(jù)當前聚類結果,存儲子話題;
5307.若存在歷史聚類,則對歷史子話題和新聚類出的子話題,再次進行層次聚類;
5308.將新產生的子話題存入數(shù)據(jù)庫;
5309.更新子話題與文檔的關系;
5310.計算新產生和更新過的子話題的關鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫;
5311.根據(jù)子話題的結果,提取出子話題的摘要和關鍵詞,并修改子話題表相關信息;
5312.順序處理每個子話題;
5313.第一個子話題的向量自動成為第一個聚類的聚類中心;
5314.如果相似度大于某個閾值,則該子話題被分配給這個聚類;
5315.當一篇子話題分配給某個聚類的時候,重新計算這個聚類的聚類中心;
5316.若某子話題沒有分配給任何的聚類,則該子話題成為一個新的聚類,同時也是這個聚類的聚類中心;
5317.將新產生的話題,添加到數(shù)據(jù)庫;
5318.更新話題的信息;
5319.根據(jù)話題中信息的時間和話題中信息的數(shù)量,發(fā)現(xiàn)熱點話題,并呈現(xiàn)給用戶;
5320.讀入標注好的話題情感分類語料;
5321.通過自然語言處理,得到經(jīng)中文分詞和詞性標注好的語料;
5322.根據(jù)情感詞典和語法模式庫,從語料中抽取情感特征,構造話題分類訓練數(shù)據(jù)
集;
5323.分類器讀取訓練數(shù)據(jù)集,利用SVM分類算法,通過訓練得到話題情感分類模型;
5324.讀入待分類的子話題;
5325.通過自然語言處理,得到經(jīng)中文分詞和詞性標注好的子話題;
5326.根據(jù)情感詞典和語法模式庫,從子話題中抽取情感特征,構造測試數(shù)據(jù)集;
S327分類器讀取測試數(shù)據(jù)和之前訓練好的話題情感分類模型,利用SVM分類算法,輸
出子話題情感分類結果;
5328.讀入待分類話題;
5329.對待分類話題進行解析,得到子話題集;
5330.調用子話題情感分類器,對每個子話題進行分類,得到子話題情感分類結果;
5331.根據(jù)子話題之間的相似度,構建LexRank圖模型,利用所構建的圖模型,計算子話題的重要性和冗余度,輸出話題情感分類結果。如采用爬蟲負責從互聯(lián)網(wǎng)上目標網(wǎng)站下載網(wǎng)頁,并對網(wǎng)頁進行解析和信息抽取,處理結果存入數(shù)據(jù)庫和本地文件系統(tǒng)。采用聚焦爬蟲,根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索弓丨,以便之后的查詢和檢索。
在子話題檢測和話題檢測中,具體的聚類方法如下:
先對文本進行預處理,然后提取并選擇言論特征從而合理表示言論,最后根據(jù)言論特征和話題特征計算相似度進行話題聚類。進行話題聚類后,再更新話題特征。首先,將每一個言論看作一個只含有一個言論的話題,并且計算每一個言論隊的相似度。其次,計算每一個類簇的相似度。類簇A和類簇B的相似度可以看作是每個類簇中的言論隊的相似度的算數(shù)平均值。最后,假設A和B是相似度最高的類簇對,如果相似度高于預先設定的閾值,則將類簇A,B合并成一個新的類簇,并且繼續(xù)執(zhí)行第二步,否則停止話題聚類。以上僅為本發(fā)明的優(yōu)選實施例,但本發(fā)明的設計構思并不局限于此,凡利用此構思對本發(fā)明做出的非實質性修改,也均落入本發(fā)明的保護范圍之內。
權利要求
1.一種Web主題傾向性挖掘與決策支持的方法,其特征在于,包括步驟:絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);息的觀點主題檢測與跟蹤,利用專題評論數(shù)據(jù),檢測識別出感興趣的具有完整語義信息的觀點主題,并持續(xù)跟蹤和關注該觀點主題;點主題情感傾向性識別,對企業(yè)的熱點話題進行話題情感傾向性分類,挖掘出觀點主題的情感傾向性。
2.根據(jù)權利要求1所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟SI還包括: Sll.自然語言處理對原始網(wǎng)絡信息進行預處理,包括:中文分詞、詞性標注、停用詞處理,命名實體識別。
3.根據(jù)權利要求2所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S2中觀點主題檢測與跟蹤的過程具體包括:網(wǎng)絡上采集到的信息,經(jīng)過基于模板的信息分類,過濾噪聲信息;過濾后的相關信息,采用基于時間函數(shù)的增量聚類方法,實現(xiàn)子話題的檢測,并將結果存儲到數(shù)據(jù)庫子話題表中;據(jù)子話題的結果,提取出子話題的摘要和關鍵詞,并修改子話題表相關信息;根據(jù)子話題的信息,再次根據(jù)間窗口相似度比較的增量聚類方法,進行話題檢測,并提取關鍵詞,得到話題信息存入數(shù)據(jù)庫; 據(jù)話題中信息的時間和話題中信息的數(shù)量,發(fā)現(xiàn)熱點話題,并呈現(xiàn)給用戶。
4.根據(jù)權利要求3所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S22中子話題的檢測的過程具體包括:序處理相關信息中的每篇文檔;用層次聚類方法對未處理過的文檔進行聚類;不存在歷史聚類,則根據(jù)當前聚類結果,存儲子話題;存在歷史聚類,則對歷史子話題和新聚類出的子話題,再次進行層次聚類;新產生的子話題存入數(shù)據(jù)庫;新子話題與文檔的關系;算新產生和更新過的子話題的關鍵詞、多文檔摘要等信息存入數(shù)據(jù)庫。
5.根據(jù)權利要求3所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S24中話題的檢測的過程具體包括:序處理每個子話題;一個子話題的向量自動成為第一個聚類的聚類中心;果相似度大于某個閾值,則該子話題被分配給這個聚類;一篇子話題分配給某個聚類的時候,重新計算這個聚類的聚類中心;某子話題沒有分配給任何的聚類,則該子話題成為一個新的聚類,同時也是這個聚類的聚類中心;新產生的話題,添加到數(shù)據(jù)庫;新話題的信息。
6.根據(jù)權利要求1所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S3中網(wǎng)絡主題情感傾向性識別的過程具體包括:練話題情感分類模型,讀取標注好的話題語料和情感詞典,利用SVM分類算法,通過訓練得到話題情感分類模型;話題情感分類,對子話題抽取情感特征,利用話題情感分類模型及SVM分類算法獲取子話題分類結果;題情感分類,利用子話題情感分類的結果,構建基于子話題的圖模型,根據(jù)圖模型輸出話題情感分類結果。
7.根據(jù)權利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S31中訓練話題情感分類模型的過程具體包括:入標注好的話題情感分類語料;過自然語言處理,得到經(jīng)中文分詞和詞性標注好的語料; 據(jù)情感詞典和語法模式庫,從語料 中抽取情感特征,構造話題分類訓練數(shù)據(jù)集;類器讀取訓練數(shù)據(jù)集,利用SVM分類算法,通過訓練得到話題情感分類模型。
8.根據(jù)權利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S32中子話題情感分類的過程具體包括:入待分類的子話題;過自然語言處理,得到經(jīng)中文分詞和詞性標注好的子話題;據(jù)情感詞典和語法模式庫,從子話題中抽取情感特征,構造測試數(shù)據(jù)集;類器讀取測試數(shù)據(jù)和之前訓練好的話題情感分類模型,利用SVM分類算法,輸出子話題情感分類結果。
9.根據(jù)權利要求6所述的Web主題傾向性挖掘與決策支持的方法,其特征在于,所述步驟S33中話題情感分類的過程具體包括:入待分類話題;待分類話題進行解析,得到子話題集;用子話題情感分類器,對每個子話題進行分類,得到子話題情感分類結果;據(jù)子話題之間的相似度,構建LexRank圖模型,利用所構建的圖模型,計算子話題的重要性和冗余度,最終輸出話題情感分類結果。
全文摘要
本發(fā)明公開一種Web主題傾向性挖掘與決策支持的方法,包括步驟S1.網(wǎng)絡信息抽取與儲存,通過網(wǎng)絡挖掘技術,在互聯(lián)網(wǎng)上獲取信息,并將結果存入數(shù)據(jù)庫和本地文件系統(tǒng);S2.信息的觀點主題檢測與跟蹤,利用專題評論數(shù)據(jù),檢測識別出感興趣的具有完整語義信息的觀點主題,并持續(xù)跟蹤和關注該觀點主題;S3.觀點主題情感傾向性識別,對企業(yè)的熱點話題進行話題情感傾向性分類,挖掘出觀點主題的情感傾向性。本發(fā)明通過從互聯(lián)網(wǎng)中獲取相關商業(yè)資訊,快速有效地從海量網(wǎng)絡資訊中挖掘企業(yè)相關的主題傾向性走勢,實現(xiàn)即時商業(yè)智慧,更好地為企業(yè)提供決策支持服務。
文檔編號G06F17/30GK103116644SQ201310059170
公開日2013年5月22日 申請日期2013年2月26日 優(yōu)先權日2013年2月26日
發(fā)明者張振剛, 徐浩, 楊沛, 丁卓 申請人:華南理工大學