一種股票標準新聞庫的構(gòu)建方法及構(gòu)建系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文字信息處理技術(shù)領(lǐng)域,尤其是一種股票標準新聞庫的構(gòu)建方法。
【背景技術(shù)】
[0002] 股市新聞作為市場信息的重要部分,被投資者廣泛地分析和運用。隨著互聯(lián)網(wǎng)的 高速發(fā)展,新聞傳播和信息變更的速度非常大。擁有如此大量的信息,越來越多的金融機構(gòu) 依靠計算機來分析數(shù)據(jù),與此相關(guān)的分析預測系統(tǒng)可以幫助投資者過濾干擾信息并做出合 理的選擇。
[0003] 股票價格的統(tǒng)計分析和預測方法很多,一些傳統(tǒng)技術(shù)分析方法包括股價圖形分析 (點線圖、直線圖、K線圖等)、趨勢分析(趨勢線、通道線、黃金分割線等)、指標分析(隨機 指標、威廉指標、乖離率、相對強弱指數(shù)等)等。這些技術(shù)主要集中在運用近期歷史價格數(shù) 據(jù)的數(shù)值型方法分析,不能分析文字新聞數(shù)據(jù)。
[0004] 目前,隨著互聯(lián)網(wǎng)的發(fā)展,基于文本分析的股票分析及預測方法也取得了實際的 應用效果?;谖谋痉诸?預測模型可以利用最新的股市新聞,對股價給出一個比較明確 的預測(上升,持平或者下降)。基于文本分析的股票分析及預測方法通過公開新聞信息, 利用改進的評價組對股票情感詞進行特征選擇,并用歸一化后的絕對詞頻權(quán)重對文本中的 情感詞進行特征加權(quán)選擇并對股票新聞進行傾向性分析。但是該方法較為復雜,效率較低, 輸出結(jié)果的準確性不高。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明所要解決的技術(shù)問題是提供一種構(gòu)建簡單,輸出準確的股票標準新聞庫構(gòu) 建方法及構(gòu)建系統(tǒng)。
[0006] 本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
[0007] -種股票標準新聞庫的構(gòu)建方法,其特征在于,包括如下步驟,
[0008] 步驟S1 :獲取股票新聞信息;
[0009] 步驟S2 :根據(jù)股票新聞信息構(gòu)建股票標準庫Z。;
[0010] 步驟S3 :對股票標準庫中的文本進行預編譯;
[0011] 步驟S4 :對已編譯文本的特征進行標識,選取特征詞;
[0012] 步驟S5 :計算特征詞的信息增益,得到特征詞的特征值;
[0013] 步驟S6 :利用特征值訓練支持SVM算法,得到抽取新聞特征的分類模型;
[0014] 步驟S7 :利用分類模型更新股票標準庫;
[0015] 步驟S8 :重復步驟S3至步驟S6,調(diào)整股票標準庫中的新聞組成,直至分類結(jié)果正 確比率大于閾值。
[0016] 本發(fā)明的有益效果:通過對抓取的新聞信息進行判斷是積極新聞還是消極新聞, 構(gòu)建分類模型,并通過向量機算法不斷更新數(shù)據(jù)庫中的新聞信息,實現(xiàn)新聞庫的構(gòu)建,該數(shù) 據(jù)庫構(gòu)建方法簡單,實現(xiàn)方便,且新聞數(shù)據(jù)處理效率高,及時更新數(shù)據(jù)信息,數(shù)據(jù)信息準確。
[0017] 進一步,獲取股票新聞信息的方法為使用互聯(lián)網(wǎng)工具網(wǎng)絡爬蟲從互聯(lián)網(wǎng)中抓取股 票新聞彳目息。
[0018] 采用進一步技術(shù)方案的有益效果:從互聯(lián)網(wǎng)中實時抓取新聞信息,新聞時效性高, 能夠?qū)崿F(xiàn)動態(tài)更新新聞庫。
[0019] 進一步,所述步驟S2構(gòu)建股票標準庫的方法為根據(jù)獲取的股票新聞信息,逐條判 斷新聞信息對股票是看漲或看跌,如果看漲,則該條新聞信息歸類為積極新聞,如果看跌則 該條新聞歸類為消極新聞,積極新聞和消極新聞共同構(gòu)成股票標準庫Z。。
[0020] 采用進一步技術(shù)方案的有益效果:新聞信息歸類為積極新聞和消極新聞,歸類簡 單直接,積極新聞和消極新聞共同構(gòu)成股票標準庫Z。,便于后續(xù)文本處理。
[0021] 進一步,所述步驟S3中對股票標準庫中的文本進行預編譯,預編譯包括對新聞信 息進行分詞和去除停用詞;
[0022] 分詞,采用Jieba分詞系統(tǒng),基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字 所有可能成詞情況所構(gòu)成的有向無環(huán)圖,采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞 頻的最大切分組合;
[0023] 去除停用詞,定義停用詞,利用Jieba分詞工具去除停用詞。
[0024] 采用進一步技術(shù)方案的有益效果:工業(yè)界和學術(shù)界常用的有The Stanford NLP (中科院NLP組),其為基于Python語言的Jieba開源分詞軟件的中文分詞組件。采用 Jieba分詞系統(tǒng),它基于前綴詞典實現(xiàn)高效的詞圖掃描,生成句子中漢字所有可能成詞情況 所構(gòu)成的有向無環(huán)圖。采用了動態(tài)規(guī)劃查找最大概率路徑,找出基于詞頻的最大切分組合。 另外利用Jieba分詞工具本身自帶的停用詞庫(包含語氣助詞、副詞、介詞、連接詞等)就 可以很好的達到去除停用詞的目標。
[0025] 進一步,所述步驟S4對文本特征進行標識,采用TF-IDF加權(quán)法;
[0026] TF-IDF的計算方法為詞頻TF與逆向文檔頻率IDF的乘積,TF表示詞語在文件d 中出現(xiàn)的頻率,IDF的含義是:如果包含詞語t的文件越少,也就是n越小,IDF越大,則說 明詞語t具有很好的類別區(qū)分能力;
[0027] 對于在某一特定語料中的詞語h來說,TF的計算方法為:
[0029] 上式中Ii1,,是該詞語在文檔d ,中的顯現(xiàn)次數(shù),而分母則是在文檔d ,中所有詞語的 顯現(xiàn)次數(shù)之總和;
[0030] IDF由總文檔數(shù)目除以包含該詞語的文檔的數(shù)目,再將所得到的商取對數(shù)得到:
[0032] 其中|D| :股票標準庫的文檔總數(shù);
[0033] Uht1GdJI :包含詞語心的文檔數(shù)目(即Ii1,盧0的文檔數(shù)目),如果該詞語 在語料庫中不存在,就會導致分母為零,因此使用1+I U A1G d ,} I作為特征選擇方法;
[0034] TF-IDF加權(quán)法的計算方法如下:
[0035] TFIDFlj j= TF !, ^IDFl0
[0036] 采用進一步技術(shù)方案的有益效果:采用TF-IDF加權(quán)法,TF-IDF(term frequency inverse document frequency)是一種用于資訊檢索的常用加權(quán)技術(shù)。用以評估某個詞語 對于一個文檔集合(或股票標準庫)中的其中一份文件的重要程度。單詞的重要性隨著 它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。 TF-IDF加權(quán)的各種形式常被搜尋引擎應用,作為文件與用戶查詢之間相關(guān)程度的度量或評 級,所以TF-IDF加權(quán)法傾向于去掉常見的無意義的詞語,保留重要的詞語,對于經(jīng)過分詞 和去掉停用詞處理后新聞文本中的詞語。
[0037] 實際中如果特征詞選擇太多,在訓練SVM時耗時長,還不收斂,但特征詞太少,標 準新聞庫構(gòu)建效果不好。所以經(jīng)過實驗,選取20個特征詞為最優(yōu)方案。
[0038] 進一步,所述步驟S5中信息增益為某一特征在文檔中出現(xiàn)的前后信息熵之差,其 計算公式為:
[0039]
[0040] 式中:P(C1)表示類別(;出現(xiàn)的概率,用類別匕的文檔數(shù)除以總的文檔數(shù);P(t)是 特征t出現(xiàn)的概率,用出現(xiàn)過T的文檔數(shù)除以總文檔數(shù);P (C111)表示出現(xiàn)T的時候,類別C1 出現(xiàn)的概率;
[0041] 對每個詞語進行編號,每個編號的詞語計算得到的信息增益與之一一對應,并作 為輸入數(shù)據(jù)對支持SVM進行有監(jiān)督訓練,訓練的輸出數(shù)據(jù)為1或-1表示特征詞的特征值, 其中1表示積極新聞,-1表示消極新聞。
[0042] 采用進一步技術(shù)方案的有益效果:計算特征詞的特征值,采用1表示積極新聞,-1 表示消極新聞,方法簡單,歸類迅速。
[0043] 進一步,步驟S6,利用特征值訓練支持SVM算法,得到抽取新聞特征的分類模型。
[0044] 采用進一步技術(shù)方案的有益效果:SVM(向量機)算法是機器學習中成熟的算法, 其是利用已知的輸入輸出數(shù)據(jù)進行訓練,得到描述輸入輸出數(shù)據(jù)分類的支持向量,算法訓 練完畢。接下來,如果沒有輸出標簽的數(shù)據(jù)輸入到該系統(tǒng)中,利用已經(jīng)訓練得到的支持向量 就可以將新輸入的數(shù)據(jù)進行分類。該算法還有很多改進方法,本專利的本步驟可以使用任 何SVM算法。
[0045] 進一步,所述步驟S7中利用分類模型更新股票標準庫的具體步驟如下:
[0046] 步驟71 :將將特征詞的信息增益作為輸入加入到已訓練的支持SVM上,選擇對股 票新聞積極或消極分類正確的新聞,組成新聞集合Z1;
[0047] 步驟72 :使用爬蟲工具在網(wǎng)頁上繼續(xù)獲取股票評價新聞,新聞的特征數(shù)據(jù)作為輸 入加入到已訓練的支持SVM上,對股票新聞進行分類,得到其為積極或消極分類的結(jié)果;
[0048] 步驟73 :將得到的新聞及其分類結(jié)果構(gòu)成新聞集合Z2,利用Z1修改Z。,構(gòu)建新的股 票新聞標準庫,并將Z 2