本發(fā)明涉及信息檢索領域,具體地講就是一種基于新聞大數(shù)據(jù)的自動選股方法。
背景技術:
現(xiàn)在,量化投資在管理資產(chǎn)中起到越來越重要的作用,大家開始利用計算機設備對歷史股票量價數(shù)據(jù)作為數(shù)據(jù)資源,通過數(shù)學模型進行驗證,用于對股票進行量化投資?,F(xiàn)有方案關注個股特點分析,沒有從行業(yè)關注度角度進行自動選股。由于新聞導向同時也會對股票數(shù)據(jù)的走向具有一定的預警作用(“本發(fā)明采用詞匯統(tǒng)計分析法挖掘新聞的情感傾向,完成自動選股”)。簡單地說,新聞內容的情感傾向可分為兩種情形:正面情感和負面情感,正面情感采用新聞內容中的正面情感詞匯比率表示,負面情感采用新聞內容中的負面詞匯比率表示。如何利用新聞內容體現(xiàn)出的情感傾向,使其服務于量化投資,是本發(fā)明要解決的技術問題。
技術實現(xiàn)要素:
本發(fā)明的目的是提供一種基于新聞大數(shù)據(jù)的自動選股方法,首先將情感詞匯和行業(yè)詞匯存入存儲器,上述情感詞匯以及行業(yè)詞匯來源于專業(yè)漢語財經(jīng)詞典;通過rss實時獲取互聯(lián)網(wǎng)財經(jīng)新聞,每小時更新一次;將當天的新聞內容通過服務器解析分析當天的新聞內容,新聞內容分析包括兩個子部分,1)新聞內容的情感維度分析,計算得到新聞內容的情感傾向;2)新聞內容的行業(yè)維度分析,計算得到新聞內容體現(xiàn)的行業(yè)關注度;利用情感傾向、行業(yè)關注度計算股票排名,選擇排名靠前的股票作為投資對象。
將新聞內容解析為詞匯的集合,即
第i天內,行業(yè)x的關注度為
在第i天內,設定行業(yè)x的正面關注度為
在過去一個月內,設定行業(yè)x的累計熱度(關注度)為
每個月的最后一個天晚23:00后,計算本月所有行業(yè)的月累計熱度
本發(fā)明的理論基礎是基于以下分析:情感詞匯具有心理學意義,正面詞匯代表了積極心理暗示;負面詞匯代表了人類消極心理暗示;例如,“漲停、良好、豐收”等詞匯體現(xiàn)了新聞內容中的積極態(tài)度,而“跌停、疲軟、萎靡”等詞匯體現(xiàn)了新聞內容中的消極態(tài)度。當新聞中負面詞匯比率增大時,市場展現(xiàn)了悲觀消極的預期,股市下行風險增大。行業(yè)詞匯具有較強的行業(yè)指向性,例如,“不良貸款”主要指向銀行業(yè)的上市公司,“乘用車”主要指向汽車行業(yè)的上市公司。當新聞中某種行業(yè)詞匯的比率增加時,市場熱點轉向該行業(yè),該行業(yè)的上市公司將會受到更多的投資者關注。
本發(fā)明通過新聞大數(shù)據(jù)的情感維度、行業(yè)維度選股;現(xiàn)有方案關注個股特點分析,沒有從行業(yè)熱度角度進行自動選股。本方案通過詞匯關聯(lián)確認新聞內容體現(xiàn)的情感傾向和行業(yè)關注度,是對現(xiàn)有技術中的創(chuàng)新。新聞大數(shù)據(jù)自動選股優(yōu)點:1)新聞情感(正負面情感強度)與股市、上市公司之間聯(lián)動關系的理論基礎已經(jīng)得到廣泛證實。2)自動提取情感傾向與行業(yè)關注度,全自動排名篩選股票。
附圖說明
圖1是本發(fā)明的流程圖。
圖2是本發(fā)明執(zhí)行算法的流程圖。
具體實施方式
下面,結合本發(fā)明的主要流程以及執(zhí)行算法流程圖,對本發(fā)明作進一步詳細說明。
關鍵詞:情感詞匯表,行業(yè)詞匯表。情感詞匯指的是情感詞匯列表中的詞匯,包括正面詞匯和負面詞匯兩個部分。行業(yè)詞匯表針對每個行業(yè)的常見關鍵詞進行匯編后得到的詞匯表。上述情感詞匯表和行業(yè)詞匯表來源于《專業(yè)漢語財經(jīng)詞典》,申請人已編纂成冊。
舉例來說,正面詞匯包含:成功、出色、得天獨厚、引領、進步、創(chuàng)新等。負面詞匯包括失敗、損失、不足、差評、召回、低迷等。
行業(yè)詞匯,舉例來說,銀行業(yè)中,常見的關鍵詞為利息、貸款、銀監(jiān)會、央行、利率、信貸等。房地產(chǎn)行業(yè)中,常見的關鍵詞置業(yè)、首套房、住宅、地塊、商品房、樓市等。
行業(yè)公司,是指銀行業(yè)的代表公司為民生銀行、招商銀行、南京銀行、平安銀行等。房地產(chǎn)行業(yè)的代表企業(yè)為萬科a、保利地產(chǎn)、華夏幸福、碧桂園等。
本過程通過rss監(jiān)控公開新聞源獲得,例如,人民網(wǎng)rss,新華網(wǎng)rss等。為了保障實時性,本方法每個小時對新聞更新一次。
假定每天(從北京時間當天0點開始至當晚24點,當月最后一天為0點開始至當晚23點,下同)的新聞內容由t個漢語詞匯構成
新聞的行業(yè)維度分析
根據(jù)《申銀萬國行業(yè)分類標準》(2014)的28個一級行業(yè)類別,本專利的行業(yè)維度也具有28個,每個維度對應一個行業(yè)。本方法為每個行業(yè)設定“行業(yè)熱度”,行業(yè)熱度表示新聞對特定行業(yè)的關注程度。假定第i天內行業(yè)x的熱度為
股票排名計算
本方法在每個月的最后一個天晚23:00對股票進行排名,計算當月每天的行業(yè)熱度
1)行業(yè)的正面熱度和行業(yè)的負面熱度
在第i天內,設定行業(yè)x的正面熱度為
2)行業(yè)的月累計熱度
在過去一個月內,設定行業(yè)x的累計熱度為
每個月的最后一個天晚23:00后,計算本月所有行業(yè)的月累計熱度