本發(fā)明涉及行業(yè)趨勢預(yù)測方法,更具體地說是指基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法及其系統(tǒng)。
背景技術(shù):
:行業(yè)一般是指其按生產(chǎn)同類產(chǎn)品或具有相同工藝過程或提供同類勞動服務(wù)劃分的經(jīng)濟(jì)活動類別,如飲食行業(yè)、服裝行業(yè)、機(jī)械行業(yè)、金融行業(yè)、移動互聯(lián)網(wǎng)行業(yè)等,在對行業(yè)當(dāng)前所處狀態(tài)的分析,主要是從行業(yè)趨勢入手分析整個行業(yè)的所處狀態(tài)。目前,對行業(yè)趨勢主要是由政府或者專業(yè)機(jī)構(gòu)進(jìn)行分析,但是都是宏觀的分析和預(yù)測,首先行業(yè)劃分的準(zhǔn)確度不夠高,基于用電量等宏觀指標(biāo)的宏觀分析,只能對一些特定行業(yè)比如制造業(yè)進(jìn)行分析和預(yù)測,對一些投資熱度的風(fēng)口行業(yè)很難把握,存在一定的局限性。中國專利201410398967.x公開了一種面向典型行業(yè)大數(shù)據(jù)的電力經(jīng)理指數(shù)趨勢預(yù)測方法,包括(1)采用相關(guān)性分析對影響行業(yè)用電量的指標(biāo)進(jìn)行篩選;(2)對篩選出的指標(biāo)利用統(tǒng)計檢驗和粗糙集理論進(jìn)行檢驗和優(yōu)化,建立行業(yè)電力監(jiān)測指標(biāo)體系模型;(3)提出基于電力經(jīng)理指數(shù)(electricalmanager'sindex,簡稱emi)的構(gòu)建和預(yù)測方法,并基于電力經(jīng)理指數(shù)預(yù)測行業(yè)用電趨勢。該專利能夠監(jiān)測行業(yè)用電動態(tài)變化、分析其所處狀態(tài)以及預(yù)見其發(fā)展趨勢,掌握電力市場供求變化的規(guī)律,為電力市場營銷決策提供可靠的依據(jù)。但是,上述的專利也是從用電量去分析行業(yè)所處狀態(tài)以及預(yù)見其發(fā)展趨勢,這樣僅僅只能針對典型行業(yè),對于一些新型行業(yè)無法得到準(zhǔn)確的分析和預(yù)測。因此,有必要設(shè)計一種基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,實現(xiàn)提升預(yù)測和分析的準(zhǔn)確度,可針對某些行業(yè)進(jìn)行單獨把控,可彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,通用化程度高。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷,提供基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法及其系統(tǒng)。為實現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,所述方法包括:獲取海量企業(yè)數(shù)據(jù);根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位;根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫;針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫;針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢;針對需要預(yù)測的樣本行業(yè),利用生命周期指標(biāo)庫預(yù)測所述樣本行業(yè)所處生命周期。其進(jìn)一步技術(shù)方案為:根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位的步驟,包括以下具體步驟:根據(jù)海量企業(yè)數(shù)據(jù),建立行業(yè)數(shù)據(jù)庫;采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容;對所述搜索返回內(nèi)容進(jìn)行精準(zhǔn)分析,獲取關(guān)鍵分詞;對所述關(guān)鍵分詞進(jìn)行匹配、分組統(tǒng)計以及打標(biāo)簽,形成企業(yè)的細(xì)分行業(yè)。其進(jìn)一步技術(shù)方案為:根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫的步驟,包括以下具體步驟:按照所述細(xì)分行業(yè),對所述海量企業(yè)數(shù)據(jù)進(jìn)行歸類;按照所述細(xì)分行業(yè)的各個維度,對歸類后的海量企業(yè)數(shù)據(jù)進(jìn)行分析;分組統(tǒng)計每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù);量化每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù),獲取每個細(xì)分行業(yè)的各個維度的先行指標(biāo);整合所有的先行指標(biāo),組成微觀指標(biāo)庫。其進(jìn)一步技術(shù)方案為:針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢的步驟,包括以下具體步驟:獲取需要預(yù)測的樣本行業(yè),并從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出時序數(shù)據(jù);在所述微觀指標(biāo)庫內(nèi)查詢所述時序數(shù)據(jù),并對所述時序數(shù)據(jù)向量化;按照tid分組統(tǒng)計所述時序數(shù)據(jù)的頻數(shù);對tid分層索引;統(tǒng)計所述時序數(shù)據(jù)的均值、標(biāo)準(zhǔn)差以及分位數(shù);對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸預(yù)測。其進(jìn)一步技術(shù)方案為:對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸運算的步驟,包括以下具體步驟:對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行分組建模,獲取回歸模型;評估每個模型的誤差率、r方以及回歸系數(shù),繪制每個模型的圖形;對每個模型進(jìn)行向上或向下發(fā)展趨勢的預(yù)測,并保存預(yù)測結(jié)果。本發(fā)明還提供了基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測系統(tǒng),包括數(shù)據(jù)獲取單元、行業(yè)定位單元、微觀指標(biāo)庫獲取單元、生命周期指標(biāo)庫建立單元、發(fā)展趨勢預(yù)測單元以及生命周期預(yù)測單元;所述數(shù)據(jù)獲取單元,用于獲取海量企業(yè)數(shù)據(jù);所述行業(yè)定位單元,用于根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位;所述微觀指標(biāo)庫獲取單元,用于根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫;所述生命周期指標(biāo)庫建立單元,用于針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫;所述發(fā)展趨勢預(yù)測單元,用于針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢;所述生命周期預(yù)測單元,用于針對需要預(yù)測的樣本行業(yè),利用生命周期指標(biāo)庫預(yù)測所述樣本行業(yè)所處生命周期。其進(jìn)一步技術(shù)方案為:所述行業(yè)定位單元包括數(shù)據(jù)庫建立模塊、內(nèi)容獲取模塊、分詞獲取模塊以及處理模塊;所述數(shù)據(jù)庫建立模塊,用于根據(jù)海量企業(yè)數(shù)據(jù),建立行業(yè)數(shù)據(jù)庫;所述內(nèi)容獲取模塊,用于采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容;所述分詞獲取模塊,用于對所述搜索返回內(nèi)容進(jìn)行精準(zhǔn)分析,獲取關(guān)鍵分詞;所述處理模塊,用于對所述關(guān)鍵分詞進(jìn)行匹配、分組統(tǒng)計以及打標(biāo)簽,形成企業(yè)的細(xì)分行業(yè)。其進(jìn)一步技術(shù)方案為:所述微觀指標(biāo)庫獲取單元包括歸類模塊、分析模塊、分組統(tǒng)計模塊、量化模塊以及整合模塊;所述歸類模塊,用于按照所述細(xì)分行業(yè),對所述海量企業(yè)數(shù)據(jù)進(jìn)行歸類;所述分析模塊,用于按照所述細(xì)分行業(yè)的各個維度,對歸類后的海量企業(yè)數(shù)據(jù)進(jìn)行分析;所述分組統(tǒng)計模塊,用于分組統(tǒng)計每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù);所述量化模塊,用于量化每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù),獲取每個細(xì)分行業(yè)的各個維度的先行指標(biāo);所述整合模塊,用于整合所有的先行指標(biāo),組成微觀指標(biāo)庫。其進(jìn)一步技術(shù)方案為:所述發(fā)展趨勢預(yù)測單元包括時序數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)處理模塊、頻數(shù)統(tǒng)計模塊、分層索引模塊、參數(shù)統(tǒng)計模塊以及回歸預(yù)測模塊;所述時序數(shù)據(jù)準(zhǔn)備模塊,用于獲取需要預(yù)測的樣本行業(yè),并從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出時序數(shù)據(jù);所述數(shù)據(jù)處理模塊,用于在所述微觀指標(biāo)庫內(nèi)查詢所述時序數(shù)據(jù),并對所述時序數(shù)據(jù)向量化;所述頻數(shù)統(tǒng)計模塊,用于按照tid分組統(tǒng)計所述時序數(shù)據(jù)的頻數(shù);所述分層索引模塊,用于對tid分層索引;所述參數(shù)統(tǒng)計模塊,用于統(tǒng)計所述時序數(shù)據(jù)的均值、標(biāo)準(zhǔn)差以及分位數(shù);所述回歸預(yù)測模塊,用于對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸預(yù)測。其進(jìn)一步技術(shù)方案為:所述回歸預(yù)測模塊包括建模子模塊、評估子模塊以及保存預(yù)測子模塊;所述建模子模塊,用于對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行分組建模,獲取回歸模型;所述評估子模塊,用于評估每個模型的誤差率、r方以及回歸系數(shù),繪制每個模型的圖形;所述保存預(yù)測子模塊,用于對每個模型進(jìn)行向上或向下發(fā)展趨勢的預(yù)測,并保存預(yù)測結(jié)果。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果是:本發(fā)明的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,通過獲取海量企業(yè)數(shù)據(jù),結(jié)合行業(yè)的細(xì)分行業(yè)的精準(zhǔn)定位,針對細(xì)分行業(yè)的不同維度對海量企業(yè)數(shù)據(jù)進(jìn)行歸類、統(tǒng)計以及量化,形成微觀指標(biāo)庫,微觀指標(biāo)庫用于預(yù)測行業(yè)向上或向下的發(fā)展趨勢,建立細(xì)分行業(yè)的生命周期指標(biāo)庫,預(yù)測行業(yè)的生命周期,實現(xiàn)提升預(yù)測和分析的準(zhǔn)確度,可針對某些行業(yè)進(jìn)行單獨把控,可彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,通用化程度高。下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步描述。附圖說明圖1為本發(fā)明具體實施例提供的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法的流程圖;圖2為本發(fā)明具體實施例提供的對企業(yè)的細(xì)分行業(yè)進(jìn)行定位的具體流程圖;圖3為本發(fā)明具體實施例提供的獲取微觀指標(biāo)庫的具體流程圖;圖4為本發(fā)明具體實施例提供的利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢的具體流程圖;圖5為本發(fā)明具體實施例提供的進(jìn)行線性回歸預(yù)測的具體流程圖;圖6為本發(fā)明具體實施例提供的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測系統(tǒng)的結(jié)構(gòu)框圖;圖7為本發(fā)明具體實施例提供的行業(yè)定位單元的結(jié)構(gòu)框圖;圖8為本發(fā)明具體實施例提供的微觀指標(biāo)庫獲取單元的結(jié)構(gòu)框圖;圖9為本發(fā)明具體實施例提供的發(fā)展趨勢預(yù)測單元的結(jié)構(gòu)框圖;圖10為本發(fā)明具體實施例提供的回歸預(yù)測模塊的結(jié)構(gòu)框圖。具體實施方式為了更充分理解本發(fā)明的技術(shù)內(nèi)容,下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案進(jìn)一步介紹和說明,但不局限于此。如圖1~10所示的具體實施例,本實施例提供的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,可以運用在機(jī)構(gòu)預(yù)測各個行業(yè)當(dāng)前的發(fā)展情況的過程中,實現(xiàn)提升預(yù)測和分析的準(zhǔn)確度,可針對某些行業(yè)進(jìn)行單獨把控,可彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,通用化程度高。如圖1所示,本實施例提供了基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,該方法包括:s1、獲取海量企業(yè)數(shù)據(jù);s2、根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位;s3、根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫;s4、針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫;s5、針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢;s6、針對需要預(yù)測的樣本行業(yè),利用生命周期指標(biāo)庫預(yù)測所述樣本行業(yè)所處生命周期。于其他實施例,上述的s5步驟以及s6步驟,可以對調(diào)順序進(jìn)行。上述的s1步驟,具體是通過數(shù)據(jù)爬取技術(shù),在設(shè)定時間內(nèi)從互聯(lián)網(wǎng)上采集和爬取全國各細(xì)分行業(yè)的企業(yè)數(shù)據(jù),作為海量企業(yè)數(shù)據(jù);在獲取到海量企業(yè)數(shù)據(jù)后,還需要對這些海量企業(yè)數(shù)據(jù)進(jìn)行定期更新,以此來積累企業(yè)數(shù)據(jù),海量可靠數(shù)據(jù)的支持,提升預(yù)測和分析的準(zhǔn)確度。更進(jìn)一步的,上述的s2步驟,根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位的步驟,包括以下具體步驟:s21、根據(jù)海量企業(yè)數(shù)據(jù),建立行業(yè)數(shù)據(jù)庫;s22、采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容;s23、對所述搜索返回內(nèi)容進(jìn)行精準(zhǔn)分析,獲取關(guān)鍵分詞;s24、對所述關(guān)鍵分詞進(jìn)行匹配、分組統(tǒng)計以及打標(biāo)簽,形成企業(yè)的細(xì)分行業(yè)。對于s21步驟,具體是對企業(yè)數(shù)據(jù)進(jìn)行自然語義分析獲得投資類詞語,與現(xiàn)有數(shù)據(jù)庫進(jìn)行比對,屬于新詞加入行業(yè)數(shù)據(jù)。例如:從網(wǎng)站中獲取了“三江購物俱樂部股份有限公司是浙江省目前最大的連鎖超市之一,中國連鎖業(yè)百強(qiáng),是浙江省政府重點扶持大型連鎖企業(yè),中國經(jīng)貿(mào)委重點聯(lián)系企業(yè)。公司目前擁有兩座大型配送中心,共占地13萬多平方米。有員工近萬名,會員顧客131多萬人,每天有近50多萬的顧客在三江的各連鎖商場購物消費?!蓖ㄟ^自然語義分析,得到“物流運輸、連鎖超市、超市配送”行業(yè)分詞,通過大量資訊的分析,發(fā)現(xiàn)“物流運輸”和“超市配送”呈現(xiàn)上升的趨勢,將這兩個詞與數(shù)據(jù)庫比對后,建立新的行業(yè)字段“交通運輸、倉儲和郵政業(yè)”到“物流”再到“超市配送”。上述的s22步驟,采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容;上述的相關(guān)咨訊網(wǎng)站包括百度、百度新聞、網(wǎng)絡(luò)黃頁、企業(yè)官網(wǎng)、微博、微信、招聘、工商信息、專利信息和seo等,基于互聯(lián)網(wǎng)公開信息收集和處理,不存在敏感信息,數(shù)據(jù)獲取成本較低。在當(dāng)新企業(yè)加入后,采用企業(yè)全名在互聯(lián)網(wǎng)采集相關(guān)咨訊網(wǎng)站的海量數(shù)據(jù),使用大數(shù)據(jù)hdfs技術(shù)分布式存儲海量數(shù)據(jù),將所述海量數(shù)據(jù)作為搜索返回內(nèi)容,基于成熟的大數(shù)據(jù)技術(shù),保證海量數(shù)據(jù)的安全存儲,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。對于上述的s23步驟,對上述搜索返回內(nèi)容進(jìn)行行業(yè)語義分詞,得出如在線教育、移動互聯(lián)網(wǎng)、新四板、vc、天使、pe、交易市場、新三板、并購、并購重組、創(chuàng)業(yè)板、中小板、主板、境外、投行、直播以及o2o等分詞,具體的,是對采集返回的所述海量數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要、提取關(guān)鍵字、分詞法以及語義分析,獲取精準(zhǔn)的語言材料;將所述精準(zhǔn)的語言材料與語料庫進(jìn)行匹配,獲得相應(yīng)投資屬性的關(guān)鍵分詞。對于上述的s24步驟,具體是將所述關(guān)鍵分詞與行業(yè)數(shù)據(jù)庫內(nèi)的行業(yè)進(jìn)行匹配和分組統(tǒng)計,篩選出排名及權(quán)重合理的行業(yè)屬性,給企業(yè)打上精準(zhǔn)的行業(yè)和產(chǎn)品標(biāo)簽。采用使用大數(shù)據(jù)mapreduce進(jìn)行海量數(shù)據(jù)的匹配及分組統(tǒng)計。保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。以大數(shù)據(jù)技術(shù)驅(qū)動,基于分布式并行計算架構(gòu),解決海量數(shù)據(jù)的存儲以及計算;將上述分詞進(jìn)行統(tǒng)計,比如,若其中在線教育出現(xiàn)了七次,而且與數(shù)據(jù)庫內(nèi)的在線教育標(biāo)簽匹配,采用通過統(tǒng)計學(xué)算法選出排名及權(quán)重合理的行業(yè)屬性。比如,通過算法優(yōu)化為該企業(yè)打上了行業(yè)標(biāo)簽,比如互聯(lián)網(wǎng)/互聯(lián)網(wǎng)信息服務(wù)/在線教育,從而確定企業(yè)的細(xì)分行業(yè),以便后面行業(yè)趨勢分析時能細(xì)化到企業(yè)的細(xì)分行業(yè)。更進(jìn)一步的,對于s3步驟,根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫的步驟,包括以下具體步驟:s31、按照所述細(xì)分行業(yè),對所述海量企業(yè)數(shù)據(jù)進(jìn)行歸類;s32、按照所述細(xì)分行業(yè)的各個維度,對歸類后的海量企業(yè)數(shù)據(jù)進(jìn)行分析;s33、分組統(tǒng)計每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù);s34、量化每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù),獲取每個細(xì)分行業(yè)的各個維度的先行指標(biāo);s35、整合所有的先行指標(biāo),組成微觀指標(biāo)庫。對于上述的s31步驟,具體是為了將海量企業(yè)數(shù)據(jù)進(jìn)行細(xì)分行業(yè)的分類后,可以針對不同細(xì)分行業(yè)進(jìn)行單獨的分析,細(xì)化到細(xì)分行業(yè)的企業(yè)數(shù)據(jù)分析,可以得出較為細(xì)致的細(xì)分行業(yè)的當(dāng)前趨勢。對于上述的s32步驟,上述的維度包括專利集中度、產(chǎn)業(yè)資本、金融資本的集中度、時間等,但并不局限于上述所提及的維度,對每個細(xì)分行業(yè)的當(dāng)前趨勢的分析時,需要按照維度來分析,才能做到對整個細(xì)分行業(yè)的全面分析,提高分析和預(yù)測的準(zhǔn)確度。上述的s33步驟以及s34步驟,對每個細(xì)分行業(yè)中的每個維度的企業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計和量化,以統(tǒng)計和量化后的數(shù)據(jù)作為先行指標(biāo)。上述的s35步驟,將所有先行指標(biāo)存儲在同一個數(shù)據(jù)庫內(nèi),該數(shù)據(jù)庫則為微觀指標(biāo)庫。具體的,對于上述的s31步驟至s35步驟,在獲取每個細(xì)分行業(yè)的專利集中度這個維度的先行指標(biāo)時,統(tǒng)計每個細(xì)分行業(yè)在專利上發(fā)明專利、實用新型、外觀三個類型的總計數(shù)量,將總計數(shù)量作為專利集中度的先行指標(biāo),保存到數(shù)據(jù)庫,形成微觀指標(biāo)庫,對于其他維度的先行指標(biāo),也按照上述專利集中度的先行指標(biāo)獲取的方式以此類推,獲取其他方面的先行指標(biāo),并存儲在微觀指標(biāo)庫。對于上述的s4步驟,針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫,這里的生命周期指標(biāo)庫內(nèi)的生命周期指標(biāo)包括起步期、發(fā)展期、鼎盛期,衰老期;比如一個vr行業(yè)的生命周期指標(biāo)庫包括起步期、發(fā)展期、鼎盛期,衰老期等數(shù)據(jù)。更進(jìn)一步的,上述的s5步驟,針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢的步驟,具體是使用svm(支持向量機(jī))對針對需要預(yù)測的樣本行業(yè)進(jìn)行時序回歸預(yù)測行業(yè)向上或向下發(fā)展趨勢。其包括以下具體步驟:s51、獲取需要預(yù)測的樣本行業(yè),并從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出時序數(shù)據(jù);s52、在所述微觀指標(biāo)庫內(nèi)查詢所述時序數(shù)據(jù),并對所述時序數(shù)據(jù)向量化;s53、按照tid分組統(tǒng)計所述時序數(shù)據(jù)的頻數(shù);s54、對tid分層索引;s55、統(tǒng)計所述時序數(shù)據(jù)的均值、標(biāo)準(zhǔn)差以及分位數(shù);s56、對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸預(yù)測。對于上述的s51步驟,從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出有用的時序數(shù)據(jù),有助于減少預(yù)測的時間,提高預(yù)測效率。對于上述的s52步驟,對時序數(shù)據(jù)進(jìn)行向量化是為了與微觀指標(biāo)庫內(nèi)的先行指標(biāo)進(jìn)行對比,便于后續(xù)的統(tǒng)計和分析,如下表所示,為向量后的數(shù)據(jù):tidtdate指標(biāo)1指標(biāo)2指標(biāo)312009/1/10.003441.322009/2/10.005223.632009/3/1-0.004127.1上述的s53步驟,每個時序數(shù)據(jù)向量化后都是按照tid分組,因此,需要按照tid統(tǒng)計頻數(shù)。另外,對于上述的s54步驟,分層索引是為了將tid進(jìn)行行轉(zhuǎn)列處理。上述的s55步驟,在對樣本行業(yè)進(jìn)行預(yù)測過程中,除了統(tǒng)計頻數(shù),還需要統(tǒng)計均值、標(biāo)準(zhǔn)差以及分位數(shù),分析多個參數(shù),有助于提高整個預(yù)測的準(zhǔn)確度。統(tǒng)計后的參數(shù)需要描述出來,如下表所示為某個時序數(shù)據(jù)的統(tǒng)計描述表格:更進(jìn)一步的,對于上述的s56步驟,對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸運算的步驟,包括以下具體步驟:s561、對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行分組建模,獲取回歸模型;s562、評估每個模型的誤差率、r方以及回歸系數(shù),繪制每個模型的圖形;s563、對每個模型進(jìn)行向上或向下發(fā)展趨勢的預(yù)測,并保存預(yù)測結(jié)果。對于上述的s561步驟,分組建模有利于分組測試數(shù)據(jù),提高預(yù)測效率,其建模方法如下:sampler=0.6;y=filldata.ix[:,0];x=filldata.ix[:,1:2];nsample=len(y);sampleboundary=int(nsample*sampler);shffleidx=range(nsample);np.random.shuffle(shffleidx);train_y=y(tǒng)[shffleidx[:sampleboundary]];train_x=x.ix[shffleidx[:sampleboundary]];test_x=x.ix[shffleidx[sampleboundary:]];test_y=y(tǒng)[shffleidx[sampleboundary:]];#線性回歸模型;lr=sklearn.linear_model.linearregression();lr.fit(train_x,train_y);predict_y=lr.predict(test_x)。對于上述的s562步驟,利用每個模型的圖形觀測行業(yè)的趨勢,更加直觀。如下所示:ysample=range(len(test_y));error=np.linalg.norm(predict_y-test_y,ord=1)/len(test_y)。對于上述的s563步驟,利用模型預(yù)測,可以彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,且基于細(xì)分行業(yè)的精準(zhǔn)劃分下進(jìn)行的預(yù)測,可以提高預(yù)測的準(zhǔn)確度。如下所示:lr=sklearn.linear_model.linearregression();lr.fit(x,y);pre_y=lr.predict(x);#保存預(yù)測結(jié)果;res=pd.dataframe(pre_y);res.to_csv('result.csv',header=none,index=false)。上述的s6步驟,主要是用于分析行業(yè)所處的生命周期,結(jié)合生命周期以及行業(yè)向上或向下的發(fā)展趨勢,有利于全面的、精準(zhǔn)的預(yù)測行業(yè)趨勢。上述的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測方法,通過獲取海量企業(yè)數(shù)據(jù),結(jié)合行業(yè)的細(xì)分行業(yè)的精準(zhǔn)定位,針對細(xì)分行業(yè)的不同維度對海量企業(yè)數(shù)據(jù)進(jìn)行歸類、統(tǒng)計以及量化,形成微觀指標(biāo)庫,微觀指標(biāo)庫用于預(yù)測行業(yè)向上或向下的發(fā)展趨勢,建立細(xì)分行業(yè)的生命周期指標(biāo)庫,預(yù)測行業(yè)的生命周期,實現(xiàn)提升預(yù)測和分析的準(zhǔn)確度,可針對某些行業(yè)進(jìn)行單獨把控,可彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,通用化程度高。如圖6所示,本實施例還提供了基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測系統(tǒng),其包括數(shù)據(jù)獲取單元1、行業(yè)定位單元2、微觀指標(biāo)庫獲取單元3、生命周期指標(biāo)庫建立單元4、發(fā)展趨勢預(yù)測單元5以及生命周期預(yù)測單元6。數(shù)據(jù)獲取單元1,用于獲取海量企業(yè)數(shù)據(jù)。行業(yè)定位單元2,用于根據(jù)所述海量企業(yè)數(shù)據(jù),對企業(yè)的細(xì)分行業(yè)進(jìn)行定位。微觀指標(biāo)庫獲取單元3,用于根據(jù)所述細(xì)分行業(yè)以及海量企業(yè)數(shù)據(jù),獲取微觀指標(biāo)庫。生命周期指標(biāo)庫建立單元4,用于針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫。發(fā)展趨勢預(yù)測單元5,用于針對需要預(yù)測的樣本行業(yè),利用微觀指標(biāo)庫預(yù)測所述樣本行業(yè)向上或向下發(fā)展趨勢。生命周期預(yù)測單元6,用于針對需要預(yù)測的樣本行業(yè),利用生命周期指標(biāo)庫預(yù)測所述樣本行業(yè)所處生命周期。上述的數(shù)據(jù)獲取單元1具體是通過數(shù)據(jù)爬取技術(shù),在設(shè)定時間內(nèi)從互聯(lián)網(wǎng)上采集和爬取全國各細(xì)分行業(yè)的企業(yè)數(shù)據(jù),作為海量企業(yè)數(shù)據(jù);在獲取到海量企業(yè)數(shù)據(jù)后,還需要對這些海量企業(yè)數(shù)據(jù)進(jìn)行定期更新,以此來積累企業(yè)數(shù)據(jù),海量可靠數(shù)據(jù)的支持,提升預(yù)測和分析的準(zhǔn)確度。更進(jìn)一步的,上述的行業(yè)定位單元2包括數(shù)據(jù)庫建立模塊21、內(nèi)容獲取模塊22、分詞獲取模塊23以及處理模塊24。數(shù)據(jù)庫建立模塊21,用于根據(jù)海量企業(yè)數(shù)據(jù),建立行業(yè)數(shù)據(jù)庫。內(nèi)容獲取模塊22,用于采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容。分詞獲取模塊23,用于對所述搜索返回內(nèi)容進(jìn)行精準(zhǔn)分析,獲取關(guān)鍵分詞。處理模塊24,用于對所述關(guān)鍵分詞進(jìn)行匹配、分組統(tǒng)計以及打標(biāo)簽,形成企業(yè)的細(xì)分行業(yè)。數(shù)據(jù)庫建立模塊21具體是對企業(yè)數(shù)據(jù)進(jìn)行自然語義分析獲得投資類詞語,與現(xiàn)有數(shù)據(jù)庫進(jìn)行比對,屬于新詞加入行業(yè)數(shù)據(jù)。例如:從網(wǎng)站中獲取了“三江購物俱樂部股份有限公司是浙江省目前最大的連鎖超市之一,中國連鎖業(yè)百強(qiáng),是浙江省政府重點扶持大型連鎖企業(yè),中國經(jīng)貿(mào)委重點聯(lián)系企業(yè)。公司目前擁有兩座大型配送中心,共占地13萬多平方米。有員工近萬名,會員顧客131多萬人,每天有近50多萬的顧客在三江的各連鎖商場購物消費?!蓖ㄟ^自然語義分析,得到“物流運輸、連鎖超市、超市配送”行業(yè)分詞,通過大量資訊的分析,發(fā)現(xiàn)“物流運輸”和“超市配送”呈現(xiàn)上升的趨勢,將這兩個詞與數(shù)據(jù)庫比對后,建立新的行業(yè)字段“交通運輸、倉儲和郵政業(yè)”到“物流”再到“超市配送”。內(nèi)容獲取模塊22具體是采用企業(yè)全名搜索相關(guān)咨訊網(wǎng)站,獲取搜索返回內(nèi)容;上述的相關(guān)咨訊網(wǎng)站包括百度、百度新聞、網(wǎng)絡(luò)黃頁、企業(yè)官網(wǎng)、微博、微信、招聘、工商信息、專利信息和seo等,基于互聯(lián)網(wǎng)公開信息收集和處理,不存在敏感信息,數(shù)據(jù)獲取成本較低。在當(dāng)新企業(yè)加入后,采用企業(yè)全名在互聯(lián)網(wǎng)采集相關(guān)咨訊網(wǎng)站的海量數(shù)據(jù),使用大數(shù)據(jù)hdfs技術(shù)分布式存儲海量數(shù)據(jù),將所述海量數(shù)據(jù)作為搜索返回內(nèi)容,基于成熟的大數(shù)據(jù)技術(shù),保證海量數(shù)據(jù)的安全存儲,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。分詞獲取模塊23具體是對上述搜索返回內(nèi)容進(jìn)行行業(yè)語義分詞,得出如在線教育、移動互聯(lián)網(wǎng)、新四板、vc、天使、pe、交易市場、新三板、并購、并購重組、創(chuàng)業(yè)板、中小板、主板、境外、投行、直播以及o2o等分詞,具體的,是對采集返回的所述海量數(shù)據(jù)進(jìn)行清洗、歸類、提取摘要、提取關(guān)鍵字、分詞法以及語義分析,獲取精準(zhǔn)的語言材料;將所述精準(zhǔn)的語言材料與語料庫進(jìn)行匹配,獲得相應(yīng)投資屬性的關(guān)鍵分詞。處理模塊24具體是將所述關(guān)鍵分詞與行業(yè)數(shù)據(jù)庫內(nèi)的行業(yè)進(jìn)行匹配和分組統(tǒng)計,篩選出排名及權(quán)重合理的行業(yè)屬性,給企業(yè)打上精準(zhǔn)的行業(yè)和產(chǎn)品標(biāo)簽。采用使用大數(shù)據(jù)mapreduce進(jìn)行海量數(shù)據(jù)的匹配及分組統(tǒng)計。保證海量數(shù)據(jù)分布式處理,效率高,準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。以大數(shù)據(jù)技術(shù)驅(qū)動,基于分布式并行計算架構(gòu),解決海量數(shù)據(jù)的存儲以及計算;將上述分詞進(jìn)行統(tǒng)計,比如,若其中在線教育出現(xiàn)了七次,而且與數(shù)據(jù)庫內(nèi)的在線教育標(biāo)簽匹配,采用通過統(tǒng)計學(xué)算法選出排名及權(quán)重合理的行業(yè)屬性。比如,通過算法優(yōu)化為該企業(yè)打上了行業(yè)標(biāo)簽,比如互聯(lián)網(wǎng)/互聯(lián)網(wǎng)信息服務(wù)/在線教育,從而確定企業(yè)的細(xì)分行業(yè),以便后面行業(yè)趨勢分析時能細(xì)化到企業(yè)的細(xì)分行業(yè)。更進(jìn)一步的,上述的微觀指標(biāo)庫獲取單元3包括歸類模塊31、分析模塊32、分組統(tǒng)計模塊33、量化模塊34以及整合模塊35。歸類模塊31,用于按照所述細(xì)分行業(yè),對所述海量企業(yè)數(shù)據(jù)進(jìn)行歸類。分析模塊32,用于按照所述細(xì)分行業(yè)的各個維度,對歸類后的海量企業(yè)數(shù)據(jù)進(jìn)行分析。分組統(tǒng)計模塊33,用于分組統(tǒng)計每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù)。量化模塊34,用于量化每個細(xì)分行業(yè)的各個維度的企業(yè)數(shù)據(jù),獲取每個細(xì)分行業(yè)的各個維度的先行指標(biāo)。整合模塊35,用于整合所有的先行指標(biāo),組成微觀指標(biāo)庫。上述的歸類模塊31具體是為了將海量企業(yè)數(shù)據(jù)進(jìn)行細(xì)分行業(yè)的分類后,可以針對不同細(xì)分行業(yè)進(jìn)行單獨的分析,細(xì)化到細(xì)分行業(yè)的企業(yè)數(shù)據(jù)分析,可以得出較為細(xì)致的細(xì)分行業(yè)的當(dāng)前趨勢。上述的分析模塊32所提及的維度包括專利集中度、產(chǎn)業(yè)資本、金融資本的集中度、時間等,但并不局限于上述所提及的維度,對每個細(xì)分行業(yè)的當(dāng)前趨勢的分析時,需要按照維度來分析,才能做到對整個細(xì)分行業(yè)的全面分析,提高分析和預(yù)測的準(zhǔn)確度。分組統(tǒng)計模塊33以及量化模塊34對每個細(xì)分行業(yè)中的每個維度的企業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計和量化,以統(tǒng)計和量化后的數(shù)據(jù)作為先行指標(biāo)。整合模塊35將所有先行指標(biāo)存儲在同一個數(shù)據(jù)庫內(nèi),該數(shù)據(jù)庫則為微觀指標(biāo)庫。在獲取每個細(xì)分行業(yè)的專利集中度這個維度的先行指標(biāo)時,統(tǒng)計每個細(xì)分行業(yè)在專利上發(fā)明專利、實用新型、外觀三個類型的總計數(shù)量,將總計數(shù)量作為專利集中度的先行指標(biāo),保存到數(shù)據(jù)庫,形成微觀指標(biāo)庫,對于其他維度的先行指標(biāo),也按照上述專利集中度的先行指標(biāo)獲取的方式以此類推,獲取其他方面的先行指標(biāo),并存儲在微觀指標(biāo)庫。上述的生命周期指標(biāo)庫建立單元4是針對每個細(xì)分行業(yè)建立生命周期指標(biāo)庫,這里的生命周期指標(biāo)庫內(nèi)的生命周期指標(biāo)包括起步期、發(fā)展期、鼎盛期,衰老期;比如一個vr行業(yè)的生命周期指標(biāo)庫包括起步期、發(fā)展期、鼎盛期,衰老期等數(shù)據(jù)。更進(jìn)一步的,上述的發(fā)展趨勢預(yù)測單元5具體是使用svm(支持向量機(jī))對針對需要預(yù)測的樣本行業(yè)進(jìn)行時序回歸預(yù)測行業(yè)向上或向下發(fā)展趨勢。另外,上述的發(fā)展趨勢預(yù)測單元5包括時序數(shù)據(jù)準(zhǔn)備模塊51、數(shù)據(jù)處理模塊52、頻數(shù)統(tǒng)計模塊53、分層索引模塊54、參數(shù)統(tǒng)計模塊55以及回歸預(yù)測模塊56。時序數(shù)據(jù)準(zhǔn)備模塊51,用于獲取需要預(yù)測的樣本行業(yè),并從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出時序數(shù)據(jù)。數(shù)據(jù)處理模塊52,用于在所述微觀指標(biāo)庫內(nèi)查詢所述時序數(shù)據(jù),并對所述時序數(shù)據(jù)向量化。頻數(shù)統(tǒng)計模塊53,用于按照tid分組統(tǒng)計所述時序數(shù)據(jù)的頻數(shù)。層索引模塊,用于對tid分層索引。參數(shù)統(tǒng)計模塊55,用于統(tǒng)計所述時序數(shù)據(jù)的均值、標(biāo)準(zhǔn)差以及分位數(shù)?;貧w預(yù)測模塊56,用于對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行線性回歸預(yù)測。上述的時序數(shù)據(jù)準(zhǔn)備模塊51從樣本行業(yè)的數(shù)據(jù)內(nèi)抽取出有用的時序數(shù)據(jù),有助于減少預(yù)測的時間,提高預(yù)測效率。上述的數(shù)據(jù)處理模塊52對時序數(shù)據(jù)進(jìn)行向量化是為了與微觀指標(biāo)庫內(nèi)的先行指標(biāo)進(jìn)行對比,便于后續(xù)的統(tǒng)計和分析,如下表所示,為向量后的數(shù)據(jù):tidtdate指標(biāo)1指標(biāo)2指標(biāo)312009/1/10.003441.322009/2/10.005223.632009/3/1-0.004127.1每個時序數(shù)據(jù)向量化后都是按照tid分組,因此,需要頻數(shù)統(tǒng)計模塊53按照tid統(tǒng)計頻數(shù)。上述的分層索引模塊54是為了將tid進(jìn)行行轉(zhuǎn)列處理。上述的參數(shù)統(tǒng)計模塊55對樣本行業(yè)進(jìn)行預(yù)測過程中,除了統(tǒng)計頻數(shù),還需要統(tǒng)計均值、標(biāo)準(zhǔn)差以及分位數(shù),分析多個參數(shù),有助于提高整個預(yù)測的準(zhǔn)確度。統(tǒng)計后的參數(shù)需要描述出來,如下表所示為某個時序數(shù)據(jù)的統(tǒng)計描述表格:rev123count973.000000973.000000973.000000mean0.0008430.0007540.000329std0.0212830.0219710.014343min-0.089100-0.099450-0.06744025%-0.010480-0.011000-0.00711050%0.0008430.0000000.00073075%0.0096700.0110000.008500max0.1000800.1000000.061150更進(jìn)一步的,上述的回歸預(yù)測模塊56包括建模子模塊561、評估子模塊562以及保存預(yù)測子模塊563。建模子模塊561,用于對所述時序數(shù)據(jù)的頻數(shù)、均值、標(biāo)準(zhǔn)差以及分位數(shù)進(jìn)行分組建模,獲取回歸模型。評估子模塊562,用于評估每個模型的誤差率、r方以及回歸系數(shù),繪制每個模型的圖形。保存預(yù)測子模塊563,用于對每個模型進(jìn)行向上或向下發(fā)展趨勢的預(yù)測,并保存預(yù)測結(jié)果。上述的建模子模塊561進(jìn)行分組建模有利于分組測試數(shù)據(jù),提高預(yù)測效率,其建模方法如下:sampler=0.6;y=filldata.ix[:,0];x=filldata.ix[:,1:2];nsample=len(y);sampleboundary=int(nsample*sampler);shffleidx=range(nsample);np.random.shuffle(shffleidx);train_y=y(tǒng)[shffleidx[:sampleboundary]];train_x=x.ix[shffleidx[:sampleboundary]];test_x=x.ix[shffleidx[sampleboundary:]];test_y=y(tǒng)[shffleidx[sampleboundary:]];#線性回歸模型;lr=sklearn.linear_model.linearregression();lr.fit(train_x,train_y);predict_y=lr.predict(test_x)。上述的評估子模塊562利用每個模型的圖形觀測行業(yè)的趨勢,更加直觀。如下所示:ysample=range(len(test_y));error=np.linalg.norm(predict_y-test_y,ord=1)/len(test_y)。上述的保存預(yù)測子模塊563利用模型預(yù)測,可以彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,且基于細(xì)分行業(yè)的精準(zhǔn)劃分下進(jìn)行的預(yù)測,可以提高預(yù)測的準(zhǔn)確度。如下所示:lr=sklearn.linear_model.linearregression();lr.fit(x,y);pre_y=lr.predict(x);#保存預(yù)測結(jié)果;res=pd.dataframe(pre_y);res.to_csv('result.csv',header=none,index=false)。另外,上述的生命周期預(yù)測單元6主要是用于分析行業(yè)所處的生命周期,結(jié)合生命周期以及行業(yè)向上或向下的發(fā)展趨勢,有利于全面的、精準(zhǔn)的預(yù)測行業(yè)趨勢。上述的基于大數(shù)據(jù)的行業(yè)趨勢精準(zhǔn)預(yù)測系統(tǒng),通過獲取海量企業(yè)數(shù)據(jù),結(jié)合行業(yè)的細(xì)分行業(yè)的精準(zhǔn)定位,針對細(xì)分行業(yè)的不同維度對海量企業(yè)數(shù)據(jù)進(jìn)行歸類、統(tǒng)計以及量化,形成微觀指標(biāo)庫,微觀指標(biāo)庫用于預(yù)測行業(yè)向上或向下的發(fā)展趨勢,建立細(xì)分行業(yè)的生命周期指標(biāo)庫,預(yù)測行業(yè)的生命周期,實現(xiàn)提升預(yù)測和分析的準(zhǔn)確度,可針對某些行業(yè)進(jìn)行單獨把控,可彌補(bǔ)宏觀行業(yè)預(yù)測分析的缺陷,通用化程度高。上述僅以實施例來進(jìn)一步說明本發(fā)明的技術(shù)內(nèi)容,以便于讀者更容易理解,但不代表本發(fā)明的實施方式僅限于此,任何依本發(fā)明所做的技術(shù)延伸或再創(chuàng)造,均受本發(fā)明的保護(hù)。本發(fā)明的保護(hù)范圍以權(quán)利要求書為準(zhǔn)。當(dāng)前第1頁12