本發(fā)明涉及大數(shù)據(jù)分析技術(shù)領(lǐng)域,具體來說,涉及一種大數(shù)據(jù)協(xié)同分析工具平臺。
背景技術(shù):
現(xiàn)有大數(shù)據(jù)分析技術(shù),涉及數(shù)據(jù)的從數(shù)據(jù)導入、數(shù)據(jù)存儲、數(shù)據(jù)檢索、數(shù)據(jù)分析、數(shù)據(jù)可視化的全流程大數(shù)據(jù)處理分析技術(shù)領(lǐng)域。隨著大數(shù)據(jù)技術(shù)近年不斷發(fā)展,也涌現(xiàn)了許多基于大數(shù)據(jù)的分析工具和分析平臺,但由于針對業(yè)務領(lǐng)域不同,各家產(chǎn)品專攻技術(shù)差異等因素,現(xiàn)有大數(shù)據(jù)分析工具、BI分析工具等,仍舊存在諸多問題和缺陷。
現(xiàn)有技術(shù)產(chǎn)品大多針對商企數(shù)據(jù)提供功能技術(shù)服務,面向行業(yè)研究、科研領(lǐng)域的數(shù)據(jù)分析產(chǎn)品匱乏,現(xiàn)有TDA(Thomson Data Analyzer)可以面向行研數(shù)據(jù)領(lǐng)域,但由于不是基于大數(shù)據(jù)技術(shù)的產(chǎn)品,在海量數(shù)據(jù)處理、大數(shù)據(jù)分析、大數(shù)據(jù)可視化等方面功能欠缺。且大多針對單一數(shù)據(jù)源或有限數(shù)據(jù)源作為處理對象進行處理,不能兼容所有數(shù)據(jù)格式。大多支持數(shù)據(jù)導入時的ETL數(shù)據(jù)清洗處理,缺乏對數(shù)據(jù)導入ETL處理完成后的,基于業(yè)務需求的數(shù)據(jù)定制化加工標引標注。且現(xiàn)有技術(shù)產(chǎn)品不支持團隊協(xié)同協(xié)作的協(xié)同數(shù)據(jù)標引和協(xié)同分析功能。只支持有限的分析算法和可視化圖表來進行數(shù)據(jù)分析計算和展現(xiàn)數(shù)據(jù)分析結(jié)果,不支持算法包的定制化擴展以及可視化圖表的模板化和插件化。
且現(xiàn)有技術(shù)產(chǎn)品的分析模式更適用于專業(yè)技術(shù)人員,不適用于真正有分析需求的業(yè)務人員,使用門檻高。且大多針對全流程的一個或幾個技術(shù)領(lǐng)域做數(shù)據(jù)服務,缺少針對全數(shù)據(jù)流程的工具產(chǎn)品和數(shù)據(jù)分析技術(shù)。
針對相關(guān)技術(shù)中的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種大數(shù)據(jù)協(xié)同分析工具平臺,能夠解決現(xiàn)有數(shù)據(jù)服務技術(shù)領(lǐng)域缺乏針對全數(shù)據(jù)流程的工具產(chǎn)品和數(shù)據(jù)分析技術(shù)的問題,填補了該領(lǐng)域缺乏一體化分析流程的空白。
本發(fā)明的目的通過以下技術(shù)方案來實現(xiàn):
一種大數(shù)據(jù)協(xié)同分析平臺,包括:
多數(shù)據(jù)源配置模塊,用于實現(xiàn)任意數(shù)據(jù)的配置導入和爬取,建立容數(shù)據(jù)源配置XML腳本語言,或者通過容數(shù)據(jù)源配置XML腳本語言,實現(xiàn)各種數(shù)據(jù)源的編程配置和映射配置;
數(shù)據(jù)檢索模塊,用于對導入的數(shù)據(jù)建立全文分詞索引,提供主題檢索和條件檢索,支持海量數(shù)據(jù)的高速搜索引擎;
數(shù)據(jù)加工模塊,用于實現(xiàn)團隊協(xié)同協(xié)作的協(xié)同數(shù)據(jù)標引和協(xié)同分析功能,通過標引樹技術(shù),實現(xiàn)標引內(nèi)容的統(tǒng)一協(xié)同管理和數(shù)據(jù)定制化標引加工;
數(shù)據(jù)分析模塊,用于定制算法模板,分析算法自由選擇,量身定制數(shù)據(jù)建模和算法實現(xiàn),通過算法包插件,提供專享專用算法包;
數(shù)據(jù)可視化模塊,用于實現(xiàn)分析結(jié)果的可視化展示和自動報表,包括動態(tài)可視化插件、執(zhí)行結(jié)果展示、執(zhí)行結(jié)果導出和自動報告生成。
進一步的,所述多數(shù)據(jù)源配置模塊包括:
網(wǎng)頁爬取導入子模塊,用于實現(xiàn)爬取配置、爬取規(guī)則和爬取導入的一體化處理流程,使用自主研發(fā)網(wǎng)絡爬蟲技術(shù),對指定網(wǎng)站、網(wǎng)頁進行規(guī)則化數(shù)據(jù)爬取,爬取數(shù)據(jù)根據(jù)爬蟲導入配置器自動導入數(shù)據(jù)庫;
數(shù)據(jù)源配置器編輯子模塊,用于數(shù)據(jù)源配置器配置規(guī)則項的新建和編輯;
數(shù)據(jù)源配置器管理子模塊,用于各個數(shù)據(jù)源配置器的查詢和管理,包括配置器的摘要信息,詳細編輯入口和刪除功能;
數(shù)據(jù)導入歷史管理子模塊,用于針對當前任務下的數(shù)據(jù)導入歷史信息列表查詢,包括數(shù)據(jù)的導入名稱、大小、時間、所用配置器和導入狀態(tài);
數(shù)據(jù)導入執(zhí)行子模塊,用于選擇配置器和導入數(shù)據(jù)源執(zhí)行數(shù)據(jù)導入。
進一步的,所述數(shù)據(jù)加工模塊包括:
數(shù)據(jù)協(xié)同標引子模塊,用于實現(xiàn)數(shù)據(jù)標引、加工和分析的多人團隊協(xié)同
同步作業(yè),提供在線、團隊、實時、協(xié)作分析加工標引功能,各成員標引加工內(nèi)容實時同步呈現(xiàn),通過顏色區(qū)分不同成員的加工標引內(nèi)容并相互可見,實現(xiàn)團隊標引加工作業(yè)的操作實時協(xié)同、進度清晰可見、內(nèi)容同步共享;
數(shù)據(jù)標引樹管理子模塊,用于提供協(xié)同標引加工時的標引數(shù)據(jù)字典功能,實現(xiàn)標引內(nèi)容的統(tǒng)一協(xié)同管理和數(shù)據(jù)定制化標引加工;
標引加工執(zhí)行子模塊,用于數(shù)據(jù)標引、加工和分析的執(zhí)行;
標引歷史管理子模塊,用于對標引樹技術(shù)儲進行管理,或者通過CSV(Comma-Separated Values,逗號分隔值)格式文件進行導入導出管理,使標引樹字典信息實現(xiàn)線上線下的映射導出和集中管理。
進一步的,所述數(shù)據(jù)分析模塊包括:
動態(tài)算法包插件,用于實現(xiàn)定制化擴展算法包的動態(tài)替換擴展和算法熱插拔;實現(xiàn)算法包的模板化管理,通過參數(shù)模板,規(guī)范管理算法輸入輸出標準,前端通過參數(shù)模板解析,識別所需參數(shù)類型;
統(tǒng)計分析執(zhí)行子模塊,用于參數(shù)采集,通過人機交互采集參數(shù)后,將采集到的參數(shù)列表經(jīng)過格式化統(tǒng)一傳遞給算法包,進行算法執(zhí)行;
執(zhí)行結(jié)果管理子模塊,用于數(shù)據(jù)分析結(jié)果的管理。
進一步的,所述數(shù)據(jù)可視化模塊包括:
動態(tài)可視化插件,用于實現(xiàn)可視化圖表的組件化、模板化和插件化,提供可視化圖表的動態(tài)組件化,通過后臺管理可視化模板,并通過可視化模板的動態(tài)插拔實現(xiàn)前端可視化圖表組件的動態(tài)替換和擴展;
執(zhí)行結(jié)果展示,用于展示動態(tài)可視化的結(jié)果;
執(zhí)行結(jié)果導出,用于導出動態(tài)可視化的結(jié)果;
自動報告生成,用于根據(jù)事先定義的報告模板,結(jié)合分析結(jié)果數(shù)據(jù)和圖表,自動生成統(tǒng)計分析報告,支持Word、PDF多種輸出格式,支持人工輔助評論補正,實現(xiàn)自動化報告制作和生成。
一種大數(shù)據(jù)協(xié)同分析方法,包括:
S1:建立研究主題:以研究主題為單位、創(chuàng)建研究任務組、管理研究數(shù)據(jù)和制定研究方向,線下科研團隊直接平移至線上,團隊成員協(xié)同共享研究成果,不同研究任務之間數(shù)據(jù)保密隔離;
S2:數(shù)據(jù)搜索引擎:導入數(shù)據(jù)建立全文分詞索引,提供主題檢索和條件檢索,支持海量數(shù)據(jù)的高速搜索引擎;
S3:建模統(tǒng)計分析:定制算法模塊,分析算法自由選擇,量身定制數(shù)據(jù)建模和算法實現(xiàn),通過算法包插件,提供專享專用算法包,讓建模統(tǒng)計分析隨需而用,快速高效;
S4:數(shù)據(jù)配置導入:海量數(shù)據(jù)批量并行導入和爬取,針對各種數(shù)據(jù)源定制專有數(shù)據(jù)解析配置器,通過配置器插件服務,實現(xiàn)所有格式文本文獻的定向字段提取和定制化導入,實現(xiàn)數(shù)據(jù)源的自定義智能解析、數(shù)據(jù)項智能提取分離、數(shù)據(jù)字段智能映射存儲;
S5:協(xié)同分析標引:實現(xiàn)研究團隊內(nèi)數(shù)據(jù)加工云協(xié)作,團隊成員分析加工標引結(jié)果實時共享可見,實時在線溝通,支持基于標引樹的統(tǒng)一標引數(shù)據(jù)字典,針對各種標引內(nèi)容定制專有標引規(guī)則配置器,實現(xiàn)批量自動化標引;
S6:結(jié)果可視化:提供分析結(jié)果的可視化展示和自動報表,可視化圖表根據(jù)需求量身定制,通過可視化插件,提供專享專用可視化模板,提供交互式可視化和自動報告。
本發(fā)明的有益效果:立足于信息計量分析和行業(yè)研究領(lǐng)域,并致力于打造提供面向大數(shù)據(jù)的全鏈條全領(lǐng)域全受眾的整體數(shù)據(jù)服務及解決方案平臺。解決了傳統(tǒng)企業(yè)行業(yè)信息研究工作在專業(yè)專、技術(shù)難、成本高和效率低上的痛點,提供功能集成的信息研究大數(shù)據(jù)作業(yè)平臺。提供大數(shù)據(jù)的多數(shù)據(jù)源可配置化數(shù)據(jù)導入,大數(shù)據(jù)存儲,大數(shù)據(jù)搜索引擎,大數(shù)據(jù)在線協(xié)同分析,大數(shù)據(jù)在線實時統(tǒng)計分析挖掘和大數(shù)據(jù)可視化等多維度大數(shù)據(jù)服務。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是根據(jù)本發(fā)明實施例所述的一種大數(shù)據(jù)協(xié)同分析平臺整體結(jié)構(gòu)示意圖;
圖2是根據(jù)本發(fā)明實施例所述的一種大數(shù)據(jù)協(xié)同分析平臺操作流程示意圖;
圖3是根據(jù)本發(fā)明實施例所述的一種大數(shù)據(jù)協(xié)同分析平臺技術(shù)架構(gòu)示意圖;
圖4是根據(jù)本發(fā)明實施例所述的一種大數(shù)據(jù)協(xié)同分析平臺基于Hadoop的分布式體系架構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
1.如圖1-2所示,一種大數(shù)據(jù)協(xié)同分析平臺,包括:
1.1多數(shù)據(jù)源配置模塊,通過數(shù)據(jù)源配置技術(shù),實現(xiàn)任意數(shù)據(jù)源的配置導入和爬取,支持各種格式的結(jié)構(gòu)化、非結(jié)構(gòu)化的文本數(shù)據(jù)源,包括數(shù)據(jù)庫表、行研文獻等,實現(xiàn)數(shù)據(jù)源的自定義智能解析、數(shù)據(jù)項智能提取分離、數(shù)據(jù)字段智能映射存儲。
本發(fā)明首創(chuàng)性建立容數(shù)據(jù)數(shù)據(jù)源配置XML腳本語言,除了從圖形交互界面進行數(shù)據(jù)源配置外,還支持通過容數(shù)據(jù)數(shù)據(jù)源配置XML腳本語言,實現(xiàn)各種數(shù)據(jù)源的編程配置和映射配置。
容數(shù)據(jù)數(shù)據(jù)源配置XML腳本,關(guān)鍵字設計如下所示:
1.2數(shù)據(jù)檢索模塊,用于對導入的數(shù)據(jù)建立全文分詞索引,提供主題檢索和條件檢索,支持海量數(shù)據(jù)的高速搜索引擎。
1.3多數(shù)據(jù)源配置模塊包括:
1.3.1網(wǎng)頁爬取導入子模塊,用于實現(xiàn)爬取配置、爬取規(guī)則和爬取導入的一體化處理流程,使用自主研發(fā)網(wǎng)絡爬蟲技術(shù),對指定網(wǎng)站、網(wǎng)頁進行規(guī)則化數(shù)據(jù)爬取,爬取數(shù)據(jù)根據(jù)爬蟲導入配置器自動導入數(shù)據(jù)庫;
1.3.2數(shù)據(jù)源配置器編輯子模塊,用于數(shù)據(jù)源配置器配置規(guī)則項的新建和編輯;
1.3.3數(shù)據(jù)源配置器管理子模塊,用于各個數(shù)據(jù)源配置器的查詢和管理,包括配置器的摘要信息,詳細編輯入口和刪除功能;
1.3.4數(shù)據(jù)導入歷史管理子模塊,用于針對當前任務下的數(shù)據(jù)導入歷史信息列表查詢,包括數(shù)據(jù)的導入名稱、大小、時間、所用配置器和導入狀態(tài);
1.3.5數(shù)據(jù)導入執(zhí)行子模塊,用于選擇配置器和導入數(shù)據(jù)源執(zhí)行數(shù)據(jù)導入。
1.4數(shù)據(jù)加工模塊,用于實現(xiàn)團隊協(xié)同協(xié)作的協(xié)同數(shù)據(jù)標引和協(xié)同分析功能,通過標引樹技術(shù),實現(xiàn)標引內(nèi)容的統(tǒng)一協(xié)同管理和數(shù)據(jù)定制化標引加工。
所述數(shù)據(jù)加工模塊包括:
1.4.1數(shù)據(jù)協(xié)同標引子模塊,通過實時在線協(xié)同同步技術(shù),實現(xiàn)針對數(shù)據(jù)標引、加工和分析的多人團隊協(xié)同同步作業(yè)。提供在線、團隊、實時、協(xié)作分析加工標引功能,各成員標引加工內(nèi)容實時同步呈現(xiàn),通過顏色區(qū)分不同成員的加工標引內(nèi)容并相互可見,實現(xiàn)團隊標引加工作業(yè)的操作實時協(xié)同、進度清晰可見、內(nèi)容同步共享。每個人可以實時看到團隊內(nèi)成員的數(shù)據(jù)加工、標引內(nèi)容,識別他人作業(yè)軌跡,同時可以實現(xiàn)加工、標引和分析結(jié)果的實時共享,實現(xiàn)團隊在線協(xié)同分析。
從根本上解決,行業(yè)研究等數(shù)據(jù)分為業(yè)務需要多人小組協(xié)同分工,共同完成數(shù)據(jù)科研分析、數(shù)據(jù)挖掘分析的作業(yè)需求。
協(xié)同加工、標引、分析通過不同顏色識別不同用戶,達到多用戶同步協(xié)調(diào)作業(yè)。
1.4.2數(shù)據(jù)標引樹管理子模塊,通過使用標引樹技術(shù),提供協(xié)同標引加工時的標引數(shù)據(jù)字典功能,一方面滿足團隊作業(yè)時標引內(nèi)容的統(tǒng)一管理規(guī)范和數(shù)據(jù)字典標準,另一方面為數(shù)據(jù)標引提供方便快捷的可選數(shù)據(jù)集。
標引樹技術(shù)儲通過人機交互界面進行管理外,還可以通過CSV格式文件進行導入導出管理,使標引樹字典信息實現(xiàn)線上線下的映射導出和集中管理。
1.4.3標引加工執(zhí)行子模塊,用于數(shù)據(jù)標引、加工和分析的執(zhí)行;
1.4.4標引歷史管理子模塊,用于對標引樹技術(shù)儲進行管理,或者通過CSV
格式文件進行導入導出管理,使標引樹字典信息實現(xiàn)線上線下的映射導出和集中管理。
1.5數(shù)據(jù)分析模塊,用于定制算法模板,分析算法自由選擇,量身定制數(shù)據(jù)建模和算法實現(xiàn),通過算法包插件,提供專享專用算法包。
所述數(shù)據(jù)分析模塊包括:
1.5.1動態(tài)算法包插件,基于專業(yè)建模算法包的動態(tài)擴展,實現(xiàn)算法包的模板化管理,通過參數(shù)模板,規(guī)范管理算法輸入輸出標準,前端通過參數(shù)模板解析,識別所需參數(shù)類型,并通過人機交互進行參數(shù)采集,采集到的參數(shù)列表經(jīng)過格式化統(tǒng)一傳遞給算法包,進行算法執(zhí)行。
整個過程通過json模板進行管理編輯,實現(xiàn)對于定制化擴展算法包的動態(tài)替換擴展和算法熱插拔。
具體模板json設計如下:
1.5.2統(tǒng)計分析執(zhí)行子模塊,用于參數(shù)采集,通過人機交互采集參數(shù)后,將采集到的參數(shù)列表經(jīng)過格式化統(tǒng)一傳遞給算法包,進行算法執(zhí)行;
1.5.3執(zhí)行結(jié)果管理子模塊,用于數(shù)據(jù)分析結(jié)果的管理。
1.6數(shù)據(jù)可視化模塊,用于實現(xiàn)分析結(jié)果的可視化展示和自動報表,包括動態(tài)可視化插件、執(zhí)行結(jié)果展示、執(zhí)行結(jié)果導出和自動報告生成。
所述數(shù)據(jù)可視化模塊包括:
1.6.1動態(tài)可視化插件,基于大數(shù)據(jù)可視化D3技術(shù),實現(xiàn)可視化圖表的組件化、模板化和插件化。提供可視化圖表的動態(tài)組件化,通過后臺管理可視化模板,并通過可視化模板的動態(tài)插拔實現(xiàn)前端可視化圖表組件的動態(tài)替換和擴展。
基于動態(tài)可視化插件技術(shù),可以為可視化圖表的定制化擴展提供技術(shù)支撐??梢暬寮0寤贖5構(gòu)建,實現(xiàn)基于WEB端和移動端的動態(tài)圖表熱插拔擴展。
1.6.2執(zhí)行結(jié)果展示,用于展示動態(tài)可視化的結(jié)果;
1.6.3執(zhí)行結(jié)果導出,用于導出動態(tài)可視化的結(jié)果;
1.6.4自動報告生成,用于根據(jù)事先定義的報告模板,結(jié)合分析結(jié)果數(shù)據(jù)和圖表,自動生成統(tǒng)計分析報告,支持Word、PDF多種輸出格式,支持人工輔助評論補正,實現(xiàn)自動化報告制作和生成。
本大數(shù)據(jù)協(xié)同分析平臺,首創(chuàng)性將大數(shù)據(jù)分析的全技術(shù)環(huán)節(jié)和處理流程進行梳理整合,形成從數(shù)據(jù)導入到數(shù)據(jù)存儲、從數(shù)據(jù)檢索到數(shù)據(jù)加工、從數(shù)據(jù)分析到數(shù)據(jù)可視化的全流程大數(shù)據(jù)處理引擎,為用戶提供全套功能解決方案。
本大數(shù)據(jù)協(xié)同分析平臺,首創(chuàng)性建立“容數(shù)據(jù)模式”的大數(shù)據(jù)分析服務模式,摒棄了傳統(tǒng)大數(shù)據(jù)分析模式的高門檻、高成本、跨專業(yè)、難度高等的弊病,通過面向用戶建立統(tǒng)一直接的容數(shù)據(jù)平臺,實現(xiàn)大數(shù)據(jù)的無縫接入和分析作業(yè)的簡單自如。
為了方便理解本發(fā)明的上述技術(shù)方案,以下通過具體使用方式對本發(fā)明的上述技術(shù)方案進行詳細說明。
如圖3所示,大數(shù)據(jù)協(xié)同分析平臺基于Web3.0的數(shù)據(jù)網(wǎng)絡體系架構(gòu),搭建大數(shù)據(jù)應用服務平臺。整體技術(shù)架構(gòu)基于主流B/S(Browser/Server,瀏覽器/服務器模式)架構(gòu),底層大數(shù)據(jù)分布式體系架構(gòu)作為平臺支撐,上層采用主流J2EE(Java 2Platform,Enterprise Edition)企業(yè)級應用框架和基于H5的動態(tài)頁面技術(shù),實現(xiàn)從數(shù)據(jù)網(wǎng)絡到服務應用的整體技術(shù)架構(gòu)。
底層采用自主分布式混合持久化技術(shù),構(gòu)建大數(shù)據(jù)技術(shù)核心框架。架構(gòu)采用主流Hadoop生態(tài)圈大數(shù)據(jù)技術(shù),搭載HDFS分布存儲文件系統(tǒng),提供基于Yarn的大數(shù)據(jù)分布計算資源管理框架,配合Spark實時計算框架,提供大數(shù)據(jù)實時分析計算引擎能力?;诹惺綌?shù)據(jù)庫的HBase數(shù)據(jù)庫,稀疏矩陣存儲和高性能吞吐量支撐,為后續(xù)警務異構(gòu)大數(shù)據(jù)存儲提供技術(shù)支撐。
如圖4所示,另一方面,在大數(shù)據(jù)分布存儲基礎上,搭配關(guān)系型存儲MySQL集群、非結(jié)構(gòu)化媒體數(shù)據(jù)網(wǎng)絡存儲,通過高效緩存和索引技術(shù)實現(xiàn)混合類型數(shù)據(jù)的高效索引聯(lián)動,提供高速搜索引擎和數(shù)據(jù)訪問接口。
邏輯層采用J2EE企業(yè)級框架,搭配Spring、SpringMVC和MyBatis的SSM應用服務技術(shù)框架組合,提供業(yè)務邏輯層的精準構(gòu)建和靈活應用擴展,通過使用豐富的前端技術(shù)組件,包括Ajax、JQuery、H5等,為前端瀏覽器和手機移動端擴展提供豐富人機界面和人性化交互體驗。
整體架構(gòu)采用面向服務體系架構(gòu)(SOA),開放標準的RESTful API接口,以提供系統(tǒng)平臺的對外WebService服務功能。
產(chǎn)品的應用服務流程如下:
建立研究主題,以研究主題為單位,創(chuàng)建研究任務組、管理研究數(shù)據(jù)和制定研究方向。線下科研團隊直接平移至線上,團隊成員協(xié)同共享研究成果,不同研究任務之間,數(shù)據(jù)保密隔離。
數(shù)據(jù)配置導入,海量數(shù)據(jù)批量并行導入和爬取,針對各種數(shù)據(jù)源定制專有數(shù)據(jù)解析配置器。通過配置器插件服務,實現(xiàn)所有格式文本文獻的定向字段提取和定制化導入。
數(shù)據(jù)搜索引擎,導入數(shù)據(jù)建立全文分詞索引,提供主題檢索和條件檢索。支持海量數(shù)據(jù)的告訴搜索引擎。
協(xié)同分析標引:實現(xiàn)研究團隊內(nèi)數(shù)據(jù)加工云協(xié)作,團隊成員分析加工標引結(jié)果實時共享可見,實時在線溝通,支持基于標引樹的統(tǒng)一標引數(shù)據(jù)字典,針對各種標引內(nèi)容定制專有標引規(guī)則配置器,實現(xiàn)批量自動化標引。
建模統(tǒng)計分析,可定制化算法模板,分析算法自由選擇,量身定制數(shù)據(jù)建模和算法實現(xiàn),通過算法包插件,提供專享專用算法包。讓建模統(tǒng)計分析隨需而用,快速高效。
結(jié)果可視化:提供分析結(jié)果的可視化展示和自動報表,可視化圖表根據(jù)需求量身定制,通過可視化插件,提供專享專用可視化模板,提供交互式可視化和自動報告。
本發(fā)明的有益效果:立足于信息計量分析和行業(yè)研究領(lǐng)域,并致力于打造提供面向大數(shù)據(jù)的全鏈條全領(lǐng)域全受眾的整體數(shù)據(jù)服務及解決方案平臺。解決了傳統(tǒng)企業(yè)行業(yè)信息研究工作在專業(yè)專、技術(shù)難、成本高和效率低上的痛點,提供功能集成的信息研究大數(shù)據(jù)作業(yè)平臺。提供大數(shù)據(jù)的多數(shù)據(jù)源可配置化數(shù)據(jù)導入,大數(shù)據(jù)存儲,大數(shù)據(jù)搜索引擎,大數(shù)據(jù)在線協(xié)同分析,大數(shù)據(jù)在線實時統(tǒng)計分析挖掘和大數(shù)據(jù)可視化等多維度大數(shù)據(jù)服務。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。