基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)與流程

文檔序號：11432333閱讀：521來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)與流程

本發(fā)明涉及數(shù)據(jù)處理，更具體地說是指基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)。
背景技術(shù)：
：隨著科技的發(fā)展，越來越多的企業(yè)采用互聯(lián)網(wǎng)公布數(shù)據(jù)的形式進行自身企業(yè)的宣傳或者尋找投資對象，因此，企業(yè)在互聯(lián)網(wǎng)上的數(shù)據(jù)越來越多，互聯(lián)網(wǎng)上的企業(yè)數(shù)據(jù)庫越來越龐大。在宣傳或者尋找投資對象過程中，需要從互聯(lián)網(wǎng)上的海量數(shù)據(jù)中尋找與企業(yè)間數(shù)據(jù)的關(guān)聯(lián)關(guān)系，以此作為定位條件，準(zhǔn)確定位到所需找的企業(yè)。但是，目前的尋找企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系只能通過人工篩選和分析，這導(dǎo)致很難對企業(yè)進行全方位的分析以及企業(yè)全息畫像，而且人工篩選和分析效率低下，準(zhǔn)確率也低。中國專利201510810811.2提供了一種基于關(guān)系數(shù)據(jù)庫從大數(shù)據(jù)下檢索相同主從關(guān)系數(shù)據(jù)的算法，是海量數(shù)據(jù)中進行數(shù)據(jù)比對的一種算法，采用“大而化小，先面后點”，利用分組遍歷、中間表存儲等算法逐步縮小數(shù)據(jù)比對范圍，高效檢索出相同的記錄。上述發(fā)明針對企業(yè)數(shù)據(jù)中海量主從結(jié)構(gòu)數(shù)據(jù)，快速檢索出相同記錄的方法適用于企業(yè)管控中的需要檢索相同主從結(jié)構(gòu)數(shù)據(jù)的各種情形，增強企業(yè)的管控能力，為企業(yè)營造更好的市場環(huán)境，提高企業(yè)競爭力。上述的專利采用的是快速檢索出相同記錄的方法，這種方式只能尋找類似的記錄，準(zhǔn)確度不高。因此，有必要設(shè)計一種基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，實現(xiàn)提高捕捉的準(zhǔn)確度，且從海量數(shù)據(jù)中，對企業(yè)有效的數(shù)據(jù)進行自動關(guān)聯(lián)以及自動分類，效率高。技術(shù)實現(xiàn)要素：本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺陷，提供基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)。為實現(xiàn)上述目的，本發(fā)明采用以下技術(shù)方案：基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，所述方法包括：獲取海量企業(yè)相關(guān)數(shù)據(jù)；對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)；對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)；根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫；利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。其進一步技術(shù)方案為：對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)的步驟，包括以下具體步驟：對所述海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新；對所述海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，建立基礎(chǔ)數(shù)據(jù)庫；存儲所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫；獲取所述基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)。其進一步技術(shù)方案為：對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)的步驟，包括以下具體步驟：對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字；對所述摘要和關(guān)鍵字建立索引；對所述信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果；對分類結(jié)果進行實時匹配及統(tǒng)計，形成處理數(shù)據(jù)。其進一步技術(shù)方案為：根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫的步驟，包括以下具體步驟：根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，做成訓(xùn)練集；對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整；將調(diào)整后的處理數(shù)據(jù)存儲至訓(xùn)練集內(nèi)；對訓(xùn)練集進行訓(xùn)練；利用權(quán)值進行訓(xùn)練改進，形成訓(xùn)練集數(shù)據(jù)庫。其進一步技術(shù)方案為：利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的步驟，包括以下具體步驟：利用訓(xùn)練集數(shù)據(jù)對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，獲取使用模型；采用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。本發(fā)明還提供了基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng)，包括獲取單元、基礎(chǔ)數(shù)據(jù)形成單元、處理數(shù)據(jù)形成單元、數(shù)據(jù)庫獲取單元以及關(guān)系獲取單元；所述獲取單元，用于獲取海量企業(yè)相關(guān)數(shù)據(jù)；所述基礎(chǔ)數(shù)據(jù)形成單元，用于對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)；所述處理數(shù)據(jù)形成單元，用于對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)；所述數(shù)據(jù)庫獲取單元，用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫；所述關(guān)系獲取單元，用于利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。其進一步技術(shù)方案為：所述基礎(chǔ)數(shù)據(jù)形成單元包括更新模塊、數(shù)據(jù)庫建立模塊、存儲模塊以及基礎(chǔ)數(shù)據(jù)獲取模塊；所述更新模塊，用于對所述海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新；所述數(shù)據(jù)庫建立模塊，用于對所述海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，建立基礎(chǔ)數(shù)據(jù)庫；所述存儲模塊，用于存儲所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫；所述基礎(chǔ)數(shù)據(jù)獲取模塊，用于獲取所述基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)。其進一步技術(shù)方案為：所述處理數(shù)據(jù)形成單元包括處理模塊、索引建立模塊、分類模塊以及匹配統(tǒng)計模塊；所述處理模塊，用于對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字；所述索引建立模塊，用于對所述摘要和關(guān)鍵字建立索引；所述分類模塊，用于對所述信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果；所述匹配統(tǒng)計模塊，用于對分類結(jié)果進行實時匹配及統(tǒng)計，形成處理數(shù)據(jù)。其進一步技術(shù)方案為：所述數(shù)據(jù)庫獲取單元包括訓(xùn)練集形成模塊、調(diào)整模塊、處理數(shù)據(jù)存儲模塊、訓(xùn)練模塊以及改進模塊；所述訓(xùn)練集形成模塊，用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，做成訓(xùn)練集；所述調(diào)整模塊，用于對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整；所述處理數(shù)據(jù)存儲模塊，用于將調(diào)整后的處理數(shù)據(jù)存儲至訓(xùn)練集內(nèi)；所述訓(xùn)練模塊，用于對訓(xùn)練集進行訓(xùn)練；所述改進模塊，用于利用權(quán)值進行訓(xùn)練改進，形成訓(xùn)練集數(shù)據(jù)庫。其進一步技術(shù)方案為：所述關(guān)系獲取單元包括模型獲取模塊以及分類預(yù)測模塊；所述模型獲取模塊，用于利用訓(xùn)練集數(shù)據(jù)對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，獲取使用模型；所述分類預(yù)測模塊，用于采用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。本發(fā)明與現(xiàn)有技術(shù)相比的有益效果是：本發(fā)明的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，通過采集海量的企業(yè)相關(guān)數(shù)據(jù)，獲取成本低，采用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)處理，保證海量數(shù)據(jù)的安全存儲，保證海量數(shù)據(jù)分布式處理，效率高，準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升，以大數(shù)據(jù)技術(shù)驅(qū)動以及基于分布式并行計算架構(gòu)解決海量數(shù)據(jù)的存儲和計算的問題，使用機器學(xué)習(xí)和自然語言處理的理論，讓機器智能處理企業(yè)相關(guān)信息，進行摘要、歸類以及提取，實現(xiàn)提高捕捉的準(zhǔn)確度，且從海量數(shù)據(jù)中，對企業(yè)有效的數(shù)據(jù)進行自動關(guān)聯(lián)以及自動分類，識別效率高。下面結(jié)合附圖和具體實施例對本發(fā)明作進一步描述。附圖說明圖1為本發(fā)明具體實施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法的流程圖；圖2為本發(fā)明具體實施例提供的形成基礎(chǔ)數(shù)據(jù)的具體流程圖；圖3為本發(fā)明具體實施例提供的形成處理數(shù)據(jù)的具體流程圖；圖4為本發(fā)明具體實施例提供的獲取訓(xùn)練集數(shù)據(jù)庫的具體流程圖；圖5為本發(fā)明具體實施例提供的獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的具體流程圖；圖6為本發(fā)明具體實施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng)的結(jié)構(gòu)框圖；圖7為本發(fā)明具體實施例提供的基礎(chǔ)數(shù)據(jù)形成單元的結(jié)構(gòu)框圖；圖8為本發(fā)明具體實施例提供的處理數(shù)據(jù)形成單元的結(jié)構(gòu)框圖；圖9為本發(fā)明具體實施例提供的數(shù)據(jù)庫獲取單元的結(jié)構(gòu)框圖；圖10為本發(fā)明具體實施例提供的關(guān)系獲取單元的結(jié)構(gòu)框圖。具體實施方式為了更充分理解本發(fā)明的技術(shù)內(nèi)容，下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案進一步介紹和說明，但不局限于此。如圖1～10所示的具體實施例，本實施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，可以運用在企業(yè)的宣傳或者尋找投資對象過程，實現(xiàn)提高捕捉的準(zhǔn)確度，且從海量數(shù)據(jù)中，對企業(yè)有效的數(shù)據(jù)進行自動關(guān)聯(lián)以及自動分類，效率高。如圖1所示，是本實施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，該方法包括：s1、獲取海量企業(yè)相關(guān)數(shù)據(jù)；s2、對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)；s3、對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)；s4、根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫；s5、利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。對于s1步驟，獲取海量企業(yè)相關(guān)數(shù)據(jù)的步驟，具體是采用數(shù)據(jù)爬取技術(shù)，每天從互聯(lián)網(wǎng)上采集和爬取企業(yè)相關(guān)數(shù)據(jù)。更進一步的，上述的s2步驟，對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)的步驟，包括以下具體步驟：s21、對所述海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新；s22、對所述海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，建立基礎(chǔ)數(shù)據(jù)庫；s23、存儲所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫；s24、獲取所述基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)。對于上述s21步驟，對海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新，起到積累數(shù)據(jù)的作用。對于上述s22步驟，具體是使用機器學(xué)習(xí)技術(shù),通過對互聯(lián)網(wǎng)上海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，以此來建立基礎(chǔ)數(shù)據(jù)數(shù)據(jù)庫。對于上述的s23步驟，具體是使用大數(shù)據(jù)hdfs技術(shù)分布式存儲海量企業(yè)相關(guān)數(shù)據(jù)。上述的s24步驟，基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)是由海量企業(yè)相關(guān)數(shù)據(jù)進行積累以及處理后的數(shù)據(jù)。更進一步的，上述的s3步驟，對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)的步驟，包括以下具體步驟：s31、對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字；s32、對所述摘要和關(guān)鍵字建立索引；s33、對所述信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果；s34、對分類結(jié)果進行實時匹配及統(tǒng)計，形成處理數(shù)據(jù)。上述的s31步驟，具體是基于自然語言處理的理論和技術(shù)，對采集返回的海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字。對于上述s32步驟，具體是對采用自然語言處理的理論與技術(shù)處理后的摘要和關(guān)鍵字，建立索引。上述的s33步驟，具體采用的是使用k最近鄰(k-nearestneighbor，knn)分類對上述的信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果。上述的s34步驟，具體采用的是使用大數(shù)據(jù)spark對分類結(jié)果的進行實時匹配及統(tǒng)計，以此形成處理數(shù)據(jù)。上述的s1步驟至s3步驟，均是基于成熟的大數(shù)據(jù)技術(shù)對從互聯(lián)網(wǎng)上獲取到的海量企業(yè)相關(guān)數(shù)據(jù)進行處理，保證海量數(shù)據(jù)的安全存儲，保證海量數(shù)據(jù)分布式處理，效率高，準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。并且以大數(shù)據(jù)技術(shù)驅(qū)動，基于分布式并行計算架構(gòu)，解決海量數(shù)據(jù)的存儲以及計算的問題，使用機器學(xué)習(xí)和自然語言處理的理論，讓機器智能處理企業(yè)相關(guān)信息，進行摘要、歸類以及提取等。基于互聯(lián)網(wǎng)公開信息收集和處理，不存在敏感信息，數(shù)據(jù)獲取成本較低。更進一步的，上述的s4步驟，根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫的步驟，包括以下具體步驟：s41、根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，做成訓(xùn)練集；s42、對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整；s43、將調(diào)整后的處理數(shù)據(jù)存儲至訓(xùn)練集內(nèi)；s44、對訓(xùn)練集進行訓(xùn)練；s45、利用權(quán)值進行訓(xùn)練改進，形成訓(xùn)練集數(shù)據(jù)庫。上述的s41步驟，利用基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)以及分類、匹配和統(tǒng)計后的處理數(shù)據(jù)進行綜合和匹配，以此作為訓(xùn)練集，以明確基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)的關(guān)聯(lián)關(guān)系，便于捕捉新數(shù)據(jù)的關(guān)聯(lián)關(guān)系。上述的s42步驟，主要是為了提高基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的準(zhǔn)確度，因此，需要人工對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整，以確保處理數(shù)據(jù)的準(zhǔn)確度，從而確保關(guān)聯(lián)關(guān)系的準(zhǔn)確度。上述的s43步驟，主要是為了更正訓(xùn)練集內(nèi)的處理數(shù)據(jù)，以調(diào)整后的處理數(shù)據(jù)為準(zhǔn)，與基礎(chǔ)數(shù)據(jù)進行綜合，形成準(zhǔn)確度較高的數(shù)據(jù)關(guān)聯(lián)關(guān)系。對于上述的s45步驟，隨著數(shù)據(jù)的累計，采用權(quán)值的方式進行訓(xùn)練改進，權(quán)值的方式主要是和該樣本距離小的鄰居權(quán)值大。具體而言，權(quán)值設(shè)置過小會降低分類精度，若設(shè)置過大，且測試樣本屬于訓(xùn)練集中包含數(shù)據(jù)較少的類，則會增加噪聲，降低分類效果。因此，權(quán)值要設(shè)置妥當(dāng)，才可以提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度，通常，k值的設(shè)定采用交叉檢驗的方式(以k＝1為基準(zhǔn))，經(jīng)驗規(guī)則：k一般低于訓(xùn)練樣本數(shù)的平方根。更進一步的，上述的s5步驟，利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系的步驟，包括以下具體步驟：s51、利用訓(xùn)練集數(shù)據(jù)對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，獲取使用模型；s52、采用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。上述的s51步驟，對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，有利于提高訓(xùn)練集數(shù)據(jù)庫的真實度，以此提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度。對于上述的s52步驟，以訓(xùn)練后的訓(xùn)練集數(shù)據(jù)庫作為使用模型，利用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系，從而實現(xiàn)自動分類，同時隨著數(shù)據(jù)量的累積，準(zhǔn)確率越來越高。上述的s51步驟至s52步驟，可參照下述實施例：#將訓(xùn)練集代入到knn模型中；clf＝kneighborsclassifier(n_neighbors＝3)；clf.fit(x_train,y_train)；#使用測試集衡量模型準(zhǔn)確度；clf.score(x_test,y_test)；#設(shè)置新數(shù)據(jù)；new_data＝np.array([[5000,40000]])；#對新數(shù)據(jù)進行分類預(yù)測；clf.predict(new_data)。如上述的例子而言，訓(xùn)練集數(shù)據(jù)庫的數(shù)據(jù)如下表所示：點號數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別11.02.03.0121.02.13.1130.92.22.9143.46.78.9253.07.08.7263.36.98.8272.53.310.0382.42.98.03新數(shù)據(jù)如下表所示：點號數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別12.15.57.2021.12.54.2034.13.59.20分類后的新數(shù)據(jù)如下表所示：點號數(shù)據(jù)數(shù)據(jù)數(shù)據(jù)類別11.12.54..2122.15.57.2234.13.59.23上述的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法，通過采集海量的企業(yè)相關(guān)數(shù)據(jù)，獲取成本低，采用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)處理，保證海量數(shù)據(jù)的安全存儲，保證海量數(shù)據(jù)分布式處理，效率高，準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升，以大數(shù)據(jù)技術(shù)驅(qū)動以及基于分布式并行計算架構(gòu)解決海量數(shù)據(jù)的存儲和計算的問題，使用機器學(xué)習(xí)和自然語言處理的理論，讓機器智能處理企業(yè)相關(guān)信息，進行摘要、歸類以及提取，實現(xiàn)提高捕捉的準(zhǔn)確度，且從海量數(shù)據(jù)中，對企業(yè)有效的數(shù)據(jù)進行自動關(guān)聯(lián)以及自動分類，識別效率高。如圖6所示，是本實施例提供的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng)，其包括獲取單元1、基礎(chǔ)數(shù)據(jù)形成單元2、處理數(shù)據(jù)形成單元3、數(shù)據(jù)庫獲取單元4以及關(guān)系獲取單元5。獲取單元1，用于獲取海量企業(yè)相關(guān)數(shù)據(jù)?；A(chǔ)數(shù)據(jù)形成單元2，用于對海量企業(yè)相關(guān)數(shù)據(jù)進行積累，形成基礎(chǔ)數(shù)據(jù)。處理數(shù)據(jù)形成單元3，用于對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行處理，形成處理數(shù)據(jù)。數(shù)據(jù)庫獲取單元4，用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，獲取訓(xùn)練集數(shù)據(jù)庫。關(guān)系獲取單元5，用于利用訓(xùn)練集數(shù)據(jù)庫對新數(shù)據(jù)進行處理，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。獲取單元1具體是采用數(shù)據(jù)爬取技術(shù)，每天從互聯(lián)網(wǎng)上采集和爬取企業(yè)相關(guān)數(shù)據(jù)。更進一步的，基礎(chǔ)數(shù)據(jù)形成單元2包括更新模塊21、數(shù)據(jù)庫建立模塊22、存儲模塊23以及基礎(chǔ)數(shù)據(jù)獲取模塊24。更新模塊21，用于對所述海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新。數(shù)據(jù)庫建立模塊22，用于對所述海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，建立基礎(chǔ)數(shù)據(jù)庫。存儲模塊23，用于存儲所述海量企業(yè)相關(guān)數(shù)據(jù)于所述基礎(chǔ)數(shù)據(jù)庫?；A(chǔ)數(shù)據(jù)獲取模塊24，用于獲取所述基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)。更新模塊21對海量企業(yè)相關(guān)數(shù)據(jù)進行定期更新，起到積累數(shù)據(jù)的作用數(shù)據(jù)庫建立模塊22具體是使用機器學(xué)習(xí)技術(shù),通過對互聯(lián)網(wǎng)上海量企業(yè)相關(guān)數(shù)據(jù)進行挖掘以及分類，以此來建立基礎(chǔ)數(shù)據(jù)數(shù)據(jù)庫。存儲模塊23具體是使用大數(shù)據(jù)hdfs技術(shù)分布式存儲海量企業(yè)相關(guān)數(shù)據(jù)。上述的基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)是由海量企業(yè)相關(guān)數(shù)據(jù)進行積累以及處理后的數(shù)據(jù)。更進一步的，處理數(shù)據(jù)形成單元3包括處理模塊31、索引建立模塊32、分類模塊33以及匹配統(tǒng)計模塊34。處理模塊31，用于對獲取的所述海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字。索引建立模塊32，用于對所述摘要和關(guān)鍵字建立索引。分類模塊33，用于對所述信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果。匹配統(tǒng)計模塊34，用于對分類結(jié)果進行實時匹配及統(tǒng)計，形成處理數(shù)據(jù)。處理模塊31具體是基于自然語言處理的理論和技術(shù)，對采集返回的海量企業(yè)相關(guān)數(shù)據(jù)進行清洗、歸類、提取摘要以及提取關(guān)鍵字。索引建立模塊32具體是對采用自然語言處理的理論與技術(shù)處理后的摘要和關(guān)鍵字，建立索引。分類模塊33具體采用的是使用k最近鄰(k-nearestneighbor，knn)分類對上述的信息、摘要以及關(guān)鍵字進行分類，獲取分類結(jié)果。匹配統(tǒng)計模塊34具體采用的是使用大數(shù)據(jù)spark對分類結(jié)果的進行實時匹配及統(tǒng)計，以此形成處理數(shù)據(jù)。上述的獲取單元1、基礎(chǔ)數(shù)據(jù)形成單元2以及理數(shù)據(jù)形成單元均是基于成熟的大數(shù)據(jù)技術(shù)對從互聯(lián)網(wǎng)上獲取到的海量企業(yè)相關(guān)數(shù)據(jù)進行處理，保證海量數(shù)據(jù)的安全存儲，保證海量數(shù)據(jù)分布式處理，效率高，準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升。并且以大數(shù)據(jù)技術(shù)驅(qū)動，基于分布式并行計算架構(gòu)，解決海量數(shù)據(jù)的存儲以及計算的問題，使用機器學(xué)習(xí)和自然語言處理的理論，讓機器智能處理企業(yè)相關(guān)信息，進行摘要、歸類以及提取等。基于互聯(lián)網(wǎng)公開信息收集和處理，不存在敏感信息，數(shù)據(jù)獲取成本較低。另外，數(shù)據(jù)庫獲取單元4包括訓(xùn)練集形成模塊41、調(diào)整模塊42、處理數(shù)據(jù)存儲模塊43、訓(xùn)練模塊44以及改進模塊45。訓(xùn)練集形成模塊41，用于根據(jù)處理數(shù)據(jù)以及基礎(chǔ)數(shù)據(jù)，做成訓(xùn)練集。調(diào)整模塊42，用于對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整。處理數(shù)據(jù)存儲模塊43，用于將調(diào)整后的處理數(shù)據(jù)存儲至訓(xùn)練集內(nèi)。訓(xùn)練模塊44，用于對訓(xùn)練集進行訓(xùn)練。改進模塊45，用于利用權(quán)值進行訓(xùn)練改進，形成訓(xùn)練集數(shù)據(jù)庫。上述的訓(xùn)練集形成模塊41利用基礎(chǔ)數(shù)據(jù)庫內(nèi)的基礎(chǔ)數(shù)據(jù)以及分類、匹配和統(tǒng)計后的處理數(shù)據(jù)進行綜合和匹配，以此作為訓(xùn)練集，以明確基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)的關(guān)聯(lián)關(guān)系，便于捕捉新數(shù)據(jù)的關(guān)聯(lián)關(guān)系。調(diào)整模塊42主要是為了提高基礎(chǔ)數(shù)據(jù)與處理數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的準(zhǔn)確度，因此，需要人工對處理數(shù)據(jù)進行抽樣調(diào)查和調(diào)整，以確保處理數(shù)據(jù)的準(zhǔn)確度，從而確保關(guān)聯(lián)關(guān)系的準(zhǔn)確度。處理數(shù)據(jù)存儲模塊43主要是為了更正訓(xùn)練集內(nèi)的處理數(shù)據(jù)，以調(diào)整后的處理數(shù)據(jù)為準(zhǔn)，與基礎(chǔ)數(shù)據(jù)進行綜合，形成準(zhǔn)確度較高的數(shù)據(jù)關(guān)聯(lián)關(guān)系。隨著數(shù)據(jù)的累計，改進模塊45采用權(quán)值的方式進行訓(xùn)練改進，權(quán)值的方式主要是和該樣本距離小的鄰居權(quán)值大。具體而言，權(quán)值設(shè)置過小會降低分類精度，若設(shè)置過大，且測試樣本屬于訓(xùn)練集中包含數(shù)據(jù)較少的類，則會增加噪聲，降低分類效果。因此，權(quán)值要設(shè)置妥當(dāng)，才可以提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度，通常，k值的設(shè)定采用交叉檢驗的方式(以k＝1為基準(zhǔn))，經(jīng)驗規(guī)則：k一般低于訓(xùn)練樣本數(shù)的平方根。更進一步的，關(guān)系獲取單元5包括模型獲取模塊51以及分類預(yù)測模塊52。模型獲取模塊51，用于利用訓(xùn)練集數(shù)據(jù)對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，獲取使用模型。分類預(yù)測模塊52，用于采用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系。模型獲取模塊51對訓(xùn)練集數(shù)據(jù)庫進行訓(xùn)練，有利于提高訓(xùn)練集數(shù)據(jù)庫的真實度，以此提高企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉的準(zhǔn)確度。分類預(yù)測模塊52以訓(xùn)練后的訓(xùn)練集數(shù)據(jù)庫作為使用模型，利用使用模型對新數(shù)據(jù)進行分類和預(yù)測，獲取企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系，從而實現(xiàn)自動分類，同時隨著數(shù)據(jù)量的累積，準(zhǔn)確率越來越高。上述的模型獲取模塊51以及分類預(yù)測模塊52的工作過程，可參照下述實施例：#將訓(xùn)練集代入到knn模型中；clf＝kneighborsclassifier(n_neighbors＝3)；clf.fit(x_train,y_train)；#使用測試集衡量模型準(zhǔn)確度；clf.score(x_test,y_test)；#設(shè)置新數(shù)據(jù)；new_data＝np.array([[5000,40000]])；#對新數(shù)據(jù)進行分類預(yù)測；clf.predict(new_data)。上述的基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉系統(tǒng)，通過采集海量的企業(yè)相關(guān)數(shù)據(jù)，獲取成本低，采用大數(shù)據(jù)技術(shù)進行數(shù)據(jù)處理，保證海量數(shù)據(jù)的安全存儲，保證海量數(shù)據(jù)分布式處理，效率高，準(zhǔn)確度隨著數(shù)據(jù)的積累不斷提升，以大數(shù)據(jù)技術(shù)驅(qū)動以及基于分布式并行計算架構(gòu)解決海量數(shù)據(jù)的存儲和計算的問題，使用機器學(xué)習(xí)和自然語言處理的理論，讓機器智能處理企業(yè)相關(guān)信息，進行摘要、歸類以及提取，實現(xiàn)提高捕捉的準(zhǔn)確度，且從海量數(shù)據(jù)中，對企業(yè)有效的數(shù)據(jù)進行自動關(guān)聯(lián)以及自動分類，識別效率高。上述僅以實施例來進一步說明本發(fā)明的技術(shù)內(nèi)容，以便于讀者更容易理解，但不代表本發(fā)明的實施方式僅限于此，任何依本發(fā)明所做的技術(shù)延伸或再創(chuàng)造，均受本發(fā)明的保護。本發(fā)明的保護范圍以權(quán)利要求書為準(zhǔn)。當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李小強
技術(shù)所有人：前海梧桐（深圳）數(shù)據(jù)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)關(guān)聯(lián)關(guān)系相關(guān)技術(shù)

企業(yè)關(guān)聯(lián)關(guān)系查詢相關(guān)技術(shù)

企業(yè)關(guān)聯(lián)關(guān)系相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于海量數(shù)據(jù)的企業(yè)間數(shù)據(jù)關(guān)聯(lián)關(guān)系捕捉方法及其系統(tǒng)與流程