欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據采集及解析方法及系統(tǒng)的制作方法

文檔序號:9929418閱讀:501來源:國知局
數(shù)據采集及解析方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及終端上報的行為數(shù)據的日常采集及解析,特別涉及在Java技術基礎上,構建大規(guī)模數(shù)據的采集及解析。
【背景技術】
[0002]隨著智能家電的普及,如何分析用戶終端的各項數(shù)據,挖掘用戶的隱形需求,為用戶提供更加豐富、友好的服務,成為各大家電廠商研究的重要方向?;谶@些要求,對終端數(shù)據的采集和解析,為后續(xù)的大數(shù)據處理工作提供數(shù)據支撐,成為了一項重要的基礎工作。
[0003]Java技術廣泛應用于各大系統(tǒng)平臺的軟件開發(fā),利用Java技術開發(fā)web程序進行數(shù)據采集、數(shù)據解析,可以跨平臺移植,方便進行大規(guī)模部署、更新、升級。傳統(tǒng)的數(shù)據采集、解析方法包括兩種:一、數(shù)據的實時采集、解析;二、數(shù)據的延時采集、解析。實時的數(shù)據采集、解析方法由一套web程序提供采集、解析功能,即在數(shù)據上報的第一時間觸發(fā)采集、解析程序,采集到的數(shù)據立刻進行解析、存儲;延時的數(shù)據采集、解析方法的則由采集程序和解析程序構成,采集程序先將終端上報的數(shù)據寫入到服務器的本地磁盤空間,解析程序掃描本地數(shù)據文件,讀取數(shù)據進行解析處理、存儲。

【發(fā)明內容】

[0004]本發(fā)明所要解決的技術問題,就是提供一種數(shù)據采集及解析方法及系統(tǒng)以實現(xiàn)更加快速、可靠的數(shù)據采集及解析。
[0005]本發(fā)明解決所述技術問題,采用的技術方案是,數(shù)據采集及解析方法,包括:終端上報數(shù)據時,系統(tǒng)采集上報數(shù)據,根據預設周期存儲至本地磁盤;系統(tǒng)對本地磁盤存儲的上報數(shù)據進行多線程掃描解析,并將解析數(shù)據存儲至kafka。
[0006]具體的,終端通過post方式上報數(shù)據。
[0007]具體的,系統(tǒng)采集上報數(shù)據,將其轉換為String格式的字符串,并將字符串保存在列表中,根據預設周期將列表中的數(shù)據寫入到本地磁盤。
[0008]具體的,系統(tǒng)對本地磁盤存儲數(shù)據進行多線程掃描解析,每個線程中,系統(tǒng)將String類型的字符串數(shù)據轉換為json格式的數(shù)據,獲取各字段值,并對各字段值進行解析。
[0009]進一步的,所述對各字段值進行解析包括:獲取"designat1n〃字段值判斷解密類型,調用解密程序進行數(shù)據解密,得到解密數(shù)據;獲取"ip"字段值,調用IP解析程序對IP進行解析,得到IP地址信息及時間信息。
[0010]進一步的,系統(tǒng)將解密數(shù)據、IP地址信息及時間信息組合成json格式的數(shù)據存入kafka,所述kafka存儲節(jié)點至少為一個。
[0011]數(shù)據采集及解析系統(tǒng),包括數(shù)據采集接口、本地磁盤、數(shù)據解析模塊及kafka存儲節(jié)點;所述數(shù)據采集接口與本地磁盤連接,本地磁盤與數(shù)據解析模塊連接,數(shù)據解析模塊與kaf ka存儲節(jié)點連接;
[0012]所述數(shù)據采集接口,用于終端上報數(shù)據時,采集上報數(shù)據,并根據預設周期將上報數(shù)據存儲至本地磁盤;
[0013]所述數(shù)據解析模塊,用于對本地磁盤存儲的上報數(shù)據進行多線程掃描解析,并將解析數(shù)據存儲至kaf ka。
[0014]具體的,終端通過post方式上報數(shù)據至數(shù)據采集接口。
[0015]具體的,數(shù)據采集接口采集上報數(shù)據,將其轉換為String格式的字符串,并將字符串保存在列表中,根據預設周期將列表中的數(shù)據寫入到本地磁盤。
[0016]具體的,數(shù)據解析模塊對本地磁盤存儲的上報數(shù)據進行多線程掃描解析,每個線程中,系統(tǒng)將String類型的字符串數(shù)據轉換為json格式的數(shù)據,獲取各字段值,并對各字段值進行解析。
[0017]進一步的,所述對各字段值進行解析包括:獲取"designat1n〃字段值判斷解密類型,調用解密程序進行數(shù)據解密,得到解密數(shù)據;獲取"ip"字段值,調用IP解析程序對IP進行解析,得到IP地址信息及時間信息。
[0018]進一步的,系統(tǒng)將解密數(shù)據、IP地址信息及時間信息組合成json格式的數(shù)據存入kafka,所述kafka存儲節(jié)點至少為一個。
[0019]本發(fā)明的有益效果是:由于數(shù)據解析主程序或調用的解密程序、IP解析程序的升級及維護不會影響到數(shù)據采集工作的正常進行,所以不會造成數(shù)據丟失,保證了采集數(shù)據的完整性;快速、可靠的實現(xiàn)對終端上傳數(shù)據的采集和解析。
【附圖說明】
[0020]圖1為本發(fā)明數(shù)據采集及解析方法及系統(tǒng)實施例的流程圖。
[0021]以下結合實施例的【具體實施方式】,對本發(fā)明的上述內容再作進一步的詳細說明。但不應將此理解為本發(fā)明上述主題的范圍僅限于以下的實例。在不脫離本發(fā)明上述技術思想情況下,根據本領域普通技術知識和慣用手段做出的各種替換或變更,均應包括在本發(fā)明的范圍內。
【具體實施方式】
[0022]下面結合附圖及實施例詳細描述本發(fā)明的技術方案:
[0023]本發(fā)明針對現(xiàn)有技術中實時數(shù)據采集、解析的服務器環(huán)境、網絡條件、程序更新及程序升級容易造成的數(shù)據丟失及延時數(shù)據采集及解析的實效性太低的問題,提供一種數(shù)據采集及解析方法,包括:終端上報數(shù)據時,系統(tǒng)采集上報數(shù)據,根據預設周期存儲至本地磁盤;系統(tǒng)對本地磁盤存儲的上報數(shù)據進行多線程掃描解析,并將解析數(shù)據存儲至kafka。數(shù)據采集及解析系統(tǒng),包括數(shù)據采集接口、本地磁盤、數(shù)據解析模塊及kafka存儲節(jié)點;所述數(shù)據采集接口與本地磁盤連接,本地磁盤與數(shù)據解析模塊連接,數(shù)據解析模塊與kafka存儲節(jié)點連接;所述數(shù)據采集接口,用于終端上報數(shù)據時,采集上報數(shù)據,并根據預設周期將上報數(shù)據存儲至本地磁盤;所述數(shù)據解析模塊,用于對本地磁盤存儲的上報數(shù)據進行多線程掃描解析,并將解析數(shù)據存儲至kafka。由于數(shù)據解析主程序或調用的解密程序、IP解析程序的升級及維護不會影響到數(shù)據采集工作的正常進行,所以不會造成數(shù)據丟失,保證了采集數(shù)據的完整性;快速、可靠的實現(xiàn)對終端上傳數(shù)據的采集和解析。
[0024]實施例
[0025]本例結合實時數(shù)據采集解析方法和延時數(shù)據采集解析方法的優(yōu)點,提供一種更加快速、可靠的數(shù)據采集及解析方法。從而解決實時數(shù)據采集解析的服務器環(huán)境、網絡條件、程序更新、升級時容易造成的數(shù)據丟失問題;解決了延時數(shù)據采集解析方法的實效性太低的問題。
[0026]本例的總體構思為:在Java技術的基礎上,提供跨平臺(linux、windows)的數(shù)據采集及解析方法。如圖1所示,首先,開發(fā)數(shù)據采集程序和數(shù)據解析程序,部署到Iinux(windows)服務器上。其次數(shù)據采集程序提供數(shù)據采集服務接口,終端數(shù)據通過http協(xié)議中的post方式傳遞json格式的數(shù)據觸發(fā)采集服務接口,采集服務接口獲取到json格式的上報數(shù)據,以字符串的形式逐條寫入到本地磁盤,完成數(shù)據的采集工作。數(shù)據解析程序,首先開啟多線程并發(fā)執(zhí)行,各線程調用主程序掃描本地磁盤目錄,獲取數(shù)據采集程序存儲的數(shù)據文件,對文件數(shù)據逐條進行讀取,將讀取到的字符串轉換為json數(shù)據,提取其中的加密數(shù)據、加密方式、IP地址等,進行數(shù)據解密和IP解析等工作,存入到數(shù)據庫,完成數(shù)據解析工作。
[0027]家電終端數(shù)據的采集和解析主要受以下兩個方面影響:I,家電產品終端上報的數(shù)據內容和數(shù)據格式較為固定,故數(shù)據采集部分的后期升級、維護的可能性較低;2,數(shù)據解析受制于IP解析更新、數(shù)據庫版本更迭等因素,后期升級、維護較為頻繁。因此,本例將數(shù)據的采集和解析設計為兩個獨立的程序一一數(shù)據采集程序、數(shù)據解析程序。
[0028]為了達到上述目的,本發(fā)明采用的技術方案是:數(shù)據采集程序:為保障數(shù)據的及時采集,使得整個采集、解析方法具有較高的實時性,在此將采集程序設定為實時采集程序,終端上報數(shù)據時觸發(fā)采集程序,采集程序捕獲的數(shù)據根據業(yè)務要求的時效性設定存儲周期,按時間周期存到服務器本地磁盤。具體的,系統(tǒng)采集上報數(shù)據,將其轉換為String格式的字符串,并將字符串保存在列表中,根據預設周期將列表中的數(shù)據寫入到本地磁盤。
[0029]數(shù)據解析程序:為保證數(shù)據解析的時效性,快速、可靠的實現(xiàn)對數(shù)據的采集和解析,將多線程機制應用于數(shù)據解析程序,根據數(shù)據文件的數(shù)量設定并發(fā)的線程數(shù),多個線程并發(fā)執(zhí)行可以非??焖俚耐瓿蓪Ρ镜卮鎯Φ臄?shù)據文件的處理。具體的,系統(tǒng)對本地磁盤存儲數(shù)據進行多線程掃描解析,每個線程中,系統(tǒng)將String類型的字符串數(shù)據轉換為json格式的數(shù)據,然后獲取"designat1n"字段值判斷解密類型,調用解密程序進行數(shù)據解密,得到解密數(shù)據;獲取〃 ip〃字段值,調用IP解析程序對IP進行解析,得到IP地址信息及時間信息。
[0030]最后,系統(tǒng)將解密數(shù)據、IP地址信息及時間信息組合成json格式的數(shù)據存入kafka,所述
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
崇礼县| 芜湖县| 商水县| 渝北区| 恭城| 赤水市| 区。| 麻栗坡县| 波密县| 桑日县| 南皮县| 西昌市| 德兴市| 洛浦县| 阿克| 涡阳县| 卓资县| 江阴市| 荔浦县| 明光市| 汶上县| 林州市| 禄丰县| 米泉市| 瑞昌市| 桐城市| 永和县| 临城县| 屏边| 荥阳市| 鄂尔多斯市| 南开区| 西安市| 茌平县| 和龙市| 三江| 蒙阴县| 石嘴山市| 曲周县| 昌宁县| 四平市|