數(shù)據(jù)處理方法和裝置的制造方法
【專利摘要】本申請公開了數(shù)據(jù)處理方法和裝置。所述方法的一【具體實施方式】包括:獲取待分析數(shù)據(jù)和待分析數(shù)據(jù)的聚合計算類型;基于聚合計算類型和預設的計算復雜度對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù);對抽樣數(shù)據(jù)進行聚合計算;展示抽樣數(shù)據(jù)的聚合計算結果。該實施方式可以快速地提供部分具有參考價值的數(shù)據(jù)分析結果,提升了大規(guī)模數(shù)據(jù)聚合處理結果展示的效率。
【專利說明】
數(shù)據(jù)處理方法和裝置
技術領域
[0001]本申請涉及計算機技術領域,具體涉及電通信技術領域,尤其涉及數(shù)據(jù)處理方法和裝置。
【背景技術】
[0002]隨著互聯(lián)網(wǎng)技術的發(fā)展,產(chǎn)生了越來越多的網(wǎng)絡數(shù)據(jù)。后臺數(shù)據(jù)分析服務器可以對產(chǎn)生的網(wǎng)絡數(shù)據(jù)進行聚合分析,得出大數(shù)據(jù)量的網(wǎng)絡行為的統(tǒng)計信息。通常后臺服務器在完成所有待分析數(shù)據(jù)的聚合計算后,將聚合計算的結果展示給用戶。
[0003]對于超大規(guī)模的網(wǎng)絡數(shù)據(jù),由于服務器系統(tǒng)資源、計算能力的限制,聚合操作需要消耗較長的時間,無法實時展示聚合結果。這時,展示結果頁面會停滯在等待結果返回的狀態(tài),為用戶提供統(tǒng)計分析結果的效率較低。
【發(fā)明內容】
[0004]有鑒于此,期望能夠提供一種快速展示聚合結果的數(shù)據(jù)分析處理方法。為了解決上述技術問題,本申請?zhí)峁┝藬?shù)據(jù)處理的方法和裝置。
[0005]—方面,本申請?zhí)峁┝艘环N數(shù)據(jù)處理方法,包括:獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型;基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù);對所述抽樣數(shù)據(jù)進行聚合計算;展示所述抽樣數(shù)據(jù)的聚合計算結果。
[0006]在一些可選的實現(xiàn)方式中,所述基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù),包括:基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量;根據(jù)所述抽樣數(shù)據(jù)量,從所述待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)。
[0007]在一些可選的實現(xiàn)方式中,所述基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量,包括:將所述待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型;根據(jù)所述第一關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。
[0008]在一些可選的實現(xiàn)方式中,所述方法還包括訓練所述第一計算復雜度模型的步驟,包括:獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度和歷史聚合計算類型;根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第一計算復雜度模型。
[0009]在一些可選的實現(xiàn)方式中,所述方法還包括:獲取可用的計算資源余量;所述基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量,包括:將所述待分析數(shù)據(jù)的聚合計算類型、所述計算資源余量輸入已訓練的第二計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型;根據(jù)所述第二關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。
[0010]在一些可選的實現(xiàn)方式中,所述方法還包括訓練所述第二計算復雜度模型的步驟,包括:獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度、歷史計算資源余量和歷史聚合計算類型;根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第二計算復雜度模型。
[0011]在一些可選的實現(xiàn)方式中,所述計算復雜度包括:計算耗時和/或計算所需的資源量。
[0012]第二方面,本申請?zhí)峁┝艘环N數(shù)據(jù)處理裝置,包括:第一獲取單元,用于獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型;抽樣單元,用于基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù);計算單元,用于對所述抽樣數(shù)據(jù)進行聚合計算;展示單元,用于展示所述抽樣數(shù)據(jù)的聚合計算結果。
[0013]在一些可選的實現(xiàn)方式中,所述抽樣單元用于按如下方式對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù):基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量;根據(jù)所述抽樣數(shù)據(jù)量,從所述待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)。
[0014]在一些可選的實現(xiàn)方式中,所述抽樣單元進一步按照如下方式確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量:將所述待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型;根據(jù)所述第一關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。
[0015]在一些可選的實現(xiàn)方式中,所述裝置還包括第一訓練單元,用于按照如下方式訓練所述第一計算復雜度模型:獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度和歷史聚合計算類型;根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第一計算復雜度模型。
[0016]在一些可選的實現(xiàn)方式中,所述裝置還包括:第二獲取單元,用于獲取可用的計算資源余量;所述抽樣單元進一步按照如下方式確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量:將所述待分析數(shù)據(jù)的聚合計算類型、所述計算資源余量輸入已訓練的第二計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型;根據(jù)所述第二關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。
[0017]在一些可選的實現(xiàn)方式中,所述裝置還包括第二訓練單元,用于按如下方式訓練所述第二計算復雜度模型:獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度、歷史計算資源余量和歷史聚合計算類型;根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第二計算復雜度模型。
[0018]在一些可選的實現(xiàn)方式中,所述計算復雜度包括:計算耗時和/或計算所需的資源量。
[0019]本申請?zhí)峁┑臄?shù)據(jù)處理方法和裝置,通過獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型,隨后基于聚合計算類型和預設的計算復雜度對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù),而后對抽樣數(shù)據(jù)進行聚合計算,最后展示抽樣數(shù)據(jù)的聚合計算結果,從而能夠快速地提供部分具有參考價值的數(shù)據(jù)分析結果,提升了大規(guī)模數(shù)據(jù)聚合處理結果展示的效率。
【附圖說明】
[0020]通過閱讀參照以下附圖所作的對非限制性實施例詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
[0021]圖1是本申請可以應用于其中的示例性系統(tǒng)架構圖;
[0022]圖2是根據(jù)本申請的數(shù)據(jù)處理方法的一個實施例的流程圖;
[0023]圖3是根據(jù)本申請的數(shù)據(jù)處理方法的原理示意圖;
[0024]圖4是根據(jù)本申請的數(shù)據(jù)處理方法的另一個實施例的流程圖;
[0025]圖5是根據(jù)本申請的數(shù)據(jù)處理方法的再一個實施例的流程圖;
[0026]圖6是本申請數(shù)據(jù)處理裝置的一個實施例的結構示意圖;
[0027]圖7是適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)的結構示意圖。
【具體實施方式】
[0028]下面結合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關發(fā)明相關的部分。
[0029]需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0030]如圖1所示,系統(tǒng)架構100可以包括終端設備101、102、103,網(wǎng)絡104和服務器105。網(wǎng)絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網(wǎng)絡104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0031]用戶110可以使用終端設備101、102、103通過網(wǎng)絡104與服務器105交互,以接收或發(fā)送消息等。終端設備101、102、103上可以安裝有網(wǎng)絡服務應用,例如瀏覽器、地圖應用、音頻/視頻播放應用、在線生活服務類應用等。
[0032]終端設備101、102、103可以是具有顯示屏并且支持網(wǎng)絡服務應用的各種電子設備,包括但不限于智能手機、平板電腦、智能手表、電子書閱讀器、MP3播放器(MovingPicture Experts Group Aud1 Layer III,動態(tài)影像專家壓縮標準音頻層面3)、MP4(Moving Picture Experts Group Aud1 Layer IV,動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
[0033]服務器105可以是提供各種服務的服務器,例如對終端設備101、102、103顯示的網(wǎng)頁提供數(shù)據(jù)支持的后臺網(wǎng)頁服務器。后臺網(wǎng)頁服務器可以對接收到的訪問請求進行數(shù)據(jù)分析等處理,并將處理結果(例如網(wǎng)頁數(shù)據(jù))反饋給終端設備。
[0034]服務器105可以是后臺數(shù)據(jù)分析服務器,用于獲取終端設備101、102、103的網(wǎng)絡行為數(shù)據(jù)并進行數(shù)據(jù)分析。例如服務器105可以獲取終端設備101、102、103的網(wǎng)絡日志,并對獲取的網(wǎng)絡日志進行分析統(tǒng)計,以得出網(wǎng)絡行為數(shù)據(jù)的統(tǒng)計結果。
[0035]需要說明的是,本申請實施例所提供的數(shù)據(jù)處理方法一般由服務器105執(zhí)行,相應地,數(shù)據(jù)處理裝置一般設置于服務器105中。
[0036]應該理解,圖1中的終端設備、網(wǎng)絡和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設備、網(wǎng)絡和服務器。
[0037]繼續(xù)參考圖2,示出了根據(jù)本申請的數(shù)據(jù)處理方法的一個實施例的流程200。所述的數(shù)據(jù)處理方法,包括以下步驟:
[0038]步驟201,獲取待分析數(shù)據(jù)和待分析數(shù)據(jù)的聚合計算類型。
[0039]在本實施例中,數(shù)據(jù)處理方法運行于其上的電子設備(例如圖1所示的服務器105)可以從多個終端設備獲取待分析數(shù)據(jù)。其中,待分析數(shù)據(jù)可以包括終端設備的網(wǎng)絡行為數(shù)據(jù),例如包括用戶通過終端設備進行網(wǎng)頁瀏覽的數(shù)據(jù)、地圖檢索的數(shù)據(jù)、音頻/視頻播放的數(shù)據(jù)等各網(wǎng)絡訪問應用的數(shù)據(jù)。同時,數(shù)據(jù)處理方法運行于其上的電子設備還可以根據(jù)設定的聚合算法獲取待分析數(shù)據(jù)的聚合計算類型。例如當聚合算法為執(zhí)行η次累加和m次求均值時,聚合計算的類型可以包括求和(sum)以及求平均(average)。
[0040]通常,用戶在通過終端設備訪問網(wǎng)絡時,終端設備可以記錄用戶訪問網(wǎng)絡的行為數(shù)據(jù),將用戶的網(wǎng)絡行為數(shù)據(jù)保存在網(wǎng)絡日志中。例如用戶瀏覽網(wǎng)頁時,終端設備可以將用戶瀏覽網(wǎng)頁的網(wǎng)址、瀏覽時間、在網(wǎng)頁上執(zhí)行的操作(例如點擊、鍵入的文本信息)等記錄在網(wǎng)頁瀏覽日志中。上述電子設備可以獲取終端設備的日志,作為待分析數(shù)據(jù)。需要說明的是,本實施例中上述電子設備可以獲取多個終端保存的大數(shù)據(jù)量的待分析數(shù)據(jù),也可以選擇性地獲取部分網(wǎng)絡日志作為待分析數(shù)據(jù),例如將最近一個月內的網(wǎng)絡日志作為待分析數(shù)據(jù)。
[0041]在一些可選的實現(xiàn)方式中,記錄用戶網(wǎng)絡行為數(shù)據(jù)的終端設備可以通過網(wǎng)絡向數(shù)據(jù)處理方法運行于其上的電子設備上報其網(wǎng)絡日志,上述電子設備也可以通過網(wǎng)絡向各終端設備發(fā)出網(wǎng)絡日志搜集請求,主動從終端設備獲取網(wǎng)絡日志。需要指出的是,上述網(wǎng)絡的連接方式可以包括但不限于3G/4G連接、WiFi連接、藍牙連接、WiMAX連接、Zigbee連接、UWB(ultra wideband)連接等無線連接方式,也可以包括有線連接方式。
[0042]在一些實施例中,上述電子設備還可以在后臺直接獲取用戶訪問網(wǎng)絡的數(shù)據(jù)。例如網(wǎng)頁服務器可以獲取用戶通過終端設備請求網(wǎng)頁數(shù)據(jù)的網(wǎng)頁地址以及時間信息。
[0043]聚合計算類型可以是人工設定的,例如數(shù)據(jù)分析師可以設定需要對待分析數(shù)據(jù)進行何種運算。聚合計算類型也可以是根據(jù)聚合結果需求確定的。例如當需要統(tǒng)計網(wǎng)頁訪問量的走勢時,則聚合計算類型可以為累加。聚合計算類型可以為多種,這時,所獲取的聚合計算類型還可以包括每種聚合計算類型的數(shù)量。
[0044]步驟202,基于聚合計算類型和預設的計算復雜度對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù)。
[0045]在本實施例中,上述電子設備可以根據(jù)步驟201獲取的聚合計算類型確定待分析數(shù)據(jù)的計算復雜度,基于待分析數(shù)據(jù)的計算復雜度和預設的計算復雜度確定抽樣率,從而根據(jù)抽樣率對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù)。
[0046]在一些可選的實現(xiàn)方式中,待分析數(shù)據(jù)的計算復雜度可以采用如下方式計算:設定待分析數(shù)據(jù)的每一種聚合計算類型的復雜度,然后按照各聚合計算類型進行的次數(shù)對各聚合計算類型的復雜度進行累加,得到總的復雜度即為待分析數(shù)據(jù)的計算復雜度。
[0047]在一些可選的實現(xiàn)方式中,計算復雜度可以包括計算耗時和/或計算所需的資源量。其中,計算耗時表示聚合計算所消耗的時長,計算所需的資源量表示聚合計算所占用的系統(tǒng)資源量,包括存儲空間量,例如聚合計算所占用的資源量可以為1CHJ+16G內存??蛇x地,計算所需的資源量可以包括待分析數(shù)據(jù)所占用的存儲空間、聚合計算所占用的存儲空間以及聚合計算的結果所占用的存儲空間。
[0048]在一些實施中,還可以利用經(jīng)驗公式計算待分析數(shù)據(jù)的計算復雜度。經(jīng)驗公式中,計算復雜度與聚合計算的類型和數(shù)量相關。
[0049]預設的計算復雜度可以根據(jù)抽樣結果展示時間設置。如果計算復雜度為計算耗時,則可以確定抽樣結果展示時間即為預設的計算復雜度。例如用戶需要在5秒內獲得抽樣結果,則預設的計算復雜度可以為5秒。如果計算復雜度為計算所需的資源量,可以根據(jù)計算耗時與計算所需的資源量間的正相關關系確定出抽樣結果展示時間對應的計算復雜度。
[0050]待計算的數(shù)據(jù)量與計算復雜度具有正相關的關系。在本實施例中,上述電子設備可以確定出預設計算復雜度對應的待計算數(shù)據(jù)量,即為抽樣數(shù)據(jù)量。例如待分析數(shù)據(jù)的數(shù)據(jù)量為24(),其計算復雜度為1000秒,而抽樣結果的展示時間為10秒,如果待計算的數(shù)量為22°時的計算復雜度為10秒,則可以確定抽樣數(shù)據(jù)量為22()。在一些實施例中,可以根據(jù)歷史計算數(shù)據(jù)確定出計算復雜度與待計算數(shù)據(jù)量的對應關系,之后確定預設計算復雜度對應的待計算數(shù)據(jù)量為抽樣數(shù)據(jù)量。
[0051]在確定抽樣數(shù)據(jù)量之后,可以基于多種抽樣方法抽取所述抽樣數(shù)據(jù)量的待分析數(shù)據(jù)作為抽樣數(shù)據(jù)。抽樣方法可以包括但不限于:隨機抽樣、整群抽樣、分層抽樣。
[0052]步驟203,對抽樣數(shù)據(jù)進行聚合計算。
[0053]在本實施例中,上述電子設備可以按照預設的聚合計算規(guī)則對抽樣數(shù)據(jù)進行聚合計算。聚合計算可以包括多類聚合函數(shù),每個聚合函數(shù)對抽樣數(shù)據(jù)中的一組數(shù)據(jù)執(zhí)行計算并返回單一的值。聚合函數(shù)可以是用戶根據(jù)需求自定義的函數(shù),也可以是上述電子設備的存儲器中已保存的統(tǒng)計分析函數(shù)。聚合函數(shù)可以例如包括AVG(返回均值)、C0UNT(返回數(shù)量)、MAX(返回最大值)、MIN(返回最小值)、SUM(返回和值)、VAR(返回統(tǒng)計方差)等。
[0054]在一些實施例中,可以同時對抽樣數(shù)據(jù)和待分析數(shù)據(jù)進行聚合計算。對待分析數(shù)據(jù)進行的聚合計算類型與對抽樣數(shù)據(jù)進行的聚合計算類型一致,也可以根據(jù)實時展示的需求確定待分析數(shù)據(jù)的聚合計算結果,例如用戶需要快速了解數(shù)據(jù)的總和時,可以對抽樣數(shù)據(jù)執(zhí)行求和計算操作,對待分析數(shù)據(jù)執(zhí)行AVG、COUNT、MAX、MIN、SUM、VAR等操作。
[0055]在一些可選的實現(xiàn)方式中,為了盡快獲取抽樣數(shù)據(jù)的聚合計算結果,可以優(yōu)先進行抽樣數(shù)據(jù)的聚合計算,待抽樣數(shù)據(jù)計算完畢之后再啟動待分析數(shù)據(jù)的聚合計算。
[0056]步驟204,展示抽樣數(shù)據(jù)的聚合計算結果。
[0057]在本實施例中,上述電子設備可以配置可視化界面,在可視化界面中展示抽樣數(shù)據(jù)的聚合計算結果。用戶可以通過可視化界面獲取聚合計算結果。上述電子設備也可以與其他顯示設備連接,在顯示設備中展示抽樣數(shù)據(jù)的聚合計算結果。通過展示的抽樣數(shù)據(jù)的聚合計算結果,可以快速向用戶提供待分析數(shù)據(jù)的初步統(tǒng)計分析結果。
[0058]在一些實施例中,在完成待分析數(shù)據(jù)的聚合計算之后,可以將待分析數(shù)據(jù)的聚合計算結果展示在可視化界面中。這樣,用戶既可以獲取實時的初步統(tǒng)計結果,又可以獲取精確的統(tǒng)計結果,從而提升了獲取信息的效率。
[0059]請參考圖3,其示出了根據(jù)本申請的數(shù)據(jù)處理方法的原理示意圖。如圖3所示,在獲取大數(shù)據(jù)量的待分析數(shù)據(jù)301之后,可以基于待分析數(shù)據(jù)的計算復雜度進行抽樣,得到抽樣數(shù)據(jù)302。之后,可以對抽樣數(shù)據(jù)302進行聚合計算,并將抽樣數(shù)據(jù)302的聚合計算結果展示在展示界面303中。同時,可以對待分析數(shù)據(jù)301進行聚合計算,在聚合計算完成之后將待分析數(shù)據(jù)301的聚合計算結果也展示在展示界面303中。
[0060]本申請上述實施例提供的數(shù)據(jù)分析方法,基于計算復雜度對待分析數(shù)據(jù)進行抽樣,并展示抽樣數(shù)據(jù)的聚合計算結果,能夠快速、實時地提供數(shù)據(jù)分析的初步結果,提升了大規(guī)模數(shù)據(jù)聚合處理結果展示的效率。
[0061]在上述實施例的一些可選的實現(xiàn)方式中,在步驟202中進行抽樣時,可以基于聚合計算類型和預設的計算復雜度確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量,然后根據(jù)抽樣數(shù)據(jù)量,從待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)??梢圆捎枚喾N方法確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量。以下結合圖4和圖5進一步描述確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量的方法。
[0062]進一步參考圖4,其示出了根據(jù)本申請的數(shù)據(jù)處理方法的另一個實施例的流程400 ο如圖4所示,所述的數(shù)據(jù)處理方法的流程400,包括以下步驟:
[0063]步驟401,獲取待分析數(shù)據(jù)和待分析數(shù)據(jù)的聚合計算類型。
[0064]在本實施例中,數(shù)據(jù)處理方法運行于其上的電子設備(例如圖1所示的服務器105)可以從多個終端設備獲取待分析數(shù)據(jù)。其中,待分析數(shù)據(jù)可以包括終端設備的網(wǎng)絡行為數(shù)據(jù),同時,數(shù)據(jù)處理方法運行于其上的電子設備還可以根據(jù)設定的聚合算法獲取待分析數(shù)據(jù)的聚合計算類型。聚合計算類型可以是人工設定的,例如可以是根據(jù)聚合結果需求設定的。在一些實施例中,還可以獲取每一種聚合計算類型的數(shù)量。
[0065]在一些實施例中,上述電子設備可以在后臺直接獲取用戶訪問網(wǎng)絡的數(shù)據(jù)。例如網(wǎng)頁服務器可以獲取用戶通過終端設備請求網(wǎng)頁數(shù)據(jù)的網(wǎng)頁地址以及時間信息。
[0066]步驟402,將待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型。
[0067]在本實施例中,可以采用機器學習的方法確定抽樣數(shù)據(jù)量。具體地,可以基于第一計算復雜度模型確定計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型。第一關系模型可以是一個數(shù)學表達式,第一計算復雜度模型可以是預設的模型,其輸入可以為聚合計算類型,輸出可以為計算復雜度與待分析數(shù)據(jù)量之間的關系表達式。其中,輸入的聚合計算類型可以包括每類聚合計算類型的數(shù)量,即每種聚合計算類型被執(zhí)行的次數(shù)。第一計算復雜度可以為計算耗時。將待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,即可得出計算耗時與待分析數(shù)據(jù)量的對應關系表達式。
[0068]步驟403,根據(jù)第一關系模型確定對應于預設的計算復雜度的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0069]在本實施例中,在得出計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型之后,可以根據(jù)第一關系模型確定出對應于預設的計算復雜度的待分析數(shù)據(jù)量。具體地,如果第一關系模型為計算復雜度與待分析數(shù)據(jù)量之間的數(shù)學關系表達式,則可以根據(jù)數(shù)學關系表達式以及預設的計算復雜度計算出對應的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0070]步驟404,根據(jù)抽樣數(shù)據(jù)量,從待分析數(shù)據(jù)中抽取出抽樣數(shù)據(jù)。
[0071]上述電子設備可以從待分析數(shù)據(jù)中抽取與步驟403確定出的抽樣數(shù)據(jù)量的數(shù)據(jù),作為抽樣數(shù)據(jù)。在一些可選的實現(xiàn)方式中,還可以根據(jù)計算出的待分析數(shù)據(jù)量在待分析數(shù)據(jù)總量中所占的比例,得出抽樣率,然后根據(jù)抽樣率進行抽樣以得出抽樣數(shù)據(jù)。
[0072]步驟405,對抽樣數(shù)據(jù)進行聚合計算。
[0073]在本實施例中,上述電子設備可以對抽樣數(shù)據(jù)進行聚合計算。聚合計算可以包括數(shù)據(jù)統(tǒng)計分析中的各種類型的計算操作,例如求和、求平均、求均方差、取最大值、取最小值等類型的計算。
[0074]在一些實施例中,可以同時對抽樣數(shù)據(jù)和待分析數(shù)據(jù)進行聚合計算。在另一些可選的實現(xiàn)方式中,為了盡快獲取抽樣數(shù)據(jù)的聚合計算結果,可以優(yōu)先進行抽樣數(shù)據(jù)的聚合計算,待抽樣數(shù)據(jù)計算完畢之后再啟動待分析數(shù)據(jù)的聚合計算。
[0075]步驟406,展示抽樣數(shù)據(jù)的聚合計算結果。
[0076]在本實施例中,可以在上述電子設備配置的可視化界面或連接的顯示設備中展示抽樣數(shù)據(jù)的聚合計算結果。通過展示的抽樣數(shù)據(jù)的聚合計算結果,可以快速地向用戶提供待分析數(shù)據(jù)的初步統(tǒng)計分析結果。
[0077]在一些可選的實現(xiàn)方式中,上述數(shù)據(jù)處理方法還可以包括訓練第一計算復雜度模型的步驟,包括:獲取歷史數(shù)據(jù)分析記錄,根據(jù)歷史數(shù)據(jù)分析記錄訓練得出第一計算復雜度模型。其中,歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,對應的歷史計算復雜度和歷史聚合計算類型。上述電子設備可以從存儲器中獲取歷史數(shù)據(jù)分析記錄,基于歷史數(shù)據(jù)分析記錄建立訓練集和測試集,然后利用訓練集訓練第一復雜度模型,之后可以基于測試集對第一復雜度模型的參數(shù)進行修正。
[0078]在本實施例中,上述實現(xiàn)流程中的步驟401、步驟405和步驟406分別與前述實施例中的步驟201、步驟203和步驟204相同,在此不再贅述。
[0079]與圖2所示實施例相比,圖4所示的數(shù)據(jù)處理方法的流程400細化了基于聚合計算類型和預設的計算復雜度對待分析數(shù)據(jù)進行抽樣的步驟,根據(jù)已訓練的模型確定抽樣數(shù)據(jù)量,進一步提升了抽樣數(shù)據(jù)聚合計算結果的可靠性。
[0080]進一步參考圖5,其示出了根據(jù)本申請的數(shù)據(jù)處理方法的再一個實施例的流程圖。所述的數(shù)據(jù)處理方法流程500,包括以下步驟:
[0081]步驟501,獲取待分析數(shù)據(jù)和待分析數(shù)據(jù)的聚合計算類型。
[0082]在本實施例中,數(shù)據(jù)處理方法運行于其上的電子設備(例如圖1所示的服務器105)可以從多個終端設備獲取待分析數(shù)據(jù)。其中,待分析數(shù)據(jù)可以包括終端設備上報的網(wǎng)絡行為數(shù)據(jù)。該電子設備還可以根據(jù)人工設定或基于聚合結果需求確定的聚合算法獲取待分析數(shù)據(jù)的聚合計算類型。
[0083]步驟502,獲取可用的資源余量。
[0084]在本實施例中,上述電子設備可以計算當前的計算資源余量,作為可用的資源余量。計算資源可以為CPU(Central Processing Unit,中央處理器)數(shù)量以及內存量,例如,上述電子設備的計算資源總量可以為1CPU+4G內存和2CPU+8G內存。
[0085]在一些可選的實現(xiàn)方式中,上述電子設備可以獲取總資源量,之后確定其他正在運行的程序所占用的資源量,然后進行減運算求出可用的資源余量。例如當上述電子設備的計算資源總量為1CPU+4G內存和2CPU+8G內存時,如果其他應用占用的總資源量為2CPU+8G內存,則可用的資源余量可以為1CPU+4G內存。
[0086]步驟503,將待分析數(shù)據(jù)的聚合計算類型、計算資源余量輸入已訓練的第二計算復雜度模型,得出待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型。
[0087]在本實施例中,可以采用機器學習的方法確定抽樣數(shù)據(jù)量。具體地,可以基于第二計算復雜度模型確定計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型。第二關系模型可以是一個數(shù)學表達式,第二計算復雜度可以包括計算耗時和計算所需的資源量。第二計算復雜度模型可以是預設的模型,其輸入可以為聚合計算類型,輸出可以為計算耗時、計算所需的資源量與待分析數(shù)據(jù)量之間的關系表達式。其中,輸入的聚合計算類型可以包括每類聚合計算類型的數(shù)量,即每種聚合計算類型被執(zhí)行的次數(shù)。將待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第二計算復雜度模型,即可得出計算耗時、計算所需的資源余量與待分析數(shù)據(jù)量的對應關系表達式。
[0088]步驟504,根據(jù)第二關系模型確定對應于預設的計算復雜度的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0089]在本實施例中,預設的計算復雜度包括預設的計算耗時,在得出計算耗時、計算所需的資源余量與待分析數(shù)據(jù)量之間的第二關系模型之后,可以根據(jù)第二關系模型確定出對應于預設的計算耗時以及步驟502獲取的可用的資源余量的待分析數(shù)據(jù)量。具體地,如果第二關系模型為計算耗時、計算所需的資源余量與待分析數(shù)據(jù)量之間的數(shù)學關系表達式,則可以根據(jù)數(shù)學關系表達式、預設的計算耗時以及可用的資源余量計算出對應的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0090]步驟505,根據(jù)抽樣數(shù)據(jù)量,從待分析數(shù)據(jù)中抽取出抽樣數(shù)據(jù)。
[0091]上述電子設備可以從待分析數(shù)據(jù)中抽取與步驟504確定出的抽樣數(shù)據(jù)量的數(shù)據(jù),作為抽樣數(shù)據(jù)。在一些可選的實現(xiàn)方式中,還可以根據(jù)計算出的待分析數(shù)據(jù)量在待分析數(shù)據(jù)總量中所占的比例,得出抽樣率,然后根據(jù)抽樣率進行抽樣以得出抽樣數(shù)據(jù)。
[0092]步驟506,對抽樣數(shù)據(jù)進行聚合計算。
[0093]在本實施例中,上述電子設備可以對抽樣數(shù)據(jù)進行聚合計算。聚合計算可以包括數(shù)據(jù)統(tǒng)計分析中的各種類型的計算操作,例如求和、求平均、求均方差、取最大值、取最小值等類型的計算。
[0094]在一些實施例中,可以同時對抽樣數(shù)據(jù)和待分析數(shù)據(jù)進行聚合計算。在另一些可選的實現(xiàn)方式中,為了盡快獲取抽樣數(shù)據(jù)的聚合計算結果,可以優(yōu)先進行抽樣數(shù)據(jù)的聚合計算,待抽樣數(shù)據(jù)計算完畢之后再啟動待分析數(shù)據(jù)的聚合計算。
[0095]步驟507,展示抽樣數(shù)據(jù)的聚合計算結果。
[0096]在本實施例中,可以在上述電子設備配置的可視化界面或連接的顯示設備中展示抽樣數(shù)據(jù)的聚合計算結果。通過展示的抽樣數(shù)據(jù)的聚合計算結果,可以快速地向用戶提供待分析數(shù)據(jù)的初步統(tǒng)計分析結果。
[0097]在本實施例中,上述實現(xiàn)流程中的步驟501、步驟506和步驟407分別與前述實施例中的步驟201、步驟203和步驟204相同,在此不再贅述。
[0098]從圖5中可以看出,與圖4所示的實施例相比,本申請?zhí)峁┑臄?shù)據(jù)處理方法的流程500增加了獲取可用的資源余量的步驟502,在確定抽樣數(shù)據(jù)量時綜合可用的資源余量和預設的計算復雜度需求,從而實現(xiàn)系統(tǒng)計算資源的充分利用,加快提供數(shù)據(jù)分析處理結果的速度。
[0099]圖6是本申請數(shù)據(jù)處理裝置的一個實施例的結構示意圖。如圖6所示,數(shù)據(jù)處理裝置600可以包括:第一獲取單元601、抽樣單元603、計算單元604以及展示單元605。其中,第一獲取單元601用于獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型;抽樣單元602用于基于聚合計算類型和預設的計算復雜度對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù);計算單元603用于對抽樣數(shù)據(jù)進行聚合計算;展示單元604用于展示抽樣數(shù)據(jù)的聚合計算結果。
[0100]在本實施例中,第一獲取單元601可以從多個終端設備獲取待分析數(shù)據(jù)。其中,待分析數(shù)據(jù)可以包括終端設備上報的網(wǎng)絡行為數(shù)據(jù)。第一獲取單元601還可以根據(jù)人工設定或基于聚合結果需求確定的聚合算法獲取待分析數(shù)據(jù)的聚合計算類型。
[0101]抽樣單元602可以基于待分析數(shù)據(jù)的計算復雜度和預設的計算復雜度確定抽樣率,從而根據(jù)抽樣率對待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù)。具體地,抽樣單元602可以根據(jù)預設的聚合計算類型計算待分析數(shù)據(jù)的聚合計算的計算耗時以及所需的計算資源量,作為待分析數(shù)據(jù)的計算復雜度??蛇x地,待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)的數(shù)據(jù)量正相關。則計算復雜度為隨著待分析數(shù)據(jù)量增加而增大的變量。這時,可以計算預設的計算復雜度對應的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。并從待分析數(shù)據(jù)中抽取與所述抽樣數(shù)據(jù)量相等的數(shù)據(jù)作為抽樣數(shù)據(jù)。
[0102]在一些可選的實現(xiàn)方式中,抽樣單元602可以用于按如下方式對第一獲取單元601獲取的待分析數(shù)據(jù)進行抽樣:基于聚合計算類型和預設的計算復雜度確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量;根據(jù)抽樣數(shù)據(jù)量,從待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)。
[0103]在進一步的實現(xiàn)方式中,抽樣單元602可以采用機器學習的方法確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量。一種可選的方式包括:將待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型;根據(jù)第一關系模型確定對應于預設的計算復雜度的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0104]進一步地,數(shù)據(jù)處理裝置600還可以包括第二獲取單元,用于獲取可用的資源余量。這時,抽樣單元602可以按照如下方式確定待分析數(shù)據(jù)的抽樣數(shù)據(jù)量:將待分析數(shù)據(jù)的聚合計算類型、計算資源余量輸入已訓練的第二計算復雜度模型,得出待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型;根據(jù)第二關系模型確定對應于預設的計算復雜度的待分析數(shù)據(jù)量,作為抽樣數(shù)據(jù)量。
[0105]可選地或附加地,所述的裝置600還包括第一訓練單元和第二訓練單元。第一訓練單元用于按照如下方式訓練第一計算復雜度模型:獲取歷史數(shù)據(jù)分析記錄,根據(jù)歷史數(shù)據(jù)分析記錄訓練得出第一計算復雜度模型。其中,用于訓練第一計算復雜度模型的歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度和歷史聚合計算類型。第二訓練單元用于按如下方式訓練第二計算復雜度模型:獲取歷史數(shù)據(jù)分析記錄;根據(jù)歷史數(shù)據(jù)分析記錄訓練得出所述第二計算復雜度模型。其中,用于訓練第二計算復雜度模型的歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度、歷史計算資源余量和歷史聚合計算類型。
[0106]計算單元603可以按照預設的聚合計算規(guī)則對抽樣單元602得出的抽樣數(shù)據(jù)進行聚合計算。聚合計算可以包括多類聚合函數(shù),每個聚合函數(shù)對抽樣數(shù)據(jù)中的一組數(shù)據(jù)執(zhí)行計算并返回單一的值。聚合函數(shù)可以是用戶根據(jù)需求自定義的函數(shù),也可以是上述電子設備的存儲器中已保存的統(tǒng)計分析函數(shù)。
[0107]展示單元604可以對計算單元603的計算結果進行展示。展示單元可以以多種形式展示抽樣數(shù)據(jù)的聚合計算結果。例如可以以圖表的形式進行展示,也可以以文檔的形式進行展示。
[0108]在一些可選的實現(xiàn)方式中,上述計算復雜度包括:計算耗時和/或計算所需的資源量。
[0109]應當理解,裝置600中記載的諸單元與參考圖2-圖5描述的方法中的各個步驟相對應。由此,上文針對數(shù)據(jù)處理方法描述的操作和特征同樣適用于裝置600及其中包含的單元,在此不再贅述。裝置600中的相應單元可以與終端設備和/或服務器中的單元相互配合以實現(xiàn)本申請實施例的方案。
[0110]本領域技術人員可以理解,上述數(shù)據(jù)處理裝置600還包括一些其他公知結構,例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結構在圖6中未示出。
[0111]本申請?zhí)峁┑臄?shù)據(jù)處理裝置,可以快速地提供部分具有參考價值的數(shù)據(jù)分析結果,提升了大規(guī)模數(shù)據(jù)聚合處理結果展示的效率。
[0112]下面參考圖7,其示出了適于用來實現(xiàn)本申請實施例的終端設備或服務器的計算機系統(tǒng)700的結構示意圖。
[0113]如圖7所示,計算機系統(tǒng)700包括中央處理單元(CPU)701,其可以根據(jù)存儲在只讀存儲器(R0M)702中的程序或者從存儲部分708加載到隨機訪問存儲器(RAM)703中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在RAM 703中,還存儲有系統(tǒng)700操作所需的各種程序和數(shù)據(jù)。CPU 70KROM 702以及RAM 703通過總線704彼此相連。輸入/輸出(I/O)接口705也連接至總線 704。
[0114]以下部件連接至I/O接口705:包括鍵盤、鼠標等的輸入部分706 ;包括諸如陰極射線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分707;包括硬盤等的存儲部分708;以及包括諸如LAN卡、調制解調器等的網(wǎng)絡接口卡的通信部分709。通信部分709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡執(zhí)行通信處理。驅動器710也根據(jù)需要連接至I/O接口 705。可拆卸介質711,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅動器710上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分708。
[0115]特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分709從網(wǎng)絡上被下載和安裝,和/或從可拆卸介質711被安裝。
[0116]附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框實際上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
[0117]描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設置在處理器中,例如,可以描述為:一種處理器包括第一獲取單元、抽樣單元、計算單元和展示單元。其中,這些單元的名稱在某種情況下并不構成對該單元本身的限定,例如,第一獲取單元還可以被描述為“獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型的單元”。
[0118]作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存儲有一個或者多個程序,當所述一個或者多個程序被一個設備執(zhí)行時,使得所述設備:獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型;基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù);對所述抽樣數(shù)據(jù)進行聚合計算;展示所述抽樣數(shù)據(jù)的聚合計算結果。
[0119]以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術特征的特定組合而成的技術方案,同時也應涵蓋在不脫離所述發(fā)明構思的情況下,由上述技術特征或其等同特征進行任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術特征進行互相替換而形成的技術方案。
【主權項】
1.一種數(shù)據(jù)處理方法,其特征在于,包括: 獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型; 基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù); 對所述抽樣數(shù)據(jù)進行聚合計算; 展示所述抽樣數(shù)據(jù)的聚合計算結果。2.根據(jù)權利要求1所述的方法,其特征在于,所述基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù),包括: 基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量; 根據(jù)所述抽樣數(shù)據(jù)量,從所述待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)。3.根據(jù)權利要求2所述的方法,其特征在于,所述基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量,包括: 將所述待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型; 根據(jù)所述第一關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。4.根據(jù)權利要求3所述的方法,其特征在于,所述方法還包括訓練所述第一計算復雜度模型的步驟,包括: 獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度和歷史聚合計算類型; 根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第一計算復雜度模型。5.根據(jù)權利要求2所述的方法,其特征在于,所述方法還包括: 獲取可用的計算資源余量; 所述基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量,包括: 將所述待分析數(shù)據(jù)的聚合計算類型、所述計算資源余量輸入已訓練的第二計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型; 根據(jù)所述第二關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。6.根據(jù)權利要求5所述的方法,其特征在于,所述方法還包括訓練所述第二計算復雜度模型的步驟,包括: 獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度、歷史計算資源余量和歷史聚合計算類型; 根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第二計算復雜度模型。7.根據(jù)權利要求1-6任一項所述的方法,其特征在于,所述計算復雜度包括:計算耗時和/或計算所需的資源量。8.一種數(shù)據(jù)處理裝置,其特征在于,包括: 第一獲取單元,用于獲取待分析數(shù)據(jù)和所述待分析數(shù)據(jù)的聚合計算類型; 抽樣單元,用于基于所述聚合計算類型和預設的計算復雜度對所述待分析數(shù)據(jù)進行抽樣,得到抽樣數(shù)據(jù); 計算單元,用于對所述抽樣數(shù)據(jù)進行聚合計算; 展示單元,用于展示所述抽樣數(shù)據(jù)的聚合計算結果。9.根據(jù)權利要求8所述的裝置,其特征在于,所述抽樣單元用于按如下方式對所述待分析數(shù)據(jù)進行抽樣: 基于所述聚合計算類型和預設的計算復雜度確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量; 根據(jù)所述抽樣數(shù)據(jù)量,從所述待分析數(shù)據(jù)中抽取出所述抽樣數(shù)據(jù)。10.根據(jù)權利要求9所述的裝置,其特征在于,所述抽樣單元進一步按照如下方式確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量: 將所述待分析數(shù)據(jù)的聚合計算類型輸入已訓練的第一計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第一關系模型; 根據(jù)所述第一關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。11.根據(jù)權利要求10所述的裝置,其特征在于,所述裝置還包括第一訓練單元,用于按照如下方式訓練所述第一計算復雜度模型: 獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度和歷史聚合計算類型; 根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第一計算復雜度模型。12.根據(jù)權利要求9所述的裝置,其特征在于,所述裝置還包括: 第二獲取單元,用于獲取可用的計算資源余量; 所述抽樣單元進一步按照如下方式確定所述待分析數(shù)據(jù)的抽樣數(shù)據(jù)量: 將所述待分析數(shù)據(jù)的聚合計算類型、所述計算資源余量輸入已訓練的第二計算復雜度模型,得出所述待分析數(shù)據(jù)的計算復雜度與待分析數(shù)據(jù)量之間的第二關系模型; 根據(jù)所述第二關系模型確定對應于所述預設的計算復雜度的待分析數(shù)據(jù)量,作為所述抽樣數(shù)據(jù)量。13.根據(jù)權利要求12所述的裝置,其特征在于,所述裝置還包括第二訓練單元,用于按如下方式訓練所述第二計算復雜度模型: 獲取歷史數(shù)據(jù)分析記錄,所述歷史數(shù)據(jù)分析記錄包括至少一個歷史數(shù)據(jù)集合的數(shù)據(jù)量,以及對應的歷史計算復雜度、歷史計算資源余量和歷史聚合計算類型; 根據(jù)所述歷史數(shù)據(jù)分析記錄訓練得出所述第二計算復雜度模型。14.根據(jù)權利要求8-13任一項所述的裝置,其特征在于,所述計算復雜度包括:計算耗時和/或計算所需的資源量。
【文檔編號】G06F19/00GK105844107SQ201610197491
【公開日】2016年8月10日
【申請日】2016年3月31日
【發(fā)明人】汪敏峰
【申請人】百度在線網(wǎng)絡技術(北京)有限公司