流量預(yù)估的方法、裝置及計(jì)算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及流量預(yù)估的方法、裝置及計(jì)算設(shè)備。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)尤其是移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,人們的生活也越來越多與互聯(lián)網(wǎng)中各種應(yīng)用網(wǎng)站緊密聯(lián)系。而網(wǎng)站的訪問量預(yù)估對(duì)于網(wǎng)站的運(yùn)營有著重要意義。例如,滿足特定條件的UV和PV的流量預(yù)估值對(duì)于網(wǎng)站運(yùn)營商的決策和精細(xì)化流量運(yùn)營有著重要意義。特別是在許多應(yīng)用場景中,流量預(yù)估值需要在線上實(shí)時(shí)計(jì)算并應(yīng)用。例如,根據(jù)流量預(yù)估值來確定廣告的線上分配策略或接受廣告的預(yù)定等。而基于海量的網(wǎng)站訪問記錄對(duì)未來一段時(shí)間的訪問量進(jìn)行預(yù)估是一個(gè)難題。
[0003]現(xiàn)有的流量預(yù)估方案一般采用基于模型的方法。在流量預(yù)估方案中,通常對(duì)需要預(yù)測的查詢條件通過時(shí)間序列模型進(jìn)行預(yù)測,然后將獲取的預(yù)測數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。最后,在線上獲取到查詢條件后,從數(shù)據(jù)庫中查詢相應(yīng)的流量預(yù)測數(shù)據(jù)。然而,基于模型的預(yù)估方案無法支持復(fù)雜的查詢條件。即在查詢條件包括多種組合條件時(shí),線下的流量預(yù)測會(huì)非常麻煩。并且,在線上對(duì)預(yù)測數(shù)據(jù)的查詢也會(huì)耗費(fèi)大量的時(shí)間。另外,基于模型的方法對(duì)于流量波動(dòng)比較大的查詢預(yù)估準(zhǔn)確率較低。
【發(fā)明內(nèi)容】
[0004]為此,本發(fā)明提供一種新的流量預(yù)估的方案,以力圖解決或者至少緩解上面存在的問題。
[0005]根據(jù)本發(fā)明的一個(gè)方面,提供一種流量預(yù)估的裝置。該裝置包括流量預(yù)測器、模型生成器和查詢處理器。流量預(yù)測器適于基于網(wǎng)站的訪問記錄,確定至少一個(gè)訪問流量穩(wěn)定的基查詢條件,并通過時(shí)間序列模型分別預(yù)測對(duì)應(yīng)各基查詢條件的流量預(yù)估序列。模型生成器適于從網(wǎng)站的訪問記錄中抽取一個(gè)記錄樣本,以及計(jì)算該記錄樣本中滿足基查詢條件的第一樣本條數(shù)。查詢處理器適于獲取實(shí)時(shí)查詢條件,從流量預(yù)估序列中查詢該實(shí)時(shí)查詢條件對(duì)應(yīng)的基查詢條件的第一預(yù)估值,統(tǒng)計(jì)記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù)。查詢處理器還適于根據(jù)第一樣本條數(shù)、第二樣本條數(shù)和第一預(yù)估值,計(jì)算實(shí)時(shí)查詢條件對(duì)應(yīng)的第二預(yù)估值。
[0006]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,流量預(yù)測器適于根據(jù)下述方式基于網(wǎng)站的訪問記錄,確定至少一個(gè)訪問流量穩(wěn)定的基查詢條件,并通過時(shí)間序列模型預(yù)測對(duì)應(yīng)該基查詢條件的流量預(yù)估序列:基于網(wǎng)站的訪問記錄,提取多個(gè)流量穩(wěn)定的分類特征;將所確定的分類特征進(jìn)行組合以獲取至少一個(gè)特征組合,每個(gè)特征組合為一個(gè)基查詢條件;根據(jù)所述基查詢條件對(duì)所述訪問記錄進(jìn)行分類,以獲取對(duì)應(yīng)所述基查詢條件的流量統(tǒng)計(jì)序列;以及根據(jù)所述流量統(tǒng)計(jì)序列,通過時(shí)間序列模型預(yù)測對(duì)應(yīng)所述基查詢條件的流量預(yù)估序列。
[0007]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,流量預(yù)測器適于根據(jù)下述方式基于網(wǎng)站的訪問記錄,提取多個(gè)流量穩(wěn)定的分類特征:根據(jù)訪問記錄的一個(gè)分類特征對(duì)第一預(yù)定時(shí)間內(nèi)的訪問記錄進(jìn)行分類以獲取按照該分類特征進(jìn)行分類的流量統(tǒng)計(jì);根據(jù)該流量統(tǒng)計(jì)對(duì)該第一預(yù)定時(shí)間之后的第二預(yù)定時(shí)間內(nèi)的流量進(jìn)行預(yù)測,以獲取第二預(yù)定時(shí)間內(nèi)的流量預(yù)測值;以及判斷該流量預(yù)測值與第二預(yù)定時(shí)間內(nèi)的實(shí)際流量統(tǒng)計(jì)值之差值是否超過閾值,如果該差值沒有超過閾值,則選定該分類特征為流量穩(wěn)定的分類特征。
[0008]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,流量預(yù)測器適于根據(jù)下述方式來根據(jù)流量統(tǒng)計(jì)序列,通過時(shí)間序列模型預(yù)測對(duì)應(yīng)所述基查詢條件的流量預(yù)估序列:根據(jù)所述流量統(tǒng)計(jì)序列,通過Seasonal-ARIMA模型或Holter-Winter季節(jié)乘數(shù)模型預(yù)測未來第三預(yù)定時(shí)間內(nèi)的流量預(yù)估序列,該流量預(yù)估序列包括該第三預(yù)定時(shí)間內(nèi)每天的流量預(yù)估值。
[0009]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,模型生成器適于根據(jù)下述方式從網(wǎng)站的訪問記錄中抽取一個(gè)記錄樣本:對(duì)最近的第四預(yù)定時(shí)間內(nèi)的訪問記錄進(jìn)行隨機(jī)采樣,以獲取一個(gè)記錄樣本;以及基于記錄樣本的特征,將所述記錄樣本存儲(chǔ)為多叉樹結(jié)構(gòu)。
[0010]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,記錄樣本的特征包括性別、年齡、省份、城市、車型和投放位置。
[0011]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,記錄樣本的信息包括用戶信息和頁面信息。模型生成器還適于將記錄樣本中用戶信息和頁面信息分開存儲(chǔ)。
[0012]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,查詢處理器適于根據(jù)下述方式獲取實(shí)時(shí)查詢條件,并從流量預(yù)估序列中查詢該實(shí)時(shí)查詢條件對(duì)應(yīng)的基查詢條件的第一預(yù)估值,和統(tǒng)計(jì)記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù):在線上獲取實(shí)時(shí)查詢條件;將該實(shí)時(shí)查詢條件與所述基查詢條件進(jìn)行匹配判斷,以確定對(duì)應(yīng)該實(shí)時(shí)查詢條件的基查詢條件;從所對(duì)應(yīng)的基查詢條件的流量預(yù)估序列中查詢第一預(yù)估值;查詢所對(duì)應(yīng)的基查詢條件的第一樣本條數(shù);以及統(tǒng)計(jì)所述記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù)。
[0013]可選地,在根據(jù)本發(fā)明的流量預(yù)估的裝置中,查詢處理器適于根據(jù)下述方式計(jì)算實(shí)時(shí)查詢條件對(duì)應(yīng)的第二預(yù)估值Q2:
[0014]Q2 = N1*N3/N2
[0015]其中,NI為第一預(yù)估值,N2為第一樣本條數(shù),N3為第二樣本條數(shù)。
[0016]根據(jù)本發(fā)明又一方面,提供一種流量預(yù)估的方法。該方法包括下述步驟。基于網(wǎng)站的訪問記錄,確定至少一個(gè)訪問流量穩(wěn)定的基查詢條件,并通過時(shí)間序列模型預(yù)測對(duì)應(yīng)該基查詢條件的流量預(yù)估序列。從網(wǎng)站的訪問記錄中抽取一個(gè)記錄樣本,以及計(jì)算該記錄樣本中滿足基查詢條件的第一樣本條數(shù)。獲取實(shí)時(shí)查詢條件,并從流量預(yù)估序列中查詢該實(shí)時(shí)查詢條件對(duì)應(yīng)的基查詢條件的第一預(yù)估值,和統(tǒng)計(jì)記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù)。以及根據(jù)第一樣本條數(shù)、第二樣本條數(shù)和第一預(yù)估值,計(jì)算實(shí)時(shí)查詢條件對(duì)應(yīng)的第二預(yù)估值。
[0017]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,基于網(wǎng)站的訪問記錄,確定至少一個(gè)訪問流量穩(wěn)定的基查詢條件,并通過時(shí)間序列模型預(yù)測對(duì)應(yīng)該基查詢條件的流量預(yù)估序列的步驟包括:基于網(wǎng)站的訪問記錄,提取多個(gè)流量穩(wěn)定的分類特征;將所確定的分類特征進(jìn)行組合以獲取至少一個(gè)特征組合,每個(gè)特征組合為一個(gè)基查詢條件;根據(jù)所述基查詢條件對(duì)所述訪問記錄進(jìn)行分類,以獲取對(duì)應(yīng)所述基查詢條件的流量統(tǒng)計(jì)序列;以及根據(jù)所述流量統(tǒng)計(jì)序列,通過時(shí)間序列模型預(yù)測對(duì)應(yīng)所述基查詢條件的流量預(yù)估序列。
[0018]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,基于網(wǎng)站的訪問記錄,提取多個(gè)流量穩(wěn)定的分類特征的步驟包括:根據(jù)訪問記錄的一個(gè)分類特征對(duì)第一預(yù)定時(shí)間內(nèi)的訪問記錄進(jìn)行分類以獲取按照該分類特征進(jìn)行分類的流量統(tǒng)計(jì);根據(jù)該流量統(tǒng)計(jì)對(duì)該第一預(yù)定時(shí)間之后的第二預(yù)定時(shí)間內(nèi)的流量進(jìn)行預(yù)測,以獲取第二預(yù)定時(shí)間內(nèi)的流量預(yù)測值;以及判斷該流量預(yù)測值與第二預(yù)定時(shí)間內(nèi)的實(shí)際流量統(tǒng)計(jì)值之差值是否超過閾值,如果該差值沒有超過閾值,則選定該分類特征為流量穩(wěn)定的分類特征。
[0019]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,根據(jù)流量統(tǒng)計(jì)序列,通過時(shí)間序列模型預(yù)測對(duì)應(yīng)所述基查詢條件的流量預(yù)估序列的步驟包括:根據(jù)所述流量統(tǒng)計(jì)序列,通過Seasonal-ARIMA模型或Holter-Winter季節(jié)乘數(shù)模型預(yù)測未來第三預(yù)定時(shí)間內(nèi)的流量預(yù)估序列,該流量預(yù)估序列包括該第三預(yù)定時(shí)間內(nèi)每天的流量預(yù)估值。
[0020]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,從網(wǎng)站的訪問記錄中抽取一個(gè)記錄樣本的步驟包括:對(duì)最近的第四預(yù)定時(shí)間內(nèi)的訪問記錄進(jìn)行隨機(jī)采樣,以獲取一個(gè)記錄樣本;以及基于記錄樣本的特征,將所述記錄樣本存儲(chǔ)為多叉樹結(jié)構(gòu)。
[0021]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,記錄樣本的特征包括性別、年齡、省份、城市、車型和投放位置。
[0022]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,記錄樣本的信息包括用戶信息和頁面信息。以及從網(wǎng)站的訪問記錄中抽取一個(gè)記錄樣本的步驟包括將記錄樣本中用戶信息和頁面信息分開存儲(chǔ)。
[0023]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,獲取實(shí)時(shí)查詢條件,并從流量預(yù)估序列中查詢該實(shí)時(shí)查詢條件對(duì)應(yīng)的基查詢條件的第一預(yù)估值,和統(tǒng)計(jì)記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù)的步驟包括:在線上獲取實(shí)時(shí)查詢條件;將該實(shí)時(shí)查詢條件與所述基查詢條件進(jìn)行匹配判斷,以確定對(duì)應(yīng)該實(shí)時(shí)查詢條件的基查詢條件;從所對(duì)應(yīng)基查詢條件的流量預(yù)估序列中查詢第一預(yù)估值;查詢所對(duì)應(yīng)的基查詢條件的第一樣本條數(shù);以及統(tǒng)計(jì)所述記錄樣本中滿足實(shí)時(shí)查詢條件的第二樣本條數(shù)。
[0024]可選地,在根據(jù)本發(fā)明的流量預(yù)估的方法中,根據(jù)第一樣本條數(shù)、第二樣本條數(shù)和第一預(yù)估值,計(jì)算實(shí)時(shí)查詢條件對(duì)應(yīng)的第二預(yù)估值的步驟包括:
[0025]根據(jù)下述公式計(jì)算滿足實(shí)時(shí)查詢條件的第二預(yù)估值:
[0026]Q2 = N1*N3/N2
[0027]其中,NI為第一預(yù)估值,N2為第一樣本條數(shù),N3為第二樣本條數(shù)。
[0028]根據(jù)本發(fā)明又一方面,提供一種計(jì)算設(shè)備,該計(jì)算設(shè)備包括根據(jù)本發(fā)明的流量預(yù)估的裝置。
[0029]根據(jù)本發(fā)明的流量預(yù)估方案在整體上兼顧了準(zhǔn)確率和響應(yīng)速率。該流量預(yù)測方案將基查詢流量預(yù)估在線下完成,從而在實(shí)時(shí)查詢階段,能夠查詢?nèi)魏螌?shí)時(shí)條件對(duì)應(yīng)的基查詢數(shù)據(jù)。這里,基查詢數(shù)據(jù)基于流量穩(wěn)定的網(wǎng)站記錄為基礎(chǔ),能夠避免流量波動(dòng)帶來的影響。進(jìn)一步,流量預(yù)估方案能夠向線上查詢操作提供記錄樣本,從而在線上快速計(jì)算實(shí)時(shí)查詢條件的流量相對(duì)于基查詢條件的流量比例。流量預(yù)估方案中記錄樣本基于最新的訪問記錄,從而使得流量比例