在線分析點(diǎn)擊流數(shù)據(jù)的方法和相關(guān)裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明實(shí)施例公開了在線分析點(diǎn)擊流數(shù)據(jù)的方法和相關(guān)裝置及系統(tǒng)。其中一種在線分析點(diǎn)擊流數(shù)據(jù)的方法,可包括:從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);提取點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第一時(shí)間窗口;根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;若確定所述關(guān)鍵信息無需被過濾,則利用關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。本發(fā)明實(shí)施例提供的技術(shù)方案有利于降低處理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制、提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、提高廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度。
【專利說明】在線分析點(diǎn)擊流數(shù)據(jù)的方法和相關(guān)裝置及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體主要涉及一種在線分析點(diǎn)擊流數(shù)據(jù)的方法和相 關(guān)裝置及系統(tǒng)。
【背景技術(shù)】
[0002] 廣告推送是一項(xiàng)重要的互聯(lián)網(wǎng)業(yè)務(wù)。
[0003] 廣點(diǎn)通是運(yùn)營商常用的一款廣告推送工具。廣點(diǎn)通等廣告推送工具進(jìn)行廣告預(yù)測(cè) 時(shí)需要使用用戶每天的點(diǎn)擊流數(shù)據(jù)來訓(xùn)練廣告投放預(yù)測(cè)模型?,F(xiàn)有的廣點(diǎn)通等廣告推送工 具通常都是使用離線分析得到的訓(xùn)練數(shù)據(jù)來訓(xùn)練廣告投放預(yù)測(cè)模型。
[0004] 本發(fā)明的發(fā)明人在研究和實(shí)踐過程當(dāng)中發(fā)現(xiàn),現(xiàn)有技術(shù)至少存在以下的技術(shù)問 題:通過離線分析得到訓(xùn)練數(shù)據(jù)將受處理資源的限制,且難以滿足廣告投放預(yù)測(cè)模型訓(xùn)練 對(duì)較高實(shí)時(shí)性的要求,且基于離線分析得到的訓(xùn)練數(shù)據(jù)所訓(xùn)練的廣告投放預(yù)測(cè)模型有時(shí)難 以與線上實(shí)時(shí)數(shù)據(jù)較好的吻合。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明實(shí)施例提供在線分析點(diǎn)擊流數(shù)據(jù)的方法和相關(guān)裝置及系統(tǒng),以期降低處理 資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制、提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、提高廣告投放預(yù)測(cè)模型與 線上實(shí)時(shí)數(shù)據(jù)的吻合度。
[0006] 本發(fā)明實(shí)施例一方面提供一種在線分析點(diǎn)擊流數(shù)據(jù)的方法,應(yīng)用于分布式系統(tǒng), 所述方法包括:
[0007] 從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);
[0008] 提取所述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;
[0009] 確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;
[0010] 確定第一時(shí)間窗口;
[0011] 根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述 第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;
[0012] 若確定所述關(guān)鍵信息無需被過濾,則利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的 訓(xùn)練數(shù)據(jù)。
[0013] 本發(fā)明實(shí)施例另一方面提供一種在線分析點(diǎn)擊流數(shù)據(jù)的裝置,應(yīng)用于分布式系 統(tǒng),所述裝置可包括:
[0014] 獲取單元,用于從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);
[0015] 提取單元,用于提取所述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;
[0016] 類型確定單元,用于確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;
[0017] 時(shí)間窗口確定單元,用于確定第一時(shí)間窗口;
[0018] 過濾控制單元,用于根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì) 應(yīng)的日志時(shí)間與所述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;
[0019] 生成單元,用于若所述過濾控制單元確定所述關(guān)鍵信息無需被過濾,則利用所述 提取單元提取的所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0020] 本發(fā)明實(shí)施例又一方面提供一種通信系統(tǒng),可包括:
[0021] 廣告業(yè)務(wù)服務(wù)器和分析預(yù)測(cè)平臺(tái);
[0022] 其中,所述分析預(yù)測(cè)平臺(tái)用于從所述廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);提取所述 點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第一時(shí)間窗 口;根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述第一 時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;若確定所述關(guān)鍵信息無需被過 濾,則利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0023] 可以看出,本發(fā)明的一些實(shí)施方式中,從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)之后;提 取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定第一時(shí)間窗口和所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流 類型;根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述第 一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;若確定所述關(guān)鍵信息無需被 過濾之后,利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。上述方案由于是從廣告 業(yè)務(wù)服務(wù)器獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn)擊流數(shù)據(jù)的分析以得到廣告投放預(yù) 測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言,本發(fā)明的技術(shù)方案有利于降低處理 資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到一定數(shù)量之后在進(jìn)行分析以得到訓(xùn) 練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利于提高廣告投放預(yù)測(cè)模型與線上實(shí) 時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及關(guān)鍵信息對(duì) 應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān)鍵信息過濾處理,因此有利于提高所 使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)的有效性, 進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放預(yù)測(cè)模型。
【專利附圖】
【附圖說明】
[0024] 為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0025] 圖1是本發(fā)明實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù)的方法的流程示意圖;
[0026] 圖2_a是本發(fā)明實(shí)施例提供的一種通信系統(tǒng)的架構(gòu)示意圖;
[0027] 圖2_b是本發(fā)明實(shí)施例提供的一種分析預(yù)測(cè)平臺(tái)的邏輯架構(gòu)示意圖;
[0028] 圖2-c是本發(fā)明實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù)的方法的流程示意圖;
[0029] 圖3_a是本發(fā)明實(shí)施例提供的根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型及關(guān)鍵信息對(duì)應(yīng) 的日志時(shí)間與第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾的過程的示意 圖;
[0030] 圖3_b是本發(fā)明實(shí)施例提供的一種一種對(duì)寫入到負(fù)樣本緩沖區(qū)的關(guān)鍵信息的處 理方式的流程示意圖;
[0031] 圖4-a是本發(fā)明實(shí)施例提供的一種網(wǎng)在線分析點(diǎn)擊流數(shù)據(jù)的裝置的示意圖;
[0032] 圖4_b是本發(fā)明實(shí)施例提供的另一種網(wǎng)在線分析點(diǎn)擊流數(shù)據(jù)的裝置的示意圖;
[0033] 圖5是本發(fā)明實(shí)施例提供的一種分析預(yù)測(cè)平臺(tái)的示意圖;
[0034] 圖6_a是本發(fā)明實(shí)施例提供的一種分布式通信系統(tǒng)的示意圖;
[0035] 圖6_b是本發(fā)明實(shí)施例提供的一種基于分布式架構(gòu)構(gòu)建的分析預(yù)測(cè)平臺(tái)的示意 圖;
[0036] 圖7是本發(fā)明實(shí)施例提供的一種服務(wù)器的示意圖。
【具體實(shí)施方式】
[0037] 本發(fā)明實(shí)施例提供在線分析點(diǎn)擊流數(shù)據(jù)的方法和相關(guān)裝置及系統(tǒng),以期降低處理 資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制、提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、提高廣告投放預(yù)測(cè)模型與 線上實(shí)時(shí)數(shù)據(jù)的吻合度。
[0038] 為了使本【技術(shù)領(lǐng)域】的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實(shí)施例中的 附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是 本發(fā)明一部分的實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù) 人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范 圍。
[0039] 以下分別進(jìn)行詳細(xì)說明。
[0040] 本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語"第一"、"第二"、"第三""第 四"等(如果存在)是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該 理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實(shí)施例例如能夠以 除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語"包括"和"具有"以及他們的任 何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、 產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ?這些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
[0041] 本發(fā)明一種在線分析點(diǎn)擊流數(shù)據(jù)的方法的一個(gè)實(shí)施例,其中,一種在線分析點(diǎn)擊 流數(shù)據(jù)的方法,可應(yīng)用于分布式系統(tǒng),該方法可包括:從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù); 提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第 一時(shí)間窗口;根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與 上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾;若確定上述關(guān)鍵信息 無需被過濾,則利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0042] 首先請(qǐng)參見圖1,圖1是本發(fā)明的一個(gè)實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù)的 方法的流程示意圖。如圖1所示,本發(fā)明的一個(gè)實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù)的 方法,可應(yīng)用于分布式系統(tǒng),該方法可包括以下內(nèi)容:
[0043] 101、從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)。
[0044] 其中,點(diǎn)擊流數(shù)據(jù)是指,由對(duì)展示廣告發(fā)生的點(diǎn)擊和/或曝光行為的感知而形成 的數(shù)據(jù)流。
[0045] 102、提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息。
[0046] 在本發(fā)明一些實(shí)施例中,上述關(guān)鍵信息可包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí) (用戶標(biāo)識(shí)例如郵箱、QQ號(hào)、手機(jī)號(hào)等)等,當(dāng)然關(guān)鍵信息還可包括其它一些關(guān)鍵信息。
[0047] 103、確定上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型。
[0048] 其中,上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型可能為曝光或點(diǎn)擊。
[0049] 104、確定第一時(shí)間窗口。
[0050] 其中,第一時(shí)間窗口的時(shí)長范圍例如可為3?10分鐘或其它時(shí)長。而第一時(shí)間窗 口的截止時(shí)間例如可為最新獲取到的包含上述關(guān)鍵信息的點(diǎn)擊流數(shù)據(jù)所對(duì)應(yīng)的日志時(shí)間。 其中,第一時(shí)間窗口的時(shí)長可以是預(yù)設(shè)參數(shù)確定的或可以是根據(jù)用戶指令確定的或可以是 通過其他方式確定的。
[0051] 可以理解,步驟103和步驟104之間沒有必然的執(zhí)行先后順序。
[0052] 105、根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與 上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾。
[0053] 106、若確定上述關(guān)鍵信息無需被過濾,則利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模 型的訓(xùn)練數(shù)據(jù)。
[0054] 其中,一條訓(xùn)練數(shù)據(jù)可認(rèn)為是聚合了包括關(guān)鍵信息在內(nèi)的多種信息的一個(gè)信息聚 合體。
[0055] 在本發(fā)明的一些實(shí)施例中,可將提取到的上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息寫入 緩沖區(qū)之中,在從緩沖區(qū)之中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生成廣告投放 預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0056] 舉例來說,在提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息之后,可先確定上述關(guān)鍵信 息對(duì)應(yīng)的廣告位分類(即,按照廣告位分類提取到的關(guān)鍵信息,以確定出上述關(guān)鍵信息對(duì)應(yīng) 的廣告位分類);將上述關(guān)鍵信息添加到與上述廣告位分類對(duì)應(yīng)的隊(duì)列之中(例如,不同的 廣告位分類,可對(duì)應(yīng)不同的隊(duì)列,例如廣告位分類和隊(duì)列可以是一一對(duì)應(yīng)的)。其中,上述利 用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)具體可包括:在從與上述廣告位分類對(duì) 應(yīng)的上述隊(duì)列中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn) 練數(shù)據(jù)。其中,對(duì)關(guān)鍵信息分類的目的之一是為了在生成訓(xùn)練數(shù)據(jù)時(shí)可以按廣告位為粒度 進(jìn)行處理。
[0057] 在本發(fā)明的一些實(shí)施例中,上述利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練 數(shù)據(jù),可包括:調(diào)用流式計(jì)算拓?fù)洌ɑ蛘{(diào)用其它計(jì)算單元),以上述關(guān)鍵信息為索引,在在線 存儲(chǔ)服務(wù)器中查找出與上述關(guān)鍵信息匹配的屬性信息和特征信息;利用上述關(guān)鍵信息和上 述屬性信息和上述特征信息,生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)(例如可按照預(yù)設(shè)的聚合 規(guī)則將上述關(guān)鍵信息、上述屬性信息和上述特征信息進(jìn)行聚合以得到廣告投放預(yù)測(cè)模型的 訓(xùn)練數(shù)據(jù)。在本發(fā)明的一些實(shí)施例中,可將得到的廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)些寫入到 分布式文件系統(tǒng)之中,以備訓(xùn)練廣告投放預(yù)測(cè)模型。進(jìn)一步的,可將在設(shè)定時(shí)間窗口之內(nèi)得 到的相同訓(xùn)練數(shù)據(jù)進(jìn)行去重處理。
[0058] 其中,根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間 與上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾的具體方式可能是多 種多樣的。
[0059] 舉例來說,根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志 時(shí)間與上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾可以包括:若確 定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定上述關(guān)鍵信息無需被過濾;或者,若 確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于 第一時(shí)間窗口之外,則確定上述關(guān)鍵信息需被過濾;或者,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的 點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且在第一 時(shí)間窗口之內(nèi)還獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確 定上述關(guān)鍵信息需要被過濾;或者,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,并 且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),并且在第一時(shí)間窗口之內(nèi)未獲 取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定上述 關(guān)鍵信息無需被過濾。
[0060] 其中,另一點(diǎn)擊流數(shù)據(jù)可指另一些點(diǎn)擊流數(shù)據(jù)或另一個(gè)點(diǎn)擊流數(shù)據(jù)。
[0061] 在本發(fā)明的一些實(shí)施例中,上述屬性信息和上述特征信息例如可包括如下信息的 至少一種:用戶年齡、用戶活躍度,用戶性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
[0062] 其中,本發(fā)明實(shí)施例提及的廣告投放預(yù)測(cè)模型可以是,Logistic Regression模 型、Factorization Machines模型或自定義廣告投放預(yù)測(cè)模型或其它類型廣告投放預(yù)測(cè)模 型。
[0063] 測(cè)試發(fā)現(xiàn),廣告投放預(yù)測(cè)模型的更新速度越快,即廣告投放預(yù)測(cè)模型的實(shí)時(shí)性越 好,廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度通常越高,而廣告投放預(yù)測(cè)模型的更新則 主要依賴于模型的訓(xùn)練數(shù)據(jù),因此,訓(xùn)練數(shù)據(jù)是否能夠在盡快的準(zhǔn)備就緒、訓(xùn)練數(shù)據(jù)是否是 最新的、是否能夠盡可能真實(shí)/盡可能實(shí)時(shí)的反應(yīng)線上當(dāng)前的點(diǎn)擊情況,是保證廣告投放 預(yù)測(cè)模型穩(wěn)定性和提高廣告投放預(yù)測(cè)模型質(zhì)量的關(guān)鍵因素。
[0064] 可以看出,本實(shí)施例從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)之后;提取上述點(diǎn)擊流數(shù) 據(jù)中包含的關(guān)鍵信息;利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。由于是從廣 告業(yè)務(wù)服務(wù)器獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn)擊流數(shù)據(jù)的分析以得到廣告投放 預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言,本發(fā)明的技術(shù)方案有利于降低處 理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到一定數(shù)量之后在進(jìn)行分析以得到 訓(xùn)練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利于提高廣告投放預(yù)測(cè)模型與線上 實(shí)時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及關(guān)鍵信息 對(duì)應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān)鍵信息過濾處理,因此有利于提 高所使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)的有效 性,進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放預(yù)測(cè)模型。
[0065] 為便于更好理解和實(shí)施本發(fā)明實(shí)施例的上述方案,下面通過幾個(gè)具體的應(yīng)用場(chǎng)景 進(jìn)行舉例介紹。
[0066] 參見圖2-a,圖2-a示出了一種通信系統(tǒng)架構(gòu)圖。圖2-a所示通信系統(tǒng)包括分析預(yù) 測(cè)平臺(tái)、在線存儲(chǔ)服務(wù)器和若干個(gè)廣告業(yè)務(wù)服務(wù)器。2-b示出了一種分析預(yù)測(cè)平臺(tái)的邏輯架 構(gòu)圖。
[0067] 請(qǐng)參見圖2-c,圖2-c是本發(fā)明的另一實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù)的 方法的流程示意圖。如圖2-c所示,本發(fā)明的另一實(shí)施例提供的一種在線分析點(diǎn)擊流數(shù)據(jù) 的方法可包括以下內(nèi)容:
[0068] 201、分析預(yù)測(cè)平臺(tái)從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)。
[0069] 其中,點(diǎn)擊流數(shù)據(jù)是指由對(duì)展示廣告發(fā)生的點(diǎn)擊和/或曝光行為的感知而形成的 數(shù)據(jù)流。
[0070] 202、分析預(yù)測(cè)平臺(tái)調(diào)用流式計(jì)算拓?fù)?,提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息。
[0071] 在本發(fā)明的一些實(shí)施例中,上述關(guān)鍵信息可包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo) 識(shí)(用戶標(biāo)識(shí)例如郵箱、QQ號(hào)、手機(jī)號(hào)等)等,當(dāng)然關(guān)鍵信息還可包括其它一些關(guān)鍵信息。
[0072] 其中,分析預(yù)測(cè)平臺(tái)例如可以將從廣告業(yè)務(wù)服務(wù)器獲取到的點(diǎn)擊流數(shù)據(jù)寫入到隊(duì) 列之中。分析預(yù)測(cè)平臺(tái)在調(diào)用流式計(jì)算拓?fù)?,從?duì)列之中取出點(diǎn)擊流數(shù)據(jù)之后,提取上述點(diǎn) 擊流數(shù)據(jù)中包含的關(guān)鍵信息。其中。利用隊(duì)列可以控制點(diǎn)擊流數(shù)據(jù)的處理速度。
[0073] 203、分析預(yù)測(cè)平臺(tái)按照廣告位分類提取到的關(guān)鍵信息,以確定出上述關(guān)鍵信息對(duì) 應(yīng)的廣告位分類。
[0074] 204、分析預(yù)測(cè)平臺(tái)將上述關(guān)鍵信息添加到與上述廣告位分類對(duì)應(yīng)的隊(duì)列之中。例 如不同的廣告位分類可對(duì)應(yīng)不同的隊(duì)列,例如廣告位分類和隊(duì)列可以是一一對(duì)應(yīng)的。
[0075] 205、分析預(yù)測(cè)平臺(tái)在從與上述廣告位分類對(duì)應(yīng)的上述隊(duì)列中讀取到上述關(guān)鍵信 息之后,調(diào)用流式計(jì)算拓?fù)?,確定上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型和第一時(shí)間窗口,基于 預(yù)設(shè)的過濾策略確定上述關(guān)鍵信息是否需要被過濾,若確定出上述關(guān)鍵信息無需被過濾, 則可以以上述關(guān)鍵信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與上述關(guān)鍵信息匹配的屬性信 息和特征信息,利用上述關(guān)鍵信息、上述屬性信息和上述特征信息,生成廣告投放預(yù)測(cè)模型 的訓(xùn)練數(shù)據(jù)。
[0076] 在一些場(chǎng)景下,可能存在如下情況,在一個(gè)用戶點(diǎn)擊的前后一段時(shí)間內(nèi)可能會(huì)存 在對(duì)同一個(gè)用戶標(biāo)識(shí)同一個(gè)廣告位同一個(gè)廣告的曝光的情況,若把點(diǎn)擊和曝光當(dāng)作用戶喜 好來看,用戶點(diǎn)擊表示喜歡,只看不點(diǎn)擊表示不喜歡。如果某用戶看了之后過一會(huì)兒點(diǎn)擊 了,可認(rèn)為該用戶是喜歡的,用戶不喜歡的記錄最好能夠被消除掉。因此,可通過預(yù)設(shè)過濾 策略來清洗掉某些點(diǎn)擊流類型為曝光的關(guān)鍵信息。其中,預(yù)設(shè)的過濾策略可能是多種多樣 的,可以根據(jù)具體需要來設(shè)定相應(yīng)的過濾策略。
[0077] 流式計(jì)算拓?fù)洌ㄈ鐖D2_b中的各流式計(jì)算拓?fù)?,每個(gè)流式計(jì)算拓?fù)浒ㄈ舾蓚€(gè)處 理單元)可看作是用于實(shí)現(xiàn)一個(gè)計(jì)算流程的單位。其中,不同流式計(jì)算拓?fù)淇蔀椴煌膹V告 投放預(yù)測(cè)模型提供訓(xùn)練數(shù)據(jù)。
[0078] 在本發(fā)明的一些實(shí)施例中,隊(duì)列中存儲(chǔ)的有些關(guān)鍵信息可能被用于得到訓(xùn)練數(shù)據(jù) 的多個(gè)流式計(jì)算拓?fù)渌鶑?fù)用。關(guān)鍵信息按廣告位分類,產(chǎn)生不同廣告投放預(yù)測(cè)模型的訓(xùn)練 數(shù)據(jù)的流式計(jì)算拓?fù)?,可能使用同一個(gè)廣告位對(duì)應(yīng)的關(guān)鍵信息,某個(gè)流式計(jì)算拓?fù)湟部赡?使用多個(gè)廣告位對(duì)應(yīng)的關(guān)鍵信息,即一個(gè)特定的廣告位上的關(guān)鍵信息可以為多個(gè)模型的訓(xùn) 練數(shù)據(jù)的產(chǎn)生所用。
[0079] 在本發(fā)明一些實(shí)施例中,產(chǎn)生每個(gè)廣告投放預(yù)測(cè)模型模型對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)所需要 的屬性信息和特征信息的數(shù)量和類型,可根據(jù)不同需要來調(diào)整,只要所需要的屬性信息和 特征信息被預(yù)先存儲(chǔ)于在線存儲(chǔ)服務(wù)器之中。
[0080] 其中,基于預(yù)設(shè)的過濾策略確定上述關(guān)鍵信息是否需要被過濾具體可以是根據(jù)上 述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與第一時(shí)間窗口的對(duì)應(yīng) 關(guān)系,確定上述關(guān)鍵信息是否需要被過濾。
[0081] 舉例來說,根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志 時(shí)間與第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾可包括:若確定出上 述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定上述關(guān)鍵信息無需被過濾;或者若確定出 上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí) 間窗口之外,則確定上述關(guān)鍵信息需被過濾;或者若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流 類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且在第一時(shí)間窗 口之內(nèi)還獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確定上述 關(guān)鍵信息需要被過濾;或者,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān) 鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且在第一時(shí)間窗口之內(nèi)未獲取到了包含 上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定上述關(guān)鍵信息無 需被過濾。
[0082] 其中,第一時(shí)間窗口的時(shí)長范圍例如可為3?10分鐘或其它時(shí)長。而第一時(shí)間窗 口的截止時(shí)間例如可為最新獲取到的包含上述關(guān)鍵信息的點(diǎn)擊流數(shù)據(jù)所對(duì)應(yīng)的日志時(shí)間。 通過分布式可靠協(xié)調(diào)服務(wù)將時(shí)間窗口更新到流式系統(tǒng),還支持在不停拓?fù)溆?jì)算的情況下動(dòng) 態(tài)調(diào)整時(shí)間窗口的大小。
[0083] 在本發(fā)明的一些實(shí)施例中,若關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則進(jìn)一步將該 關(guān)鍵信息寫入正樣本緩沖區(qū);若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述 關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且正樣本緩沖區(qū)在第一時(shí)間窗口之內(nèi) 不存在上述關(guān)鍵信息,則可該上述關(guān)鍵信息寫入負(fù)樣本緩沖區(qū),若在第一時(shí)間窗口之內(nèi)還 獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確定上述關(guān)鍵信息 需要被過濾;若在第一時(shí)間窗口之內(nèi)未獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊和 /或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定上述關(guān)鍵信息無需被過濾。
[0084] 在本發(fā)明的一些實(shí)施例中,上述屬性信息和上述特征信息例如可包括如下信息的 至少一種:用戶年齡、用戶活躍度,用戶性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
[0085] 其中,本發(fā)明實(shí)施例提及的廣告投放預(yù)測(cè)模型可以是,Logistic Regression模 型、Factorization Machines模型或自定義廣告投放預(yù)測(cè)模型或其它類型廣告投放預(yù)測(cè) 模型。
[0086] 測(cè)試發(fā)現(xiàn),廣告投放預(yù)測(cè)模型的更新速度越快,即廣告投放預(yù)測(cè)模型的實(shí)時(shí)性越 好,廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度通常越高,而廣告投放預(yù)測(cè)模型的更新則 主要依賴于模型的訓(xùn)練數(shù)據(jù),因此,訓(xùn)練數(shù)據(jù)是否能夠在盡快的準(zhǔn)備就緒、訓(xùn)練數(shù)據(jù)是否是 最新的、是否能夠盡可能真實(shí)/盡可能實(shí)時(shí)的反應(yīng)線上當(dāng)前的點(diǎn)擊情況,是保證廣告投放 預(yù)測(cè)模型穩(wěn)定性和提高廣告投放預(yù)測(cè)模型質(zhì)量的關(guān)鍵因素。
[0087] 206、分析預(yù)測(cè)平臺(tái)將得到的廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)些寫入到分布式文件 系統(tǒng)之中,以備訓(xùn)練廣告投放預(yù)測(cè)模型。
[0088] 可以看出,本實(shí)施例分析預(yù)測(cè)平臺(tái)從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)之后;提取 上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù)。由于是從廣告業(yè)務(wù)服務(wù)器獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn)擊流數(shù)據(jù)的分析 以得到廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言,本發(fā)明的技術(shù)方 案有利于降低處理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到一定數(shù)量之后 在進(jìn)行分析以得到訓(xùn)練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利于提高廣告投 放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流 類型,以及關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān)鍵信息過濾處 理,因此有利于提高所使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告投放預(yù)測(cè)模型 的訓(xùn)練數(shù)據(jù)的有效性,進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放預(yù)測(cè)模型。
[0089] 下面結(jié)合附圖3-a和圖3-b,通過一些場(chǎng)景來舉例介紹根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊 流類型,及關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否 需要被過濾的方式。
[0090] 如圖3-a所示,獲得點(diǎn)擊流數(shù)據(jù)中的關(guān)鍵信息之后,可先確定關(guān)鍵信息所對(duì)應(yīng)的 點(diǎn)擊流類型,若確定出該關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則可將該關(guān)鍵信息寫入 正樣本緩沖區(qū)(pSample),并可利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),在 上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間(L 〇g_time)落入第一時(shí)間窗口之后,將上述關(guān)鍵信息從 pSample刪除。若該關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,則可判斷上述關(guān)鍵信息對(duì)應(yīng)的 日志時(shí)間是否未落入到第一時(shí)間窗口之中,若上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間未落入到第一 時(shí)間窗口,則可過濾掉該關(guān)鍵信息;若上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間落入到第一時(shí)間窗口, 則可判斷正樣本緩沖區(qū)中當(dāng)前是否存在與上述關(guān)鍵信息同樣的關(guān)鍵信息,若判斷出正樣本 緩沖區(qū)中當(dāng)前存在與上述關(guān)鍵信息同樣的關(guān)鍵信息,則可過濾掉該關(guān)鍵信息,若正樣本緩 沖區(qū)中當(dāng)前不存在與上述關(guān)鍵信息同樣的關(guān)鍵信息,則可將該關(guān)鍵信息寫入負(fù)樣本緩沖區(qū) (nSample)。
[0091] 參見圖3-b,圖3-b舉例示出了一種對(duì)寫入到負(fù)樣本緩沖區(qū)的關(guān)鍵信息的處理方 式。如圖3-b所示,在休眠設(shè)定時(shí)長之后,可判斷最新寫入到負(fù)樣本緩沖區(qū)中的點(diǎn)擊流類型 為曝光的關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間(Update Time)是否未落入第一時(shí)間窗口(此處第一時(shí) 間窗口的截止時(shí)間為系統(tǒng)當(dāng)前時(shí)間)。若最新寫入到負(fù)樣本緩沖區(qū)中的點(diǎn)擊流類型為曝光 的關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間未落入第一時(shí)間窗口,則判斷負(fù)樣本緩沖區(qū)是否有至少一條關(guān) 鍵信息,若判斷出負(fù)樣本緩沖區(qū)沒有任何關(guān)鍵信息,則返回休眠設(shè)定時(shí)長的步驟。若判斷出 負(fù)樣本緩沖區(qū)有至少一條關(guān)鍵信息,則進(jìn)一步判斷是否有同樣的關(guān)鍵信息存在于正樣本緩 沖區(qū),若判斷出正樣本緩沖區(qū)存在同樣的關(guān)鍵信息,則刪除負(fù)樣本緩沖區(qū)中的對(duì)應(yīng)相同的 關(guān)鍵信息(即過濾掉該關(guān)鍵信息),若判斷出正樣本緩沖區(qū)不存在同樣的關(guān)鍵信息,則可進(jìn) 一步利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),并將上述關(guān)鍵信息從負(fù)樣本緩 沖區(qū)刪除。
[0092] 如圖3-b所示,若判斷出最新寫入到負(fù)樣本緩沖區(qū)中的點(diǎn)擊流類型為曝光的關(guān)鍵 信息對(duì)應(yīng)的日志時(shí)間已落入第一時(shí)間窗口,則可進(jìn)一步判斷負(fù)樣本緩沖區(qū)是否有至少一條 關(guān)鍵信息。若判斷出負(fù)樣本緩沖區(qū)沒有關(guān)鍵信息,則可返回休眠設(shè)定時(shí)長的步驟。若判斷 出負(fù)樣本緩沖區(qū)有至少一條關(guān)鍵信息,則可進(jìn)一步判斷負(fù)樣本緩沖區(qū)中當(dāng)前最先寫入的關(guān) 鍵信息對(duì)應(yīng)的日志時(shí)間是否未落入第一時(shí)間窗口,若負(fù)樣本緩沖區(qū)中當(dāng)前最先寫入的關(guān)鍵 信息對(duì)應(yīng)的日志時(shí)間未落入第一時(shí)間窗口,則返回休眠設(shè)定時(shí)長的步驟。若判斷出負(fù)樣 本緩沖區(qū)中當(dāng)前最先寫入的關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間落入第一時(shí)間窗口,則可進(jìn)一步判斷 是否有同樣的關(guān)鍵信息存在于正樣本緩沖區(qū),若判斷出正樣本緩沖區(qū)存在同樣的關(guān)鍵信 息,則刪除負(fù)樣本緩沖區(qū)中的對(duì)應(yīng)相同的關(guān)鍵信息(即,過濾掉該關(guān)鍵信息),若判斷出正樣 本緩沖區(qū)不存在同樣的關(guān)鍵信息,則可利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù),并將上述關(guān)鍵信息從負(fù)樣本緩沖區(qū)刪除。
[0093] 可以理解,圖3-a和圖3-b示出了一種可能的根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型及 關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾 的方式,當(dāng)然。在實(shí)際應(yīng)用中還可能根據(jù)具體情況進(jìn)行適應(yīng)性調(diào)整,并不限于上述舉例。
[0094] 下面還提供用于實(shí)施上述方案的相關(guān)裝置。
[0095] 參見圖4-a,本發(fā)明實(shí)施例還提供一種在線分析點(diǎn)擊流數(shù)據(jù)的裝置400,可以包 括:獲取單元410、提取單元420、類型確定單元430、時(shí)間窗口確定單元440、過濾控制單元 450和生成單元460。
[0096] 其中,獲取單元410,用于從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)。
[0097] 提取單元420,用于提取所述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息。
[0098] 類型確定單元430,用于確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型。
[0099] 時(shí)間窗口確定單元440,用于確定第一時(shí)間窗口。
[0100] 過濾控制單元450,用于根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息 對(duì)應(yīng)的日志時(shí)間與所述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾。 [0101] 生成單元460,用于若所述過濾控制單元450確定所述關(guān)鍵信息無需被過濾,則利 用所述提取單元提取的所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0102] 參見圖4-b,在本發(fā)明的一些實(shí)施例中,在線分析點(diǎn)擊流數(shù)據(jù)的裝置400還包括:
[0103] 分類單元470,用于確定所述關(guān)鍵信息對(duì)應(yīng)的廣告位分類,將所述關(guān)鍵信息添加到 與所述廣告位分類對(duì)應(yīng)的隊(duì)列之中;
[0104] 其中,生成單元460具體用于,從與所述廣告位分類對(duì)應(yīng)的所述隊(duì)列中讀取到所 述關(guān)鍵信息之后,利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0105] 在本發(fā)明一些實(shí)施例中,生成單元460具體用于,調(diào)用流式計(jì)算拓?fù)?,以所述關(guān)鍵 信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與所述關(guān)鍵信息匹配的屬性信息和特征信息;利 用所述關(guān)鍵信息、所述屬性信息和所述特征信息,生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0106] 在本發(fā)明的一些實(shí)施例中,過濾控制單元450具體用于,
[0107] 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定所述關(guān)鍵信息無需被 過濾;
[0108]或者,
[0109] 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日 志時(shí)間處于第一時(shí)間窗口之外,則確定所述關(guān)鍵信息需被過濾;
[0110] 或者,
[0111] 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日 志時(shí)間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)還獲取到了包含所述關(guān)鍵信息 且點(diǎn)擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息需要被過濾;
[0112] 或者,
[0113] 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日 志時(shí)間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)未獲取到了包含所述關(guān)鍵信息 且點(diǎn)擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息無需被過濾。
[0114] 在本發(fā)明一些實(shí)施例中,所述第一時(shí)間窗口的時(shí)長范圍為3?10分鐘。
[0115] 在本發(fā)明一些實(shí)施例中,所述關(guān)鍵信息包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí)。
[0116] 在本發(fā)明一些實(shí)施例中,所述屬性信息和所述特征信息包括如下信息的至少一 種:用戶年齡、用戶活躍度,用戶性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
[0117] 其中,本發(fā)明實(shí)施例提及的廣告投放預(yù)測(cè)模型可以是,Logistic Regression模 型、Factorization Machines模型或自定義廣告投放預(yù)測(cè)模型或其它類型廣告投放預(yù)測(cè)模 型。
[0118] 測(cè)試發(fā)現(xiàn),廣告投放預(yù)測(cè)模型的更新速度越快,即廣告投放預(yù)測(cè)模型的實(shí)時(shí)性越 好,廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度通常越高,而廣告投放預(yù)測(cè)模型的更新則 主要依賴于模型的訓(xùn)練數(shù)據(jù),因此,訓(xùn)練數(shù)據(jù)是否能夠在盡快的準(zhǔn)備就緒、訓(xùn)練數(shù)據(jù)是否是 最新的、是否能夠盡可能真實(shí)/盡可能實(shí)時(shí)的反應(yīng)線上當(dāng)前的點(diǎn)擊情況,是保證廣告投放 預(yù)測(cè)模型穩(wěn)定性和提高廣告投放預(yù)測(cè)模型質(zhì)量的關(guān)鍵因素。
[0119] 可以理解的是,本實(shí)施例的在線分析點(diǎn)擊流數(shù)據(jù)的裝置400的各功能模塊的功能 可根據(jù)上述方法實(shí)施例中的方法具體實(shí)現(xiàn),其具體實(shí)現(xiàn)過程可以參照上述方法實(shí)施例的相 關(guān)描述,此處不再贅述。
[0120] 可以看出,本實(shí)施例在線分析點(diǎn)擊流數(shù)據(jù)的裝置400從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊 流數(shù)據(jù)之后;提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;利用上述關(guān)鍵信息生成廣告投放預(yù) 測(cè)模型的訓(xùn)練數(shù)據(jù)。由于是從廣告業(yè)務(wù)服務(wù)器獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn) 擊流數(shù)據(jù)的分析以得到廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言, 本發(fā)明的技術(shù)方案有利于降低處理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到 一定數(shù)量之后在進(jìn)行分析以得到訓(xùn)練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利 于提高廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息 對(duì)應(yīng)的點(diǎn)擊流類型,以及關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān) 鍵信息過濾處理,因此有利于提高所使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告 投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)的有效性,進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放 預(yù)測(cè)模型。
[0121] 參見圖5,本發(fā)明實(shí)施例提供一種分析預(yù)測(cè)平臺(tái)500,可包括:
[0122] 處理器510、存儲(chǔ)器520、輸入裝置530和輸出裝置540。終端設(shè)備500中的處理器 510的數(shù)量可以一個(gè)或多個(gè),圖5中以一個(gè)處理器為例。在本發(fā)明的一些實(shí)施例中,處理器 510、存儲(chǔ)器520、輸入裝置530和輸出裝置540可通過總線或其它方式連接,其中,圖5中 以通過總線連接為例。
[0123] 存儲(chǔ)器520可用于存儲(chǔ)軟件程序以及模塊,處理器510通過運(yùn)行存儲(chǔ)在存儲(chǔ)器520 的軟件程序以及模塊,從而執(zhí)行分析預(yù)測(cè)平臺(tái)500的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器 520可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功 能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)終端 設(shè)備的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外存儲(chǔ)器520可包括高速隨機(jī) 存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他 易失性固態(tài)存儲(chǔ)器件。輸入裝置530可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與分析 預(yù)測(cè)平臺(tái)500的用戶設(shè)置以及功能控制有關(guān)的鍵信號(hào)輸入。輸入裝置540可包括顯示屏等 顯示設(shè)備。
[0124] 其中,處理器510執(zhí)行如下步驟:從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);提取上述 點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第一時(shí)間窗 口;根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與上述第一 時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾;若確定上述關(guān)鍵信息無需被過 濾,則利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0125] 其中,點(diǎn)擊流數(shù)據(jù)是指,由對(duì)展示廣告發(fā)生的點(diǎn)擊和/或曝光行為的感知而形成 的數(shù)據(jù)流。
[0126] 在本發(fā)明一些實(shí)施例中,上述關(guān)鍵信息可包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí) (用戶標(biāo)識(shí)例如郵箱、QQ號(hào)、手機(jī)號(hào)等)等,當(dāng)然關(guān)鍵信息還可包括其它一些關(guān)鍵信息。
[0127] 其中,一條訓(xùn)練數(shù)據(jù)可認(rèn)為是聚合了包括關(guān)鍵信息在內(nèi)的多種信息的一個(gè)信息聚 合體。
[0128] 在本發(fā)明的一些實(shí)施例中,處理器510可將提取到的上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān) 鍵信息寫入緩沖區(qū)之中,在從緩沖區(qū)之中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生 成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0129] 舉例來說,在提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息之后,可先確定上述關(guān)鍵信 息對(duì)應(yīng)的廣告位分類(即,按照廣告位分類提取到的關(guān)鍵信息,以確定出上述關(guān)鍵信息對(duì)應(yīng) 的廣告位分類);將上述關(guān)鍵信息添加到與上述廣告位分類對(duì)應(yīng)的隊(duì)列之中(例如,不同的 廣告位分類,可對(duì)應(yīng)不同的隊(duì)列,例如廣告位分類和隊(duì)列可以是一一對(duì)應(yīng)的)。其中,上述利 用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)可包括:在從與上述廣告位分類對(duì)應(yīng)的 上述隊(duì)列中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù)。其中,對(duì)關(guān)鍵信息分類的目的之一是為了在生成訓(xùn)練數(shù)據(jù)時(shí)可以按廣告位為粒度進(jìn)行 處理。
[0130] 在本發(fā)明的一些實(shí)施例中,處理器510利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型 的訓(xùn)練數(shù)據(jù)可包括:調(diào)用流式計(jì)算拓?fù)洌ɑ蛘{(diào)用其它計(jì)算單元),以上述關(guān)鍵信息為索引,在 在線存儲(chǔ)服務(wù)器中查找出與上述關(guān)鍵信息匹配的屬性信息和特征信息;利用上述關(guān)鍵信息 和上述屬性信息和上述特征信息,生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)(例如可按照預(yù)設(shè)的 聚合規(guī)則將上述關(guān)鍵信息、上述屬性信息和上述特征信息進(jìn)行聚合以得到廣告投放預(yù)測(cè)模 型的訓(xùn)練數(shù)據(jù)。在本發(fā)明的一些實(shí)施例中,可將得到的廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)些寫 入到分布式文件系統(tǒng)之中,以備訓(xùn)練廣告投放預(yù)測(cè)模型。進(jìn)一步的,可將在設(shè)定時(shí)間窗口之 內(nèi)得到的相同訓(xùn)練數(shù)據(jù)進(jìn)行去重處理。
[0131] 舉例來說,處理器510根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息 對(duì)應(yīng)的日志時(shí)間與上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾可以 包括:若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定上述關(guān)鍵信息無需被過 濾;或者,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日 志時(shí)間處于第一時(shí)間窗口之外,則確定上述關(guān)鍵信息需被過濾;或者,若確定出上述關(guān)鍵 信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之 內(nèi),且在第一時(shí)間窗口之內(nèi)還獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊的另一點(diǎn)擊 流數(shù)據(jù),則確定上述關(guān)鍵信息需要被過濾;或者,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類 型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且在第一時(shí)間窗口 之內(nèi)未獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù), 則確定上述關(guān)鍵信息無需被過濾。
[0132] 其中,第一時(shí)間窗口的時(shí)長范圍例如可為3?10分鐘或其它時(shí)長。而第一時(shí)間窗 口的截止時(shí)間例如可為最新獲取到的包含上述關(guān)鍵信息的點(diǎn)擊流數(shù)據(jù)所對(duì)應(yīng)的日志時(shí)間。
[0133] 在本發(fā)明的一些實(shí)施例中,上述屬性信息和上述特征信息例如可包括如下信息的 至少一種:用戶年齡、用戶活躍度,用戶性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
[0134] 其中,本發(fā)明實(shí)施例提及的廣告投放預(yù)測(cè)模型可以是,Logistic Regression模 型、Factorization Machines模型或自定義廣告投放預(yù)測(cè)模型或其它類型廣告投放預(yù)測(cè)模 型。
[0135] 測(cè)試發(fā)現(xiàn),廣告投放預(yù)測(cè)模型的更新速度越快,即廣告投放預(yù)測(cè)模型的實(shí)時(shí)性越 好,廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度通常越高,而廣告投放預(yù)測(cè)模型的更新則 主要依賴于模型的訓(xùn)練數(shù)據(jù),因此,訓(xùn)練數(shù)據(jù)是否能夠在盡快的準(zhǔn)備就緒、訓(xùn)練數(shù)據(jù)是否是 最新的、是否能夠盡可能真實(shí)/盡可能實(shí)時(shí)的反應(yīng)線上當(dāng)前的點(diǎn)擊情況,是保證廣告投放 預(yù)測(cè)模型穩(wěn)定性和提高廣告投放預(yù)測(cè)模型質(zhì)量的關(guān)鍵因素。
[0136] 可以看出,本實(shí)施例分析預(yù)測(cè)平臺(tái)500從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù)之后; 提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練 數(shù)據(jù)。由于是從廣告業(yè)務(wù)服務(wù)器獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn)擊流數(shù)據(jù)的分 析以得到廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言,本發(fā)明的技術(shù) 方案有利于降低處理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到一定數(shù)量之后 在進(jìn)行分析以得到訓(xùn)練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利于提高廣告投 放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流 類型,以及關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān)鍵信息過濾處 理,因此有利于提高所使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告投放預(yù)測(cè)模型 的訓(xùn)練數(shù)據(jù)的有效性,進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放預(yù)測(cè)模型。
[0137] 參見圖6_a,本發(fā)明實(shí)施例提供一種分布式通信系統(tǒng),可包括:
[0138] 廣告業(yè)務(wù)服務(wù)器610和分析預(yù)測(cè)平臺(tái)620。其中,圖6中以存在多個(gè)廣告業(yè)務(wù)服務(wù) 器610為例。
[0139] 參見圖6-a,分析預(yù)測(cè)平臺(tái)620可包括一個(gè)或多個(gè)分析預(yù)測(cè)服務(wù)器621。多個(gè)分析 預(yù)測(cè)服務(wù)器621可基于分布式架構(gòu)構(gòu)建。
[0140] 其中,分析預(yù)測(cè)平臺(tái)620用于,從廣告業(yè)務(wù)服務(wù)器610獲取點(diǎn)擊流數(shù)據(jù);提取所述 點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;確定上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第一時(shí)間窗 口;根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與上述第一 時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾;若確定上述關(guān)鍵信息無需被過 濾,則利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0141] 其中,點(diǎn)擊流數(shù)據(jù)是指,由對(duì)展示廣告發(fā)生的點(diǎn)擊和/或曝光行為的感知而形成 的數(shù)據(jù)流。
[0142] 在本發(fā)明一些實(shí)施例中,上述關(guān)鍵信息可包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí) (用戶標(biāo)識(shí)例如郵箱、QQ號(hào)、手機(jī)號(hào)等)等,當(dāng)然關(guān)鍵信息還可包括其它一些關(guān)鍵信息。
[0143] 其中,一條訓(xùn)練數(shù)據(jù)可認(rèn)為是聚合了包括關(guān)鍵信息在內(nèi)的多種信息的一個(gè)信息聚 合體。
[0144] 在本發(fā)明的一些實(shí)施例中,可將提取到的上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息寫入 緩沖區(qū)之中,在從緩沖區(qū)之中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生成廣告投放 預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
[0145] 舉例來說,在提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息之后,可先確定上述關(guān)鍵信 息對(duì)應(yīng)的廣告位分類(即,按照廣告位分類提取到的關(guān)鍵信息,以確定出上述關(guān)鍵信息對(duì)應(yīng) 的廣告位分類);將上述關(guān)鍵信息添加到與上述廣告位分類對(duì)應(yīng)的隊(duì)列之中(例如,不同的 廣告位分類,可對(duì)應(yīng)不同的隊(duì)列,例如廣告位分類和隊(duì)列可以是一一對(duì)應(yīng)的)。其中,上述利 用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)可包括:在從與上述廣告位分類對(duì)應(yīng)的 上述隊(duì)列中讀取到上述關(guān)鍵信息之后,利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù)。其中,對(duì)關(guān)鍵信息分類的目的之一是為了在生成訓(xùn)練數(shù)據(jù)時(shí)可以按廣告位為粒度進(jìn)行 處理。
[0146] 在本發(fā)明的一些實(shí)施例中,在利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù)的方面,分析預(yù)測(cè)平臺(tái)620可具體用于,調(diào)用流式計(jì)算拓?fù)洌ɑ蛘{(diào)用其它計(jì)算單元),以上 述關(guān)鍵信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與上述關(guān)鍵信息匹配的屬性信息和特征信 息;利用上述關(guān)鍵信息和上述屬性信息和上述特征信息,生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù) 據(jù)(例如可按照預(yù)設(shè)的聚合規(guī)則將上述關(guān)鍵信息、上述屬性信息和上述特征信息進(jìn)行聚合 以得到廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。在本發(fā)明的一些實(shí)施例中,可將得到的廣告投放預(yù) 測(cè)模型的訓(xùn)練數(shù)據(jù)些寫入到分布式文件系統(tǒng)之中,以備訓(xùn)練廣告投放預(yù)測(cè)模型。進(jìn)一步的, 可將在設(shè)定時(shí)間窗口之內(nèi)得到的相同訓(xùn)練數(shù)據(jù)進(jìn)行去重處理。
[0147] 舉例來說,在上述根據(jù)上述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及上述關(guān)鍵信息對(duì)應(yīng) 的日志時(shí)間與上述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定上述關(guān)鍵信息是否需要被過濾方面,分 析預(yù)測(cè)平臺(tái)可具體用于,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定上述 關(guān)鍵信息無需被過濾;或,若確定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵 信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之外,則確定上述關(guān)鍵信息需被過濾;或者,若確 定出上述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第 一時(shí)間窗口之內(nèi),且在第一時(shí)間窗口之內(nèi)還獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn) 擊的另一點(diǎn)擊流數(shù)據(jù),則確定上述關(guān)鍵信息需要被過濾;或者,若確定出上述關(guān)鍵信息所對(duì) 應(yīng)的點(diǎn)擊流類型為曝光,且上述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí)間處于第一時(shí)間窗口之內(nèi),且在 第一時(shí)間窗口之內(nèi)未獲取到了包含上述關(guān)鍵信息且點(diǎn)擊流類型為點(diǎn)擊和/或曝光的另一 點(diǎn)擊流數(shù)據(jù),則確定上述關(guān)鍵信息無需被過濾。
[0148] 其中,第一時(shí)間窗口的時(shí)長范圍例如可為3?10分鐘或其它時(shí)長。而第一時(shí)間窗 口的截止時(shí)間例如可為最新獲取到的包含上述關(guān)鍵信息的點(diǎn)擊流數(shù)據(jù)所對(duì)應(yīng)的日志時(shí)間。
[0149] 在本發(fā)明的一些實(shí)施例中,上述屬性信息和上述特征信息例如可包括如下信息 的至少一種:用戶年齡、用戶活躍度,用戶性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
[0150] 其中,本發(fā)明實(shí)施例提及的廣告投放預(yù)測(cè)模型可以是,Logistic Regression模 型、Factorization Machines模型或自定義廣告投放預(yù)測(cè)模型或其它類型廣告投放預(yù)測(cè)模 型。
[0151] 測(cè)試發(fā)現(xiàn),廣告投放預(yù)測(cè)模型的更新速度越快,即廣告投放預(yù)測(cè)模型的實(shí)時(shí)性越 好,廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度通常越高,而廣告投放預(yù)測(cè)模型的更新則 主要依賴于模型的訓(xùn)練數(shù)據(jù),因此,訓(xùn)練數(shù)據(jù)是否能夠在盡快的準(zhǔn)備就緒、訓(xùn)練數(shù)據(jù)是否是 最新的、是否能夠盡可能真實(shí)/盡可能實(shí)時(shí)的反應(yīng)線上當(dāng)前的點(diǎn)擊情況,是保證廣告投放 預(yù)測(cè)模型穩(wěn)定性和提高廣告投放預(yù)測(cè)模型質(zhì)量的關(guān)鍵因素。
[0152] 可以看出,本實(shí)施例中,分析預(yù)測(cè)平臺(tái)620從廣告業(yè)務(wù)服務(wù)器610獲取點(diǎn)擊流數(shù)據(jù) 之后;提取上述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息;利用上述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型 的訓(xùn)練數(shù)據(jù)。由于是從廣告業(yè)務(wù)服務(wù)器610獲取實(shí)時(shí)的點(diǎn)擊流數(shù)據(jù),實(shí)時(shí)在線的進(jìn)行點(diǎn)擊 流數(shù)據(jù)的分析以得到廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),相對(duì)于現(xiàn)有的離線分析機(jī)制而言,本 發(fā)明的技術(shù)方案有利于降低處理資源對(duì)得到訓(xùn)練數(shù)據(jù)的限制(無需將點(diǎn)擊流數(shù)據(jù)累積到一 定數(shù)量之后在進(jìn)行分析以得到訓(xùn)練數(shù)據(jù))、有利于提高廣告投放預(yù)測(cè)模型的實(shí)時(shí)性、有利于 提高廣告投放預(yù)測(cè)模型與線上實(shí)時(shí)數(shù)據(jù)的吻合度。并且,上述方案進(jìn)一步根據(jù)關(guān)鍵信息對(duì) 應(yīng)的點(diǎn)擊流類型,以及關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與確定的第一時(shí)間窗口的對(duì)應(yīng)關(guān)系對(duì)關(guān)鍵 信息過濾處理,因此有利于提高所使用關(guān)鍵信息的有效性,進(jìn)而有利于提高生成的廣告投 放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)的有效性,進(jìn)而有利于訓(xùn)練出更加貼合實(shí)際發(fā)生場(chǎng)景的廣告投放預(yù) 測(cè)模型。
[0153] 參見圖7,圖7是本發(fā)明實(shí)施例提供的一種服務(wù)器結(jié)構(gòu)示意圖。該服務(wù)器700可 因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上中央處理器(central processing units,CPU) 722 (例如,一個(gè)或一個(gè)以上處理器)和存儲(chǔ)器732, 一個(gè)或一個(gè)以 上存儲(chǔ)應(yīng)用程序742或數(shù)據(jù)744的存儲(chǔ)介質(zhì)730 (例如一個(gè)或一個(gè)以上海量存儲(chǔ)設(shè)備)。其 中,存儲(chǔ)器732和存儲(chǔ)介質(zhì)730可以是短暫存儲(chǔ)或持久存儲(chǔ)。存儲(chǔ)在存儲(chǔ)介質(zhì)730的程序 可以包括一個(gè)或一個(gè)以上模塊(圖示未示出),每個(gè)模塊可以包括對(duì)服務(wù)器中的一系列指令 操作。
[0154] 更進(jìn)一步地,中央處理器722可以設(shè)置為與存儲(chǔ)介質(zhì)730通信,在服務(wù)器700上執(zhí) 行存儲(chǔ)介質(zhì)730中的一系列指令操作。服務(wù)器700還可以包括一個(gè)或一個(gè)以上電源726,一 個(gè)或一個(gè)以上有線或無線網(wǎng)絡(luò)接口 750, 一個(gè)或一個(gè)以上輸入輸出接口 758,和/或,一個(gè)或 一個(gè)以上操作系統(tǒng) 741,例如 Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM 等等。上述圖1、圖2、圖3-a?圖3-b所示實(shí)施例中所述的由分析預(yù)測(cè)平臺(tái)、分析預(yù)測(cè)服務(wù) 器、在線存儲(chǔ)服務(wù)器或廣告服務(wù)器所執(zhí)行的步驟可以基于該圖7所示的服務(wù)器結(jié)構(gòu)。
[0155] 本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其中,該計(jì)算機(jī)存儲(chǔ)介質(zhì)可存儲(chǔ)有程 序,該程序執(zhí)行時(shí)包括上述方法實(shí)施例中記載的在線分析點(diǎn)擊流數(shù)據(jù)的方法的部分或全部 步驟。
[0156] 需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列 的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)?依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知 悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明 所必須的。
[0157] 在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部 分,可以參見其他實(shí)施例的相關(guān)描述。
[0158] 在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式 實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種 邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可 以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間 的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接, 可以是電性或其它的形式。
[0159] 所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯 示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè) 網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目 的。
[0160] 另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以 是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單 元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0161] 所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用 時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上 或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式 體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī) 設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或 部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取 存儲(chǔ)器(RAM, Random Access Memory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼 的介質(zhì)。
[0162] 以上所述,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前 述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前 述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些 修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
【權(quán)利要求】
1. 一種在線分析點(diǎn)擊流數(shù)據(jù)的方法,其特征在于,應(yīng)用于分布式系統(tǒng),所述方法包括: 從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù); 提取所述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息; 確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型; 確定第一時(shí)間窗口; 根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述第一 時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾; 若確定所述關(guān)鍵信息無需被過濾,則利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練 數(shù)據(jù)。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述方法還包括: 確定所述關(guān)鍵信息對(duì)應(yīng)的廣告位分類; 將所述關(guān)鍵信息添加到與所述廣告位分類對(duì)應(yīng)的隊(duì)列之中; 所述利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)包括:從與所述廣告位分類 對(duì)應(yīng)的所述隊(duì)列中讀取到所述關(guān)鍵信息之后,利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的 訓(xùn)練數(shù)據(jù)。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù),包括: 調(diào)用流式計(jì)算拓?fù)?,以所述關(guān)鍵信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與所述關(guān)鍵 信息匹配的屬性信息和特征信息;利用所述關(guān)鍵信息、所述屬性信息和所述特征信息,生成 廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1至3任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的 點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,包括: 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則確定所述關(guān)鍵信息無需被過 濾; 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之外,則確定所述關(guān)鍵信息需被過濾; 或者, 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)還獲取到了包含所述關(guān)鍵信息且點(diǎn) 擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息需要被過濾; 或者, 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)未獲取到了包含所述關(guān)鍵信息且點(diǎn) 擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息無需被過濾。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于, 所述第一時(shí)間窗口的時(shí)長范圍為3?10分鐘。
6. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述關(guān)鍵信息包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí)。
7. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于, 所述屬性信息和所述特征信息包括如下信息的至少一種:用戶年齡、用戶活躍度,用戶 性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
8. -種在線分析點(diǎn)擊流數(shù)據(jù)的裝置,其特征在于,應(yīng)用于分布式系統(tǒng),所述裝置包括: 獲取單元,用于從廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù); 提取單元,用于提取所述點(diǎn)擊流數(shù)據(jù)中包含的關(guān)鍵信息; 類型確定單元,用于確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型; 時(shí)間窗口確定單元,用于確定第一時(shí)間窗口; 過濾控制單元,用于根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的 日志時(shí)間與所述第一時(shí)間窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾; 生成單元,用于若所述過濾控制單元確定所述關(guān)鍵信息無需被過濾,則利用所述提取 單元提取的所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于, 所述裝置還包括: 分類單元,用于確定所述關(guān)鍵信息對(duì)應(yīng)的廣告位分類,將所述關(guān)鍵信息添加到與所述 廣告位分類對(duì)應(yīng)的隊(duì)列之中; 所述生成單元具體用于,從與所述廣告位分類對(duì)應(yīng)的所述隊(duì)列中讀取到所述關(guān)鍵信息 之后,利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
10. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于, 所述生成單元具體用于,若所述過濾控制單元確定所述關(guān)鍵信息無需被過濾,則調(diào)用 流式計(jì)算拓?fù)洌运鲫P(guān)鍵信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與所述關(guān)鍵信息匹配 的屬性信息和特征信息;利用所述關(guān)鍵信息、所述屬性信息和所述特征信息,生成廣告投放 預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
11. 根據(jù)權(quán)利要求8至10任一項(xiàng)所述的裝置,其特征在于, 所述過濾控制單元具體用于,若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為點(diǎn)擊,則 確定所述關(guān)鍵信息無需被過濾; 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之外,則確定所述關(guān)鍵信息需被過濾; 或者, 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)還獲取到了包含所述關(guān)鍵信息且點(diǎn) 擊流類型為點(diǎn)擊的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息需要被過濾; 或者, 若確定出所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型為曝光,且所述關(guān)鍵信息所對(duì)應(yīng)的日志時(shí) 間處于第一時(shí)間窗口之內(nèi),且在所述第一時(shí)間窗口之內(nèi)未獲取到了包含所述關(guān)鍵信息且點(diǎn) 擊流類型為點(diǎn)擊和/或曝光的另一點(diǎn)擊流數(shù)據(jù),則確定所述關(guān)鍵信息無需被過濾。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于, 所述第一時(shí)間窗口的時(shí)長范圍為3?10分鐘。
13. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于, 所述關(guān)鍵信息包括廣告標(biāo)識(shí)、廣告位標(biāo)識(shí)和用戶標(biāo)識(shí)。
14. 根據(jù)權(quán)利要求8或9所述的裝置,其特征在于, 所述屬性信息和所述特征信息包括如下信息的至少一種:用戶年齡、用戶活躍度,用戶 性別、廣告主標(biāo)識(shí)、廣告類目信息、廣告圖像信息。
15. -種分布式通信系統(tǒng),其特征在于,包括: 廣告業(yè)務(wù)服務(wù)器和分析預(yù)測(cè)平臺(tái); 其中,所述分析預(yù)測(cè)平臺(tái)用于,從所述廣告業(yè)務(wù)服務(wù)器獲取點(diǎn)擊流數(shù)據(jù);提取所述點(diǎn)擊 流數(shù)據(jù)中包含的關(guān)鍵信息;確定所述關(guān)鍵信息所對(duì)應(yīng)的點(diǎn)擊流類型;確定第一時(shí)間窗口; 根據(jù)所述關(guān)鍵信息對(duì)應(yīng)的點(diǎn)擊流類型,以及所述關(guān)鍵信息對(duì)應(yīng)的日志時(shí)間與所述第一時(shí)間 窗口的對(duì)應(yīng)關(guān)系,確定所述關(guān)鍵信息是否需要被過濾;若確定所述關(guān)鍵信息無需被過濾,則 利用所述關(guān)鍵信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
16. 根據(jù)權(quán)利要求15所述的通信系統(tǒng),其特征在于,在利用所述關(guān)鍵信息生成廣告投 放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)的方面,所述分析預(yù)測(cè)平臺(tái)具體用于,調(diào)用流式計(jì)算拓?fù)?,以所述關(guān) 鍵信息為索引,在在線存儲(chǔ)服務(wù)器中查找出與所述關(guān)鍵信息匹配的屬性信息和特征信息, 利用所述關(guān)鍵信息、所述屬性信息和所述特征信息生成廣告投放預(yù)測(cè)模型的訓(xùn)練數(shù)據(jù)。
【文檔編號(hào)】G06Q30/02GK104091276SQ201310672117
【公開日】2014年10月8日 申請(qǐng)日期:2013年12月10日 優(yōu)先權(quán)日:2013年12月10日
【發(fā)明者】王洋, 張書彬, 薛偉, 李勇, 肖磊, 劉大鵬, 言艷花, 姜磊, 郭偉昭, 胡少鋒, 柳金晶, 黃丕培, 徐妙, 蔡斌 申請(qǐng)人:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司