本發(fā)明涉及移動廣告領域,特別涉及一種分離式混合移動廣告推薦方法。
背景技術:
:隨著移動互聯(lián)網(wǎng)的普及和飛速發(fā)展,推薦系統(tǒng)也已經(jīng)被廣泛應用于各種領域,例如移動電子商務領域,App移動廣告領域。移動應用廣告是通過移動終端設備訪問移動應用時顯示的廣告,移動應用廣告形式包括橫幅廣告、插播廣告、積分墻廣告、視頻廣告、激勵下載安裝應用等。當前,移動終端的移動應用程序(APP)常常通過移動廣告軟件開發(fā)包(SDK)采集移動終端信息,并發(fā)送至后臺服務器,后臺服務器利用移動終端信息和廣告信息等計算得到合適的推薦廣告,并將推薦廣告推送至移動終端進行展示,渲染。然而,一方面隨著移動用戶和數(shù)據(jù)的急劇增長,后臺服務器的計算壓力越來越大;另一方面移動終端的情境快速變化,移動應用廣告推薦的實時性要求越來越高,同時廣告服務商和用戶對廣告推薦的有效性要求也越來越高。技術實現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術的缺點與不足,提供一種分離式混合移動廣告推薦方法。本發(fā)明的目的通過下述技術方案實現(xiàn):一種分離式混合移動廣告推薦方法,包括以下步驟:步驟1、服務器對收集到的移動應用廣告日志進行預處理,將預處理后的日志數(shù)據(jù)文件保存在使用分布式文件系統(tǒng)實現(xiàn)的存儲模塊中;步驟2、所述服務器使用基于協(xié)同過濾和基于內(nèi)容推薦的混合推薦算法對步驟1所述存儲模塊中的日志數(shù)據(jù)和廣告數(shù)據(jù)進行混合廣告推薦計算,得到各個移動終端用戶的推薦廣告ID列表,所述ID表示標識碼;步驟3、移動終端的移動應用程序通過移動廣告軟件開發(fā)包向所述服務器提出移動廣告推薦請求,所述服務器向所述移動應用程序推送所述推薦廣告ID列表及對應廣告屬性,所述移動應用程序采用APP表示,所述移動廣告軟件開發(fā)包采用SDK表示;步驟4、所述移動應用程序接收推薦廣告ID列表及對應廣告屬性,所述移動應用程序利用移動終端收集的實時細粒度情境信息得到情境屬性,利用情境屬性,根據(jù)實時情境過濾算法在所述廣告推薦列表中篩選得到最終推薦廣告ID;步驟5、所述移動應用程序根據(jù)最終推薦廣告ID向所述服務器請求所述最終推薦廣告,所述服務器發(fā)送最終推薦廣告信息,所述移動應用程序接收最終推薦廣告信息,進行廣告展示。步驟2所述混合廣告推薦計算是離線的分布式計算;所述離線的分布式計算是由服務器周期性觸發(fā)混合廣告推薦計算,以及所述廣告數(shù)據(jù)的更新觸發(fā)混合廣告推薦計算。步驟1所述移動應用廣告日志包括操作時間戳、移動設備標識符、IP地址、地理位置、應用標識符、廣告標識符和用戶對移動應用廣告的操作行為標識;所述用戶對移動應用廣告的操作行為的類型包括廣告瀏覽行為、廣告點擊行為、移動應用下載行為和移動應用安裝行為;可選地,所述移動應用廣告日志還包括移動設備型號、移動設備操作系統(tǒng)及版本、移動終端接入網(wǎng)絡方式、及其他移動終端特征和其他接入網(wǎng)絡特征;步驟2所述的廣告數(shù)據(jù)是移動廣告的廣告標識符、廣告名稱、廣告屬性和廣告有效期。步驟1所述的預處理步驟如下:對于所述移動應用廣告日志的所有記錄,進行作弊數(shù)據(jù)和噪聲數(shù)據(jù)過濾,得到過濾的數(shù)據(jù)集后,根據(jù)如下規(guī)則對剩余記錄進行打分:某個APP上的特定廣告的動作作為集合,根據(jù)每個集合中動作的完整性評分,動作越完整,得分越高,所述特定廣告的動作為展示、點擊、下載和安裝等;可選的,所述集合中動作的完整性是指:移動廣告在所述移動應用程序上,如果按照“廣告展示-廣告點擊-廣告任務完成(如廣告APP下載、廣告APP安裝)”的順序發(fā)生,則定義為廣告的動作是完整的,動作越完整的廣告,得分越高;可選地,5分為最高分,1分為最低分,未評分的廣告定義為0分。步驟2所述基于協(xié)同過濾和基于內(nèi)容推薦的混合推薦算法包含如下步驟:步驟2.1:使用相似度計算方法對“用戶-廣告”評分矩陣計算目標用戶的協(xié)同相似度,可選的,使用皮爾遜相似度計算方法計算目標用戶的相似度;步驟2.2:對步驟2.1計算得到的用戶協(xié)同相似度進行排序,并選取計算結果最高的n個用戶作為協(xié)同近鄰用戶集;步驟2.3:根據(jù)廣告的廣告屬性,比較目標用戶與協(xié)同近鄰用戶集中各個用戶的歷史關注廣告的內(nèi)容相關性,從協(xié)同近鄰用戶集中篩選內(nèi)容相關性最高的m個用戶作為混合近鄰用戶;所述歷史關注廣告是指用戶曾經(jīng)點擊操作過的廣告;步驟2.4:結合目標用戶的對已評分廣告的平均評分,對步驟2.3中目標用戶的m個混合近鄰用戶使用加權平均算法來預測目標用戶對在廣告有效期內(nèi)還未評分的廣告的評分;步驟2.5:對目標用戶的在廣告有效期的各個廣告評分進行排序,選取評分最高的K個廣告為推薦廣告集,推薦廣告集中的廣告ID構成目標用戶的推薦廣告ID列表;缺省地,選取n值為m值的3倍。步驟4所述實時情境過濾算法是指:根據(jù)移動終端收集的實時細粒度情境信息得到情境屬性,利用模糊數(shù)學方法計算所述推薦廣告ID列表中的各個廣告與所述情境屬性的模糊相關度,并按所述模糊相關度從高到低排序,得到最終推薦廣告。本發(fā)明的目的也可以通過以下技術方案實現(xiàn):一種分離式混合移動廣告推薦方法,包括:服務器對收集到的移動應用廣告日志進行預處理,并將預處理后的數(shù)據(jù)存儲在所述存儲模塊中;所述服務器使用基于協(xié)同過濾和基于內(nèi)容推薦的混合推薦算法對所述存儲模塊中的日志數(shù)據(jù)和廣告數(shù)據(jù)進行混合廣告推薦計算,得到各個移動終端用戶或移動終端用戶組的廣告推薦列表;所述移動終端的移動應用程序(APP)通過移動廣告軟件開發(fā)包(SDK)向所述服務器提出移動廣告推薦請求,所述服務器向所述移動應用程序推送所述廣告推薦列表及對應廣告的廣告屬性;所述移動應用程序接收所述廣告推薦列表,根據(jù)移動終端的移動情境信息,在所述廣告推薦列表中篩選得到最終推薦廣告,然后向所述服務器請求所述最終推薦廣告,并在所述移動應用程序中展示。所述移動應用廣告日志包括操作時間戳、移動設備標識符、IP地址、地理位置、應用標識符、廣告標識符、用戶對移動應用廣告的操作行為標識;所述用戶對移動應用廣告的操作行為的類型包括廣告瀏覽行為、廣告點擊行為、移動應用下載行為、移動應用安裝行為;可選地,所述移動應用廣告日志還包括移動設備型號、移動設備操作系統(tǒng)及版本、移動終端接入網(wǎng)絡方式、及其他移動終端特征和其他接入網(wǎng)絡特征。所述的廣告數(shù)據(jù)是移動廣告的廣告標識符、廣告名稱、廣告屬性和廣告有效期。所述混合廣告推薦計算是在線的或離線的分布式計算。所述離線的分布式計算是由服務器周期性觸發(fā)所述混合廣告推薦計算,以及所述廣告數(shù)據(jù)的更新觸發(fā)所述混合廣告推薦計算。進一步的,所述混合推薦算法包括如下步驟:步驟1:使用相似度計算方法對“用戶-廣告”評分矩陣計算目標用戶的協(xié)同相似度??蛇x的,使用皮爾遜相似度計算方法計算目標用戶的相似度。步驟2:對步驟1計算得到的用戶協(xié)同相似度進行排序,并選取計算結果最高的n個用戶作為協(xié)同近鄰用戶集。步驟3:根據(jù)廣告的廣告屬性,比較目標用戶與協(xié)同近鄰用戶集中各個用戶的歷史關注廣告的內(nèi)容相關性,從協(xié)同近鄰用戶集中篩選內(nèi)容相關性最高的m個用戶作為混合近鄰用戶。所述歷史關注廣告是指用戶曾經(jīng)點擊操作過的廣告。缺省地,選取n值為m值的3倍。步驟4:結合目標用戶的對已評分廣告的平均評分,對步驟3中目標用戶的m個混合近鄰用戶使用加權平均算法來預測目標用戶對在廣告有效期內(nèi)還未評分的廣告的評分。步驟5:對目標用戶的在廣告有效期的各個廣告評分進行排序,選取評分最高的K個廣告為推薦廣告集,推薦廣告集中的廣告ID構成目標用戶的推薦廣告ID列表。所述分離式混合移動廣告推薦系統(tǒng)使用的分布式文件系統(tǒng),缺省地,選擇HDFS(Hadoop分布式文件系統(tǒng))存儲海量移動應用廣告用戶日志文件,所述日志文件根據(jù)一定的預處理方法整理成協(xié)同過濾算法過程中讀入的“用戶-廣告-評分”格式。所述服務器對收集到的移動應用廣告日志進行預處理,包括作弊數(shù)據(jù)過濾和噪聲數(shù)據(jù)過濾、對合法數(shù)據(jù)打分兩個階段。所述作弊數(shù)據(jù)過濾和噪聲數(shù)據(jù)過濾是指:對于所述移動應用廣告日志的所有記錄,在設定的時間粒度里,廣告在所述移動應用程序(APP)頻繁出現(xiàn)廣告展示、廣告點擊、廣告下載、廣告點擊等廣告動作,且上述廣告動作發(fā)生的頻率超過正常用戶對廣告的交互頻率,這樣的廣告視為不合理的、作弊的,將這樣的移動廣告數(shù)據(jù)定義為作弊數(shù)據(jù);廣告數(shù)據(jù)因為移動廣告軟件開發(fā)包(SDK)收集時發(fā)生網(wǎng)絡異常、時間戳偏差、用戶錯誤點擊等不正常因素,導致所述廣告數(shù)據(jù)與正常廣告數(shù)據(jù)差異過大,這樣的數(shù)據(jù)視為噪聲數(shù)據(jù)。上述作弊數(shù)據(jù)和噪聲數(shù)據(jù)在預處理階段剔除。所述對合法數(shù)據(jù)打分是指:某個APP上的特定廣告的動作(展示、點擊、下載和安裝等)作為集合,根據(jù)每個集合中動作的完整性評分,動作越完整,得分越高??蛇x的,所述用以判斷移動應用廣告日志噪聲所設定的時間粒度為5秒??蛇x的,所述集合中動作的完整性是指:移動廣告在所述移動應用程序上,按照“廣告展示-廣告點擊-廣告任務(如廣告APP下載、廣告APP安裝)”的順序發(fā)生。如果廣告按照上述順序產(chǎn)生動作記錄,則定義為廣告的動作是完整的,動作越完整的廣告,得分越高。其中,5分為最高分,1分為最低分。特別地,在所述的協(xié)同過濾算法中,未評分的項目定義為0分。所述移動應用程序根據(jù)移動終端的移動情境信息,在所述廣告推薦列表中篩選得到最終推薦廣告,具體步驟如下:所述移動終端接收并緩存推薦系統(tǒng)模塊推送過來的k個推薦廣告ID列表,當所述移動終端細粒度的情境信息變化時,所述移動終端根據(jù)移動情境信息得到情境屬性,利用模糊數(shù)學計算推薦廣告ID列表的各個廣告與所述情境屬性的模糊相關度,并按照所述模糊相關度從高到低排序,得到最終推薦廣告。所述移動應用程序向所述服務器請求所述最終推薦廣告,并在所述移動應用程序中展示。本發(fā)明相對于現(xiàn)有技術具有如下的優(yōu)點及效果:1、本發(fā)明有效解決了現(xiàn)有技術的移動廣告的推薦問題,降低了后臺服務器的計算壓力,提高了移動應用廣告推薦的實時性和有效性。2、本發(fā)明的分離式混合移動廣告推薦方法包括對收集到的移動應用廣告日志進行預處理,將預處理后的日志數(shù)據(jù)文件保存在使用分布式文件系統(tǒng)實現(xiàn)的存儲模塊中,并通過基于協(xié)同過濾算法和基于內(nèi)容推薦的混合推薦方法計算移動廣告推薦列表;根據(jù)移動終端移動應用程序請求,推送移動廣告推薦列表及對應廣告的廣告屬性到移動終端;移動終端移動應用程序利用移動終端的實時細粒度情境信息,根據(jù)實時情境過濾算法在廣告推薦列表中篩選得到最終推薦廣告,移動應用程序向所述服務器請求最終推薦廣告信息,在移動終端進行廣告展示,有效地提升了移動應用廣告推薦的實時性和有效性。附圖說明圖1是本分離式混合移動廣告推薦方法的一種典型流程示意圖。具體實施方式下面結合實施例及附圖對本發(fā)明作進一步詳細的描述,但本發(fā)明的實施方式不限于此。實施例分離式混合移動廣告推薦方法的一種典型流程示意圖,如圖1所示。在步驟1中,所述服務器對收集到的移動應用廣告日志進行預處理,包括作弊數(shù)據(jù)過濾和噪聲數(shù)據(jù)過濾、對合法數(shù)據(jù)打分兩個階段。所述作弊數(shù)據(jù)過濾和噪聲數(shù)據(jù)過濾是指:對于所述移動應用廣告日志的所有記錄,在設定的時間粒度里,廣告在所述移動應用程序(APP)頻繁出現(xiàn)廣告展示、廣告點擊、廣告下載、廣告點擊等廣告動作,且上述廣告動作發(fā)生的頻率超過正常用戶對廣告的交互頻率,這樣的廣告視為不合理的、作弊的,將這樣的移動廣告數(shù)據(jù)定義為作弊數(shù)據(jù);廣告數(shù)據(jù)因為移動廣告軟件開發(fā)包(SDK)收集時發(fā)生網(wǎng)絡異常、時間戳偏差、用戶錯誤點擊等不正常因素,導致所述廣告數(shù)據(jù)與正常廣告數(shù)據(jù)差異過大,這樣的數(shù)據(jù)視為噪聲數(shù)據(jù)。上述作弊數(shù)據(jù)和噪聲數(shù)據(jù)在預處理階段剔除。所述對合法數(shù)據(jù)打分是指:某個APP上的特定廣告的動作(展示、點擊、下載和安裝等)作為集合,根據(jù)每個集合中動作的完整性評分,動作越完整,得分越高。缺省地,所述判斷移動應用廣告日志數(shù)據(jù)是否為噪聲所設定的時間粒度為5秒??蛇x的,所述集合中動作的完整性是指:移動廣告在所述移動應用程序上,按照“廣告展示-廣告點擊-廣告下載-廣告安裝”的順序發(fā)生。如果廣告按照上述順序產(chǎn)生動作記錄,則定義為廣告的動作是完整的,動作越完整的廣告,得分越高。其中,5分為最高分,1分為最低分。特別地,在所述的協(xié)同過濾算法中,未評分的項目定義為0分。進一步地,對初始移動應用用戶日志文件預處理后,保存在以分布式文件系統(tǒng)HDFS為實現(xiàn)基礎的存儲模塊中。步驟2,所述服務器使用基于協(xié)同過濾和基于內(nèi)容推薦的混合推薦算法對所述存儲模塊中的日志數(shù)據(jù)和廣告數(shù)據(jù)進行混合廣告推薦計算,得到各個移動終端用戶或移動終端用戶組的廣告推薦列表。所述分離式混合移動廣告推薦系統(tǒng)推薦模塊使用基于協(xié)同過濾和基于內(nèi)容策略做離線運算,預先計算推薦廣告集。所述協(xié)同過濾算法包含如下步驟:1)使用“用戶-廣告”評分矩陣計算用戶的相似度,缺省地,使用皮爾遜相似度計算用戶的相似度,具體計算方法如公示(1)所示。皮爾遜相似度計算公式:其中,w(a,i)表示與活躍用戶(activeuser)或者說目標用戶相似度最高的n個用戶的權重;vi,j表示用戶i對廣告j的評分;表示活躍用戶已評分廣告的平均評分,表示其他用戶對已評分廣告的平均評分,計算公式如(2)所示,平均評分計算公式:其中,Ii表示用戶i已評分過的所有廣告的集合。2)對步驟1)的相似度計算公式得到結果進行排序,并選取計算結果最高的n個用戶作為鄰居用戶,用以后續(xù)步驟中計算評分的候選數(shù)據(jù)集。3)對步驟2)中的n個鄰居用戶使用加權平均算法來預測活躍用戶對還未評分的項目的評分。使用公示(3)來預測活躍用戶對還未評分的項目的評分,活躍用戶a對未評分目標項目j的評分的計算公式如下:公示(3)表明應用相似度加權法來計算預測評分其中,k表示歸一化因子。基于內(nèi)容推薦策略作為對協(xié)同過濾缺乏廣告(或物品)內(nèi)容上相似考慮的補充??紤]如表1(用戶廣告點擊行為表)所示的用戶點擊廣告的場景(如用戶a點擊廣告j,則對于的值為1):表1如果考慮用戶在廣告行為記錄上的相似度,目標用戶Target和user1、user2都有相似的興趣,他們都同時對廣告2感興趣,但是如果再根據(jù)廣告在內(nèi)容上的考慮,比如在列表2(廣告類型屬性表)中,我們假設廣告1到5的類型屬性如下:廣告類型廣告1生活實用廣告2娛樂廣告3娛樂廣告4娛樂廣告5生活實用表2實際上,User2對廣告的關注包括了生活實用類型和娛樂類型,表現(xiàn)不確定,相比較而言,User1跟Target用戶有著更高的相似度,專注于娛樂型,因此用戶Target與用戶User1的相似度大于與User2的相似度。在步驟3中,移動終端的移動應用程序(APP)通過移動廣告軟件開發(fā)包(SDK)向所述服務器提出移動廣告推薦請求,所述服務器向所述移動應用程序推送所述廣告推薦列表。最后,所述移動應用程序接收所述廣告推薦列表,所述移動應用程序根據(jù)移動終端的移動情境信息,在所述廣告推薦列表中篩選得到最終推薦廣告,然后向所述服務器請求所述最終推薦廣告,并在所述移動應用程序中展示。具體步驟如下:所述移動終端接收并緩存推薦系統(tǒng)模塊推送過來的k個推薦廣告ID列表,當所述移動終端有更細粒度的情境信息變化時,所述移動終端根據(jù)移動情境信息得到情境屬性,計算情境屬性與k個推薦廣告的相關性,并按照此相關性從高到低排序,得到最終推薦廣告。所述多維細粒度情境相關性計算按如下步驟進行:1)選取時間,日期,廣告類型作為篩選指標,其中,三種情境的數(shù)值映射關系如表3所示。情境維度原始取值(物理意義)數(shù)值類型時間上午/AM07:00–AM11:001午餐/AM11:00–PM02:002下午/PM02:00–PM05:003晚餐/PM05:00–PM08:004晚上/PM08:00–PM12:005深夜/AM00:00–AM07:006日期工作日(周一至周五)1周末(周六日)2廣告類型娛樂型1實用型2其他3表32)使用余弦相似度公示計算情境相似度,計算公式如公示(4)所示:其中,w(a,i)表示用戶a與用戶i的情境相似度;sa,j,si,j分別表示用戶a和用戶i在情境j下的數(shù)值;Ca和Ci分別表示用戶a和用戶i的情境集合,事實上,這兩者包含的內(nèi)容是完全相同的,即時間,日期,廣告類型三種篩選指標。通過上述情境相似度的計算得到wc,按照步驟2計算用戶相似度wu,兩者的乘積wc*wu作為最終協(xié)同過濾使用的綜合相似度,篩選得到最終推薦廣告。進一步的,所述移動應用程序向所述服務器請求所述最終推薦廣告,并在所述移動應用程序中展示。上述實施例僅用于說明本發(fā)明的技術方案而非限制。本領域的專業(yè)人員可以對本發(fā)明的技術方案進行修改或同等替換,而不脫離本發(fā)明的技術方案的精神和范圍,均應涵蓋在本發(fā)明的權利要求范圍中。當前第1頁1 2 3