本發(fā)明涉及大數(shù)據(jù)分析領(lǐng)域,特別是涉及一種搜索數(shù)據(jù)處理的方法以及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)應(yīng)用于各行各業(yè),使得搜索引擎也應(yīng)用于各行各業(yè),搜索已經(jīng)成了日常生活、工作、學(xué)習(xí)的一部分。
在利用搜索引擎搜索時,由于用戶基數(shù)較大等原因,可能會產(chǎn)生極其龐大的數(shù)據(jù)。為了從海量的搜索數(shù)據(jù)中挖掘出有用的信息,需要對搜索數(shù)據(jù)進(jìn)行處理。但是,由于搜索數(shù)據(jù)的特性,例如,數(shù)據(jù)規(guī)模龐雜、數(shù)據(jù)流轉(zhuǎn)速度快、數(shù)據(jù)類型多樣化以及價值密度低等特點(diǎn),依靠傳統(tǒng)數(shù)據(jù)庫或者是傳統(tǒng)數(shù)據(jù)處理方式來存儲以及運(yùn)算這些搜索數(shù)據(jù),會使得處理效率極低。而對用戶搜索數(shù)據(jù)處理得出的結(jié)果可以用于對引擎進(jìn)行優(yōu)化,運(yùn)用傳統(tǒng)的數(shù)據(jù)方式來處理搜索數(shù)據(jù)會使得引擎優(yōu)化的效率較低。
如何提高搜索數(shù)據(jù)的處理效率,進(jìn)而提高引擎優(yōu)化效率是本領(lǐng)域技術(shù)人員亟待解決的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種搜索數(shù)據(jù)處理的方法,目的在于解決現(xiàn)有技術(shù)中搜索數(shù)據(jù)的處理效率較低進(jìn)而導(dǎo)致引擎優(yōu)化效率較低的問題。
為解決上述技術(shù)問題,本發(fā)明提供一種搜索數(shù)據(jù)處理的方法,該方法包括:
獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);
根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;
基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。
可選地,在所述基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果之后還包括:
根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。
可選地,所述獲取多個搜索引擎用戶的用戶行為數(shù)據(jù)包括:
從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。
可選地,所述根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型包括:
提取所述用戶行為數(shù)據(jù)的維度指標(biāo);
對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。
可選地,在所述根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作之后還包括:
獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。
此外,本發(fā)明還提供了一種搜索數(shù)據(jù)處理的裝置,該裝置包括:
獲取模塊,用于獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);
模型建立模塊,用于根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包括用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;
分布式處理模塊,用于基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。
可選地,還包括:
優(yōu)化模塊,用于根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。
可選地,所述獲取模塊包括:
讀取單元,用于從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。
可選地,所述模型建立模塊包括:
提取單元,用于提取所述用戶行為數(shù)據(jù)的維度指標(biāo);
分析建立單元,用于對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。
可選地,還包括:
個性化推薦模塊,用于獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。
本發(fā)明所提供的一種搜索數(shù)據(jù)處理的方法,通過獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);根據(jù)用戶行為數(shù)據(jù),建立用戶行為分析模型,用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;基于用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率??梢姡旧暾埢诜植际教幚硭阉鲾?shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。
附圖說明
為了更清楚的說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理方法的一種具體實(shí)施方式的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)說明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請參見圖1,圖1為本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理方法的一種具體實(shí)施方式的流程示意圖,該方法包括以下步驟:
步驟101:獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);
具體地,可以從存儲有用戶行為數(shù)據(jù)的存儲介質(zhì)中讀取到所需的用戶,例如,從搜索引擎廠商的數(shù)據(jù)庫中直接讀取所需的用戶數(shù)據(jù)。
可以理解的是,上述多個搜索引擎用戶可以是指大量使用某個搜索引擎的用戶,這些用戶在搜索引擎上注冊有相應(yīng)的用戶賬號,即該用戶是搜索引擎的注冊用戶。當(dāng)然,搜索引擎用戶也可以是指非注冊用戶。
而用戶行為數(shù)據(jù)可以是包括用戶的基本信息、瀏覽記錄以及搜索記錄等等內(nèi)容,其可以具體表現(xiàn)為用戶日志數(shù)據(jù),即可以通過讀取數(shù)據(jù)庫中的用戶日志數(shù)據(jù),以獲取上述用戶行為數(shù)據(jù)。
由于所需讀取的用戶行為數(shù)據(jù)的規(guī)模較大,為了提高讀取的效率,可以預(yù)先將數(shù)據(jù)分布式存儲于多個不同的服務(wù)器中,這樣在讀取時可以同時從多個服務(wù)器中讀取所需的數(shù)據(jù),即并行地讀取所需的用戶行為數(shù)據(jù)。
作為一種具體實(shí)施方式,并行讀取的過程可以具體為:從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。
將用戶行為數(shù)據(jù)進(jìn)行分布式存儲,以并行地讀取所需的數(shù)據(jù),即可以保證數(shù)據(jù)訪問的時效性,也可以滿足一定容錯性的數(shù)據(jù)存儲功能,還可以提高了數(shù)據(jù)讀取速率,進(jìn)而間接地提高了搜索數(shù)據(jù)的處理效率。
顯而易見地,并行讀取所需數(shù)據(jù)只是一種優(yōu)選的實(shí)施方式,使用其它方式讀取數(shù)據(jù)并不影響本發(fā)明實(shí)施例的實(shí)現(xiàn)。
步驟102:根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;
需要說明的是,由于用戶行為數(shù)據(jù)中可以包括由用戶的搜索記錄以及瀏覽記錄。根據(jù)用戶行為數(shù)據(jù)建立的用戶行為分析模型,其模型內(nèi)包含有相應(yīng)的對應(yīng)關(guān)系,該對應(yīng)關(guān)系可以為用戶搜索歷史數(shù)據(jù)與用戶行為之間的關(guān)系。上述的用戶搜索歷史數(shù)據(jù)可以是指上述的搜索記錄。
具體地,可以對所獲取的用戶行為數(shù)據(jù)進(jìn)行不同維度提取,根據(jù)所提取的維度指標(biāo)建立相應(yīng)的模型。
作為一種具體實(shí)施方式,模型的建立的過程可以具體為:提取所述用戶行為數(shù)據(jù)的維度指標(biāo);對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。
數(shù)據(jù)模型的建立可以為后續(xù)的用戶行為分析以及簡化運(yùn)算提供了可能。
顯而易見地,基于用戶行為數(shù)據(jù)建立相應(yīng)的數(shù)據(jù)模型,是利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的,而數(shù)據(jù)挖掘為本領(lǐng)域技術(shù)人員所熟知的技術(shù),在此不再贅述。
步驟103:基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。
具體地,利用上述用戶行為分析模型內(nèi)所包含的對應(yīng)關(guān)系,以及相應(yīng)地分布式計算框架算法,對數(shù)據(jù)進(jìn)行并行處理,即并行地對用戶行為數(shù)據(jù)的不同維度進(jìn)行分析挖掘,以得出最終的分析結(jié)果。
上述用戶行為模式分析結(jié)果可以是指用戶行為規(guī)律,用戶行為規(guī)律可以是指用戶行為共性。從大量的用戶行為數(shù)據(jù)中,利用設(shè)定的數(shù)據(jù)模型,剝離出搜索引擎用戶的行為共性。
找出用戶行為共性后,可以利用得出的分析結(jié)果對搜索引擎進(jìn)行優(yōu)化,以更快更好地匹配滿足用戶的需求。
作為一種具體實(shí)施方式,得出相應(yīng)用戶行為模式分析結(jié)果后,還可以包括:根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。
可以理解的是,根據(jù)從大量用戶行為數(shù)據(jù)中得出的用戶行為共性,對搜索引擎進(jìn)行優(yōu)化,以使搜索引擎可以在用戶搜索時,搜索引擎可以以高效率以及高準(zhǔn)確率來滿足用戶的需求。
除了可以利用所得出的用戶行為模式分析結(jié)果對搜索引擎進(jìn)行優(yōu)化之外,還可以利用上述用戶行為模式分析結(jié)果來向搜索引擎用戶推薦個性化內(nèi)容,以迎合不同用戶的不同需求。
作為一種具體實(shí)施方式,其個性化推薦過程可以具體為:獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。
需要說明的是,上述當(dāng)前用戶可以是指搜索引擎的注冊用戶,也可以是指搜索引擎的非注冊用戶。上述歷史搜索數(shù)據(jù)可以是指當(dāng)前用戶的瀏覽時所留下的記錄,用戶的瀏覽痕跡一般存儲于相應(yīng)的用戶日志中。
基于用戶的歷史搜索數(shù)據(jù),以及建立的用戶行為分析模型,以得出當(dāng)前用戶的興趣偏好。然后可以根據(jù)用戶的興趣偏好,向用戶推送一些個性化的信息內(nèi)容。
對用戶行為數(shù)據(jù)進(jìn)行分析,以向用戶推送個性化內(nèi)容,可以使得用戶的使用體驗較高。
本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理的方法,運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率??梢?,該方法基于分布式處理搜索數(shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。
下面對本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置進(jìn)行介紹,下文描述的搜索數(shù)據(jù)處理裝置與上文描述的搜索數(shù)據(jù)處理方法可相互對應(yīng)參照。
圖2為本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖,參照圖2搜索數(shù)據(jù)處理裝置可以包括:
獲取模塊201,用于獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);
模型建立模塊202,用于根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包括用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;
分布式處理模塊203,用于基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。
可選地,還包括:
優(yōu)化模塊,用于根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。
可選地,所述獲取模塊包括:
讀取單元,用于從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。
可選地,所述模型建立模塊包括:
提取單元,用于提取所述用戶行為數(shù)據(jù)的維度指標(biāo);
分析建立單元,用于對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。
可選地,還包括:
個性化推薦模塊,用于獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。
本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理的裝置,運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率。可見,該裝置基于分布式處理搜索數(shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。
本說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其它實(shí)施例的不同之處,各個實(shí)施例之間相同或相似部分互相參見即可。對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。
專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。
以上對本發(fā)明所提供的一種搜索數(shù)據(jù)處理的方法以及裝置進(jìn)行了詳細(xì)介紹。本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。