欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種搜索數(shù)據(jù)處理的方法以及裝置與流程

文檔序號:12667452閱讀:269來源:國知局
一種搜索數(shù)據(jù)處理的方法以及裝置與流程

本發(fā)明涉及大數(shù)據(jù)分析領(lǐng)域,特別是涉及一種搜索數(shù)據(jù)處理的方法以及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,互聯(lián)網(wǎng)已經(jīng)應(yīng)用于各行各業(yè),使得搜索引擎也應(yīng)用于各行各業(yè),搜索已經(jīng)成了日常生活、工作、學(xué)習(xí)的一部分。

在利用搜索引擎搜索時,由于用戶基數(shù)較大等原因,可能會產(chǎn)生極其龐大的數(shù)據(jù)。為了從海量的搜索數(shù)據(jù)中挖掘出有用的信息,需要對搜索數(shù)據(jù)進(jìn)行處理。但是,由于搜索數(shù)據(jù)的特性,例如,數(shù)據(jù)規(guī)模龐雜、數(shù)據(jù)流轉(zhuǎn)速度快、數(shù)據(jù)類型多樣化以及價值密度低等特點(diǎn),依靠傳統(tǒng)數(shù)據(jù)庫或者是傳統(tǒng)數(shù)據(jù)處理方式來存儲以及運(yùn)算這些搜索數(shù)據(jù),會使得處理效率極低。而對用戶搜索數(shù)據(jù)處理得出的結(jié)果可以用于對引擎進(jìn)行優(yōu)化,運(yùn)用傳統(tǒng)的數(shù)據(jù)方式來處理搜索數(shù)據(jù)會使得引擎優(yōu)化的效率較低。

如何提高搜索數(shù)據(jù)的處理效率,進(jìn)而提高引擎優(yōu)化效率是本領(lǐng)域技術(shù)人員亟待解決的問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是提供一種搜索數(shù)據(jù)處理的方法,目的在于解決現(xiàn)有技術(shù)中搜索數(shù)據(jù)的處理效率較低進(jìn)而導(dǎo)致引擎優(yōu)化效率較低的問題。

為解決上述技術(shù)問題,本發(fā)明提供一種搜索數(shù)據(jù)處理的方法,該方法包括:

獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);

根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;

基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。

可選地,在所述基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果之后還包括:

根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。

可選地,所述獲取多個搜索引擎用戶的用戶行為數(shù)據(jù)包括:

從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。

可選地,所述根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型包括:

提取所述用戶行為數(shù)據(jù)的維度指標(biāo);

對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。

可選地,在所述根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作之后還包括:

獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。

此外,本發(fā)明還提供了一種搜索數(shù)據(jù)處理的裝置,該裝置包括:

獲取模塊,用于獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);

模型建立模塊,用于根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包括用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;

分布式處理模塊,用于基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。

可選地,還包括:

優(yōu)化模塊,用于根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。

可選地,所述獲取模塊包括:

讀取單元,用于從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。

可選地,所述模型建立模塊包括:

提取單元,用于提取所述用戶行為數(shù)據(jù)的維度指標(biāo);

分析建立單元,用于對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。

可選地,還包括:

個性化推薦模塊,用于獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。

本發(fā)明所提供的一種搜索數(shù)據(jù)處理的方法,通過獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);根據(jù)用戶行為數(shù)據(jù),建立用戶行為分析模型,用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;基于用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率??梢姡旧暾埢诜植际教幚硭阉鲾?shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。

附圖說明

為了更清楚的說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理方法的一種具體實(shí)施方式的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖。

具體實(shí)施方式

為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步的詳細(xì)說明。顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

請參見圖1,圖1為本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理方法的一種具體實(shí)施方式的流程示意圖,該方法包括以下步驟:

步驟101:獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);

具體地,可以從存儲有用戶行為數(shù)據(jù)的存儲介質(zhì)中讀取到所需的用戶,例如,從搜索引擎廠商的數(shù)據(jù)庫中直接讀取所需的用戶數(shù)據(jù)。

可以理解的是,上述多個搜索引擎用戶可以是指大量使用某個搜索引擎的用戶,這些用戶在搜索引擎上注冊有相應(yīng)的用戶賬號,即該用戶是搜索引擎的注冊用戶。當(dāng)然,搜索引擎用戶也可以是指非注冊用戶。

而用戶行為數(shù)據(jù)可以是包括用戶的基本信息、瀏覽記錄以及搜索記錄等等內(nèi)容,其可以具體表現(xiàn)為用戶日志數(shù)據(jù),即可以通過讀取數(shù)據(jù)庫中的用戶日志數(shù)據(jù),以獲取上述用戶行為數(shù)據(jù)。

由于所需讀取的用戶行為數(shù)據(jù)的規(guī)模較大,為了提高讀取的效率,可以預(yù)先將數(shù)據(jù)分布式存儲于多個不同的服務(wù)器中,這樣在讀取時可以同時從多個服務(wù)器中讀取所需的數(shù)據(jù),即并行地讀取所需的用戶行為數(shù)據(jù)。

作為一種具體實(shí)施方式,并行讀取的過程可以具體為:從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。

將用戶行為數(shù)據(jù)進(jìn)行分布式存儲,以并行地讀取所需的數(shù)據(jù),即可以保證數(shù)據(jù)訪問的時效性,也可以滿足一定容錯性的數(shù)據(jù)存儲功能,還可以提高了數(shù)據(jù)讀取速率,進(jìn)而間接地提高了搜索數(shù)據(jù)的處理效率。

顯而易見地,并行讀取所需數(shù)據(jù)只是一種優(yōu)選的實(shí)施方式,使用其它方式讀取數(shù)據(jù)并不影響本發(fā)明實(shí)施例的實(shí)現(xiàn)。

步驟102:根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包含用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;

需要說明的是,由于用戶行為數(shù)據(jù)中可以包括由用戶的搜索記錄以及瀏覽記錄。根據(jù)用戶行為數(shù)據(jù)建立的用戶行為分析模型,其模型內(nèi)包含有相應(yīng)的對應(yīng)關(guān)系,該對應(yīng)關(guān)系可以為用戶搜索歷史數(shù)據(jù)與用戶行為之間的關(guān)系。上述的用戶搜索歷史數(shù)據(jù)可以是指上述的搜索記錄。

具體地,可以對所獲取的用戶行為數(shù)據(jù)進(jìn)行不同維度提取,根據(jù)所提取的維度指標(biāo)建立相應(yīng)的模型。

作為一種具體實(shí)施方式,模型的建立的過程可以具體為:提取所述用戶行為數(shù)據(jù)的維度指標(biāo);對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。

數(shù)據(jù)模型的建立可以為后續(xù)的用戶行為分析以及簡化運(yùn)算提供了可能。

顯而易見地,基于用戶行為數(shù)據(jù)建立相應(yīng)的數(shù)據(jù)模型,是利用數(shù)據(jù)挖掘技術(shù)實(shí)現(xiàn)的,而數(shù)據(jù)挖掘為本領(lǐng)域技術(shù)人員所熟知的技術(shù),在此不再贅述。

步驟103:基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。

具體地,利用上述用戶行為分析模型內(nèi)所包含的對應(yīng)關(guān)系,以及相應(yīng)地分布式計算框架算法,對數(shù)據(jù)進(jìn)行并行處理,即并行地對用戶行為數(shù)據(jù)的不同維度進(jìn)行分析挖掘,以得出最終的分析結(jié)果。

上述用戶行為模式分析結(jié)果可以是指用戶行為規(guī)律,用戶行為規(guī)律可以是指用戶行為共性。從大量的用戶行為數(shù)據(jù)中,利用設(shè)定的數(shù)據(jù)模型,剝離出搜索引擎用戶的行為共性。

找出用戶行為共性后,可以利用得出的分析結(jié)果對搜索引擎進(jìn)行優(yōu)化,以更快更好地匹配滿足用戶的需求。

作為一種具體實(shí)施方式,得出相應(yīng)用戶行為模式分析結(jié)果后,還可以包括:根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。

可以理解的是,根據(jù)從大量用戶行為數(shù)據(jù)中得出的用戶行為共性,對搜索引擎進(jìn)行優(yōu)化,以使搜索引擎可以在用戶搜索時,搜索引擎可以以高效率以及高準(zhǔn)確率來滿足用戶的需求。

除了可以利用所得出的用戶行為模式分析結(jié)果對搜索引擎進(jìn)行優(yōu)化之外,還可以利用上述用戶行為模式分析結(jié)果來向搜索引擎用戶推薦個性化內(nèi)容,以迎合不同用戶的不同需求。

作為一種具體實(shí)施方式,其個性化推薦過程可以具體為:獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。

需要說明的是,上述當(dāng)前用戶可以是指搜索引擎的注冊用戶,也可以是指搜索引擎的非注冊用戶。上述歷史搜索數(shù)據(jù)可以是指當(dāng)前用戶的瀏覽時所留下的記錄,用戶的瀏覽痕跡一般存儲于相應(yīng)的用戶日志中。

基于用戶的歷史搜索數(shù)據(jù),以及建立的用戶行為分析模型,以得出當(dāng)前用戶的興趣偏好。然后可以根據(jù)用戶的興趣偏好,向用戶推送一些個性化的信息內(nèi)容。

對用戶行為數(shù)據(jù)進(jìn)行分析,以向用戶推送個性化內(nèi)容,可以使得用戶的使用體驗較高。

本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理的方法,運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率??梢?,該方法基于分布式處理搜索數(shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。

下面對本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置進(jìn)行介紹,下文描述的搜索數(shù)據(jù)處理裝置與上文描述的搜索數(shù)據(jù)處理方法可相互對應(yīng)參照。

圖2為本發(fā)明實(shí)施例提供的搜索數(shù)據(jù)處理裝置的結(jié)構(gòu)框圖,參照圖2搜索數(shù)據(jù)處理裝置可以包括:

獲取模塊201,用于獲取多個搜索引擎用戶的用戶行為數(shù)據(jù);

模型建立模塊202,用于根據(jù)所述用戶行為數(shù)據(jù),建立用戶行為分析模型,所述用戶行為分析模型包括用戶搜索歷史數(shù)據(jù)與用戶行為的對應(yīng)關(guān)系;

分布式處理模塊203,用于基于所述用戶行為分析模型以及分布式計算框架,對用戶行為數(shù)據(jù)進(jìn)行并行處理,得出相應(yīng)用戶行為模式分析結(jié)果。

可選地,還包括:

優(yōu)化模塊,用于根據(jù)所述用戶行為模式分析結(jié)果,對搜索引擎進(jìn)行相應(yīng)優(yōu)化操作。

可選地,所述獲取模塊包括:

讀取單元,用于從存儲有所述用戶行為數(shù)據(jù)的分布式存儲系統(tǒng)中,并行讀取用戶日志數(shù)據(jù),獲取所述用戶行為數(shù)據(jù)。

可選地,所述模型建立模塊包括:

提取單元,用于提取所述用戶行為數(shù)據(jù)的維度指標(biāo);

分析建立單元,用于對所述維度指標(biāo)進(jìn)行分析,建立所述用戶行為分析模型。

可選地,還包括:

個性化推薦模塊,用于獲取當(dāng)前用戶的歷史搜索數(shù)據(jù),根據(jù)所述用戶行為分析模型,向用戶推薦與所述歷史搜索數(shù)據(jù)相關(guān)聯(lián)的個性化信息。

本發(fā)明實(shí)施例所提供的搜索數(shù)據(jù)處理的裝置,運(yùn)用分布式計算框架對用戶行為數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,即高速并行地對大量的用戶行為數(shù)據(jù)進(jìn)行運(yùn)算,可以更快地得出處理結(jié)果,進(jìn)而提高數(shù)據(jù)處理效率。可見,該裝置基于分布式處理搜索數(shù)據(jù),提高了搜索數(shù)據(jù)的處理效率,進(jìn)而提高了引擎優(yōu)化的效率。

本說明書中各個實(shí)施例采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其它實(shí)施例的不同之處,各個實(shí)施例之間相同或相似部分互相參見即可。對于實(shí)施例公開的裝置而言,由于其與實(shí)施例公開的方法相對應(yīng),所以描述的比較簡單,相關(guān)之處參見方法部分說明即可。

專業(yè)人員還可以進(jìn)一步意識到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。

結(jié)合本文中所公開的實(shí)施例描述的方法或算法的步驟可以直接用硬件、處理器執(zhí)行的軟件模塊,或者二者的結(jié)合來實(shí)施。軟件模塊可以置于隨機(jī)存儲器(RAM)、內(nèi)存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術(shù)領(lǐng)域內(nèi)所公知的任意其它形式的存儲介質(zhì)中。

以上對本發(fā)明所提供的一種搜索數(shù)據(jù)處理的方法以及裝置進(jìn)行了詳細(xì)介紹。本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想。應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以對本發(fā)明進(jìn)行若干改進(jìn)和修飾,這些改進(jìn)和修飾也落入本發(fā)明權(quán)利要求的保護(hù)范圍內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
平远县| 华池县| 安塞县| 南皮县| 瓦房店市| 丰城市| 唐河县| 宜昌市| 那曲县| 弥渡县| 浠水县| 北宁市| 西乌| 临泉县| 莱州市| 唐山市| 灵山县| 交城县| 淮阳县| 潼南县| 喜德县| 若尔盖县| 垦利县| 广灵县| 临海市| 涟水县| 南木林县| 赣榆县| 巴彦淖尔市| 洪湖市| 紫云| 涟源市| 大化| 和林格尔县| 祁东县| 进贤县| 彰武县| 五华县| 容城县| 容城县| 罗源县|