欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置與流程

文檔序號(hào):11582900閱讀:204來(lái)源:國(guó)知局
數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置與流程

本發(fā)明屬于數(shù)據(jù)處理領(lǐng)域,尤其涉及一種數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置。



背景技術(shù):

隨著大數(shù)據(jù)時(shí)代的來(lái)臨,各類(lèi)型的數(shù)據(jù)呈井噴式增長(zhǎng),這為數(shù)據(jù)分析行業(yè)帶來(lái)了前所未有的機(jī)遇和挑戰(zhàn)。其中以廣告行業(yè)為例,海量號(hào)碼提取,即如何利用海量數(shù)據(jù)來(lái)選擇目標(biāo)用戶(hù)群,并將廣告信息推送至目標(biāo)用戶(hù)群對(duì)應(yīng)的聯(lián)系號(hào)碼(也稱(chēng)為),已成為熱門(mén)研究方向之一。

關(guān)于海量號(hào)碼提取,目前主要的解決方案是采用分布式框架來(lái)實(shí)現(xiàn)。常見(jiàn)的比如hadoop(大數(shù)據(jù)框架)和spark(大數(shù)據(jù)框架),通過(guò)結(jié)構(gòu)化查詢(xún)語(yǔ)言(structuredquerylanguage,sql)或映射規(guī)約(mapreduce,mr)來(lái)實(shí)現(xiàn)。

然而,由于hadoop和spark自身的設(shè)計(jì)問(wèn)題,在處理海量數(shù)據(jù)時(shí),具有執(zhí)行速度較慢的弊端。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置,旨在提高海量號(hào)碼提取時(shí)的處理速度。

為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供以下技術(shù)方案:

一種數(shù)據(jù)處理方法,包括:

接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作;

根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼;

將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段;以及

根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段中的用戶(hù)號(hào)碼進(jìn)行操作,以生成命中數(shù)據(jù)包。

為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例還提供以下技術(shù)方案:

一種數(shù)據(jù)處理裝置,包括:

接收模塊,用于接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作;

標(biāo)簽?zāi)K,用于根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼;

索引模塊,用于將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段;以及

關(guān)系模塊,用于根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段中的用戶(hù)號(hào)碼進(jìn)行操作,以生成命中數(shù)據(jù)包。

本發(fā)明實(shí)施例,首先接收數(shù)據(jù)包提取指令,其中包括至少兩組用戶(hù)標(biāo)簽、和用戶(hù)標(biāo)簽之間的關(guān)系操作;然后根據(jù)每一用戶(hù)標(biāo)簽生成對(duì)應(yīng)的標(biāo)簽文件,其中包括用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼;再將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段;最后對(duì)同一號(hào)碼段中的用戶(hù)號(hào)碼執(zhí)行所述關(guān)系操作,以生成命中數(shù)據(jù)包。即,本發(fā)明通過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,并支持多線(xiàn)程或多進(jìn)程共同執(zhí)行,更進(jìn)一步加快處理速度。

附圖說(shuō)明

下面結(jié)合附圖,通過(guò)對(duì)本發(fā)明的具體實(shí)施方式詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其它有益效果顯而易見(jiàn)。

圖1是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法及處理裝置的工作原理示意圖;

圖2是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的流程示意圖;

圖3為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的另一流程示意圖;

圖4是本發(fā)明實(shí)施例提供的建立索引文件的步驟細(xì)化示意圖;

圖5是本發(fā)明實(shí)施例提供的索引文件示意圖;

圖6是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖;

圖7是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理裝置的另一結(jié)構(gòu)示意圖;

圖8是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法及處理裝置的具體應(yīng)用示例圖;

圖9是本發(fā)明實(shí)施例提供的服務(wù)器的結(jié)構(gòu)示意圖。

具體實(shí)施方式

請(qǐng)參照?qǐng)D式,其中相同的組件符號(hào)代表相同的組件,本發(fā)明的原理是以實(shí)施在一適當(dāng)?shù)倪\(yùn)算環(huán)境中來(lái)舉例說(shuō)明。以下的說(shuō)明是基于所例示的本發(fā)明具體實(shí)施例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實(shí)施例。

在以下的說(shuō)明中,本發(fā)明的具體實(shí)施例將參考由一部或多部計(jì)算機(jī)所執(zhí)行的步驟及符號(hào)來(lái)說(shuō)明,除非另有述明。因此,這些步驟及操作將有數(shù)次提到由計(jì)算機(jī)執(zhí)行,本文所指的計(jì)算機(jī)執(zhí)行包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)的電子信號(hào)的計(jì)算機(jī)處理單元的操作。此操作轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計(jì)算機(jī)的內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域技術(shù)人員所熟知的方式來(lái)改變?cè)撚?jì)算機(jī)的運(yùn)作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存的實(shí)體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來(lái)說(shuō)明,其并不代表為一種限制,本領(lǐng)域技術(shù)人員將可了解到以下所述的多種步驟及操作亦可實(shí)施在硬件當(dāng)中。

本文所使用的術(shù)語(yǔ)「模塊」、「單元」可看做為在該運(yùn)算系統(tǒng)上執(zhí)行的軟件對(duì)象。本文所述的不同組件、模塊、引擎及服務(wù)可看做為在該運(yùn)算系統(tǒng)上的實(shí)施對(duì)象。而本文所述的裝置及方法優(yōu)選的以軟件的方式進(jìn)行實(shí)施,當(dāng)然也可在硬件上進(jìn)行實(shí)施,均在本發(fā)明保護(hù)范圍之內(nèi)。

參見(jiàn)圖1,圖1為本發(fā)明實(shí)施例所提供的數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置的工作原理示意圖。

所述數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置,應(yīng)用于服務(wù)器中。所述服務(wù)器包括:一個(gè)或者一個(gè)以上處理核心的處理器、一個(gè)或一個(gè)以上計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器、射頻(radiofrequency,rf)電路、短距離無(wú)線(xiàn)傳輸(wifi)模塊、電源、輸入單元、以及顯示單元等部件。本領(lǐng)域技術(shù)人員可以理解,上述服務(wù)器結(jié)構(gòu)并不構(gòu)成對(duì)服務(wù)器的限定,可以包括比上述更多或更少的部件,或者組合某些部件,或者不同的部件布置。所述服務(wù)器用于執(zhí)行如下指令:

首先,獲取產(chǎn)品或服務(wù)的數(shù)據(jù)需求11。

所述數(shù)據(jù)需求,是由產(chǎn)品或服務(wù)的特性所決定的,比如護(hù)膚品a,具有保濕功效,但無(wú)美白功效;再如網(wǎng)絡(luò)游戲b,畫(huà)面精美,且每局耗時(shí)短。

然后,根據(jù)數(shù)據(jù)需求11生成用戶(hù)畫(huà)像12。

用戶(hù)畫(huà)像12一般是隱含在數(shù)據(jù)需求11中的,此處進(jìn)行梳理。比如,所述護(hù)膚品a在推廣時(shí),其目標(biāo)客戶(hù)通常是20-25歲之間的女性,收入較低,較少參加戶(hù)外運(yùn)動(dòng)或較少接觸電腦。再如,所述網(wǎng)絡(luò)游戲b在推廣時(shí),其目標(biāo)客戶(hù)通常是25-35歲之間的男性,收入偏高,無(wú)車(chē),利用上下班的碎片時(shí)間開(kāi)局。

再將用戶(hù)畫(huà)像12轉(zhuǎn)換成數(shù)據(jù)包提取指令13。其轉(zhuǎn)換過(guò)程如下:

(1)從數(shù)據(jù)庫(kù)14的數(shù)據(jù)列表141中獲取用戶(hù)屬性;

用戶(hù)屬性,包括但不限于:年齡(0-19歲、20-25歲、26-35歲、36-50歲、51-100歲、未知);性別(男、女、未知);收入?yún)^(qū)間(高、中、低,此處的高中低可根據(jù)國(guó)家統(tǒng)計(jì)局的基準(zhǔn)數(shù)據(jù)而比對(duì)而成);興趣愛(ài)好(戶(hù)外、室內(nèi),也可以根據(jù)數(shù)據(jù)需求進(jìn)行調(diào)整,比如,危險(xiǎn)、安全);以及職業(yè)類(lèi)型、婚否、是否有小孩、學(xué)歷等。

(2)將用戶(hù)畫(huà)像12與用戶(hù)屬性進(jìn)行匹配,以生成數(shù)據(jù)包提取指令13。

所述數(shù)據(jù)包提取指令13中包括至少兩組用戶(hù)標(biāo)簽131、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作132。所述關(guān)系操作132包括但不限于:交集∩、并集∪、和/或補(bǔ)集c。

以護(hù)膚品a為例,其用戶(hù)畫(huà)像12為:20-25歲之間的女性,收入較低,較少參加戶(hù)外運(yùn)動(dòng)或較少接觸電腦。則對(duì)應(yīng)的數(shù)據(jù)包提取指令為:年齡:20-25歲,性別:女,收入?yún)^(qū)間:低,興趣愛(ài)好:戶(hù)外,職業(yè)類(lèi)型:非文職。且,以上用戶(hù)標(biāo)簽之間的關(guān)系皆為并集。

接著,從數(shù)據(jù)庫(kù)14中根據(jù)所述數(shù)據(jù)包提取指令13,匹配生成對(duì)應(yīng)的命中數(shù)據(jù)包15。

具體而言,包括:接收數(shù)據(jù)包提取指令13,所述數(shù)據(jù)包提取指令13中包括至少兩組用戶(hù)標(biāo)簽131、和所述用戶(hù)標(biāo)簽131之間的關(guān)系操作132;根據(jù)每一用戶(hù)標(biāo)簽131從數(shù)據(jù)庫(kù)14的數(shù)據(jù)列表141中篩選出對(duì)應(yīng)的用戶(hù)號(hào)碼143,并由所述用戶(hù)號(hào)碼143和用戶(hù)標(biāo)簽131構(gòu)成對(duì)應(yīng)的的標(biāo)簽文件142;將所述標(biāo)簽文件142中的用戶(hù)號(hào)碼143分成多個(gè)號(hào)碼段,并根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件144;根據(jù)所述關(guān)系操作132,對(duì)同一號(hào)碼段的各索引文件144進(jìn)行操作,以生成命中數(shù)據(jù)包15。

最后,將產(chǎn)品或服務(wù)的信息推廣至所述命名數(shù)據(jù)包15中的用戶(hù)號(hào)碼。

本發(fā)明的如下實(shí)施例,主要從數(shù)據(jù)庫(kù)14中根據(jù)所述數(shù)據(jù)包提取指令13,匹配生成對(duì)應(yīng)的命中數(shù)據(jù)包15的步驟進(jìn)行描述,來(lái)展示命中數(shù)據(jù)包15的快速生成方法。其中,所述命中數(shù)據(jù)包中的用戶(hù)號(hào)碼,包括但不限于:手機(jī)號(hào)、即時(shí)通訊軟件的號(hào)碼(如qq號(hào)碼、微信號(hào)碼等)、電子郵箱號(hào)、視頻網(wǎng)站的注冊(cè)號(hào)等。

請(qǐng)參閱圖2,圖2是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的流程示意圖。所述數(shù)據(jù)處理方法可以包括:

在步驟s201中,接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作。

所述用戶(hù)標(biāo)簽,是根據(jù)具體的用戶(hù)屬性生成的。比如,根據(jù)用戶(hù)的性別屬性,生成用戶(hù)標(biāo)簽:性別男;再如,根據(jù)用戶(hù)的年齡屬性,生成用戶(hù)標(biāo)簽:年齡20-25歲。所述關(guān)系操作,包括但不限于:交集、并集、和/或補(bǔ)集。

在步驟s202中,根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼。

請(qǐng)同時(shí)結(jié)合圖1,在數(shù)據(jù)列表141中,對(duì)用戶(hù)標(biāo)簽131所引導(dǎo)的用戶(hù)號(hào)碼143進(jìn)行列存儲(chǔ)(decompositionstoragemodel,dsm)。

請(qǐng)同時(shí)結(jié)合圖5,預(yù)設(shè)列1對(duì)應(yīng)的用戶(hù)標(biāo)簽131為性別男,列2對(duì)應(yīng)的用戶(hù)標(biāo)簽131為年齡20-25歲,其中的用戶(hù)號(hào)碼143按一定的順序進(jìn)行排列,如升序或降序??梢岳斫獾氖牵羲鲇脩?hù)號(hào)碼143中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序;若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí),比如:1a排在11前,諸如此類(lèi)。

在步驟s203中,將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段。

此外,還可以根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件。所示索引文件中記錄每個(gè)號(hào)碼段的起始位置,若某個(gè)號(hào)段不存在,則記錄為空值null。

如圖5所示,其中以列1與列2為例進(jìn)行展示,其標(biāo)簽文件51為0-99,標(biāo)簽文件52為100-199,標(biāo)簽文件53為200-299,標(biāo)簽文件54為300-399,諸如此類(lèi)。可以理解的是,所述索引文件144包括標(biāo)簽文件51-54和標(biāo)簽文件(比如列1、列2)的對(duì)應(yīng)關(guān)系。

在步驟s204中,根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段的用戶(hù)號(hào)碼進(jìn)行操作,以生成命中數(shù)據(jù)包。

根據(jù)所述關(guān)系操作,對(duì)所述統(tǒng)一號(hào)碼段的用戶(hù)號(hào)碼進(jìn)行操作,可以理解為,對(duì)統(tǒng)一號(hào)碼段的各索引文件進(jìn)行關(guān)系操作。所述關(guān)系操作,包括但不限于:交集、并集、和/或補(bǔ)集。此處,以并集為例,對(duì)圖5中列1和列2進(jìn)行并集操作。在0-99的號(hào)碼段中,命中的號(hào)碼包括:null;在100-199的號(hào)碼段中,命中的號(hào)碼包括:121,125;在200-299的號(hào)碼段中,命中的號(hào)碼包括:null;在300-399的號(hào)碼段中,命中的號(hào)碼包括:301,以此類(lèi)推。

可以理解的是,對(duì)每個(gè)號(hào)碼段的命中操作,一般由多線(xiàn)程或多進(jìn)程同時(shí)進(jìn)行更進(jìn)一步加快處理速度。

本發(fā)明實(shí)施例的數(shù)據(jù)處理方法,通過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,此時(shí)的時(shí)間復(fù)雜度為o(n),基本上等同于磁盤(pán)讀取文件的速度,因而提高了海量號(hào)碼提取時(shí)的處理速度。

請(qǐng)參閱圖3,圖3是本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法的另一流程示意圖。所述數(shù)據(jù)處理方法可以包括:

在步驟s301中,對(duì)用戶(hù)號(hào)碼及其對(duì)應(yīng)的用戶(hù)標(biāo)簽進(jìn)行存儲(chǔ),以生成數(shù)據(jù)列表。

具體而言,本步驟包括:

(1)處理器獲取多個(gè)用戶(hù)號(hào)碼及其對(duì)應(yīng)的用戶(hù)標(biāo)簽,其中每一用戶(hù)號(hào)碼對(duì)應(yīng)多個(gè)用戶(hù)標(biāo)簽;比如,某一用戶(hù)的用戶(hù)號(hào)碼是131-xxxx-4625,其用戶(hù)標(biāo)簽為:年齡36-50歲,性別男,收入高,興趣愛(ài)好為戶(hù)外等。

(2)存儲(chǔ)器通過(guò)所述用戶(hù)標(biāo)簽對(duì)所述多個(gè)用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并按照所述用戶(hù)號(hào)碼的字符串進(jìn)行排序,以生成數(shù)據(jù)列表。

其中,所述列存儲(chǔ)是指將所有記錄中相同字段的數(shù)據(jù)進(jìn)行聚合存儲(chǔ)。列存儲(chǔ)的優(yōu)點(diǎn)在于,每個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢(xún)時(shí)僅需讀取少數(shù)幾個(gè)字段,大大減少讀取的數(shù)據(jù)量,可以更好的支持在線(xiàn)分析、數(shù)據(jù)挖掘等密集型應(yīng)用。

在本步驟中,對(duì)用戶(hù)標(biāo)簽所引導(dǎo)的用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并對(duì)涉及的用戶(hù)號(hào)碼進(jìn)行升序或降序排列。具體可參照?qǐng)D5中的列1和列2。此外,若所述用戶(hù)號(hào)碼中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序;若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí),比如:1a排在11前,{1a,1y,11},諸如此類(lèi)。

以上,則完成了對(duì)數(shù)據(jù)列表的建立,進(jìn)而存儲(chǔ)在對(duì)應(yīng)的數(shù)據(jù)庫(kù)中。

在步驟s302中,獲取數(shù)據(jù)需求,并將數(shù)據(jù)需求轉(zhuǎn)換成數(shù)據(jù)包提取指令。

可以理解的是,所述數(shù)據(jù)需求,是基于待推廣的產(chǎn)品或服務(wù)的特性而產(chǎn)生的。比如,待推廣網(wǎng)絡(luò)游戲b,其本身的特性是畫(huà)面精美,每局耗時(shí)較短。而用戶(hù)畫(huà)像一般是隱含在數(shù)據(jù)需求中的。

本步驟具體包括:

(1)處理器根據(jù)數(shù)據(jù)需求生成用戶(hù)畫(huà)像。比如,畫(huà)面精美會(huì)導(dǎo)致流量大,每局耗時(shí)短更適應(yīng)于碎片時(shí)間多的人。因此,上述網(wǎng)絡(luò)游戲b在推廣時(shí),其目標(biāo)客戶(hù)更傾向于:25-35歲之間的男性,收入偏高,無(wú)車(chē),利用上下班的碎片時(shí)間開(kāi)局。

可以理解的是,上述用戶(hù)畫(huà)像的過(guò)程僅為示例,除上述推導(dǎo)過(guò)程,還應(yīng)包括抽樣、驗(yàn)證等步驟。

(2)處理器將用戶(hù)畫(huà)像轉(zhuǎn)換成數(shù)據(jù)包提取指令。此處,轉(zhuǎn)換過(guò)程如下:

首先,從數(shù)據(jù)列表中獲取用戶(hù)屬性,比如,年齡、性別、收入?yún)^(qū)間、興趣愛(ài)好、職業(yè)類(lèi)型、婚否、是否有小孩、學(xué)歷等。

然后,將所述用戶(hù)畫(huà)像與所述用戶(hù)屬性進(jìn)行匹配,以生成數(shù)據(jù)包提取指令。其中,所述數(shù)據(jù)包提取指令中包括用戶(hù)標(biāo)簽和關(guān)系操作。所述關(guān)系操作包括但不限于交集、并集、和/或補(bǔ)集。

以待推廣網(wǎng)絡(luò)游戲b為例,其用戶(hù)畫(huà)像為:25-35歲之間的男性,收入較高,較少參加戶(hù)外運(yùn)動(dòng),多利用上下班的乘車(chē)時(shí)間通過(guò)手機(jī)玩網(wǎng)絡(luò)游戲;對(duì)應(yīng)的數(shù)據(jù)包提取指令為:年齡:25-35歲,性別:男,收入?yún)^(qū)間:高,興趣愛(ài)好:室內(nèi),是否有車(chē):否。且,以上用戶(hù)標(biāo)簽之間的關(guān)系皆為并集。

在步驟s303中,接收數(shù)據(jù)包提取指令,其中所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作。

在步驟s304中,根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的用戶(hù)號(hào)碼,所述用戶(hù)號(hào)碼和所述用戶(hù)標(biāo)簽構(gòu)成標(biāo)簽文件。

在數(shù)據(jù)列表中,對(duì)用戶(hù)標(biāo)簽所引導(dǎo)的用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ)。如圖5中的列1和列2所示,其中存儲(chǔ)的相同字段為用戶(hù)號(hào)碼,并按一定的順序進(jìn)行排列,如升序或降序。若所述號(hào)碼中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序;若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí),比如:1a排在11前,諸如此類(lèi)。

在步驟s305中,將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段,并根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件。

請(qǐng)參閱圖4,圖4是本發(fā)明實(shí)施例提供的建立索引文件的步驟細(xì)化示意圖。所述建立索引文件的步驟,具體包括:

在步驟s401中,對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行抽樣,以生成抽樣號(hào)碼。

可以理解的是,此處一般為按照預(yù)設(shè)比例對(duì)用戶(hù)號(hào)碼進(jìn)行隨機(jī)抽樣,比如,按照2%的比例從10,000個(gè)用戶(hù)號(hào)中隨機(jī)抽取200個(gè)作為抽樣號(hào)碼。

在步驟s402中,根據(jù)所述抽樣號(hào)碼的分布情況生成多個(gè)號(hào)碼段,任一所述號(hào)碼段中的抽樣號(hào)碼的數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi)。

具體而言,本步驟包括:

(1)將所述抽樣號(hào)碼平均分段,以生成平均號(hào)碼段。比如,將上述200個(gè)抽樣號(hào)碼分成5段。

(2)統(tǒng)計(jì)所述平均號(hào)碼段中各抽樣號(hào)碼的分布數(shù)量。此處,假設(shè)5個(gè)號(hào)碼段的分布數(shù)量分別為:第一號(hào)碼段的數(shù)量22,第二號(hào)碼段的數(shù)量41,第三號(hào)碼段的數(shù)量39,第四號(hào)碼段的數(shù)量44,和第五號(hào)碼段的數(shù)量54。

(3)判斷任一平均號(hào)碼段中的分布數(shù)量是否在預(yù)設(shè)分布區(qū)間內(nèi)。以預(yù)設(shè)的分布區(qū)間為【35,45】為例,則第一號(hào)碼段和第五號(hào)碼段不在預(yù)設(shè)分布區(qū)間中。

(4)當(dāng)所述分布數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),采用所述平均號(hào)碼段。可以理解的是,此處若平均號(hào)碼段可以解決,則優(yōu)先采用平均號(hào)碼段,若平均號(hào)碼無(wú)法解決,則按步驟(5)進(jìn)行劃分。

(5)當(dāng)所述分布數(shù)量不在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),根據(jù)抽樣號(hào)碼的分布情況進(jìn)行調(diào)整,以生成多個(gè)實(shí)際號(hào)碼段。仍以上述的5個(gè)號(hào)碼段為例,先從第一號(hào)碼段中選取符合預(yù)設(shè)分布區(qū)間的號(hào)碼段,再依次類(lèi)推,直至形成5個(gè)號(hào)碼段。

如此,可通過(guò)分層抽樣的方式,對(duì)號(hào)碼的量級(jí)進(jìn)行評(píng)估,進(jìn)而生成適宜的號(hào)碼段??梢岳斫獾氖牵m宜的號(hào)碼段所建立的索引文件,可以更好的支援多線(xiàn)程或多進(jìn)程的數(shù)據(jù)讀取,更高效的利用服務(wù)器自身的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)讀取、和數(shù)據(jù)計(jì)算的能力。

在步驟s403中,獲取所述多個(gè)號(hào)碼段的起始位置,并根據(jù)所述起始位置對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行分層,并根據(jù)分層結(jié)果建立所述標(biāo)簽文件對(duì)應(yīng)的索引文件。

請(qǐng)參閱圖5,所示本發(fā)明實(shí)施例提供的索引文件示意圖。其中,所示索引文件144中記錄每個(gè)號(hào)碼段的起始位置,若某個(gè)號(hào)段不存在,則記錄為空值null。以列1與列2為例,其對(duì)應(yīng)的標(biāo)簽文件51為0-99,標(biāo)簽文件52為100-199,標(biāo)簽文件53為200-299,標(biāo)簽文件54為300-399,諸如此類(lèi)。

在步驟s306中,根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段的各索引文件進(jìn)行操作,以生成命中數(shù)據(jù)包。

具體而言,本步驟包括:

(1)獲取所述關(guān)系操作,所述關(guān)系操作包括但不限于交集、并集、和/或補(bǔ)集。

(1.1)所述交集操作包括:輸入需要的標(biāo)簽文件files,找出其中最小用戶(hù)的文件min_file;并執(zhí)行如下指令:

fori←0tomin_file的行數(shù)

do讀取一行,找到最大號(hào)碼(maxuser)的文件,其它文件依次按行順序繼續(xù)讀取,直到當(dāng)前號(hào)碼大于或者等于maxuser;

如果所有文件都能找到maxuser,那么該用戶(hù)命中,否則不命中。

(1.2)所述并集操作包括:輸入需要的標(biāo)簽文件files,找出其中最大用戶(hù)的文件max_file;并執(zhí)行如下指令:

fori←0tomax_file的行數(shù)

do讀取一行,找到最大號(hào)碼(minuser)的文件,其它文件依次按行順序繼續(xù)讀取,如果到當(dāng)前號(hào)碼小于maxuser,當(dāng)前號(hào)碼命中,否則不命中。

(1.3)所述補(bǔ)集操作包括:輸入需要的標(biāo)簽文件files,包括:操作文件a和對(duì)比文件b;并執(zhí)行如下指令:

fori←0toa的行數(shù)

do讀取a文件一行user,b文件依次按行順序繼續(xù)讀取,直到當(dāng)前號(hào)碼大于或者等于user。

如果有當(dāng)前號(hào)碼有一個(gè)等于user,當(dāng)前號(hào)碼不命中,否則命中。

(2)通過(guò)多線(xiàn)程或多進(jìn)程,對(duì)同一號(hào)碼段的各索引文件執(zhí)行所述關(guān)系操作,以生成命中數(shù)據(jù)包。

如圖5所示,以并集為例,對(duì)列1和列2進(jìn)行并集操作。在0-100的號(hào)碼段中,命中的號(hào)碼段為:null;在100-199的號(hào)碼段中,命中的號(hào)碼包括:121,125;在200-299的號(hào)碼段中,命中的號(hào)碼包括:null;在300-399的號(hào)碼段中,命中的號(hào)碼包括:301;以此類(lèi)推,最后生成的數(shù)據(jù)包中包括{121,125,301…}。

可以理解的是,在每個(gè)號(hào)碼段中的命中操作,一般由多線(xiàn)程或多進(jìn)程同時(shí)進(jìn)行更進(jìn)一步加快處理速度。

本發(fā)明實(shí)施例的數(shù)據(jù)處理方法,先通過(guò)分層抽樣來(lái)確定號(hào)碼量級(jí),再基于號(hào)碼量級(jí)過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,此時(shí)的時(shí)間復(fù)雜度為o(n),基本上等同于磁盤(pán)讀取文件的速度,因而提高了海量號(hào)碼提取時(shí)的處理速度。

請(qǐng)參閱圖6,所示為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。本發(fā)明所述數(shù)據(jù)處理裝置600包括:接收模塊61、標(biāo)簽?zāi)K62、索引模塊63、和關(guān)系模塊64。

接收模塊61,用于接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作。

所述用戶(hù)標(biāo)簽,是根據(jù)具體的用戶(hù)屬性生成的。比如,根據(jù)用戶(hù)的性別屬性,生成用戶(hù)標(biāo)簽:性別男;再如,根據(jù)用戶(hù)的年齡屬性,生成用戶(hù)標(biāo)簽:年齡20-25歲。所述關(guān)系操作包括但不限于:交集、并集、和/或補(bǔ)集。

標(biāo)簽?zāi)K62,連接于接收模塊61,用于根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼。

可以理解的是,在數(shù)據(jù)列表中,對(duì)標(biāo)簽所引導(dǎo)的用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ)。其中的用戶(hù)號(hào)碼按一定的順序進(jìn)行排列,如升序或降序??梢岳斫獾氖?,若所述號(hào)碼中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序;若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí)。

索引模塊63,連接于標(biāo)簽?zāi)K62,用于將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段。

此外,所述索引模塊63還可以根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件。其中,所示索引文件中記錄每個(gè)號(hào)碼段的起始位置,若某個(gè)號(hào)段不存在,則記錄為空值null。

關(guān)系模塊64,連接于索引模塊63,用于根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段的用戶(hù)號(hào)碼進(jìn)行操作,以生成命中數(shù)據(jù)包。

根據(jù)所述關(guān)系操作,對(duì)所述統(tǒng)一號(hào)碼段的用戶(hù)號(hào)碼進(jìn)行操作,可以理解為,對(duì)統(tǒng)一號(hào)碼段的各索引文件進(jìn)行關(guān)系操作。所述關(guān)系操作,包括但不限于:交集、并集、和/或補(bǔ)集??梢岳斫獾氖?,在每個(gè)號(hào)碼段中的命中操作,一般由多線(xiàn)程或多進(jìn)程同時(shí)進(jìn)行更進(jìn)一步加快處理速度。

本發(fā)明實(shí)施例的數(shù)據(jù)處理裝置,通過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)所述索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,此時(shí)的時(shí)間復(fù)雜度為o(n),基本上等同于磁盤(pán)讀取文件的速度,因而提高了海量號(hào)碼提取時(shí)的處理速度。

請(qǐng)參閱圖7,所示為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理裝置的另一結(jié)構(gòu)示意圖。本發(fā)明所述數(shù)據(jù)處理裝置700包括:存儲(chǔ)模塊71、轉(zhuǎn)換模塊72、接收模塊73、標(biāo)簽?zāi)K74、索引模塊75、和關(guān)系模塊76。

存儲(chǔ)模塊71,用于對(duì)用戶(hù)號(hào)碼及其對(duì)應(yīng)的用戶(hù)標(biāo)簽進(jìn)行存儲(chǔ),以生成數(shù)據(jù)列表。其中,所述存儲(chǔ)模塊71,包括列單元711和排序單元712。

具體而言,所述列單元711,用于獲取多個(gè)用戶(hù)號(hào)碼及其對(duì)應(yīng)的用戶(hù)標(biāo)簽,其中每一用戶(hù)號(hào)碼對(duì)應(yīng)多個(gè)用戶(hù)標(biāo)簽;比如,某一用戶(hù)的用戶(hù)號(hào)碼是131-xxxx-4625,其用戶(hù)標(biāo)簽為:年齡36-50歲,性別男,收入高,興趣愛(ài)好為戶(hù)外等。

所述排序單元712,用于通過(guò)所述用戶(hù)標(biāo)簽對(duì)所述多個(gè)用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并按照所述用戶(hù)號(hào)碼的字符串進(jìn)行排序,以生成數(shù)據(jù)列表。

其中,所述列存儲(chǔ)是指將所有記錄中相同字段的數(shù)據(jù)進(jìn)行聚合存儲(chǔ)。列存儲(chǔ)的優(yōu)點(diǎn)在于,每個(gè)字段的數(shù)據(jù)聚集存儲(chǔ),在查詢(xún)時(shí)僅需讀取少數(shù)幾個(gè)字段,大大減少讀取的數(shù)據(jù)量,可以更好的支持在線(xiàn)分析、數(shù)據(jù)挖掘等密集型應(yīng)用。

在存儲(chǔ)模塊71中,對(duì)用戶(hù)標(biāo)簽所引導(dǎo)的用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并對(duì)涉及的用戶(hù)號(hào)碼進(jìn)行升序或降序排列。此外,若所述用戶(hù)號(hào)碼中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序;若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí),比如:1a排在11前,{1a,1y,11},諸如此類(lèi)。

以上,則完成了對(duì)數(shù)據(jù)列表的建立,進(jìn)而存儲(chǔ)在對(duì)應(yīng)的數(shù)據(jù)庫(kù)中。

轉(zhuǎn)換模塊72,用于獲取數(shù)據(jù)需求,并將數(shù)據(jù)需求轉(zhuǎn)換成數(shù)據(jù)包提取指令。其中,所述轉(zhuǎn)換模塊72包括畫(huà)像單元721和指令單元722。

可以理解的是,所述數(shù)據(jù)需求是基于待推廣的產(chǎn)品或服務(wù)的特性而產(chǎn)生的。而用戶(hù)畫(huà)像一般是隱含在數(shù)據(jù)需求中的。

所述畫(huà)像單元721,用于根據(jù)數(shù)據(jù)需求生成用戶(hù)畫(huà)像??梢岳斫獾氖牵鲜鲇脩?hù)畫(huà)像的過(guò)程包括但不限于推導(dǎo)、抽樣、和驗(yàn)證等步驟。

所述指令單元722,用于將用戶(hù)畫(huà)像轉(zhuǎn)換成數(shù)據(jù)包提取指令。此處,轉(zhuǎn)換過(guò)程如下:

首先,從數(shù)據(jù)列表中獲取用戶(hù)屬性,比如,年齡、性別、收入?yún)^(qū)間、興趣愛(ài)好、職業(yè)類(lèi)型、婚否、是否有小孩、學(xué)歷等。

然后,將所述用戶(hù)畫(huà)像與所述用戶(hù)屬性進(jìn)行匹配,以生成數(shù)據(jù)包提取指令。其中,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作。所述關(guān)系操作包括但不限于:交集、并集、和/或補(bǔ)集。

接收模塊73,連接于轉(zhuǎn)換模塊72,用于接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作。

標(biāo)簽?zāi)K74,連接于接收模塊73和存儲(chǔ)模塊71,用于根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼。

在數(shù)據(jù)列表中,對(duì)用戶(hù)標(biāo)簽所引導(dǎo)的用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并按一定的順序進(jìn)行排列。若所述號(hào)碼中出現(xiàn)英文字母、或拼音字母等,則可按照字母的順序進(jìn)行排序。若字母與數(shù)字混合出現(xiàn),則預(yù)設(shè)字母與數(shù)字的優(yōu)先級(jí)。

索引模塊75,連接于標(biāo)簽?zāi)K74,用于將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段,并根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件。其中,所述索引模塊75包括:抽樣單元751、平分單元752、統(tǒng)計(jì)單元753、判斷單元754、平均單元755、分層單元756、和起始單元757。

具體而言,所述抽樣單元751,用于對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行抽樣,以生成抽樣號(hào)碼??梢岳斫獾氖?,此處一般為按照預(yù)設(shè)比例對(duì)用戶(hù)號(hào)碼進(jìn)行隨機(jī)抽樣,比如,按照2%的比例從10,000個(gè)用戶(hù)號(hào)中隨機(jī)抽取200個(gè)作為抽樣號(hào)碼。

所述平分單元752,連接于抽樣單元751,將所述抽樣號(hào)碼平均分段,以生成平均號(hào)碼段。其中,所述平分單元752包括:均分子單元1、統(tǒng)計(jì)子單元2、判斷子單元3、平均子單元4、和實(shí)際子單元5。

具體而言,所述均分子單元1,用于將所述抽樣號(hào)碼平均分段,以生成平均號(hào)碼段。比如,將上述200個(gè)抽樣號(hào)碼分成5段。

所述統(tǒng)計(jì)子單元2,用于統(tǒng)計(jì)所述平均號(hào)碼段中各抽樣號(hào)碼的分布數(shù)量。此處,假設(shè)5個(gè)號(hào)碼段的分布數(shù)量分別為:第一號(hào)碼段的數(shù)量22,第二號(hào)碼段的數(shù)量41,第三號(hào)碼段的數(shù)量39,第四號(hào)碼段的數(shù)量44,和第五號(hào)碼段的數(shù)量54。

所述判斷子單元3,用于判斷任一平均號(hào)碼段中分布數(shù)量是否在預(yù)設(shè)分布區(qū)間內(nèi)。此處,以預(yù)設(shè)的分布區(qū)間為【35,45】為例,則第一號(hào)碼段和第五號(hào)碼段不在預(yù)設(shè)分布區(qū)間中。

所述平均子單元4,用于當(dāng)所述分布數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),采用所述平均號(hào)碼段。

所述實(shí)際子單元5,用于當(dāng)所述分布數(shù)量不在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),根據(jù)抽樣號(hào)碼的分布情況進(jìn)行調(diào)整,以生成多個(gè)實(shí)際號(hào)碼段。仍以上述的5個(gè)號(hào)碼段為例,先從第一號(hào)碼段中選取符合預(yù)設(shè)分布區(qū)間的號(hào)碼段,再依次類(lèi)推,直至形成5個(gè)號(hào)碼段。

如此,在平分單元752中可通過(guò)分層抽樣的方式,對(duì)號(hào)碼的量級(jí)進(jìn)行評(píng)估,進(jìn)而生成適宜的號(hào)碼段??梢岳斫獾氖牵m宜的號(hào)碼段所建立的索引文件,可以更好的支援多線(xiàn)程或多進(jìn)程的數(shù)據(jù)讀取,更高效的利用服務(wù)器自身的數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)讀取、和數(shù)據(jù)計(jì)算的能力。

所述統(tǒng)計(jì)單元753,連接于平分單元752,用于統(tǒng)計(jì)所述平均號(hào)碼段中各抽樣號(hào)碼的分布數(shù)量。

所述判斷單元754,連接于統(tǒng)計(jì)單元753,用于判斷任一平均號(hào)碼段中分布數(shù)量是否在預(yù)設(shè)分布區(qū)間內(nèi)。

所述平均單元755,連接于用于當(dāng)所述分布數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),采用所述平均號(hào)碼段。

所述分層單元756,還用于當(dāng)所述分布數(shù)量不在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),根據(jù)抽樣號(hào)碼的分布情況進(jìn)行調(diào)整,以生成多個(gè)實(shí)際號(hào)碼段。

其中,在平均單元755所提供的平均號(hào)碼段中、和分層單元756所提供的實(shí)際號(hào)碼段中,其抽樣號(hào)碼的數(shù)量皆在預(yù)設(shè)分布區(qū)間內(nèi)。

起始單元757,連接于平均單元755和分層單元756,用于獲取所述多個(gè)平均號(hào)碼段或?qū)嶋H號(hào)碼段的起始位置,并根據(jù)所述起始位置對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行分層,并根據(jù)分層結(jié)果建立所述標(biāo)簽文件對(duì)應(yīng)的索引文件。

關(guān)系模塊76,連接于索引模塊75,用于根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段的各索引文件進(jìn)行操作,以生成命中數(shù)據(jù)包。其中,所述關(guān)系模塊76包括集合單元761和命中單元762。

具體而言,所述集合單元761,用于獲取所述關(guān)系操作,所述關(guān)系操作包括:交集、并集、和/或補(bǔ)集。

所述命中單元762,用于通過(guò)多線(xiàn)程或多進(jìn)程,對(duì)同一號(hào)碼段的各索引文件執(zhí)行所述關(guān)系操作,以生成命中數(shù)據(jù)包。

可以理解的是,在每個(gè)號(hào)碼段中的命中操作,一般由多線(xiàn)程或多進(jìn)程同時(shí)進(jìn)行更進(jìn)一步加快處理速度。

具體實(shí)施時(shí),以上各個(gè)模塊和/或單元可以作為獨(dú)立的實(shí)體來(lái)實(shí)現(xiàn),也可以進(jìn)行任意組合,作為同一或若干個(gè)實(shí)體來(lái)實(shí)現(xiàn),以上各個(gè)單元的具體實(shí)施可參見(jiàn)前面的方法實(shí)施例,在此不再贅述。

本發(fā)明實(shí)施例的數(shù)據(jù)處理裝置,先通過(guò)分層抽樣來(lái)確定號(hào)碼量級(jí),再基于號(hào)碼量級(jí)過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,此時(shí)的時(shí)間復(fù)雜度為o(n),基本上等同于磁盤(pán)讀取文件的速度,因而提高了海量號(hào)碼提取時(shí)的處理速度。

根據(jù)上述實(shí)施例所描述的方法和裝置,以下將舉例作進(jìn)一步詳細(xì)說(shuō)明。

請(qǐng)參閱圖8,所示為本發(fā)明實(shí)施例提供的數(shù)據(jù)處理方法及處理裝置的具體應(yīng)用示例圖。

其中以推廣網(wǎng)絡(luò)游戲?yàn)槔?,其?shù)據(jù)需求81描述為:畫(huà)面精美、每局耗時(shí)短。

用戶(hù)畫(huà)像82隱含在數(shù)據(jù)需求81中,進(jìn)行梳理后生成:25-35歲的男性。

將用戶(hù)畫(huà)像82轉(zhuǎn)換成數(shù)據(jù)包提取指令83,包括:兩個(gè)用戶(hù)標(biāo)簽831,分別為年齡男、年齡25-35歲;以及用戶(hù)標(biāo)簽831之間的關(guān)系操作832,此處以交集∩為例。

數(shù)據(jù)庫(kù)84中包括多個(gè)數(shù)據(jù)列表841。在數(shù)據(jù)列表841中,用戶(hù)標(biāo)簽831和用戶(hù)號(hào)碼843以列的方式進(jìn)行存儲(chǔ),以形成標(biāo)簽文件842,亦可理解為圖5中的列1和列2。其中,所述用戶(hù)號(hào)碼,包括但不限于:手機(jī)號(hào)、即時(shí)通訊軟件的號(hào)碼(如qq號(hào)碼、微信號(hào)碼等)、電子郵箱號(hào)、視頻網(wǎng)站的注冊(cè)號(hào)等。

將標(biāo)簽文件842中的用戶(hù)號(hào)碼843分成多個(gè)號(hào)碼段,并根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件844。其中所述號(hào)碼段的生成可根據(jù)分層抽樣進(jìn)行,以確保每個(gè)號(hào)碼段中的數(shù)量分布較為均價(jià),繼而通過(guò)多線(xiàn)程或多進(jìn)程完成處理的時(shí)間最短。

根據(jù)所述關(guān)系操作832,對(duì)同一號(hào)碼段的各索引文件844進(jìn)行操作,以生成命中數(shù)據(jù)包15。比如,在0-99的號(hào)碼段中,命中的號(hào)碼為9;在150-200的號(hào)碼段中,命中的號(hào)碼為172,其他號(hào)碼段的命中號(hào)碼為null。

最后,將產(chǎn)品或服務(wù)的信息推廣至所述命名數(shù)據(jù)包85中的用戶(hù)號(hào)碼。故而提高了海量號(hào)碼提取時(shí)的處理速度和信息推廣的準(zhǔn)確度。

相應(yīng)的,本發(fā)明實(shí)施例還提供一種服務(wù)器,如圖9所示,所述數(shù)據(jù)處理方法及數(shù)據(jù)處理裝置,應(yīng)用于服務(wù)器900中。所述服務(wù)器900包括:一個(gè)或者一個(gè)以上處理核心的處理器901、一個(gè)或一個(gè)以上計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器902、射頻(radiofrequency,rf)電路903、短距離無(wú)線(xiàn)傳輸(wifi)模塊904、電源905、輸入單元906、以及顯示單元907等部件。

本領(lǐng)域技術(shù)人員可以理解,上述結(jié)構(gòu)并不構(gòu)成對(duì)服務(wù)器900的限定,可以包括比上述更多或更少的部件、組合某些部件、或不同的部件布置。其中:

具體在本實(shí)施例中,在服務(wù)器900中,處理器901會(huì)按照如下的指令,將一個(gè)或一個(gè)以上的應(yīng)用程序的進(jìn)程對(duì)應(yīng)的可執(zhí)行文件加載到存儲(chǔ)器902中,并由處理器901來(lái)運(yùn)行存儲(chǔ)在存儲(chǔ)器902中的應(yīng)用程序,從而實(shí)現(xiàn)各種功能,如下:接收數(shù)據(jù)包提取指令,所述數(shù)據(jù)包提取指令中包括至少兩組用戶(hù)標(biāo)簽、和所述用戶(hù)標(biāo)簽之間的關(guān)系操作;根據(jù)每一用戶(hù)標(biāo)簽從數(shù)據(jù)列表中篩選出對(duì)應(yīng)的標(biāo)簽文件,所述標(biāo)簽文件包括所述用戶(hù)標(biāo)簽對(duì)應(yīng)的用戶(hù)號(hào)碼;將所述標(biāo)簽文件中的用戶(hù)號(hào)碼分成多個(gè)號(hào)碼段,并根據(jù)每個(gè)號(hào)碼段的起始位置為每一標(biāo)簽文件建立索引文件;根據(jù)所述關(guān)系操作,對(duì)同一號(hào)碼段的各索引文件進(jìn)行操作,以生成命中數(shù)據(jù)包。

優(yōu)選的,所述處理器901還可以用于:對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行抽樣,以生成抽樣號(hào)碼;根據(jù)所述抽樣號(hào)碼的分布情況生成多個(gè)號(hào)碼段,任一所述號(hào)碼段中的抽樣號(hào)碼的數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi);獲取所述多個(gè)號(hào)碼段的起始位置,并根據(jù)所述起始位置對(duì)所述標(biāo)簽文件中的用戶(hù)號(hào)碼進(jìn)行分層,并根據(jù)分層結(jié)果建立所述標(biāo)簽文件對(duì)應(yīng)的索引文件。

優(yōu)選的,所述處理器901還可以用于:將所述抽樣號(hào)碼平均分段,以生成平均號(hào)碼段;統(tǒng)計(jì)所述平均號(hào)碼段中各抽樣號(hào)碼的分布數(shù)量;判斷任一平均號(hào)碼段中分布數(shù)量是否在預(yù)設(shè)分布區(qū)間內(nèi);當(dāng)所述分布數(shù)量在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),采用所述平均號(hào)碼段;當(dāng)所述分布數(shù)量不在預(yù)設(shè)分布區(qū)間內(nèi)時(shí),根據(jù)抽樣號(hào)碼的分布情況進(jìn)行調(diào)整,以生成多個(gè)實(shí)際號(hào)碼段。

優(yōu)選的,所述處理器901還可以用于:獲取數(shù)據(jù)需求,并將所述數(shù)據(jù)需求轉(zhuǎn)換成數(shù)據(jù)包提取指令。

優(yōu)選的,所述處理器901還可以用于:獲取所述關(guān)系操作,所述關(guān)系操作包括:交集、并集、和/或補(bǔ)集;通過(guò)多線(xiàn)程或多進(jìn)程,對(duì)同一號(hào)碼段的各索引文件執(zhí)行所述關(guān)系操作,以生成命中數(shù)據(jù)包。

優(yōu)選的,所述處理器901還可以用于:獲取多個(gè)用戶(hù)號(hào)碼及其對(duì)應(yīng)的用戶(hù)標(biāo)簽,其中每一用戶(hù)號(hào)碼對(duì)應(yīng)多個(gè)用戶(hù)標(biāo)簽;通過(guò)所述用戶(hù)標(biāo)簽對(duì)所述多個(gè)用戶(hù)號(hào)碼進(jìn)行列存儲(chǔ),并按照所述用戶(hù)號(hào)碼的字符串進(jìn)行排序,以生成數(shù)據(jù)列表。

由上述可知,本發(fā)明實(shí)施例的服務(wù)器,先通過(guò)分層抽樣來(lái)確定號(hào)碼量級(jí),再基于號(hào)碼量級(jí)過(guò)對(duì)標(biāo)簽文件建立索引文件,并對(duì)索引文件進(jìn)行關(guān)系操作,進(jìn)而降低操作的時(shí)間復(fù)雜度,此時(shí)的時(shí)間復(fù)雜度為o(n),基本上等同于磁盤(pán)讀取文件的速度,因而提高了海量號(hào)碼提取時(shí)的處理速度。

本發(fā)明實(shí)施例提供的所述服務(wù)器,與上文實(shí)施例中的數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置屬于同一構(gòu)思。

需要說(shuō)明的是,對(duì)本發(fā)明所述數(shù)據(jù)處理方法而言,本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)本發(fā)明實(shí)施例中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序來(lái)控制相關(guān)的硬件來(lái)完成,所述計(jì)算機(jī)程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,如存儲(chǔ)在服務(wù)器的存儲(chǔ)器中,并被該服務(wù)器內(nèi)的至少一個(gè)處理器執(zhí)行,在執(zhí)行過(guò)程中可包括如所述信息分享方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)器(rom,readonlymemory)、隨機(jī)存取記憶體(ram,randomaccessmemory)等。

對(duì)本發(fā)明實(shí)施例的所述數(shù)據(jù)處理裝置而言,其各功能模塊可以集成在一個(gè)處理芯片中,也可以是各個(gè)模塊單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上模塊集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,所述存儲(chǔ)介質(zhì)譬如為只讀存儲(chǔ)器,磁盤(pán)或光盤(pán)等。

以上對(duì)本發(fā)明實(shí)施例所提供的一種數(shù)據(jù)處理方法、數(shù)據(jù)處理裝置及服務(wù)器進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
星子县| 黑河市| 东莞市| 交口县| 定日县| 辽中县| 乌拉特后旗| 普安县| 长宁县| 内丘县| 德安县| 和平县| 德州市| 聊城市| 微山县| 瓮安县| 红安县| 山丹县| 古丈县| 姚安县| 南溪县| 晋城| 华宁县| 西城区| 肇源县| 鱼台县| 和林格尔县| 大竹县| 龙陵县| 武宁县| 辛集市| 巴里| 布尔津县| 贞丰县| 同仁县| 大连市| 齐齐哈尔市| 南丰县| 合川市| 乌拉特后旗| 崇礼县|