專(zhuān)利名稱(chēng)::基于海量數(shù)據(jù)的用戶(hù)年齡估算方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及海量數(shù)據(jù)處理
技術(shù)領(lǐng)域:
,更具體地說(shuō),涉及一種基于海量數(shù)據(jù)的用戶(hù)年齡估算方法及系統(tǒng)。
背景技術(shù):
:隨著互聯(lián)網(wǎng)的不斷普及,網(wǎng)絡(luò)已經(jīng)成為人們生活中必不可少的一部分。通過(guò)互聯(lián)網(wǎng)可以提供給用戶(hù)各種各樣的服務(wù),例如網(wǎng)上購(gòu)物、信息獲取、游戲娛樂(lè)等。用戶(hù)年齡是用戶(hù)的基本屬性,針對(duì)不同年齡的用戶(hù)群體,可以為其提供個(gè)性化的互聯(lián)網(wǎng)服務(wù)。然而通常情況下,由于網(wǎng)絡(luò)的虛擬性,用戶(hù)一般都不會(huì)填寫(xiě)真實(shí)準(zhǔn)確的年齡,因此如何準(zhǔn)確估算用戶(hù)的真實(shí)年齡,已成為互聯(lián)網(wǎng)業(yè)務(wù)急需解決的問(wèn)題。目前,通常獲取用戶(hù)提供的年齡數(shù)據(jù),通過(guò)筒單的邊界值過(guò)濾來(lái)估算用戶(hù)年齡。具體地,是根據(jù)經(jīng)驗(yàn)估計(jì)用戶(hù)的年齡范圍,將年齡范圍之外的數(shù)值過(guò)濾掉,從而估算出用戶(hù)年齡。然而,該方法過(guò)分依賴(lài)用戶(hù)提供的年齡,因此準(zhǔn)確度不高。
發(fā)明內(nèi)容基于此,有必要提供一種能提高準(zhǔn)確度的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法。此外,還有必要提供一種能提高準(zhǔn)確度的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng)。所述基于海量數(shù)據(jù)的用戶(hù)年齡估算方法包括獲取用戶(hù)的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。該設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值的步驟具體是獲取用戶(hù)的參考年齡數(shù)據(jù);將基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲耳又基本年齡數(shù)據(jù)的準(zhǔn)確率;根據(jù)準(zhǔn)確率為基本年齡數(shù)據(jù)賦初始權(quán)值。年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比;根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡權(quán)值加分;根據(jù)所述初始斥又值與年齡權(quán)值加分的和確定用戶(hù)的年齡權(quán)值。該方法還可包括獲取同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶(hù)的初步估算年齡,并根據(jù)所述用戶(hù)的初步估算年齡及其年齡權(quán)值調(diào)整所述同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶(hù)的初步估算年齡。該方法還可包括比較用戶(hù)的初步估算年齡的年齡權(quán)值與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶(hù)的初步估算年齡的年齡權(quán)值劃分為至少如下三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)值為低。該方法還可包括查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),判斷用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡柏J直為低的用戶(hù)的年齡調(diào)整為初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。所述基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng)包括4又值設(shè)置單元,用于獲取用戶(hù)的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值;權(quán)值處理單元,與權(quán)值設(shè)置單元相連,根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;年齡估算單元,與權(quán)值處理單元相連,查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。該權(quán)值設(shè)置單元還可用于獲取用戶(hù)的參考年齡數(shù)據(jù),將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)準(zhǔn)確率為基本年齡凄史據(jù)賦初始4又值。該權(quán)值處理單元還可用于將基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比,根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡權(quán)值加分,根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶(hù)的年齡外又值。該權(quán)值處理單元還可用于比較用戶(hù)的初步估算年齡與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶(hù)的初步估算年齡的年齡權(quán)值劃分為至少如下三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)值為低。該年齡估算單元還可用于查找同學(xué)關(guān)系鏈數(shù)凈居中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),判斷用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶(hù)的年齡調(diào)整為初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。另外,該系統(tǒng)還可包括年齡數(shù)據(jù)存儲(chǔ)單元,與權(quán)值i殳置單元、權(quán)值處理單元及年齡估算單元相連,用于存儲(chǔ)基本年齡數(shù)才居和參考年齡數(shù)據(jù);同學(xué)關(guān)系鏈數(shù)據(jù)存儲(chǔ)單元,與年齡估算單元相連,用于存儲(chǔ)同學(xué)關(guān)系鏈數(shù)據(jù)。上述基于海量數(shù)據(jù)的用戶(hù)年齡估算方法及系統(tǒng),通過(guò)為基本年齡數(shù)據(jù)賦初始權(quán)值,并根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度來(lái)獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值,以及取該年齡權(quán)值最高的年齡作為用戶(hù)的初步估算年齡。由于對(duì)用戶(hù)提供的多種基本年齡數(shù)據(jù)進(jìn)行了綜合評(píng)價(jià),年齡權(quán)值最高的年齡更符合用戶(hù)的真實(shí)年齡,因此能提高估算用戶(hù)年齡的準(zhǔn)確度。圖l是一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算方法的流程圖;圖2是一個(gè)實(shí)施例中為基本年齡數(shù)據(jù)賦初始權(quán)值的方法流程圖;圖3是一個(gè)實(shí)施例中獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的方法流程圖4是一個(gè)實(shí)施例中利用同學(xué)關(guān)系鏈數(shù)據(jù)估算用戶(hù)年齡的方法流程圖;圖5是一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng)的結(jié)構(gòu)示意圖;圖6是另一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施例方式圖1示出了一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算方法流程,該方法流程具體包括以下步驟在步驟S10中,獲取用戶(hù)的基本年齡數(shù)據(jù),并為基本年齡數(shù)據(jù)賦初始權(quán)值?;灸挲g數(shù)據(jù)是用戶(hù)通過(guò)各種網(wǎng)絡(luò)產(chǎn)品填寫(xiě)資料而才是供的年齡數(shù)據(jù),例如通過(guò)即時(shí)通訊工具或者SNS社區(qū)服務(wù)等提供的年齡凄史據(jù)等。如圖2所示,在一個(gè)實(shí)施方式中,為基本年齡數(shù)據(jù)賦初始權(quán)值的過(guò)程包括在步驟S100中,獲取用戶(hù)的參考年齡數(shù)據(jù)。用戶(hù)的參考年齡數(shù)據(jù)可以是通過(guò)網(wǎng)絡(luò)進(jìn)行問(wèn)巻調(diào)查而得到的用戶(hù)年齡數(shù)據(jù)。由于問(wèn)巻調(diào)查所設(shè)置的問(wèn)題相對(duì)嚴(yán)謹(jǐn),通過(guò)問(wèn)巻調(diào)查得到的用戶(hù)年齡會(huì)比用戶(hù)直3姿填寫(xiě)的年齡更準(zhǔn)確。在步驟S102中,將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率。在各種基本年齡數(shù)據(jù)中查找與參考年齡相符的用戶(hù)年齡個(gè)數(shù),該用戶(hù)年齡個(gè)數(shù)與用戶(hù)總數(shù)的比值即為基本年齡數(shù)才居的準(zhǔn)確率。在步驟S104中,根據(jù)所述準(zhǔn)確率為基本年齡翁:據(jù)賦初始權(quán)值。在一個(gè)實(shí)施方式中,將基本年齡數(shù)據(jù)的準(zhǔn)確率分為三個(gè)等級(jí)低、中、高。對(duì)應(yīng)低、中、高的準(zhǔn)確率分別設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2和P3,優(yōu)選地,設(shè)置Pl-l,P2=5,P3=9。例如,通過(guò)即時(shí)通信工具獲耳又n個(gè)用戶(hù)的基本年齡數(shù)據(jù)IM1、IM2.....IMn;通過(guò)SNS服務(wù)獲得的n個(gè)用戶(hù)的基本年齡數(shù)據(jù)為SNS1、SNS2.....SNSn;通過(guò)網(wǎng)絡(luò)進(jìn)行問(wèn)巻調(diào)查而得到的參考年齡數(shù)據(jù)為Rl、R2.....Rn。通過(guò)對(duì)比IM1、IM2.....IMn和Rl、R2、...、Rn,可以獲得即時(shí)通4言工具獲得的基本年齡數(shù)據(jù)的準(zhǔn)確率,假設(shè)該準(zhǔn)確率的等級(jí)為低,則通過(guò)即時(shí)通信工具獲得的基本年齡數(shù)據(jù)的初始權(quán)值為Pl。類(lèi)似地,可以獲得通過(guò)SNS服務(wù)荻得的基本年齡數(shù)據(jù)的準(zhǔn)確率,假設(shè)該準(zhǔn)確率的等級(jí)為中,則通過(guò)SNS服務(wù)獲得的基本年齡數(shù)據(jù)的初始權(quán)值為P2。在另一個(gè)實(shí)施方式中,也可根據(jù)基本年齡數(shù)據(jù)的來(lái)源類(lèi)型直接為基本年齡數(shù)據(jù)賦初始權(quán)值。例如,網(wǎng)絡(luò)業(yè)務(wù)如校友錄等的注冊(cè)信息相對(duì)其它注冊(cè)信息獲取的用戶(hù)年齡數(shù)據(jù)更準(zhǔn)確,因此可設(shè)置這類(lèi)基本年齡數(shù)據(jù)的初始權(quán)值比其它類(lèi)型的基本年齡數(shù)據(jù)的初始權(quán)值高。在步驟S12中,根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值。如圖3所示,在一個(gè)實(shí)施方式中,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的具體過(guò)程如下在步驟S120中,將基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比。對(duì)于通過(guò)各種方式得到的多種基本年齡數(shù)據(jù),將該用戶(hù)在不同基本年齡il據(jù)中的年齡進(jìn)行兩兩對(duì)比。在步驟S122中,根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡權(quán)值加分。在一個(gè)實(shí)施方式中,用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度可分為三類(lèi)年齡相同、年齡相近、年齡不同。其中,年齡相差在三歲以?xún)?nèi)表示年齡相近,年齡相差大于三歲表示年齡不同。比較不同基本年齡數(shù)據(jù)的初始權(quán)值,得到基本年齡數(shù)據(jù)之間的—又重關(guān)系,該權(quán)重關(guān)系可分為三類(lèi)權(quán)重相同、權(quán)重相近和權(quán)重不同。其中,4又重相同表示兩種基本年齡數(shù)據(jù)的權(quán)重等竭目同(即權(quán)重同為高、中或低);權(quán)重相近表示兩種基本年齡數(shù)據(jù)的權(quán)重等級(jí)僅差一級(jí)(即兩者的權(quán)重分別為高與中、或中與低);權(quán)重不同表示兩種基本年齡數(shù)據(jù)的權(quán)重等級(jí)相差兩級(jí)(即兩者的權(quán)重分別為高與低)。在一個(gè)實(shí)施例中,設(shè)置用戶(hù)的年齡權(quán)值加分如表1所示表1<table>tableseeoriginaldocumentpage9</column></row><table>優(yōu)選地,^殳置A1-1,A2=2,A3=3,A4=4,A5=5,A6=6。在步驟S124中,根據(jù)初始權(quán)值與年齡權(quán)值加分的和確定用戶(hù)的年齡權(quán)值。在上述實(shí)施方式中,將各種基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比,對(duì)任意一種基本年齡數(shù)據(jù),獲取其與其它基本年齡數(shù)據(jù)之間的權(quán)重關(guān)系,以及在該權(quán)重關(guān)系下用戶(hù)年齡之間的相似度,則在基本年齡數(shù)據(jù)中用戶(hù)的年齡權(quán)值加分為該基本年齡數(shù)據(jù)與其它基本年齡數(shù)據(jù)進(jìn)行對(duì)比后所得到的所有年齡權(quán)值加分的總和。在一個(gè)具體的實(shí)施例中,獲取到用戶(hù)的三種基本年齡數(shù)據(jù)分別為M、N、O。該實(shí)施例中,設(shè)置這三種基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2、P3。對(duì)其中的三個(gè)用戶(hù)a、b、c,假設(shè)M數(shù)據(jù)中各用戶(hù)的年齡分別為Ma、Mb和Mc,N數(shù)據(jù)中各用戶(hù)的年齡分別為Na、Nb、Nc,O彰:據(jù)中各用戶(hù)的年齡分別為Oa、Ob和Oc。將M、N、O數(shù)據(jù)進(jìn)行兩兩比較,由M、N、O的初始4又值可知M與N的權(quán)重相近,與O的權(quán)重不同。對(duì)于用戶(hù)a,假設(shè)Ma-25,Na=25,Oa=23,即Ma與Na年齡相同,Ma與Oa年齡相近,Na與Oa年齡相近。根據(jù)表1所設(shè)置的年齡^又值加分可知,Ma的年齡權(quán)值為P1+A2+A5,Na的年齡權(quán)值為P2+A2+A5,Oa的年齡權(quán)值為P3+A5+A5。同理,用戶(hù)b和用戶(hù)c的年齡權(quán)值也可按照上述方法原理計(jì)算得到。在步驟S14中,獲取基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。上述實(shí)施例中,對(duì)于用戶(hù)a,則取Ma、Na和Oa的年齡權(quán)值最大的作為用戶(hù)a的初步估算年齡。由于年齡權(quán)值最大的年齡最可能接近用戶(hù)的真實(shí)年齡,因此所得到的初步估算年齡更準(zhǔn)確。在一個(gè)實(shí)施方式中,得到用戶(hù)的初步估算年齡后,比較用戶(hù)的初步估算年齡的年齡權(quán)值與初始權(quán)值的大小,根據(jù)比較結(jié)果將用戶(hù)的初步估算年齡的年齡權(quán)值劃分為三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)1直為低。在一個(gè)實(shí)施例中,設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值分別為Pl、P2和P3,當(dāng)初步估算年齡的年齡權(quán)值小于等于P2時(shí),權(quán)值為低;當(dāng)初步估算年齡的年齡權(quán)值大于P2且小于等于P3時(shí),權(quán)值為中;當(dāng)初步估算年齡的年齡權(quán)值大于P3時(shí),權(quán)值為高。圖4示出了一個(gè)實(shí)施例中利用同學(xué)關(guān)系鏈數(shù)據(jù)估算用戶(hù)年齡的方法流程,具體過(guò)程如下在步驟S20中,查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù)。同學(xué)關(guān)系鏈數(shù)據(jù)是用戶(hù)之間是同學(xué)關(guān)系的一個(gè)數(shù)據(jù)集合,具有同學(xué)關(guān)系的用戶(hù)年齡通常相同或相近,可通過(guò)獲耳又用戶(hù)所在的同學(xué)群組成員及用戶(hù)的好友分組來(lái)獲取同學(xué)關(guān)系鏈數(shù)據(jù)。在步驟S22中,判斷所述用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則進(jìn)入步驟S24,否則結(jié)束。在一個(gè)實(shí)施方式中,該預(yù)i殳條件為m>3JLm/n>=l/4,其中,m為同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),n為同學(xué)關(guān)系鏈中的用戶(hù)總數(shù)。在步驟S24中,將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和為低的用戶(hù)的年齡調(diào)整為年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。在一個(gè)實(shí)施例中,當(dāng)查找到同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù)滿(mǎn)足上述預(yù)設(shè)條件時(shí),由于這些用戶(hù)的初步估算年齡的年齡權(quán)值為高,相對(duì)年齡權(quán)值為低和年齡取值為中的用戶(hù)的初步估算年齡更準(zhǔn)確,而同學(xué)關(guān)系鏈數(shù)據(jù)中用戶(hù)的年齡通常相同或相近,因此利用年齡權(quán)值為高的用戶(hù)的初步估算年齡去調(diào)整年齡權(quán)值為低及為中的用戶(hù)年齡,將初步估算年齡的年齡權(quán)值為中和為低的用戶(hù)的年齡調(diào)整為年齡權(quán)值為高的用戶(hù)年齡,估算得到的用戶(hù)年齡更準(zhǔn)確。10圖5示出了一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),該系統(tǒng)包括權(quán)值設(shè)置單元IO、權(quán)值處理單元20、年齡估算單元30。其中權(quán)值設(shè)置單元10用于獲取用戶(hù)的基本年齡數(shù)才居,并設(shè)置所述基本年齡數(shù)據(jù)的^刀始積J直。權(quán)值處理單元20與權(quán)值i殳置單元10相連,沖艮凈居初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值。年齡估算單元30與權(quán)值處理單元20相連,用于查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。圖6示出了另一個(gè)實(shí)施例中基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),該系統(tǒng)除了包括上述權(quán)值設(shè)置單元10、權(quán)值處理單元20和年齡估算單元30外,還包括年齡數(shù)據(jù)存儲(chǔ)單元40和同學(xué)關(guān)系鏈數(shù)據(jù)存儲(chǔ)單元50。其中年齡數(shù)據(jù)存儲(chǔ)單元40與權(quán)值設(shè)置單元10、4又值處理單元20及年齡估算單元40相連,用于存儲(chǔ)基本年齡數(shù)據(jù)和參考年齡凄t據(jù)。基本年齡數(shù)據(jù)是用戶(hù)通過(guò)各種網(wǎng)絡(luò)產(chǎn)品填寫(xiě)資料而提供的年齡數(shù)據(jù);參考年齡數(shù)據(jù)可以是通過(guò)網(wǎng)絡(luò)進(jìn)行問(wèn)巻調(diào)查得到的用戶(hù)年齡數(shù)據(jù)。由于問(wèn)巻調(diào)查所i殳置的問(wèn)題相對(duì)嚴(yán)謹(jǐn),所得到的參考年齡數(shù)據(jù)比基本年齡數(shù)據(jù)更準(zhǔn)確。同學(xué)關(guān)系鏈數(shù)據(jù)存儲(chǔ)單元50與年齡估算單元30相連,用于存儲(chǔ)同學(xué)關(guān)系鏈數(shù)據(jù)。具有同學(xué)關(guān)系的用戶(hù)年齡通常相同或相近,可通過(guò)獲取用戶(hù)所在的同學(xué)群組成員及用戶(hù)的好友分組來(lái)獲取同學(xué)關(guān)系鏈凄史據(jù)。在一個(gè)實(shí)施方式中,權(quán)值設(shè)置單元IO還用于獲取用戶(hù)的參考年齡數(shù)據(jù),將基本年齡數(shù)據(jù)與參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)該準(zhǔn)確率設(shè)置基本年齡的初始權(quán)值??赏ㄟ^(guò)在各種基本年齡數(shù)據(jù)中查找與參考年齡相符的年齡個(gè)數(shù),基本年齡數(shù)據(jù)的準(zhǔn)確率則為該年齡個(gè)數(shù)與用戶(hù)總數(shù)的比值。權(quán)值設(shè)置單元IO可將準(zhǔn)確率劃分為三個(gè)等級(jí)低、中、高,并對(duì)應(yīng)不同等級(jí)的準(zhǔn)確率設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值。在一個(gè)實(shí)施方式中,權(quán)值處理單元20還用于將基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比,根據(jù)初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡權(quán)值加分,則用戶(hù)的年齡權(quán)值為初始權(quán)值與年齡相J直加分的和。權(quán)值處理單元20將各種基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比,對(duì)任意一種基本年齡數(shù)據(jù),獲取其與其它基本年齡數(shù)據(jù)之間的權(quán)重關(guān)系,以及在該權(quán)重關(guān)系下用戶(hù)年齡之間的相似度,則在基本年齡數(shù)據(jù)中用戶(hù)的年齡權(quán)值加分為該基本年齡數(shù)據(jù)與其它基本年齡數(shù)據(jù)進(jìn)行對(duì)比后所得到的所有年齡權(quán)值加分的總和。積J直處理單元20計(jì)算得到用戶(hù)的年齡權(quán)值后,年齡估算單元30則查找年齡;K值最大的年齡,并將該年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。在一個(gè)實(shí)施方式中,年齡估算單元30得到用戶(hù)的初步估算年齡后,權(quán)值處理單元20還比較用戶(hù)的初步估算年齡與初始權(quán)〗直的大小,并4艮據(jù)比較結(jié)果將用戶(hù)的初步估算年齡的年齡權(quán)值劃分為至少如下三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)值為低。在一個(gè)實(shí)施方式中,年齡估算單元30還用于查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),并判斷該用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則將同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶(hù)的年齡調(diào)整為所迷初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。在一個(gè)實(shí)施例中,所述預(yù)設(shè)條件為m>3im/n>=l/4,其中,m為同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),n為同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶(hù)總數(shù)。由于同學(xué)關(guān)系鏈凄t才居中的用戶(hù)年齡相同或相近,利用年齡權(quán)值為高的用戶(hù)的初步估算年齡去調(diào)整年齡權(quán)值為低及為中的用戶(hù)年齡,將初步估算年齡的年齡權(quán)值為中和為低的用戶(hù)的年齡調(diào)整為年齡權(quán)值為高的用戶(hù)年齡,估算得到的用戶(hù)年齡更準(zhǔn)確。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。權(quán)利要求1、一種基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述方法包括獲取用戶(hù)的基本年齡數(shù)據(jù),并為所述基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)所述初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中所述年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。2、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述設(shè)置基本年齡數(shù)據(jù)的初始權(quán)值的步驟具體是獲取用戶(hù)的參考年齡數(shù)據(jù);將所述基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率;根據(jù)所述準(zhǔn)確率為所述基本年齡數(shù)據(jù)賦初始4又值。3、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值的步驟具體是將所述基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比;根據(jù)所述初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡^又值加分;根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶(hù)的年齡權(quán)值。4、根據(jù)權(quán)利要求1所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述方法還包括獲取同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶(hù)的初步估算年齡,并根據(jù)所述用戶(hù)的初步估算年齡及其年齡權(quán)值調(diào)整所述同學(xué)關(guān)系鏈數(shù)據(jù)中的用戶(hù)的初步估算年齡。5、根據(jù)權(quán)利要求1或4所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述方法還包括述比較結(jié)果將所述用戶(hù)的初步估算年齡的年齡權(quán)值劃分為至少如下三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)值為低。6、根據(jù)權(quán)利要求5所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法,其特征在于,所述方法還包括查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),判斷所述用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則將所述同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶(hù)的年齡調(diào)整為所述初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。7、一種基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在于,所述系統(tǒng)包括權(quán)值設(shè)置單元,用于獲取用戶(hù)的基本年齡數(shù)據(jù),并為所述基本年齡數(shù)據(jù)賦凈刀^會(huì)一又H;權(quán)值處理單元,與所述權(quán)值設(shè)置單元相連,才艮據(jù)所述初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;年齡估算單元,與所述權(quán)值處理單元相連,查找基本年齡數(shù)據(jù)中年齡權(quán)值最大的年齡,將所述年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。8、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在于,所述權(quán)值設(shè)置單元還用于獲取用戶(hù)的參考年齡數(shù)據(jù),將所述基本年齡數(shù)據(jù)與所述參考年齡數(shù)據(jù)進(jìn)行對(duì)比,獲取基本年齡數(shù)據(jù)的準(zhǔn)確率,并根據(jù)所述準(zhǔn)確率為所述基本年齡數(shù)據(jù)賦初始權(quán)值。9、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在于,所述權(quán)值處理單元還用于將所述基本年齡數(shù)據(jù)進(jìn)行兩兩對(duì)比,根據(jù)所述初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,設(shè)置用戶(hù)的年齡權(quán)值加分,根據(jù)所述初始權(quán)值與年齡權(quán)值加分的和確定用戶(hù)的年齡權(quán)值。10、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在下三個(gè)等級(jí)權(quán)值為高、權(quán)值為中、權(quán)值為低。11、根據(jù)權(quán)利要求IO所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在于,所述年齡估算單元還用于查找同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)個(gè)數(shù),判斷所述用戶(hù)個(gè)數(shù)是否滿(mǎn)足預(yù)設(shè)條件,若是,則將所述同學(xué)關(guān)系鏈數(shù)據(jù)中初步估算年齡的年齡權(quán)值為中和年齡權(quán)值為低的用戶(hù)的年齡調(diào)整為所述初步估算年齡的年齡權(quán)值為高且年齡相同的用戶(hù)的年齡。12、根據(jù)權(quán)利要求7所述的基于海量數(shù)據(jù)的用戶(hù)年齡估算系統(tǒng),其特征在于,所述系統(tǒng)還包括年齡數(shù)據(jù)存儲(chǔ)單元,與所述權(quán)值設(shè)置單元、^U直處理單元及年齡估算單元相連,用于存儲(chǔ)基本年齡數(shù)據(jù)和參考年齡數(shù)據(jù);同學(xué)關(guān)系鏈數(shù)據(jù)存儲(chǔ)單元,與所述年齡估算單元相連,用于存儲(chǔ)同學(xué)關(guān)系鏈數(shù)據(jù)。全文摘要本發(fā)明提供了一種基于海量數(shù)據(jù)的用戶(hù)年齡估算方法及系統(tǒng)。所述方法包括獲取用戶(hù)的基本年齡數(shù)據(jù),為所述基本年齡數(shù)據(jù)賦初始權(quán)值;根據(jù)所述初始權(quán)值以及用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡相似度,獲取用戶(hù)在不同基本年齡數(shù)據(jù)中的年齡權(quán)值;查找基本年齡數(shù)據(jù)中所述年齡權(quán)值最大的年齡,將年齡權(quán)值最大的年齡作為用戶(hù)的初步估算年齡。采用本發(fā)明提供的基于海量數(shù)據(jù)的用戶(hù)年齡估算方法及系統(tǒng),能提高估算用戶(hù)年齡的準(zhǔn)確度。文檔編號(hào)G06F19/00GK101635009SQ20091004205公開(kāi)日2010年1月27日申請(qǐng)日期2009年8月21日優(yōu)先權(quán)日2009年8月21日發(fā)明者凌國(guó)惠,孫阿利,林樂(lè)彬,川陳申請(qǐng)人:騰訊科技(深圳)有限公司