欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種挖掘用戶年齡樣本的方法和裝置制造方法

文檔序號(hào):6633757閱讀:203來(lái)源:國(guó)知局
一種挖掘用戶年齡樣本的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種挖掘用戶年齡樣本的方法和裝置,其中的方法具體包括:獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在學(xué)習(xí)階段的年份信息;依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值。本發(fā)明能夠挖掘出數(shù)量更多和更真實(shí)可靠的用戶年齡樣本。
【專利說(shuō)明】一種挖掘用戶年齡樣本的方法和裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息【技術(shù)領(lǐng)域】,特別是涉及一種挖掘用戶年齡樣本的方法和裝 置。

【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)信息領(lǐng)域,用戶年齡是精準(zhǔn)廣告定向和個(gè)性化推薦等互聯(lián)網(wǎng)服務(wù)的重要 輸入特征,也是DMP(數(shù)據(jù)管理平臺(tái),Data Management Platform)的必要組成部分。
[0003] 現(xiàn)有常用的預(yù)測(cè)用戶年齡的方法,通常采用監(jiān)督學(xué)習(xí)方式對(duì)用戶年齡樣本進(jìn)行訓(xùn) 練得到相應(yīng)的年齡預(yù)測(cè)模型。對(duì)于監(jiān)督學(xué)習(xí)方式而言,訓(xùn)練樣本的數(shù)量和質(zhì)量非常重要,若 訓(xùn)練樣本的數(shù)量選取不當(dāng)或者訓(xùn)練樣本有誤,將直接影響年齡預(yù)測(cè)模型的精度和準(zhǔn)確度。
[0004] 傳統(tǒng)的挖掘用戶年齡樣本的方法往往通過(guò)問(wèn)卷調(diào)查、用戶注冊(cè)等方式讓用戶填寫(xiě) 年齡信息。然而,年齡是一種隱私信息,尤其對(duì)女性而言,她們更是不愿意透漏自己的年齡; 因此,大多數(shù)用戶為了保護(hù)自己的隱私,可能會(huì)不填年齡或者有意錯(cuò)填年齡,這給大規(guī)模收 集用戶年齡樣本帶來(lái)較大的困難,也給年齡維度的監(jiān)督學(xué)習(xí)方式帶來(lái)用戶年齡樣本方面的 難題。


【發(fā)明內(nèi)容】

[0005] 鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上 述問(wèn)題的一種挖掘用戶年齡樣本的方法和裝置。
[0006] 依據(jù)本發(fā)明的一個(gè)方面,提供了一種挖掘用戶年齡樣本的方法,包括:
[0007] 獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在學(xué)習(xí)階段的年 份信息;
[0008] 依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值。
[0009] 可選地,所述依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本 的年齡值的步驟,包括:
[0010] 依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到 各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0011] 對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的 年齡值。
[0012] 可選地,所述對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所 述用戶樣本的年齡值的步驟,包括:
[0013] 統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0014] 在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的期望 值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用于評(píng)估用戶樣本的真 實(shí)性。
[0015] 可選地,所述在學(xué)習(xí)階段的年份信息包括:入學(xué)年份信息,所述學(xué)習(xí)階段的年齡經(jīng) 驗(yàn)值包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信 息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的步驟,包括:
[0016] 計(jì)算當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第一差值,對(duì)所述 第一差值與該學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
[0017] 可選地,所述方差閾值包括從5到20的所有整數(shù)。
[0018] 可選地,所述方法還包括:
[0019] 獲取所述用戶樣本的年齡信息;
[0020] 依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本 的年齡值。
[0021] 可選地,所述方法還包括:
[0022] 依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年齡估計(jì)值;
[0023] 依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0024] 當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距超過(guò)閾值時(shí),判定 所述用戶樣本不真實(shí)。
[0025] 依據(jù)本發(fā)明的另一方面,提供了一種挖掘用戶年齡樣本的裝置,包括:
[0026] 獲取模塊,用于獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在 學(xué)習(xí)階段的年份信息;及
[0027] 挖掘模塊,用于依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣 本的年齡值。
[0028] 可選地,所述挖掘模塊,包括:
[0029] 估計(jì)子模塊,用于依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的 年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0030] 數(shù)理統(tǒng)計(jì)子模塊,用于對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng) 計(jì),得到所述用戶樣本的年齡值。
[0031] 可選地,所述數(shù)理統(tǒng)計(jì)子模塊,包括:
[0032] 第一統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0033] 第二統(tǒng)計(jì)單元,用于在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì) 應(yīng)年齡估計(jì)值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用 于評(píng)估用戶樣本的真實(shí)性。
[0034] 可選地,所述在學(xué)習(xí)階段的年份信息包括:入學(xué)年份信息,所述學(xué)習(xí)階段的年齡經(jīng) 驗(yàn)值包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述估計(jì)子模塊,具體用于計(jì)算當(dāng)前年份與所述 用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第一差值,對(duì)所述第一差值與該學(xué)習(xí)階段的入學(xué) 年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
[0035] 可選地,所述方差閾值包括從5到20的所有整數(shù)。
[0036] 可選地,所述裝置還包括:年齡信息獲取模塊,用于獲取所述用戶樣本的年齡信 息;
[0037] 則所述挖掘模塊,還用于依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信 息,挖掘得到所述用戶樣本的年齡值。
[0038] 可選地,所述挖掘模塊包括:
[0039] 第一估計(jì)子模塊,用于依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年齡 估計(jì)值;
[0040] 第二估計(jì)子模塊,用于依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段對(duì) 應(yīng)的年齡估計(jì)值;
[0041] 判定子模塊,用于當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距 超過(guò)閾值時(shí),判定所述用戶樣本不真實(shí)。
[0042] 根據(jù)本發(fā)明實(shí)施例的一種挖掘用戶年齡樣本的方法和裝置,可以依據(jù)所述用戶樣 本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值;
[0043] 對(duì)于微博等社交網(wǎng)站而言,注冊(cè)用戶數(shù)量已達(dá)到千萬(wàn)甚至上億,雖然大部分用戶 不愿意提交年齡信息,但卻有大多數(shù)用戶樂(lè)意提交自己的教育信息,比如在XX年到XX年 在哪所高中讀書(shū),又如就讀的某所大學(xué)的入學(xué)年份是XX年等等;由于上述用戶樣本在學(xué)習(xí) 階段的年份信息是用戶在意愿情況和懷有社交目的情況下提交的信息,因此大多具備真實(shí) 性,且樣本數(shù)量可觀;例如,隨機(jī)采樣了 150萬(wàn)微博用戶,其中填寫(xiě)年齡信息的用戶數(shù)不足 10萬(wàn),但是填寫(xiě)教育信息的用戶數(shù)超過(guò)了 80萬(wàn),因此能夠從該80萬(wàn)用戶樣本中挖掘出大量 的用戶年齡樣本;因此,本發(fā)明實(shí)施例提供了一種便利、高效地挖掘用戶年齡樣本的方案, 相對(duì)于現(xiàn)有方案,該方案能夠挖掘出數(shù)量更多和更真實(shí)可靠的用戶年齡樣本;
[0044] 進(jìn)一步,在依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的 年齡值的過(guò)程中,本發(fā)明實(shí)施例還可以采用方差閾值評(píng)估用戶樣本的真實(shí)性,在所有學(xué)習(xí) 階段對(duì)應(yīng)年齡估計(jì)值的總體方差值不超過(guò)該方差閾值時(shí)才采用該用戶樣本,因此,還能夠 保證用戶年齡樣本挖掘的魯棒性。
[0045] 上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠 更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。

【專利附圖】

【附圖說(shuō)明】
[0046] 通過(guò)閱讀下文可選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出可選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明 的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0047] 圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟流程 圖;
[0048] 圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟流程 圖;
[0049] 圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟流程 圖;
[0050] 圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟流程 圖;
[0051] 圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的裝置的結(jié)構(gòu)框圖;
[0052] 圖6示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘模塊503的結(jié)構(gòu)框圖;以及
[0053] 圖7示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種數(shù)理統(tǒng)計(jì)子模塊532的結(jié)構(gòu)框圖;
[0054] 圖8示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的裝置的結(jié)構(gòu)框圖; 以及
[0055] 圖9示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘模塊805的結(jié)構(gòu)框圖。

【具體實(shí)施方式】
[0056] 下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi) 的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例 所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍 完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0057] 參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟 流程圖,具體可以包括如下步驟:
[0058] 步驟101、獲取用戶樣本的教育信息;其中,所述教育信息具體可以包括:用戶樣 本在學(xué)習(xí)階段的年份信息;
[0059] 步驟103、依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年 齡值。
[0060] 本發(fā)明實(shí)施例的用戶樣本可以來(lái)源于網(wǎng)站平臺(tái)或者客戶端平臺(tái)等各種網(wǎng)絡(luò)平臺(tái), 也可以來(lái)源于實(shí)際的調(diào)研項(xiàng)目,本發(fā)明實(shí)施例主要以網(wǎng)絡(luò)平臺(tái)為例進(jìn)行說(shuō)明,其它來(lái)源相 互參照即可。
[0061] 對(duì)于twitter、Facebook、Linkedln、微博、人人等社交網(wǎng)站而言,這些社交網(wǎng)站均 提供有用戶提交教育信息的接口,用戶可以在注冊(cè)賬戶時(shí)通過(guò)該接口提交教育信息,也可 以在使用注冊(cè)賬戶登錄后需要完善個(gè)人信息時(shí)通過(guò)該接口提交教育信息。而使用該接口提 交過(guò)教育信息的用戶均可以作為用戶樣本,且用戶提交過(guò)的用戶樣本在學(xué)習(xí)階段的年份信 息均可以參與用戶樣本的年齡值的挖掘過(guò)程。
[0062] 在具體實(shí)現(xiàn)中,所述教育信息具體可以包括:用戶樣本在學(xué)習(xí)階段的年份信息。其 中,所述學(xué)習(xí)階段具體可以包括:小學(xué)、初中、高中、大學(xué)、碩士和博士階段中的一項(xiàng)或多項(xiàng), 當(dāng)然還可以包括幼兒園和博士后階段等等;所述在學(xué)習(xí)階段的年份信息具體可以包括:入 學(xué)年份信息和畢業(yè)年份信息中的一項(xiàng)或多項(xiàng)等等。
[0063] 在本發(fā)明的一種應(yīng)用示例中,用戶樣本提交的教育信息具體可以包括:在XX年到 XX年在哪所高中讀書(shū),或者,就讀的某所大學(xué)的入學(xué)年份是XX年等等,或者,自己是某所大 學(xué)的XX級(jí)新生,或者,自己是某所大學(xué)的XX屆畢業(yè)生等等。
[0064] 綜上,本發(fā)明實(shí)施例具有如下優(yōu)點(diǎn):
[0065] 由于上述用戶樣本在學(xué)習(xí)階段的年份信息是用戶在意愿情況和懷有社交目的情 況下提交的信息,因此大多具備真實(shí)性,且樣本數(shù)量可觀;例如隨機(jī)采樣了 150萬(wàn)微博用 戶,其中填寫(xiě)年齡信息的用戶數(shù)不足10萬(wàn),但是填寫(xiě)教育信息的用戶數(shù)超過(guò)了 80萬(wàn),因此 能夠從該80萬(wàn)用戶樣本中挖掘出大量的用戶年齡樣本;因此,本發(fā)明實(shí)施例提供了一種便 利、高效地挖掘用戶年齡樣本的方案,相對(duì)于現(xiàn)有方案,該方案能夠挖掘出數(shù)量更多和更真 實(shí)可靠的用戶年齡樣本。
[0066] 參照?qǐng)D2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟 流程圖,具體可以包括如下步驟:
[0067] 步驟201、獲取用戶樣本的教育信息;其中,所述教育信息具體可以包括:用戶樣 本在學(xué)習(xí)階段的年份信息;
[0068] 步驟203、依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng) 驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0069] 步驟205、對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用 戶樣本的年齡值。
[0070] 相對(duì)于圖1所示實(shí)施例,本實(shí)施例對(duì)依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息, 挖掘得到所述用戶樣本的年齡值的過(guò)程進(jìn)行了詳細(xì)說(shuō)明,該挖掘過(guò)程具體可以通過(guò)步驟 203和步驟205來(lái)實(shí)現(xiàn)。
[0071] 在本發(fā)明的一種應(yīng)用示例中,所有用戶樣本可以共用各學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值, 如小學(xué)入學(xué)年齡的經(jīng)驗(yàn)值為7歲,初中入學(xué)年齡的經(jīng)驗(yàn)值為12歲,高中入學(xué)年齡的經(jīng)驗(yàn)值 為15歲,大學(xué)入學(xué)年齡的經(jīng)驗(yàn)值為18歲,碩士入學(xué)年齡的經(jīng)驗(yàn)值為22歲等等。
[0072] 然而,不同用戶樣本所處教育環(huán)境的不同及個(gè)體差異導(dǎo)致可能使用不同的各學(xué)習(xí) 階段的年齡經(jīng)驗(yàn)值,這里的教育環(huán)境具體可以包括:地區(qū)、年代和學(xué)校名稱等等。例如,不同 年代和不同地區(qū)對(duì)于小學(xué)入學(xué)年齡的要求是不同的,例如,90年代河北地區(qū)要求滿8周歲 才能讀小學(xué),90年代山東地區(qū)要求滿7周歲可以讀小學(xué),而21世紀(jì)全國(guó)所有地區(qū)對(duì)于小學(xué) 入學(xué)年齡的要求都是6周歲。又如,一些地區(qū)的小學(xué)為五年制,初中為四年制,而另一些地 區(qū)的小學(xué)為六年制,初中為三年制等等。再如,個(gè)別用戶會(huì)存在留級(jí)或復(fù)讀現(xiàn)象等等。
[0073] 因此,在本發(fā)明的另一種應(yīng)用示例中,所述用戶樣本還可以使用符合自身屬性的 各學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值。在具體實(shí)現(xiàn)中,可以維護(hù)年份、地區(qū)和各學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值 的第一映射關(guān)系,或者,維護(hù)年份、學(xué)校名稱和各學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值的第二映射關(guān)系, 并且,所述教育信息還可以包括:用戶樣本在學(xué)習(xí)階段的學(xué)校名稱信息。這樣,可以依據(jù)某 用戶樣本在某學(xué)習(xí)階段的年份信息和學(xué)校名稱信息,查找上述第二映射關(guān)系,得到該用戶 樣本在該學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值;或者,還可以首先依據(jù)某用戶樣本在學(xué)習(xí)階段的學(xué)校名 稱信息,查找對(duì)應(yīng)的地區(qū)信息,然后依據(jù)上述地區(qū)信息和年份信息查找第一映射關(guān)系,得到 該用戶樣本在該學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值。
[0074] 在本發(fā)明的一種實(shí)施例中,所述在學(xué)習(xí)階段的年份信息具體可以包括:入學(xué)年份 信息,所述學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值具體可以包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述依據(jù) 所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì) 應(yīng)的年齡估計(jì)值的步驟,具體可以包括:計(jì)算當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入 學(xué)年份信息的第一差值,對(duì)所述第一差值與該學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到 該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
[0075] 例如,某用戶樣本提交的教育信息中,高中入學(xué)年份為2005,高中入學(xué)年齡的經(jīng)驗(yàn) 值為15,那么該用戶樣本的高中階段對(duì)應(yīng)的年齡估計(jì)值可以為:15+(2014-2005) = 24。
[0076] 在得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值后,可以采用各種單變量的數(shù)理統(tǒng)計(jì)方法對(duì) 所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡值。其 中,所述單變量的數(shù)理統(tǒng)計(jì)方法具體可以包括:集中趨勢(shì)統(tǒng)計(jì)方法、離散程度統(tǒng)計(jì)方法和分 布的形狀統(tǒng)計(jì)方法等等,其中,所述集中趨勢(shì)統(tǒng)計(jì)方法具體可以包括:眾數(shù)、中位數(shù)和均值 統(tǒng)計(jì)方法等等,所述離散程度統(tǒng)計(jì)方法具體可以包括:異眾比率、四分位差、方差和標(biāo)準(zhǔn)差 統(tǒng)計(jì)方法等等,所述分布的形狀統(tǒng)計(jì)方法具體可以包括:偏態(tài)和峰值統(tǒng)計(jì)方法等等。
[0077] 綜上,由于各學(xué)習(xí)階段的年齡是有規(guī)定可依的,故本實(shí)施例可以按照上述規(guī)定確 定符合用戶自身屬性的學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,將該學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值應(yīng)用到該學(xué)習(xí) 階段對(duì)應(yīng)的年齡估計(jì)值的獲取過(guò)程中,并對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的 數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡值,上述用戶樣本的年齡值的挖掘方法實(shí)現(xiàn)簡(jiǎn)單,故能 夠提高挖掘效率,并且,能夠得到真實(shí)可靠的挖掘效果。
[0078] 參照?qǐng)D3,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟 流程圖,具體可以包括如下步驟:
[0079] 步驟301、獲取用戶樣本的教育信息;其中,所述教育信息具體可以包括:用戶樣 本在學(xué)習(xí)階段的年份信息;
[0080] 步驟303、依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng) 驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0081] 步驟305、統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0082] 步驟307、在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì) 值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值可用于評(píng)估用 戶樣本的真實(shí)性。
[0083] 相對(duì)于圖2所示實(shí)施例,本實(shí)施例細(xì)化了所述對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值 進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡值的過(guò)程,所述單變量的數(shù)理統(tǒng)計(jì)過(guò)程 具體可以通過(guò)步驟305和步驟307來(lái)實(shí)現(xiàn)。
[0084] 對(duì)于所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值組成的總體數(shù)據(jù)而言,其總體方差值是各個(gè)年 齡估計(jì)值與平均數(shù)之差的平方的和的平均數(shù),該總體方差值越小,則代表總體數(shù)據(jù)的個(gè)體 越穩(wěn)定,該總體方差值越大,則代表總體數(shù)據(jù)的個(gè)體越不穩(wěn)定,該總體方差值S 2可用如下公 式表不:
[0085] = - xf + xf..七…(%n - X~f\ / -. x n 11/
[0086] 其中,n代表年齡估計(jì)值的數(shù)量,xl、x2、xn、分別代表第1、2和n個(gè)年齡估計(jì)值。 [0087] 在具體實(shí)現(xiàn)中,為了更好地發(fā)揮所述方差閾值的評(píng)估用戶樣本的真實(shí)性的作用, 在本發(fā)明的一種優(yōu)選實(shí)施例中,所述方差閾值可以為經(jīng)過(guò)多組對(duì)比實(shí)驗(yàn)得到的符合預(yù)置效 果條件的閾值。
[0088] 在實(shí)際應(yīng)用中,可用首先確定所述方差閾值范圍。依據(jù)上述公式(1),如果方差閾 值為16,則意味著所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值組成的總體數(shù)據(jù)中,存在與平均數(shù)相差4 歲甚至多的年齡。對(duì)于小學(xué)、初中、高中、大學(xué)、碩士和博士等階段而言,用戶通常優(yōu)先提交 距離現(xiàn)在較近的教育背景,也即初中階段以后的教育背景;而通常初中需要3年、高中需要 3年、本科需要4年,因此,為了發(fā)揮方差閾值的作用以最終保證用戶年齡樣本的真實(shí)可靠 性,其不能大于4的平方(即16)太多,所以最終選擇方差閾值的上限為20 ;當(dāng)然過(guò)小的方 差閾值將會(huì)減小用戶年齡樣本的數(shù)量,因此,最終的方差閾值候選集可以是從5到20的所 有整數(shù)。當(dāng)然,上述5到20的所有整數(shù)只是作為本發(fā)明實(shí)施例的方差閾值范圍的應(yīng)用示例, 本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況,在用戶年齡樣本數(shù)量和真實(shí)可靠性之間選擇折衷的方 差閾值范圍。
[0089] 然后,可以依據(jù)所述方差閾值范圍,進(jìn)行多組對(duì)比實(shí)驗(yàn),其中的每組實(shí)驗(yàn)可以針對(duì) M個(gè)用戶樣本均執(zhí)行上述步驟301-步驟307的流程;
[0090] 最后,可以依據(jù)網(wǎng)站平臺(tái)中重要度較高成員的用戶關(guān)系及其發(fā)布的內(nèi)容對(duì)所述各 組實(shí)驗(yàn)的挖掘效果進(jìn)行評(píng)估,以微博網(wǎng)站為例,可以微博博主的粉絲關(guān)系和所發(fā)的微博內(nèi) 容進(jìn)行挖掘效果的評(píng)估,確定了當(dāng)方差閾值在10到12時(shí),挖掘效果的魯棒性較好;也即,本 發(fā)明的預(yù)置效果條件用于衡量實(shí)驗(yàn)得出的年齡值與評(píng)估得到的年齡值的差距,本領(lǐng)域技術(shù) 人員可以根據(jù)實(shí)際需要采用合適的預(yù)置效果條件。當(dāng)然,上述微博博主只是作為重要度較 高成員的一種示例,本領(lǐng)域技術(shù)人員可以根據(jù)實(shí)際情況采用其它重要度較高成員,如群主、 等級(jí)超過(guò)一定程度的成員等等。
[0091] 綜上,由于所述方差閾值可用于評(píng)估用戶樣本的真實(shí)性,在所有學(xué)習(xí)階段對(duì)應(yīng)年 齡估計(jì)值的總體方差值不超過(guò)該方差閾值時(shí)才采用該用戶樣本,而在所有學(xué)習(xí)階段對(duì)應(yīng)年 齡估計(jì)值的總體方差值超過(guò)該方差閾值時(shí)丟棄該用戶樣本,因此,本實(shí)施例能夠保證用戶 年齡樣本挖掘的真實(shí)可靠性和魯棒性。
[0092] 參照?qǐng)D4,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的方法的步驟 流程圖,具體可以包括如下步驟:
[0093] 步驟401、獲取用戶樣本的教育信息;其中,所述教育信息具體可以包括:用戶樣 本在學(xué)習(xí)階段的年份信息;
[0094] 步驟403、獲取所述用戶樣本的年齡信息;
[0095] 步驟405、依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘得到所述 用戶樣本的年齡值。
[0096] 相對(duì)于實(shí)施例一,本實(shí)施例還可以獲取用戶樣本的年齡信息,并依據(jù)所述用戶樣 本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值;由于挖掘過(guò)程 中綜合考慮了用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息這兩種信息,通過(guò)分析該兩種 信息可以有效驗(yàn)證用戶樣本的真實(shí)性。
[0097] 例如,在本發(fā)明的一種應(yīng)用示例中,假設(shè)依據(jù)所述用戶樣本的年齡信息得到了第 一年齡估計(jì)值,且依據(jù)在學(xué)習(xí)階段的年份信息得到了各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值,因?yàn)?如果用戶樣本真實(shí),則上述第一年齡估計(jì)值就是真實(shí)的年齡值,而各學(xué)習(xí)階段對(duì)應(yīng)的年齡 估計(jì)值與真實(shí)的年齡值的差距則應(yīng)在估計(jì)算法的誤差允許范圍內(nèi),因此,如果上述第一年 齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距超過(guò)閾值,則可以判定所述用戶樣本不真 實(shí)。其中,上述閾值可依據(jù)各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值對(duì)應(yīng)估計(jì)算法的誤差確定,例如, 其可以為2?4之間的數(shù)值等等。另外,在計(jì)算兩種年齡估計(jì)值的差距時(shí),可以將上述第一 年齡估計(jì)值與某學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行對(duì)比,也可以將上述第一年齡估計(jì)值與所 有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的平均數(shù)進(jìn)行比較。
[0098] 又如,在本發(fā)明的另一種應(yīng)用示例中,可以將上述第一年齡估計(jì)值與各學(xué)習(xí)階段 對(duì)應(yīng)的年齡估計(jì)值看作平等的估計(jì)值,從而可以根據(jù)所有估計(jì)值的總體方差判定用戶樣本 的真實(shí)性。下面給出詳細(xì)的實(shí)現(xiàn)過(guò)程。
[0099] 在具體實(shí)現(xiàn)中,所述依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖 掘得到所述用戶樣本的年齡值的步驟405,具體可以包括:
[0100] 子步驟451、依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡 經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0101] 子步驟453、依據(jù)所述用戶樣本的年齡信息,得到所述用戶樣本的第一年齡估計(jì) 值;
[0102] 子步驟455、對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值和第一年齡估計(jì)值進(jìn)行單變量的 數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡值。
[0103] 其中,所述對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值和第一年齡估計(jì)值進(jìn)行單變量的數(shù) 理統(tǒng)計(jì),得到所述用戶樣本的年齡值的過(guò)程可以進(jìn)一步包括:
[0104] 子步驟4551、統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值和所述第一年齡估計(jì)值的總體方 差值;
[0105] 子步驟4553、在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡 估計(jì)值和所述第一年齡估計(jì)值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中, 所述方差閾值可用于評(píng)估用戶樣本的真實(shí)性。
[0106] 為使本領(lǐng)域技術(shù)人員更好地理解本發(fā)明,在此提供一種用戶A的挖掘示例,該示 例涉及用戶A在微博上提交了如下3項(xiàng)信息:
[0107] 出生年:1980年1月1日
[0108] 高中入學(xué)年份:2005年
[0109] 大學(xué)入學(xué)年份:2009年
[0110] 假定當(dāng)前年份為2014年,方差閾值為12,因此,可以對(duì)上述3項(xiàng)信息分別計(jì)算年齡 估計(jì)值:
[0111] 依據(jù)出生年:34歲
[0112] 依據(jù)高中入學(xué)年份:15歲+(2014-2005) = 24歲,15歲是高中入學(xué)年齡的經(jīng)驗(yàn)值。
[0113] 依據(jù)大學(xué)入學(xué)年份:18歲+(2014-2009) = 23歲,18歲是大學(xué)入學(xué)年齡的經(jīng)驗(yàn)值。
[0114] 34歲、24歲、23歲可以構(gòu)成一個(gè)估計(jì)年齡的數(shù)組,且可以統(tǒng)計(jì)得到數(shù)組方差為 24. 67,超過(guò)方差的設(shè)定閾值12,因此可以認(rèn)為該用戶提交的信息中至少有一項(xiàng)是錯(cuò)誤的, 這個(gè)用戶樣本會(huì)被舍棄。反過(guò)來(lái)分析這個(gè)用戶樣本,2005年高中入學(xué),且2009年大學(xué)入學(xué) 的人一般出生在1990年前后,而很少出生在1980年前后。
[0115] 本發(fā)明實(shí)施例已經(jīng)應(yīng)用于DMP的人口統(tǒng)計(jì)學(xué)特征預(yù)測(cè)項(xiàng)目,在1期收集的150萬(wàn) 微博用戶中,為年齡維度的模型訓(xùn)練提供了 50萬(wàn)左右的用戶年齡樣本,結(jié)合用戶的搜索日 志和微博內(nèi)容,經(jīng)過(guò)人工抽樣評(píng)測(cè),用戶年齡樣本的準(zhǔn)確率在90%以上。這批年齡樣本組成 了年齡維度的有監(jiān)督學(xué)習(xí)的標(biāo)注樣本,降低了機(jī)器學(xué)習(xí)模型的學(xué)習(xí)誤差。
[0116] 對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域 技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施 例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū) 中所描述的實(shí)施例均屬于可選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。
[0117] 參照?qǐng)D5,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的裝置的結(jié)構(gòu) 框圖,具體可以包括如下模塊:
[0118] 獲取模塊501,用于獲取用戶樣本的教育信息;其中,所述教育信息具體可以包 括:用戶樣本在學(xué)習(xí)階段的年份信息;及
[0119] 挖掘模塊503,用于依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶 樣本的年齡值。
[0120] 參照?qǐng)D6,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘模塊503的結(jié)構(gòu)框圖,其具體 可以包括:
[0121] 估計(jì)子模塊530,用于依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階 段的年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0122] 數(shù)理統(tǒng)計(jì)子模塊532,用于對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理 統(tǒng)計(jì),得到所述用戶樣本的年齡值。
[0123] 參照?qǐng)D7,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種數(shù)理統(tǒng)計(jì)子模塊532的結(jié)構(gòu)框圖, 其具體可以包括:
[0124] 第一統(tǒng)計(jì)單元5320,用于統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0125] 第二統(tǒng)計(jì)單元5322,用于在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階 段對(duì)應(yīng)年齡估計(jì)值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾 值用于評(píng)估用戶樣本的真實(shí)性。
[0126] 在本發(fā)明的一種可選實(shí)施例中,所述在學(xué)習(xí)階段的年份信息具體可以包括:入學(xué) 年份信息,所述學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值具體可以包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述 估計(jì)子模塊,可具體用于計(jì)算當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第 一差值,對(duì)所述第一差值與該學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng) 的年齡估計(jì)值。
[0127] 在本發(fā)明的另一種可選實(shí)施例中,所述方差閾值具體可以包括從5到20的所有整 數(shù)。
[0128] 參照?qǐng)D8,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘用戶年齡樣本的裝置的結(jié)構(gòu) 框圖,具體可以包括如下模塊:
[0129] 獲取模塊801,用于獲取用戶樣本的教育信息;其中,所述教育信息具體可以包 括:用戶樣本在學(xué)習(xí)階段的年份信息;
[0130] 年齡信息獲取模塊803,用于獲取所述用戶樣本的年齡信息;及
[0131] 挖掘模塊805,用于依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘 得到所述用戶樣本的年齡值。
[0132] 參照?qǐng)D9,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種挖掘模塊805的結(jié)構(gòu)框圖,具體可 以包括:
[0133] 第一估計(jì)子模塊851,用于依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年 齡估計(jì)值;
[0134] 第二估計(jì)子模塊853,用于依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段 對(duì)應(yīng)的年齡估計(jì)值;
[0135] 判定子模塊855,用于當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的 差距超過(guò)閾值時(shí),判定所述用戶樣本不真實(shí)。
[0136] 對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān) 之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
[0137] 在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。 各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求 的結(jié)構(gòu)是顯而易見(jiàn)的。此外,本發(fā)明也不針對(duì)任何特定編程語(yǔ)言。應(yīng)當(dāng)明白,可以利用各種 編程語(yǔ)言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語(yǔ)言所做的描述是為了披露本發(fā) 明的最佳實(shí)施方式。
[0138] 在此處所提供的說(shuō)明書(shū)中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施 例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu) 和技術(shù),以便不模糊對(duì)本說(shuō)明書(shū)的理解。
[0139] 類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開(kāi)并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在 上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施 例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開(kāi)的方法解釋成反映如下意圖:即所要求保 護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說(shuō),如下面 的權(quán)利要求書(shū)所反映的那樣,發(fā)明方面在于少于前面公開(kāi)的單個(gè)實(shí)施例的所有特征。因此, 遵循【具體實(shí)施方式】的權(quán)利要求書(shū)由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身 都作為本發(fā)明的單獨(dú)實(shí)施例。
[0140] 本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地 改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單 元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或 子組件。除了這樣的特征和/或過(guò)程或者單元中的至少一些是相互排斥之外,可以采用任 何組合對(duì)本說(shuō)明書(shū)(包括伴隨的權(quán)利要求、摘要和附圖)中公開(kāi)的所有特征以及如此公開(kāi) 的任何方法或者設(shè)備的所有過(guò)程或單元進(jìn)行組合。除非另外明確陳述,本說(shuō)明書(shū)(包括伴 隨的權(quán)利要求、摘要和附圖)中公開(kāi)的每個(gè)特征可以由提供相同、等同或相似目的的替代 特征來(lái)代替。
[0141] 此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例 中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的 范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書(shū)中,所要求保護(hù)的實(shí)施例的任 意之一都可以以任意的組合方式來(lái)使用。
[0142] 本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行 的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用 微處理器或者數(shù)字信號(hào)處理器(DSP)來(lái)實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的一種挖掘用戶年齡樣本 的方法和裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行 這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程 序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者 多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)平臺(tái)上下載得到,或者在載體信號(hào)上提供,或者 以任何其他形式提供。
[0143] 應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng) 域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中, 不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞"包含"不排除存在 未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞"一"或"一個(gè)"不排除存在多個(gè)這 樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來(lái) 實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過(guò)同一個(gè)硬件 項(xiàng)來(lái)具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為 名稱。
[0144] 本發(fā)明公開(kāi)了 A1、一種挖掘用戶年齡樣本的方法,包括:
[0145] 獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在學(xué)習(xí)階段的年 份信息;
[0146] 依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值。
[0147] A2、如Al所述的方法,所述依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到 所述用戶樣本的年齡值的步驟,包括:
[0148] 依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到 各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0149] 對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的 年齡值。
[0150] A3、如A2所述的方法,所述對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理 統(tǒng)計(jì),得到所述用戶樣本的年齡值的步驟,包括:
[0151] 統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0152] 在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的期望 值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用于評(píng)估用戶樣本的真 實(shí)性。
[0153] A4、如A2所述的方法,所述在學(xué)習(xí)階段的年份信息包括:入學(xué)年份信息,所述學(xué) 習(xí)階段的年齡經(jīng)驗(yàn)值包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述依據(jù)所述用戶樣本在各學(xué) 習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的步 驟,包括:
[0154] 計(jì)算當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第一差值,對(duì)所述 第一差值與該學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
[0155] A5、如A3所述的方法,所述方差閾值包括從5到20的所有整數(shù)。
[0156] A6、如Al所述的方法,所述方法還包括:
[0157] 獲取所述用戶樣本的年齡信息;
[0158] 依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本 的年齡值。
[0159] A7、如A6所述的方法,所述方法還包括:
[0160] 依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年齡估計(jì)值;
[0161] 依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0162] 當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距超過(guò)閾值時(shí),判定 所述用戶樣本不真實(shí)。
[0163] B8、一種挖掘用戶年齡樣本的裝置,包括:
[0164] 獲取模塊,用于獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在 學(xué)習(xí)階段的年份信息;及
[0165] 挖掘模塊,用于依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣 本的年齡值。
[0166] B9、如B8所述的裝置,所述挖掘模塊,包括:
[0167] 估計(jì)子模塊,用于依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的 年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值;
[0168] 數(shù)理統(tǒng)計(jì)子模塊,用于對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng) 計(jì),得到所述用戶樣本的年齡值。
[0169] B10、如B9所述的裝置,所述數(shù)理統(tǒng)計(jì)子模塊,包括:
[0170] 第一統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值;
[0171] 第二統(tǒng)計(jì)單元,用于在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì) 應(yīng)年齡估計(jì)值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用 于評(píng)估用戶樣本的真實(shí)性。
[0172] B11、如B9所述的裝置,所述在學(xué)習(xí)階段的年份信息包括:入學(xué)年份信息,所述學(xué) 習(xí)階段的年齡經(jīng)驗(yàn)值包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述估計(jì)子模塊,具體用于計(jì)算 當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第一差值,對(duì)所述第一差值與該 學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
[0173] B12、如BlO所述的裝置,所述方差閾值包括從5到20的所有整數(shù)。
[0174] B13、如B8所述的裝置,所述裝置還包括:年齡信息獲取模塊,用于獲取所述用戶 樣本的年齡信息;
[0175] 則所述挖掘模塊,還用于依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信 息,挖掘得到所述用戶樣本的年齡值。
[0176] B14、如B13所述的裝置,所述挖掘模塊包括:
[0177] 第一估計(jì)子模塊,用于依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年齡 估計(jì)值;
[0178] 第二估計(jì)子模塊,用于依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段對(duì) 應(yīng)的年齡估計(jì)值;
[0179] 判定子模塊,用于當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距 超過(guò)閾值時(shí),判定所述用戶樣本不真實(shí)。
【權(quán)利要求】
1. 一種挖掘用戶年齡樣本的方法,包括: 獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在學(xué)習(xí)階段的年份信 息; 依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年齡值。
2. 如權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份 信息,挖掘得到所述用戶樣本的年齡值的步驟,包括: 依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到各學(xué) 習(xí)階段對(duì)應(yīng)的年齡估計(jì)值; 對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡 值。
3. 如權(quán)利要求2所述的方法,其特征在于,所述對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn) 行單變量的數(shù)理統(tǒng)計(jì),得到所述用戶樣本的年齡值的步驟,包括: 統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值; 在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的期望值, 并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用于評(píng)估用戶樣本的真實(shí) 性。
4. 如權(quán)利要求2所述的方法,其特征在于,所述在學(xué)習(xí)階段的年份信息包括:入學(xué)年份 信息,所述學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值包括:學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值,則所述依據(jù)所述用戶 樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡 估計(jì)值的步驟,包括: 計(jì)算當(dāng)前年份與所述用戶樣本在某學(xué)習(xí)階段的入學(xué)年份信息的第一差值,對(duì)所述第一 差值與該學(xué)習(xí)階段的入學(xué)年齡經(jīng)驗(yàn)值進(jìn)行求和,得到該學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值。
5. 如權(quán)利要求3所述的方法,其特征在于,所述方差閾值包括從5到20的所有整數(shù)。
6. 如權(quán)利要求1所述的方法,其特征在于,還包括: 獲取所述用戶樣本的年齡信息; 依據(jù)所述用戶樣本的年齡信息和在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的年 齡值。
7. 如權(quán)利要求6所述的方法,其特征在于,還包括: 依據(jù)所述用戶樣本的年齡信息,估計(jì)得到相應(yīng)的第一年齡估計(jì)值; 依據(jù)所述在學(xué)習(xí)階段的年份信息,估計(jì)得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值; 當(dāng)所述第一年齡估計(jì)值與各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值的差距超過(guò)閾值時(shí),判定所述 用戶樣本不真實(shí)。
8. -種挖掘用戶年齡樣本的裝置,包括: 獲取模塊,用于獲取用戶樣本的教育信息;其中,所述教育信息包括:用戶樣本在學(xué)習(xí) 階段的年份信息;及 挖掘模塊,用于依據(jù)所述用戶樣本在學(xué)習(xí)階段的年份信息,挖掘得到所述用戶樣本的 年齡值。
9. 如權(quán)利要求8所述的裝置,其特征在于,所述挖掘模塊,包括: 估計(jì)子模塊,用于依據(jù)所述用戶樣本在各學(xué)習(xí)階段的年份信息和對(duì)應(yīng)學(xué)習(xí)階段的年齡 經(jīng)驗(yàn)值,得到各學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值; 數(shù)理統(tǒng)計(jì)子模塊,用于對(duì)所有學(xué)習(xí)階段對(duì)應(yīng)的年齡估計(jì)值進(jìn)行單變量的數(shù)理統(tǒng)計(jì),得 到所述用戶樣本的年齡值。
10.如權(quán)利要求9所述的裝置,其特征在于,所述數(shù)理統(tǒng)計(jì)子模塊,包括: 第一統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年齡估計(jì)值的總體方差值; 第二統(tǒng)計(jì)單元,用于在所述總體方差值不超過(guò)方差閾值時(shí),統(tǒng)計(jì)所有學(xué)習(xí)階段對(duì)應(yīng)年 齡估計(jì)值的期望值,并將該期望值作為所述用戶樣本的年齡值;其中,所述方差閾值用于評(píng) 估用戶樣本的真實(shí)性。
【文檔編號(hào)】G06F17/30GK104376064SQ201410635735
【公開(kāi)日】2015年2月25日 申請(qǐng)日期:2014年11月5日 優(yōu)先權(quán)日:2014年11月5日
【發(fā)明者】羅維, 鄧宇, 向園, 劉通 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
鸡东县| 铁力市| 赞皇县| 巍山| 名山县| 汉川市| 张家界市| 黄浦区| 区。| 鄂伦春自治旗| 平原县| 于田县| 公安县| 麟游县| 额济纳旗| 花垣县| 乌兰县| 隆昌县| 依安县| 进贤县| 精河县| 徐汇区| 沈丘县| 花莲市| 恩施市| 滦南县| 无棣县| 凌源市| 仲巴县| 廊坊市| 富阳市| 鄄城县| 永济市| 乌拉特后旗| 建水县| 曲阜市| 屏边| 通化市| 莱芜市| 连南| 维西|