欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種移動(dòng)終端用戶性別的預(yù)測(cè)方法、服務(wù)器和系統(tǒng)與流程

文檔序號(hào):12465324閱讀:161來源:國知局
一種移動(dòng)終端用戶性別的預(yù)測(cè)方法、服務(wù)器和系統(tǒng)與流程
本發(fā)明涉及移動(dòng)通信領(lǐng)域,尤其涉及一種移動(dòng)終端用戶性別的預(yù)測(cè)方法、服務(wù)器和系統(tǒng)。
背景技術(shù)
:隨著互聯(lián)網(wǎng)技術(shù)和硬件技術(shù)的不斷發(fā)展,越來越多的人開始使用如智能手機(jī)、平板電腦等移動(dòng)終端設(shè)備。同時(shí),移動(dòng)互聯(lián)網(wǎng)的廣泛普及促使移動(dòng)應(yīng)用的發(fā)展更加迅猛,用戶通過使用移動(dòng)終端上安裝的各類移動(dòng)應(yīng)用,進(jìn)行閱讀、聊天、購物等各項(xiàng)活動(dòng)。用戶在移動(dòng)設(shè)備上使用某個(gè)應(yīng)用時(shí),會(huì)產(chǎn)生一系列狀態(tài)數(shù)據(jù),例如應(yīng)用信息、移動(dòng)設(shè)備信息、環(huán)境信息、位置信息等。大量移動(dòng)設(shè)備的使用產(chǎn)生了海量的數(shù)據(jù),通過對(duì)人群的基本屬性、行為習(xí)慣、商業(yè)價(jià)值等多種維度信息數(shù)據(jù)綜合分析即可精準(zhǔn)的進(jìn)行目標(biāo)受眾的畫像和定位,并以標(biāo)簽和畫像為基礎(chǔ)進(jìn)行精準(zhǔn)定向的互聯(lián)網(wǎng)廣告營銷。在用戶畫像的眾多維度當(dāng)中,性別是最重要的維度之一。如果知道了用戶的性別,就可以專門向該用戶推薦其他同性用戶常關(guān)注的內(nèi)容消息,從而提高用戶體驗(yàn)和內(nèi)容點(diǎn)擊率或轉(zhuǎn)化率。因此,需要提供一種能高效準(zhǔn)確判斷移動(dòng)終端用戶性別的方法。技術(shù)實(shí)現(xiàn)要素:為此,本發(fā)明提供一種移動(dòng)終端用戶性別的預(yù)測(cè)方法、服務(wù)器和系統(tǒng),以力圖解決或至少解決上面存在的問題。根據(jù)本發(fā)明的一個(gè)方面,提供一種移動(dòng)終端用戶性別的預(yù)測(cè)方法,適于在服務(wù)器中執(zhí)行,該方法包括服務(wù)器中預(yù)先存儲(chǔ)有多個(gè)移動(dòng)終端的第一設(shè)備信息作為第一模型樣本A1,并根據(jù)該第一設(shè)備信息創(chuàng)建了用于預(yù)測(cè)移動(dòng)終端用戶性別的分類模型,該方法包括:步驟1:收集多個(gè)待測(cè)移動(dòng)終端的第二設(shè)備信息作為整體待測(cè)樣本B,并從中選取一部分作為第一待測(cè)樣本B1;步驟2:將第一模型樣本A1和第一待測(cè)樣本B1進(jìn)行聚類,并從聚類結(jié)果中選出第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍的類;步驟3:從選出的類中取出第一模型子樣本A11和第一待測(cè)子樣本B11,并從第一模型子樣本A11中選取一部分樣本作為訓(xùn)練樣本,對(duì)構(gòu)建好的分類模型進(jìn)行訓(xùn)練;步驟4:根據(jù)第一待測(cè)子樣本B11的第二設(shè)備信息及所述訓(xùn)練好的分類模型,預(yù)測(cè)得到該樣本B11中每個(gè)移動(dòng)終端的用戶性別;步驟5:將已經(jīng)預(yù)測(cè)過用戶性別的第一待測(cè)子樣本B11從整體待測(cè)樣本B中剔除,并將其加入到所述第一模型樣本A1中,得到第二模型樣本A2;步驟6:從剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B中選取第二待測(cè)樣本B2;步驟7:在第二模型樣本A2和第二待測(cè)樣本B2的基礎(chǔ)上,重復(fù)上述步驟2-4,以預(yù)測(cè)得到第二待測(cè)子樣本B22中移動(dòng)終端的用戶性別;以及步驟8:重復(fù)上述步驟5-7直到處理了整體待測(cè)樣本B中的所有移動(dòng)終端為止??蛇x地,在根據(jù)本發(fā)明的方法中,第一模型樣本A1的第一設(shè)備信息包括其中每個(gè)移動(dòng)終端的用戶性別和應(yīng)用信息,根據(jù)第一模型樣本A1的第一設(shè)備信息創(chuàng)建分類模型的方法包括步驟:通過組合該第一模型樣本A1中每個(gè)移動(dòng)終端的用戶性別和應(yīng)用信息,生成應(yīng)用列表;從應(yīng)用列表中統(tǒng)計(jì)每個(gè)應(yīng)用所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性數(shù)目,并計(jì)算得到每個(gè)應(yīng)用的性別傾向指數(shù);將該樣本A1中的所有應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組,并計(jì)算該樣本中的每個(gè)移動(dòng)終端在各分組內(nèi)的單組性別維度值;以及根據(jù)每個(gè)移動(dòng)終端的用戶性別及其單組性別維度值,構(gòu)建用于預(yù)測(cè)用戶性別的分類模型。可選地,在根據(jù)本發(fā)明的方法中,構(gòu)建分類模型的步驟包括:根據(jù)單組性別維度值計(jì)算得到該移動(dòng)終端的整體性別維度值,整體性別維度值包括偏女性維度值和偏男性維度值;以及根據(jù)每個(gè)移動(dòng)終端的用戶性別及其整體性別維度值,構(gòu)建用于預(yù)測(cè)用戶性別的分類模型??蛇x地,在根據(jù)本發(fā)明的方法中,步驟1包括:計(jì)算該整體待測(cè)樣本B中的每個(gè)待測(cè)移動(dòng)終端的各個(gè)單組性別維度值和整體性別維度值;以及計(jì)算整體待測(cè)樣本B中的每個(gè)待測(cè)移動(dòng)終端的第一置信度和第二置信度,并從該樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本,作為第一待測(cè)樣本B1??蛇x地,在根據(jù)本發(fā)明的方法中,從整體待測(cè)樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本的操作包括步驟:對(duì)該樣本B中進(jìn)行第一次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第一閾值且第二置信度大于第二閾值的樣本作為第一待測(cè)樣本B1;步驟6包括:對(duì)剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B進(jìn)行第二次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第三閾值且第二置信度大于第四閾值的樣本作為第二待測(cè)樣本B2??蛇x地,在根據(jù)本發(fā)明的方法中,步驟2包括:根據(jù)第一模型樣本A1和第一待測(cè)樣本B1中每個(gè)移動(dòng)終端的整體性別維度值和用戶性別的對(duì)應(yīng)關(guān)系進(jìn)行聚類;以及從聚類結(jié)果中選取第一模型樣本A1的移動(dòng)終端數(shù)目占比在30%-70%的類。可選地,在根據(jù)本發(fā)明的方法中,步驟2還包括:如果聚類結(jié)果中有多個(gè)類的第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍,則將這多個(gè)類中屬于第一模型樣本A1的樣本進(jìn)行合并,作為第一模型子樣本A11;以及將這多個(gè)類中屬于第一待測(cè)樣本B1的樣本進(jìn)行合并,作為第一待測(cè)子樣本B11。可選地,根據(jù)本發(fā)明的方法中,根據(jù)構(gòu)建好的分類模型對(duì)待確定用戶性別的移動(dòng)終端進(jìn)行性別預(yù)測(cè)的步驟包括:收集一個(gè)待確定用戶性別的移動(dòng)終端的設(shè)備信息;計(jì)算該移動(dòng)終端的單組或整體性別維度值;以及將該單組或整體性別維度值輸入到構(gòu)建好的分類模型中,輸出得到該移動(dòng)終端的用戶性別預(yù)測(cè)結(jié)果??蛇x地,在根據(jù)本發(fā)明的方法中,步驟3還包括:從第一模型子樣本A11中另選一部分樣本作為校驗(yàn)樣本;將檢驗(yàn)樣本中的移動(dòng)終端的性別維度值輸入到訓(xùn)練好的分類模型中,輸出得到該移動(dòng)終端的用戶性別預(yù)測(cè)結(jié)果;以及根據(jù)每個(gè)移動(dòng)終端的真實(shí)用戶性別對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),得到該第一模型子樣本A1'的性別預(yù)測(cè)準(zhǔn)確度,并將該性別預(yù)測(cè)準(zhǔn)確度近似作為第一待測(cè)子樣本B1'的性別預(yù)測(cè)準(zhǔn)確度。可選地,在根據(jù)本發(fā)明的方法中,還包括:如果第一模型子樣本A11的性別預(yù)測(cè)準(zhǔn)確度小于第五閾值,則在步驟5中將第一待測(cè)子樣本B11繼續(xù)保留在整體待測(cè)樣本B中;以及在步驟6中從含有該第一待測(cè)子樣本B11的整體待測(cè)樣本B中進(jìn)行第二次隨機(jī)樣本選取,并從選取結(jié)果中取出第二待測(cè)樣本B2??蛇x地,在根據(jù)本發(fā)明的方法中,第一設(shè)備信息還包括移動(dòng)終端的機(jī)型信息,該方法還包括步驟:統(tǒng)計(jì)每個(gè)機(jī)型所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)機(jī)型的性別傾向指數(shù);以及基于每個(gè)機(jī)型的性別傾向指數(shù)計(jì)算該機(jī)型的性別維度值;計(jì)算移動(dòng)終端的整體性別維度值的步驟還包括:如果機(jī)型的性別維度值偏向女性維度,則將該機(jī)型的性別維度值加入到該移動(dòng)終端的偏女性維度值中,反之則加入到該移動(dòng)終端的偏男性維度值中。可選地,在根據(jù)本發(fā)明的方法中,還包括:根據(jù)模型樣本中所含移動(dòng)終端的數(shù)量,對(duì)第三閾值和第四閾值的數(shù)值進(jìn)行調(diào)整。可選地,在根據(jù)本發(fā)明的方法中,將述應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組的步驟包括:計(jì)算性別傾向指數(shù)的最大值和最小值之間的差值,根據(jù)該差值將應(yīng)用均分為多個(gè)分組;計(jì)算移動(dòng)終端的應(yīng)用在每個(gè)分組內(nèi)的單組性別維度值的步驟包括:統(tǒng)計(jì)每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目,并結(jié)合每個(gè)分組的權(quán)值來計(jì)算該移動(dòng)終端在每個(gè)分組的單組性別維度值。根據(jù)本發(fā)明的另一方面,提供一種性別預(yù)測(cè)服務(wù)器,服務(wù)器中預(yù)先存儲(chǔ)有多個(gè)移動(dòng)終端的第一設(shè)備信息作為第一模型樣本A1,并根據(jù)該第一設(shè)備信息創(chuàng)建了用于預(yù)測(cè)移動(dòng)終端用戶性別的分類模型,該服務(wù)器包括:樣本選取單元,適于收集多個(gè)待測(cè)移動(dòng)終端的第二設(shè)備信息作為整體待測(cè)樣本B,并從中選取一部分作為第一待測(cè)樣本B1;樣本聚類單元,適于將第一模型樣本A1和第一待測(cè)樣本B1進(jìn)行聚類,并從聚類結(jié)果中選出第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍的類;模型訓(xùn)練單元,適于從選出的類中取出第一模型子樣本A11和第一待測(cè)子樣本B11,并從第一模型子樣本A11中選取一部分樣本作為訓(xùn)練樣本,對(duì)構(gòu)建好的分類模型進(jìn)行訓(xùn)練;模型訓(xùn)練單元,適于根據(jù)第一待測(cè)子樣本B11的第二設(shè)備信息及訓(xùn)練好的分類模型,預(yù)測(cè)得到該樣本中每個(gè)移動(dòng)終端的用戶性別;樣本更新單元,適于將已經(jīng)預(yù)測(cè)過用戶性別的第一待測(cè)子樣本B11從整體待測(cè)樣本B中剔除,并將其加入到第一模型樣本A1中,得到第二模型樣本A2,并從剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B中選取第二待測(cè)樣本B2;以及循環(huán)迭代單元,適于在第二模型樣本A2和第二待測(cè)樣本B2的基礎(chǔ)上,重復(fù)上述樣本聚類、模型訓(xùn)練和模型訓(xùn)練的操作,以預(yù)測(cè)得到第二待測(cè)子樣本B22中移動(dòng)終端的用戶性別;其中,循環(huán)迭代單元還適于重復(fù)上述樣本更新和循環(huán)迭代操作,直到處理了整體待測(cè)樣本B中的所有移動(dòng)終端為止。根據(jù)本發(fā)明的另一方面,提供一種性別預(yù)測(cè)系統(tǒng),包括如上所述的性別預(yù)測(cè)服務(wù)器,以及至少一個(gè)移動(dòng)終端。根據(jù)本發(fā)明的技術(shù)方案,提供了一種半監(jiān)督學(xué)習(xí)的方法,從小樣本逐漸推算出整體待測(cè)樣本的用戶性別,在這個(gè)過程中不斷地新預(yù)測(cè)出結(jié)果的樣本加入模型樣本,并用更新后的模型樣本對(duì)待測(cè)樣本進(jìn)行預(yù)測(cè),使得模型在從小樣本推廣到整體待測(cè)樣本的時(shí)候,盡可能消除抽樣偏差對(duì)預(yù)測(cè)結(jié)果的影響。而且,本發(fā)明通過聚類算法優(yōu)選出與待測(cè)子樣本最相近的模型樣本,從而能夠近似得到該待測(cè)子樣本的性別預(yù)測(cè)準(zhǔn)確度,并根據(jù)該準(zhǔn)確度對(duì)樣本進(jìn)行區(qū)別更新,進(jìn)一步完善整體樣本的預(yù)測(cè)精度。另外,本發(fā)明在構(gòu)建模型時(shí),在盡可能不損失信息的前提下,明顯降低數(shù)據(jù)統(tǒng)計(jì)的維度,降低了數(shù)據(jù)計(jì)算量,進(jìn)而降低了對(duì)計(jì)算硬件條件的要求。附圖說明為了實(shí)現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實(shí)踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護(hù)的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述以及其它目的、特征和優(yōu)勢(shì)將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的部件或元素。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的性別預(yù)測(cè)系統(tǒng)100的結(jié)構(gòu)框圖;圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的移動(dòng)終端用戶性別的預(yù)測(cè)方法200的流程圖;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的分類模型的構(gòu)建方法300的流程圖;圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的性別預(yù)測(cè)服務(wù)器400的結(jié)構(gòu)框圖。具體實(shí)施方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的性別預(yù)測(cè)系統(tǒng)100的結(jié)構(gòu)圖。如圖1所示,性別預(yù)測(cè)系統(tǒng)100包括該系統(tǒng)包括性別預(yù)測(cè)服務(wù)器400和移動(dòng)終端500,服務(wù)器400和移動(dòng)終端500之間通過互聯(lián)網(wǎng)絡(luò)600通信連接。移動(dòng)終端500(如圖1中的520、540、560和580)可以是可連網(wǎng)的手機(jī)、平板電腦、桌面電腦、筆記本電腦等移動(dòng)設(shè)備,也可以是智能手表、智能眼鏡等可以連網(wǎng)的可穿戴設(shè)備,但不限于此。雖然圖1中僅示例性地示出了4個(gè)移動(dòng)終端,但是本領(lǐng)域技術(shù)人員可以意識(shí)到,該系統(tǒng)中還可以包括多個(gè)移動(dòng)終端,本發(fā)明對(duì)性別預(yù)測(cè)系統(tǒng)100中的移動(dòng)終端500的數(shù)目并無限制。移動(dòng)終端500可以以有線或無線的方式與服務(wù)器400建立連接,如采用3G、4G、WiFi、個(gè)人熱點(diǎn)、IEEE802.11x、藍(lán)牙等技術(shù)建立無線連接。移動(dòng)終端500中通常安裝了多個(gè)應(yīng)用(即app),某些應(yīng)用中的代碼中嵌入了js腳本或植入了第三方的sdk(softwaredevelopmentkit,軟件開發(fā)工具包),當(dāng)用戶使用這些應(yīng)用時(shí),js或sdk會(huì)采集用戶使用該應(yīng)用時(shí)的狀態(tài)數(shù)據(jù),例如移動(dòng)設(shè)備ID、機(jī)型、應(yīng)用名、移動(dòng)設(shè)備mac等各項(xiàng)設(shè)備信息,并將采集到的數(shù)據(jù)發(fā)送至服務(wù)器400。另外,通過身份證、客服溝通、問卷調(diào)查等方式可以還能獲取到某些終端用戶的性別。因此,服務(wù)器400就可以收集到客戶端的各項(xiàng)設(shè)備信息,并根據(jù)這些信息構(gòu)建一個(gè)模型樣本,這個(gè)樣本里有每個(gè)設(shè)備ID的性別、機(jī)型,以及該設(shè)備上所安裝的應(yīng)用名稱。另外,服務(wù)器400收集到客戶端的各項(xiàng)設(shè)備信息后,可以將數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫中。應(yīng)當(dāng)指出,數(shù)據(jù)庫可以作為本地?cái)?shù)據(jù)庫駐留于服務(wù)器400中,也可以作為遠(yuǎn)程數(shù)據(jù)庫設(shè)置于服務(wù)器400之外,本發(fā)明對(duì)數(shù)據(jù)庫的部署方式不做限制。服務(wù)器400可以是一臺(tái)服務(wù)器,也可以是由若干臺(tái)服務(wù)器組成的服務(wù)器集群,或者是一個(gè)云計(jì)算服務(wù)中心。此外,用于組成服務(wù)器集群或云計(jì)算服務(wù)中心的多個(gè)服務(wù)器可以駐留在多個(gè)地理位置中,本發(fā)明對(duì)服務(wù)器400的部署方式不做限制。另外,服務(wù)器400中預(yù)先存儲(chǔ)有多個(gè)移動(dòng)終端的第一設(shè)備信息作為第一模型樣本A1,并根據(jù)該第一設(shè)備信息創(chuàng)建了用于預(yù)測(cè)移動(dòng)終端用戶性別的分類模型。其中,這些移動(dòng)終端已經(jīng)確定了其用戶性別,設(shè)備信息包括每個(gè)移動(dòng)終端的設(shè)備ID、應(yīng)用信息和用戶性別。根據(jù)這些設(shè)備信息可以得到移動(dòng)終端的單組性別維度值和整體性別維度值(包括偏女性維度值和偏男性維度值),這些性別維度值代表移動(dòng)終端的性別特征,其計(jì)算過程將會(huì)后文中介紹。根據(jù)模型樣本和構(gòu)建好的分類模型,可以對(duì)數(shù)據(jù)庫中的整體待測(cè)樣本的移動(dòng)終端進(jìn)行性別預(yù)測(cè)。但是,雖然收集到用戶數(shù)量非常龐大,但是模型樣本的數(shù)量畢竟有限,一般只有小部分的數(shù)據(jù)帶有真實(shí)的性別標(biāo)簽的。這小部分的數(shù)據(jù)很有可能是整體的一個(gè)有偏的抽樣,導(dǎo)致用小樣本訓(xùn)練出的模型不適用于預(yù)測(cè)整體樣本。為此,本發(fā)明提供了一種更為精確的預(yù)測(cè)移動(dòng)終端用戶性別的方法。圖2示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的移動(dòng)終端用戶性別的預(yù)測(cè)方法200的流程圖,該方法適于在服務(wù)器400中執(zhí)行。如圖2所示,該方法始于步驟S210。在步驟S210中,收集多個(gè)待測(cè)移動(dòng)終端的第二設(shè)備信息作為整體待測(cè)樣本B,并從中選取一部分作為第一待測(cè)樣本B1。具體地,在進(jìn)行樣本選取時(shí),先計(jì)算該整體待測(cè)樣本B中的每個(gè)待測(cè)移動(dòng)終端的各個(gè)單組性別維度值和整體性別維度值,并計(jì)算整體待測(cè)樣本B中每個(gè)待測(cè)移動(dòng)終端的第一置信度和第二置信度,以及從該樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本,作為第一待測(cè)樣本B1。根據(jù)一個(gè)實(shí)施例,從整體待測(cè)樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本的操作可以包括步驟:從該整體待測(cè)樣本B中進(jìn)行第一次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第一閾值且第二置信度大于第二閾值的樣本作為第一待測(cè)樣本B1。根據(jù)另一個(gè)實(shí)施例,第一置信度是女性維度值和男性維度值的絕對(duì)值之和,第二置信度是女性維度值和男性維度值中的絕對(duì)值最大值。對(duì)應(yīng)某個(gè)設(shè)別ID,其第一置信度越大,表示該設(shè)備上的應(yīng)用數(shù)目越多;第二置信度越大,表示該設(shè)備的性別特征越明顯。根據(jù)一個(gè)實(shí)施例,第一閾值可以是300,第二閾值是500;或者,第一閾值是500,第二閾值是700,也可以根據(jù)數(shù)據(jù)情況設(shè)置為其他數(shù)值,本發(fā)明對(duì)此不作限制。例如,閾值取前者時(shí),分類模型的預(yù)測(cè)準(zhǔn)確率為70%;閾值取后者時(shí),分類模型的預(yù)測(cè)準(zhǔn)確率為80%,可以根據(jù)需要選擇合適的閾值設(shè)置。舉例來說,假如收集到了100萬個(gè)待測(cè)移動(dòng)終端的第二設(shè)備信息存儲(chǔ)到了數(shù)據(jù)庫中,因?yàn)楸景l(fā)明采用的是小樣本逐漸向大樣本推進(jìn)的方法,因此可以先進(jìn)行隨機(jī)第一次樣本選取,從中選取1萬個(gè)待測(cè)移動(dòng)終端進(jìn)行用戶性別預(yù)測(cè)。而在對(duì)這1萬個(gè)終端進(jìn)行預(yù)測(cè)時(shí),是從中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本作為第一待測(cè)樣本B1,如選出了2000個(gè)達(dá)標(biāo)的終端。這樣最終選出的終端具有更大的用戶性別傾向,其預(yù)測(cè)得到的用戶性別的準(zhǔn)確度也相對(duì)更高。隨后,在步驟S220中,將第一模型樣本A1和第一待測(cè)樣本B1進(jìn)行聚類,并從聚類結(jié)果中選出第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍的類。其中,可以根據(jù)第一模型樣本A1和第一待測(cè)樣本B1中每個(gè)移動(dòng)終端的整體性別維度值和用戶性別的對(duì)應(yīng)關(guān)系進(jìn)行聚類;占比在一定范圍一般是指第一模型樣本A1的移動(dòng)終端數(shù)目占比在30%-70%,這樣選出的類中兩種樣本的分布比較均勻。需要說明的是,有時(shí)聚類結(jié)果中有多個(gè)類的第一模型樣本A1的移動(dòng)終端數(shù)目占比在預(yù)定范圍,這時(shí),可以將這多個(gè)類中屬于第一模型樣本A1的樣本進(jìn)行合并,作為第一模型子樣本A11進(jìn)行計(jì)算。同樣地,將這多個(gè)類中屬于第一待測(cè)樣本B1的樣本進(jìn)行合并,作為第一待測(cè)子樣本B11進(jìn)行計(jì)算。根據(jù)一個(gè)實(shí)施例,聚類方法可以選擇K-mens聚類算法,當(dāng)然也可以選擇現(xiàn)有的任意一種聚類方法,本發(fā)明對(duì)此不作限制。隨后,在步驟S230中,從選出的那個(gè)類中取出第一模型子樣本A11和第一待測(cè)子樣本B11,并從該第一模型子樣本A11中選取一部分樣本作為訓(xùn)練樣本,對(duì)構(gòu)建好的分類模型進(jìn)行訓(xùn)練。按照上述例子說明,第一待測(cè)樣本B1中有2000個(gè)終端,假設(shè)第一模型樣本A1中1000個(gè)終端,聚類后分為了三個(gè)類。其中,第一個(gè)類中樣本A1和樣本B1的終端數(shù)目比例為600:500,第二個(gè)類為200:1000,第三個(gè)類為200:500,只有第一類的比例滿足30%-70%,則將該類中的600個(gè)屬于第一模型樣本A1的終端選取出來作為第一模型子樣本A11;同樣地,將屬于第一待測(cè)樣本B1的500個(gè)終端選取出來作為第一待測(cè)子樣本B11。根據(jù)一個(gè)實(shí)施例,還可以從該第一模型子樣本A11中選取一部分樣本作為校驗(yàn)樣本,對(duì)構(gòu)建好的分類模型進(jìn)行校驗(yàn)。校驗(yàn)過程包括:將校驗(yàn)樣本中的移動(dòng)終端的性別維度值輸入到訓(xùn)練好的分類模型中,輸出得到該校驗(yàn)樣本中移動(dòng)終端的用戶性別預(yù)測(cè)結(jié)果,再根據(jù)每個(gè)移動(dòng)終端的真實(shí)用戶性別對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),得到該第一模型子樣本A1'的性別預(yù)測(cè)準(zhǔn)確度。隨后,在步驟S240中,根據(jù)第一待測(cè)子樣本B11的第二設(shè)備信息及在步驟S230中訓(xùn)練好的分類模型,預(yù)測(cè)得到該第一待測(cè)子樣本B11中每個(gè)移動(dòng)終端的用戶性別。具體地,可以將第一待測(cè)子樣本B11中每個(gè)移動(dòng)終端的性別維度值輸入到訓(xùn)練好的分類模型,輸出得到其用戶性別預(yù)測(cè)結(jié)果。根據(jù)一個(gè)實(shí)施例,因?yàn)榈谝荒P妥訕颖続11和第一待測(cè)子樣本B11是從聚類結(jié)果中選出的較相似的類,因此可以將第一模型子樣本A11中校驗(yàn)樣本的性別預(yù)測(cè)準(zhǔn)確度近似作為第一待測(cè)子樣本B11的性別預(yù)測(cè)準(zhǔn)確度。隨后,在步驟S250中,將已經(jīng)預(yù)測(cè)過用戶性別的第一待測(cè)子樣本B11從整體待測(cè)樣本B中剔除,并將其加入到第一模型樣本A1中,得到第二模型樣本A2,即樣本更新的過程。這里,可以結(jié)合第一待測(cè)子樣本B11的性別預(yù)測(cè)準(zhǔn)確度對(duì)樣本進(jìn)行選擇性更新,也就是,如果第一模型子樣本A11的性別預(yù)測(cè)準(zhǔn)確度小于第五閾值,則在步驟S250中將該第一待測(cè)子樣本B11繼續(xù)保留在整體待測(cè)樣本B中,也不再加入到第一模型樣本中。其中,第五閾值可以設(shè)為70%。也就是,若第一模型子樣本A11的性別預(yù)測(cè)準(zhǔn)確度不小于70%,則將上述例子中選出的含有500個(gè)終端的第一待測(cè)子樣本B11從整體待測(cè)樣本B(100萬個(gè)終端)中剪切到第一模型樣本(1000個(gè)終端),得到第二模型樣本(1500個(gè)終端)。但若其準(zhǔn)確度小于70%,則將其繼續(xù)保留在原樣本中,等到以后模型樣本再進(jìn)一步擴(kuò)大后再進(jìn)行預(yù)測(cè)。隨后,在步驟S260中,從剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B中選取第二待測(cè)樣本B2。這里,依然可以采用類似步驟S210中的樣本選取方法,即先從剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B進(jìn)行第二次隨機(jī)樣本選取,并從該選取結(jié)果中取出第一置信度大于第三閾值且第二置信度大于第四閾值的樣本作為第二待測(cè)樣本B2。應(yīng)當(dāng)說明的是,若在步驟S250中,因預(yù)測(cè)準(zhǔn)確度低,將第一待測(cè)子樣本B11保留在了整體待測(cè)樣本B中,則在步驟S260中從原整體待測(cè)樣本中進(jìn)行樣本抽取,也就是當(dāng)作未對(duì)第一待測(cè)子樣本B11進(jìn)行過性別預(yù)測(cè)。另外,在步驟S210中和步驟S260中,因?yàn)閷?duì)模型樣本和待測(cè)樣本的數(shù)量都進(jìn)行了更新,所以可以相應(yīng)地調(diào)整置信度的閾值。閾值的調(diào)整可以根據(jù)模型樣本中移動(dòng)終端的數(shù)量,也可以根據(jù)對(duì)模型樣本的性別預(yù)測(cè)準(zhǔn)確度。一般地,閾值設(shè)定越高,選出的待測(cè)樣本的性別傾向越明顯,其性別預(yù)測(cè)的準(zhǔn)確度也會(huì)相應(yīng)越高。所以,若想要高的預(yù)測(cè)準(zhǔn)確度則可以調(diào)大閾值;另一方面,如果性別預(yù)測(cè)準(zhǔn)確度過高,則可以相應(yīng)地稍微調(diào)小閾值。比如,第一閾值設(shè)為300,第二閾值設(shè)為500,第三閾值設(shè)為500,第四閾值設(shè)為700。然后對(duì)后續(xù)選出的新的待測(cè)子樣本,還可以設(shè)置為其他閾值。當(dāng)然,也可以不進(jìn)行調(diào)整,本發(fā)明對(duì)這些閾值的具體數(shù)值大小不作限制。依舊采用上述例子進(jìn)行說明,整體待測(cè)樣本原先有100萬個(gè),剔除了500個(gè)后,先進(jìn)行第二次樣本選取,依然取出1萬個(gè),然后再從這1萬個(gè)中選出置信度滿足預(yù)定條件的終端樣本作為第二待測(cè)樣本B2。可以看出,本發(fā)明并不是直接對(duì)這100萬個(gè)終端進(jìn)行性別預(yù)測(cè),而是逐步地更新樣本選取樣本,即先選出1萬個(gè)終端,再從中選出達(dá)標(biāo)的2000個(gè)終端進(jìn)行處理,相對(duì)而言剩下的8000個(gè)終端的性別傾向不是太明顯,其置信度可能依然不達(dá)標(biāo)。因此本發(fā)明處理完第一批的2000個(gè)后,并沒有接著去處理剩下的8000個(gè),而是從整體樣本再重新選出1萬個(gè),并選出這1萬個(gè)終端里置信度達(dá)標(biāo)的第二批樣本,因?yàn)殚撝档淖兓?,這時(shí)達(dá)標(biāo)的終端可能是其他數(shù)值。隨后,在步驟S270中,在第二模型樣本A2和第二待測(cè)樣本B2的基礎(chǔ)上,重復(fù)上述步驟S220-S240,以預(yù)測(cè)得到第二待測(cè)子樣本B22中移動(dòng)終端的用戶性別。即對(duì)這兩個(gè)樣本進(jìn)行聚類操作,選出分布均勻的類,并取出該類中的第二模型子樣本A22和第二待測(cè)子樣本B22,之后選出部分第二模型子樣本A22對(duì)模型進(jìn)行進(jìn)一步訓(xùn)練,并用再次訓(xùn)練的分類模型來預(yù)測(cè)第二待測(cè)子樣本B22的用戶性別。隨后,在步驟S280中,上述步驟S250-S270直到處理了整體待測(cè)樣本B中的所有移動(dòng)終端為止。應(yīng)當(dāng)理解,即使多次更新了模型樣本和置信度閾值,也不能保證對(duì)所有終端的預(yù)測(cè)結(jié)果準(zhǔn)確度都很高,但這不妨礙本發(fā)明對(duì)其性別預(yù)測(cè)。下面將詳細(xì)介紹服務(wù)器分類模型的構(gòu)建方法及性別維度值的計(jì)算過程。圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的構(gòu)建分類模型的方法300,該方法適于在性別預(yù)測(cè)服務(wù)器400中執(zhí)行,該服務(wù)器中預(yù)先存儲(chǔ)的第一設(shè)備信息(包括每個(gè)移動(dòng)終端的設(shè)備ID、應(yīng)用信息和用戶性別)如表1所示。表1設(shè)備ID性別應(yīng)用ID1男APP1,APP2,APP5…ID2女APP1,APP2,APP3…ID3男APP1,APP3,APP4…………如圖3所示,該方法適于步驟S310。在步驟S310中,組合第一模型樣本A1中的多個(gè)移動(dòng)終端的應(yīng)用信息及其用戶性別,生成應(yīng)用列表。假設(shè)第一模型樣本A1中統(tǒng)計(jì)了2000個(gè)終端的設(shè)備信息(設(shè)備ID、機(jī)型、性別和應(yīng)用信息等),這2000個(gè)終端中共含有200種應(yīng)用,則對(duì)于每種應(yīng)用,都統(tǒng)計(jì)設(shè)置有該應(yīng)用的移動(dòng)終端的設(shè)備信息,如表2所示。表2應(yīng)當(dāng)理解,每個(gè)用戶手機(jī)都安裝一定數(shù)量的應(yīng)用,這些應(yīng)用彼此之間雖然有些重合。當(dāng)收集到的用戶數(shù)量非常龐大的時(shí)候,應(yīng)用的數(shù)量甚至?xí)手笖?shù)級(jí)增長的。這對(duì)計(jì)算資源的要求非常高,也很容易導(dǎo)致計(jì)算維度的爆炸。從表1和表2中也可以進(jìn)一步看出,應(yīng)用數(shù)目、設(shè)備ID和機(jī)型所含的維度非常大,需要對(duì)其中的數(shù)據(jù)進(jìn)行降維處理。因此,在步驟S320中,從應(yīng)用列表中統(tǒng)計(jì)每個(gè)應(yīng)用所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)應(yīng)用的性別傾向指數(shù)I。即從表2中的“性別”欄中統(tǒng)計(jì)得到每個(gè)應(yīng)用的男女用戶數(shù)目,如表3所示。其中,性別傾向指數(shù)I=(男性用戶數(shù)目-女性用戶數(shù)目)/(男性用戶數(shù)目+女性用戶數(shù)目)。當(dāng)然,也可以根據(jù)實(shí)際數(shù)據(jù)情況采取其他計(jì)算方法,本發(fā)明對(duì)此不作限制。表3應(yīng)用男性用戶數(shù)目女性用戶數(shù)目應(yīng)用_性別傾向指數(shù)APP110002300-0.39APP2340012560.46............對(duì)于某一款應(yīng)用,其所在終端的男性用戶數(shù)目顯著高于男性用戶數(shù)目,則其性別傾向指數(shù)偏向1,否則偏向-1。如果對(duì)數(shù)據(jù)的抽樣沒有偏差,即對(duì)每一款應(yīng)用,抽到的數(shù)據(jù)中男女性男性用戶數(shù)目的比值幾乎是恒定的,則每次抽樣算出的每一款應(yīng)用的性別傾向指數(shù)是恒定的。因此,可將這個(gè)性別傾向指數(shù)作為該應(yīng)用的終端用戶的性別判斷參數(shù)。隨后,在步驟S330中,將應(yīng)用列表中的應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組。具體地,可以計(jì)算每個(gè)應(yīng)用的性別傾向指數(shù)的最大值和最小值之間的差值,并根據(jù)差值將所述應(yīng)用均分為多個(gè)分組。如根據(jù)(Imax-Imin)/100的間隔將性別傾向指數(shù)分為100個(gè)分組,假設(shè)性別傾向指數(shù)最大為1,最小為-1,則應(yīng)用分組為[-1,-0.98],(-0.98,-0.96]...,(0.96,0.98],(0.98,1]。在上述例子中APP1的性別傾向指數(shù)為-0.39,則其應(yīng)該屬于[-0.4,-0.38)這一分組。當(dāng)然,各個(gè)分組區(qū)間也可以設(shè)置為[-1,-0.98),[-0.98,-0.96)...,[0.96,0.98),[0.98,1],本發(fā)明對(duì)分組區(qū)間的設(shè)定不作限定。隨后,在步驟S340中,計(jì)算第一模型樣本A1中每個(gè)移動(dòng)終端的應(yīng)用在每個(gè)分組內(nèi)的單組性別維度值。根據(jù)本發(fā)明的一個(gè)實(shí)施例,單組性別維度值可以直接選擇每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目。表4示出了統(tǒng)計(jì)得到的每個(gè)設(shè)備ID的應(yīng)用在每個(gè)分組中的數(shù)目。在表4中,設(shè)備ID1的用戶是男性,其使用的應(yīng)用大多是性別傾向指數(shù)偏大的(偏向1);設(shè)備ID2的用戶是女性,其使用的應(yīng)用大多數(shù)是性別傾向指數(shù)偏小的(偏向-1)。這里,就將表1和表2中的多維數(shù)據(jù)降低到了只有100維,從而可從整體降低數(shù)據(jù)的運(yùn)算量。表4根據(jù)本發(fā)明的另一個(gè)實(shí)施例,考慮兩端分組里的應(yīng)用性別傾向嚴(yán)重(一種用戶性別顯著高于另一種用戶性別),靠近中間分組里的應(yīng)用性別傾向不明顯(男女用戶數(shù)量沒有顯著差別)。因此,可以給每個(gè)分組一個(gè)權(quán)值,兩端分組的權(quán)值絕對(duì)值大,中間分組的權(quán)值絕對(duì)值小。對(duì)于統(tǒng)計(jì)得到的每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目,可以結(jié)合每個(gè)分組的權(quán)值來計(jì)算該移動(dòng)終端在每個(gè)分組內(nèi)的單組性別維度值。在給每個(gè)分組定義權(quán)值時(shí),根據(jù)一個(gè)實(shí)施例,可以計(jì)算落在每一個(gè)分組內(nèi)的所有應(yīng)用的平均性別傾向指數(shù),并將其作為該分組的權(quán)重。假設(shè)對(duì)于某個(gè)移動(dòng)終端,其中有2個(gè)應(yīng)用的性別傾向指數(shù)屬于第一個(gè)分組[-1,-0.98],則可以計(jì)算得到這2種應(yīng)用的平均性別傾向指數(shù)作為第一個(gè)分組的權(quán)值。當(dāng)然,采取平均性別傾向指數(shù)的方法這只是一個(gè)示例性的說明,還可以根據(jù)具體數(shù)據(jù)分布情況采用其他權(quán)值計(jì)算方法,本發(fā)明對(duì)此不作限制。計(jì)算得到權(quán)值后,將統(tǒng)計(jì)得到的每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目乘以該分組的權(quán)值,作為該移動(dòng)終端在對(duì)應(yīng)分組的單組性別維度值。當(dāng)然,對(duì)于應(yīng)用數(shù)目與權(quán)值之間的乘法計(jì)算,只是一個(gè)示例性的說明,也可以根據(jù)情況采取其他數(shù)學(xué)計(jì)算方法,本發(fā)明對(duì)此不作限制。假設(shè)表4中每個(gè)分組的權(quán)值序列為(-100,-99,...,99,100),則計(jì)算得到每個(gè)分組的單組性別維度值如表5所示,其中,設(shè)備ID1的第一組性別維度值為-200,最后一組性別維度值為1100。表5經(jīng)過這種變化,就可以對(duì)兩端的應(yīng)用分組,也就是性別差異較為明顯的分組給予更多關(guān)注。隨后,在步驟S350中,根據(jù)第一模型樣本中每個(gè)移動(dòng)終端的用戶性別及其單組性別維度值,構(gòu)建用于預(yù)測(cè)用戶性別的分類模型。即利用表5中的各個(gè)特征值來構(gòu)建分類模型。其中,構(gòu)建分類模型可以采取隨機(jī)森林模型、支持向量機(jī)(SVM)模型或卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型等現(xiàn)有的任意一種方法,本發(fā)明對(duì)此不作限制。使用的模型依據(jù)具體數(shù)據(jù)情況而定,比如,如果表5中的數(shù)據(jù)很稀疏,可以考慮使用支持向量機(jī)模型。根據(jù)一個(gè)實(shí)施例,還可以根據(jù)每個(gè)移動(dòng)終端的用戶性別和整體性別維度值來構(gòu)建分類模型。例如,當(dāng)統(tǒng)計(jì)得到表5中的數(shù)據(jù)非常稀疏,或者需要減少抽樣誤差以保證模型更加穩(wěn)定時(shí),就可以考慮進(jìn)一步降低維度,將多個(gè)分組的單組性別維度值合并為整體性別維度值來構(gòu)建模型。具體地,對(duì)于每個(gè)移動(dòng)終端,根據(jù)其各個(gè)單組性別維度值計(jì)算得到該移動(dòng)終端的整體性別維度值。其中,整體性別維度值包括偏女性維度值和偏男性維度值。之后,就可以根據(jù)每個(gè)移動(dòng)終端的用戶性別及其整體性別維度值來構(gòu)建分類模型。其中,根據(jù)單組性別維度值計(jì)算整體性別維度值,可以將全部分組里偏女性的單組性別維度值(全部是負(fù)數(shù))相加得到偏女性維度值;將全部分組里偏男性的單組性別維度值(全部是正數(shù))相加得到偏男性維度值。這樣,就從表5中的100維的應(yīng)用分組,降低到偏女性維度和偏男性維度這2個(gè)維度,從而進(jìn)一步降低了數(shù)據(jù)的運(yùn)算量。表6示出了根據(jù)一個(gè)實(shí)施例的計(jì)算得到的偏女性維度值和偏男性維度值。表6設(shè)備ID性別偏女性維度值偏男性維度值ID1男-2001100ID2女-2000200............這樣,對(duì)于第一整體樣本B中的每個(gè)移動(dòng)終端,統(tǒng)計(jì)該終端的所有應(yīng)用在各分組的分布情況,就可以得到每個(gè)待測(cè)終端的單組性別維度值,進(jìn)一步得到其整體性別維度值以及每個(gè)移動(dòng)終端的第一置信度和第二置信度。如表6中ID1的第一置信度是偏女性維度值-200與偏男性維度值1100的絕對(duì)值之和,即1200;第二置信度是單個(gè)的絕對(duì)值最大值,即1100。另外,申請(qǐng)人發(fā)現(xiàn),機(jī)型對(duì)用戶性別的判斷非常重要,比如市面上一些明顯偏重于美顏或照相功能的手機(jī),都明顯更受女士們的青睞。根據(jù)本發(fā)明的一個(gè)實(shí)施例,可以將機(jī)型作為終端用戶性別判斷的一個(gè)重要參考依據(jù)。因此在步驟S210統(tǒng)計(jì)第一模型樣本中每個(gè)移動(dòng)終端的設(shè)備信息時(shí),可以將機(jī)型信息也包括在設(shè)備信息內(nèi),生成類似表7的機(jī)型信息。表7設(shè)備ID性別機(jī)型ID1男機(jī)型AID2女機(jī)型BID3男機(jī)型A………隨后,參考表2的生成過程,組合多個(gè)移動(dòng)終端的機(jī)型信息及其用戶性別,生成機(jī)型列表。即從表7中統(tǒng)計(jì)得到每個(gè)機(jī)型所對(duì)應(yīng)的移動(dòng)終端的設(shè)備ID和用戶性別,生成類似表8的機(jī)型列表。表8隨后,參考表3的生成過程,從機(jī)型列表中統(tǒng)計(jì)每個(gè)機(jī)型所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)機(jī)型的性別傾向指數(shù),如表9所示。表9機(jī)型男性用戶數(shù)目女性用戶數(shù)目機(jī)型_性別傾向指數(shù)機(jī)型A10002000-0.33機(jī)型B300010000.5............根據(jù)本發(fā)明的一個(gè)實(shí)施例,參考應(yīng)用的權(quán)值加權(quán),可以對(duì)機(jī)型的性別傾向指數(shù)也設(shè)置一個(gè)權(quán)值(如設(shè)置100),以得到該機(jī)型的性別維度值,如表10所示。對(duì)于機(jī)型來說,在處理過程中是直接根據(jù)性別傾向指數(shù)及權(quán)值計(jì)算的,因此得到的就直接是唯一的性別維度值,而不用區(qū)分是單組性別維度值還是整體性別維度值。表10機(jī)型機(jī)型_性別維度值機(jī)型A-33機(jī)型B50......進(jìn)一步地,考慮到在判斷用戶性別時(shí),機(jī)型信息有時(shí)甚至比應(yīng)用信息更有效,因此可以將機(jī)型的性別維度值加入到偏女性維度值和偏男性維度值中,以對(duì)整體性別維度值進(jìn)行進(jìn)一步的校正。具體地,對(duì)于每一個(gè)設(shè)備ID,如果其對(duì)應(yīng)的機(jī)型的性別維度值偏向男性維度,即是正數(shù)(如表10里的50),則加其加入到表6中的偏男性維度值中;反之(如表10里的-33)則加入到表6中的偏女性維度值里,最后得到的校正后的性別維度值如表11所示。表11之后,就可以根據(jù)表11中的每個(gè)移動(dòng)終端的用戶性別及其校正后的偏女性維度值和偏男性維度值,構(gòu)建用于預(yù)測(cè)用戶性別的分類模型。對(duì)于待測(cè)移動(dòng)終端,可以以同樣方法計(jì)算得到其機(jī)型特征校正后的偏女性維度值和偏男性維度值,進(jìn)而計(jì)算得到其第一置信度和第二置信度,以判斷其是否要選入第一待測(cè)樣本B1中。根據(jù)另一個(gè)實(shí)施例,也可以不把機(jī)型的性別維度值計(jì)入到與應(yīng)用有關(guān)的整體性別維度值中,而單獨(dú)基于每個(gè)機(jī)型的性別維度值和其對(duì)應(yīng)終端的用戶性別構(gòu)建分類模型,即構(gòu)建機(jī)型與用戶性別的對(duì)應(yīng)關(guān)系。對(duì)于這種方法構(gòu)建的分類模型,需要算出待測(cè)終端的機(jī)型的性別維度值進(jìn)行預(yù)測(cè),這種方法通過幾步簡(jiǎn)單的運(yùn)算就可得到預(yù)測(cè)結(jié)果,在某些定性分析中比較快速有效。綜上所述,分類模型可以根據(jù)表5中的單組性別維度值構(gòu)建,也可以根據(jù)表6中的由單組性別維度值計(jì)算得到整體性別維度值構(gòu)建,也可以根據(jù)表10中的機(jī)型的性別維度值構(gòu)建,還可以根據(jù)表11中的用機(jī)型特征校正過的整體性別維度值構(gòu)建。這樣多樣的模型構(gòu)建方法,為數(shù)據(jù)分析提供了多種可能,開發(fā)者可以根據(jù)需要選擇合適的計(jì)算精度。圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的性別預(yù)測(cè)服務(wù)器400的結(jié)構(gòu)框圖。如圖4所示,服務(wù)器400包括樣本選取單元410、樣本聚類單元420、模型訓(xùn)練單元430、性別預(yù)測(cè)單元440、樣本更新單元450和循環(huán)迭代單元460。樣本選取單元410收集收集多個(gè)待測(cè)移動(dòng)終端的第二設(shè)備信息作為整體待測(cè)樣本B,并從中選取一部分作為第一待測(cè)樣本B1,這些設(shè)備信息包括該移動(dòng)終端的設(shè)備ID和應(yīng)用信息。進(jìn)一步地,樣本選取單元410適于計(jì)算該整體待測(cè)樣本B中的每個(gè)待測(cè)移動(dòng)終端的單組性別維度值和整體性別維度值,進(jìn)而計(jì)算該樣本B中每個(gè)待測(cè)移動(dòng)終端的第一置信度和第二置信度,并從該樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本,作為第一待測(cè)樣本B1。樣本聚類單元420適于將第一模型樣本A1和第一待測(cè)樣本B1進(jìn)行聚類,并從聚類結(jié)果中選出第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍的類。其中,可以根據(jù)樣本A1和樣本B1中每個(gè)移動(dòng)終端的用戶性別和整體性別維度值的對(duì)應(yīng)關(guān)系進(jìn)行聚類,聚類方法可以采用K-means聚類算法,通常選擇占比在30%-70%的類。如果有多個(gè)類滿足條件,對(duì)其進(jìn)行合并。模型訓(xùn)練單元430適于從選出的類中取出第一模型子樣本A11和第一待測(cè)子樣本B11,并從第一模型子樣本A11中選取一部分樣本作為訓(xùn)練樣本,對(duì)所述構(gòu)建好的分類模型進(jìn)行訓(xùn)練。根據(jù)一個(gè)實(shí)施例,服務(wù)器400還可以包括模型校驗(yàn)單元(圖中未示出),適于從第一模型子樣本A11中另選一部分樣本作為校驗(yàn)樣本;將改檢驗(yàn)樣本中的移動(dòng)終端的性別維度值輸入到訓(xùn)練好的分類模型中,輸出得到該移動(dòng)終端的用戶性別預(yù)測(cè)結(jié)果;以及根據(jù)每個(gè)移動(dòng)終端的真實(shí)用戶性別對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),得到該第一模型子樣本A1'的性別預(yù)測(cè)準(zhǔn)確度。性別預(yù)測(cè)單元440適于根據(jù)第一待測(cè)子樣本B11的第二設(shè)備信息及所述訓(xùn)練好的分類模型,預(yù)測(cè)得到該樣本中每個(gè)移動(dòng)終端的用戶性別。此時(shí),校驗(yàn)樣本的性別預(yù)測(cè)準(zhǔn)確度就可以近似作為第一待測(cè)子樣本B1'的性別預(yù)測(cè)準(zhǔn)確度。樣本更新單元450適于將已經(jīng)預(yù)測(cè)過用戶性別的第一待測(cè)子樣本B11從整體待測(cè)樣本B中剔除,并將其加入到第一模型樣本A1中,得到第二模型樣本A2,以及從剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B中選取第二待測(cè)樣本B2。當(dāng)然,如果第一待測(cè)子樣本B11的性別預(yù)測(cè)準(zhǔn)確度偏低,則將其繼續(xù)保留在原樣本中。另外,選取第二待測(cè)樣本B2時(shí),仍然是先從整體待測(cè)樣本B中進(jìn)行隨機(jī)選取,并從選取結(jié)果中選出第一置信度大于第三閾值且第二置信度大于第四閾值的樣本作為第二待測(cè)樣本B2。其中,第三閾值和第四閾值可以與第一閾值和第二閾值相同,也可以不相同;在后續(xù)樣本選取中,還可以根據(jù)數(shù)據(jù)情況,如模型樣本中的終端數(shù)目,對(duì)第三閾值和第四閾值的數(shù)值進(jìn)行調(diào)整。循環(huán)迭代單元460適于在第二模型樣本A2和第二待測(cè)樣本B2的基礎(chǔ)上,重復(fù)上述樣本聚類、模型訓(xùn)練和性別預(yù)測(cè)的操作,以預(yù)測(cè)得到第二待測(cè)子樣本B22中移動(dòng)終端的用戶性別;還適于重復(fù)上述樣本更新和性別預(yù)測(cè)操作,直到處理了整體待測(cè)樣本B中的所有移動(dòng)終端為止。根據(jù)一個(gè)實(shí)施例,服務(wù)器400中還可以包括模型構(gòu)建單元(圖中為示出),該模型構(gòu)建單元適于通過組合第一模型樣本A1中每個(gè)移動(dòng)終端的用戶性別和應(yīng)用信息,生成應(yīng)用列表;從應(yīng)用列表中統(tǒng)計(jì)每個(gè)應(yīng)用所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)應(yīng)用的性別傾向指數(shù);將該樣本A1中的所有應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組,并計(jì)算該樣本中的每個(gè)移動(dòng)終端在各個(gè)分組的單組性別維度值;以及根據(jù)每個(gè)移動(dòng)終端的用戶性別及其單組性別維度值,構(gòu)建用于預(yù)測(cè)用戶性別的分類模型。其中,分類模型包括隨機(jī)森林模型、支持向量機(jī)模型或卷積神經(jīng)網(wǎng)絡(luò)模型等常規(guī)分類模型的任意一種,本發(fā)明對(duì)此不作限制。根據(jù)本發(fā)明的性別預(yù)測(cè)服務(wù)器400,其具體細(xì)節(jié)已在基于圖1-圖3的描述中詳細(xì)公開,在此不再贅述。根據(jù)本發(fā)明的技術(shù)方案,采用了半監(jiān)督的學(xué)習(xí)方法,在通過模型樣本對(duì)整體待測(cè)樣本進(jìn)行性別預(yù)測(cè)時(shí),先隨機(jī)選出一部分樣本,并從中選出置信度達(dá)標(biāo)的第一待測(cè)樣本與模型樣本進(jìn)行聚類。之后,從聚類結(jié)果中選出第一待測(cè)樣本和第一模型樣本都分布較為均勻的類,及該類中的子待測(cè)樣本和子模型樣本。將子模型樣本分為兩部分,一部分用來訓(xùn)練構(gòu)建好的分類模型,一部分用來校驗(yàn)?zāi)P皖A(yù)測(cè)的準(zhǔn)確度。之后,利用訓(xùn)練的好的分類模型來預(yù)測(cè)子待測(cè)樣本中的移動(dòng)終端的用戶性別,并將該預(yù)測(cè)過性別的子待測(cè)樣本從整體待測(cè)樣本中移入到模型樣本,得到第二模型樣本,進(jìn)而從更新后的樣本中重新選取新的第二待測(cè)樣本進(jìn)行處理,得到其用戶性別。之后,重復(fù)上述操作直到處理了整體待測(cè)樣本的所有移動(dòng)終端為止。通過這種方法,使得模型在從小樣本推廣到整體樣本的時(shí)候,盡可能消除抽樣偏差對(duì)預(yù)測(cè)結(jié)果的影響。另外,本發(fā)明還有效地降低了數(shù)據(jù)維度,通過統(tǒng)計(jì)模型樣本中的每個(gè)移動(dòng)終端的應(yīng)用信息和用戶性別,計(jì)算得到每個(gè)應(yīng)用的性別傾向指數(shù)。再根據(jù)該性別傾向指數(shù)的大小,將很大維度的終端和應(yīng)用的組合信息,降低為例如為100維的應(yīng)用分組。之后,又進(jìn)一步降低了男性和女性維度這兩個(gè)維度。這樣,可以在盡可能不損失信息的前提下將維度大幅度減小,極大的提高了計(jì)算效率,也降低了對(duì)硬件的設(shè)備要求。A9、如A8所述的方法,還包括:如果所述第一模型子樣本A11的性別預(yù)測(cè)準(zhǔn)確度小于第五閾值,則在步驟5中將所述第一待測(cè)子樣本B11繼續(xù)保留在所述整體待測(cè)樣本B中;以及在步驟6中從含有該第一待測(cè)子樣本B11的整體待測(cè)樣本B中進(jìn)行第二次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第三閾值且第二置信度大于第四閾值的第二待測(cè)樣本B2。A10、如A3所述的方法,所述第一設(shè)備信息還包括移動(dòng)終端的機(jī)型信息,該方法還包括步驟:統(tǒng)計(jì)每個(gè)機(jī)型所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)機(jī)型的性別傾向指數(shù);以及基于所述每個(gè)機(jī)型的性別傾向指數(shù)計(jì)算該機(jī)型的性別維度值;所述計(jì)算移動(dòng)終端的整體性別維度值的步驟還包括:如果所述機(jī)型的性別維度值偏向女性維度,則將該機(jī)型的性別維度值加入到該移動(dòng)終端的偏女性維度值中,反之則加入到該移動(dòng)終端的偏男性維度值中。A11、如A4或A9中所述的方法,所述步驟6還包括:根據(jù)模型樣本中所含移動(dòng)終端的數(shù)量,對(duì)所述第三閾值和所述第四閾值的數(shù)值進(jìn)行調(diào)整。A12、如A2所述的方法,其中,所述將所述應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組的步驟包括:計(jì)算所述性別傾向指數(shù)的最大值和最小值之間的差值,根據(jù)所述差值將所述應(yīng)用均分為多個(gè)分組;所述計(jì)算移動(dòng)終端的應(yīng)用在每個(gè)分組內(nèi)的單組性別維度值的步驟包括:統(tǒng)計(jì)每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目,并結(jié)合每個(gè)分組的權(quán)值來計(jì)算該移動(dòng)終端在每個(gè)分組的單組性別維度值。B14、如B13所述的服務(wù)器,所述第一模型樣本A1的第一設(shè)備信息包括其中每個(gè)移動(dòng)終端的用戶性別和應(yīng)用信息,所述服務(wù)器中包括模型構(gòu)建單元,所述模型構(gòu)建單元適于:通過組合該第一模型樣本A1中每個(gè)移動(dòng)終端的用戶性別和應(yīng)用信息,生成應(yīng)用列表;從所述應(yīng)用列表中統(tǒng)計(jì)每個(gè)應(yīng)用所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)應(yīng)用的性別傾向指數(shù);將該樣本A1中的所有應(yīng)用按照性別傾向指數(shù)的大小劃分為多個(gè)分組,并計(jì)算該樣本中的每個(gè)移動(dòng)終端在各個(gè)分組的單組性別維度值;以及根據(jù)所述每個(gè)移動(dòng)終端的用戶性別及其單組性別維度值,構(gòu)建所述用于預(yù)測(cè)用戶性別的分類模型。B15、如B14所述的服務(wù)器,所述模型構(gòu)建單元進(jìn)一步適于:根據(jù)所述單組性別維度值計(jì)算得到該移動(dòng)終端的整體性別維度值,所述整體性別維度值包括偏女性維度值和偏男性維度值;以及根據(jù)所述每個(gè)移動(dòng)終端的用戶性別及其整體性別維度值,構(gòu)建所述用于預(yù)測(cè)用戶性別的分類模型。B16、如B13-B15中任一項(xiàng)所述的服務(wù)器,所述樣本選取單元適于:計(jì)算所述整體待測(cè)樣本B中的每個(gè)待測(cè)移動(dòng)終端的單組性別維度值和整體性別維度值;以及計(jì)算該樣本B中每個(gè)待測(cè)移動(dòng)終端的第一置信度和第二置信度,并從該樣本B中選取第一置信度大于第一閾值且第二置信度大于第二閾值的樣本,作為所述第一待測(cè)樣本B1。B17、如B16所述的服務(wù)器,所述樣本選取單元進(jìn)一步適于:從所述整體待測(cè)樣本B中進(jìn)行第一次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第一閾值且第二置信度大于第二閾值的樣本作為第一待測(cè)樣本B1;所述步驟6包括:對(duì)所述剔除了第一待測(cè)子樣本B11后的整體待測(cè)樣本B進(jìn)行第二次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第三閾值且第二置信度大于第四閾值的第二待測(cè)樣本B2。B18、如B13-B15中任一項(xiàng)所述的服務(wù)器,所述樣本聚類單元適于:根據(jù)所述第一模型樣本A1和第一待測(cè)樣本B1中每個(gè)移動(dòng)終端的用戶性別和整體性別維度值的對(duì)應(yīng)關(guān)系進(jìn)行聚類,并從聚類結(jié)果中選取所述第一模型樣本A1的移動(dòng)終端數(shù)目占比在30%-70%的類。B19、如B13所述的服務(wù)器,所述樣本聚類單元適于:當(dāng)所述聚類結(jié)果中有多個(gè)類的第一模型樣本A1的移動(dòng)終端數(shù)目占比在一定范圍時(shí),將這多個(gè)類中屬于第一模型樣本A1的樣本進(jìn)行合并,作為所述第一模型子樣本A11,并將這多個(gè)類中屬于第一待測(cè)樣本B1的樣本進(jìn)行合并,作為所述第一待測(cè)子樣本B11。B20、如B13所述的服務(wù)器,還包括模型校驗(yàn)單元,適于:從所述第一模型子樣本A11中另選一部分樣本作為校驗(yàn)樣本;將所述檢驗(yàn)樣本中的移動(dòng)終端的性別維度值輸入到所述訓(xùn)練好的分類模型中,輸出得到該移動(dòng)終端的用戶性別預(yù)測(cè)結(jié)果;以及根據(jù)所述每個(gè)移動(dòng)終端的真實(shí)用戶性別對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn),得到該第一模型子樣本A1'的性別預(yù)測(cè)準(zhǔn)確度,并將該性別預(yù)測(cè)準(zhǔn)確度近似作為所述第一待測(cè)子樣本B1'的性別預(yù)測(cè)準(zhǔn)確度。B21、如B20所述的服務(wù)器,所述樣本更新單元適于:當(dāng)所述第一模型子樣本A11的性別預(yù)測(cè)準(zhǔn)確度小于第五閾值時(shí),將所述第一待測(cè)子樣本B11繼續(xù)保留在所述整體待測(cè)樣本B中;以及從含有該第一待測(cè)子樣本B11的整體待測(cè)樣本B中進(jìn)行第二次隨機(jī)樣本選取,并從選取結(jié)果中取出第一置信度大于第三閾值且第二置信度大于第四閾值的第二待測(cè)樣本B2。B22、如B15所述的服務(wù)器,所述第一設(shè)備信息還包括移動(dòng)終端的機(jī)型信息,所述模型構(gòu)建單元適于:統(tǒng)計(jì)每個(gè)機(jī)型所對(duì)應(yīng)的移動(dòng)終端的女性用戶數(shù)目和男性用戶數(shù)目,并計(jì)算得到每個(gè)機(jī)型的性別傾向指數(shù);以及根據(jù)所述機(jī)型的性別傾向指數(shù)計(jì)算該機(jī)型的性別維度值;如果所述機(jī)型的性別維度值偏向女性維度,則將該機(jī)型的性別維度值加入到該移動(dòng)終端的偏女性維度值中,反之則加入到該移動(dòng)終端的偏男性維度值中。B23、如B16或B21中所述的服務(wù)器,所述樣本選取單元還適于根據(jù)模型樣本中所含移動(dòng)終端的數(shù)量,對(duì)所述第三閾值和所述第四閾值的數(shù)值進(jìn)行調(diào)整。B24、如B14所述的服務(wù)器,所述模型構(gòu)建單元適于根據(jù)以下方法計(jì)算所述單組性別維度值:計(jì)算所述性別傾向指數(shù)的最大值和最小值之間的差值,根據(jù)所述差值將所述應(yīng)用均分為多個(gè)分組;以及統(tǒng)計(jì)每個(gè)分組內(nèi)所含的該移動(dòng)終端的應(yīng)用數(shù)目,并結(jié)合該分組的權(quán)值計(jì)算得到該移動(dòng)終端的在該分組的單組性別維度值。在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下被實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循具體實(shí)施方式的權(quán)利要求書由此明確地并入該具體實(shí)施方式,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。本領(lǐng)域那些技術(shù)人員應(yīng)當(dāng)理解在本文所公開的示例中的設(shè)備的模塊或單元或組件可以布置在如該實(shí)施例中所描述的設(shè)備中,或者可替換地可以定位在與該示例中的設(shè)備不同的一個(gè)或多個(gè)設(shè)備中。前述示例中的模塊可以組合為一個(gè)模塊或者此外可以分成多個(gè)子模塊。本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。此外,所述實(shí)施例中的一些在此被描述成可以由計(jì)算機(jī)系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實(shí)施的方法或方法元素的組合。因此,具有用于實(shí)施所述方法或方法元素的必要指令的處理器形成用于實(shí)施該方法或方法元素的裝置。此外,裝置實(shí)施例的在此所述的元素是如下裝置的例子:該裝置用于實(shí)施由為了實(shí)施該發(fā)明的目的的元素所執(zhí)行的功能。如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來描述普通對(duì)象僅僅表示涉及類似對(duì)象的不同實(shí)例,并且并不意圖暗示這樣被描述的對(duì)象必須具有時(shí)間上、空間上、排序方面或者以任意其它方式的給定順序。盡管根據(jù)有限數(shù)量的實(shí)施例描述了本發(fā)明,但是受益于上面的描述,本
技術(shù)領(lǐng)域
內(nèi)的技術(shù)人員明白,在由此描述的本發(fā)明的范圍內(nèi),可以設(shè)想其它實(shí)施例。此外,應(yīng)當(dāng)注意,本說明書中使用的語言主要是為了可讀性和教導(dǎo)的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不偏離所附權(quán)利要求書的范圍和精神的情況下,對(duì)于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來說許多修改和變更都是顯而易見的。對(duì)于本發(fā)明的范圍,對(duì)本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權(quán)利要求書限定。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
朝阳市| 麻江县| 怀远县| 沿河| 徐水县| 平乡县| 吉水县| 奉化市| 礼泉县| 江北区| 沅陵县| 武城县| 雷州市| 明溪县| 密云县| 淳安县| 太和县| 弋阳县| 板桥市| 台南市| 乌拉特后旗| 乌兰浩特市| 邹城市| 盐池县| 万全县| 海伦市| 宁津县| 吉木乃县| 竹北市| 鸡西市| 池州市| 清镇市| 双牌县| 安达市| 闻喜县| 新津县| 磐安县| 辰溪县| 娄烦县| 剑阁县| 买车|