本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)處理方法及裝置、分類器訓(xùn)練方法及系統(tǒng)。
背景技術(shù):
當(dāng)今互聯(lián)網(wǎng)上每天都會(huì)產(chǎn)生大量的信息,且每天都在以驚人的速度膨脹。諸如社交網(wǎng)絡(luò)、新聞評(píng)論、BBS、博客、聊天室、聚合新聞(RSS)等每時(shí)每刻都會(huì)產(chǎn)生大量的數(shù)據(jù),鑒于此,基于自然語(yǔ)言理解領(lǐng)域,通過(guò)分類算法實(shí)現(xiàn)大量數(shù)據(jù)的分類,對(duì)于信息監(jiān)管擁有廣泛而深遠(yuǎn)的意義。但是人工對(duì)其加以分析和處理的速度已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足要求,因而人們已經(jīng)開始著手研究用統(tǒng)計(jì)和學(xué)習(xí)的方法來(lái)對(duì)大量的信息進(jìn)行自動(dòng)處理和分類。
在傳統(tǒng)的機(jī)器學(xué)習(xí)中,通過(guò)各種各樣的手段獲取包括文本、語(yǔ)音、視頻和圖片在內(nèi)的各種數(shù)據(jù),假設(shè)所有的樣本獨(dú)立并服從一個(gè)確定的概率分布,并基于這樣的假設(shè),訓(xùn)練一個(gè)分類器,根據(jù)已知樣本預(yù)測(cè)未出現(xiàn)在訓(xùn)練集中的樣本,從而通過(guò)這種方法來(lái)實(shí)現(xiàn)數(shù)據(jù)的自動(dòng)分類。
傳統(tǒng)的機(jī)器學(xué)習(xí)一般分為監(jiān)督學(xué)習(xí)(supervised learning)和無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)。監(jiān)督學(xué)習(xí)是指,對(duì)于一批樣本,不僅知道其中每一個(gè)樣本數(shù)據(jù)本身,還知道其對(duì)應(yīng)的類別標(biāo)簽。通過(guò)設(shè)計(jì)一個(gè)分類器,對(duì)這批樣本進(jìn)行分類,進(jìn)而能根據(jù)該劃分預(yù)測(cè)新樣本的類別標(biāo)簽。而無(wú)監(jiān)督學(xué)習(xí)是指,訓(xùn)練集中的樣本數(shù)據(jù)都沒(méi)有類別標(biāo)簽,通過(guò)分類算法把數(shù)據(jù)分成若干類,也稱之為聚類。
然而在很多應(yīng)用的所要分析的海量數(shù)據(jù)中,只有一部分有類別標(biāo)簽,另外一部分卻沒(méi)有類別標(biāo)簽,這自然使得半監(jiān)督學(xué)習(xí)近年來(lái)成為研究的熱點(diǎn)。半監(jiān)督學(xué)習(xí)即是指利用已標(biāo)注類別標(biāo)簽和未標(biāo)注類別標(biāo)簽的數(shù)據(jù)來(lái)設(shè)計(jì)分類器,半監(jiān)督學(xué)習(xí)對(duì)于減少標(biāo)注代價(jià),提高學(xué)習(xí)機(jī)器性能具有非常重大的實(shí)際意義。
常規(guī)半監(jiān)督算法的基本思路是:
①首先用有標(biāo)簽的數(shù)據(jù)樣本訓(xùn)練分類器;
②用訓(xùn)練得到的分類器分類沒(méi)有標(biāo)簽的數(shù)據(jù)樣本;
③將得到的置信度高的數(shù)據(jù)樣本加入到訓(xùn)練集,同時(shí)從無(wú)標(biāo)簽數(shù)據(jù)集中刪除該部分樣本;
④重新訓(xùn)練分類器,整個(gè)過(guò)程重復(fù)進(jìn)行直至收斂。
但是,現(xiàn)有的這種半監(jiān)督算法仍然存在著如下缺點(diǎn):
1)分類器訓(xùn)練過(guò)程中如果一個(gè)錯(cuò)誤分類的樣本被加入了原來(lái)的訓(xùn)練集,那么在其后的訓(xùn)練過(guò)程中,它所犯的錯(cuò)誤只會(huì)越來(lái)越深,還會(huì)誘使其它樣本犯錯(cuò);2).當(dāng)有標(biāo)簽數(shù)據(jù)集和無(wú)標(biāo)簽數(shù)據(jù)集所服從分布差別比較大時(shí),使用有標(biāo)簽數(shù)據(jù)集上訓(xùn)練的模型去預(yù)測(cè)無(wú)標(biāo)簽數(shù)據(jù)同樣會(huì)出現(xiàn)效果很差的現(xiàn)象。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的是提供一種數(shù)據(jù)處理方法及裝置、分類器訓(xùn)練方法及系統(tǒng),以解決由于引入無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練分類器可能導(dǎo)致分類器性能降低的問(wèn)題。
本發(fā)明實(shí)施例提出一種數(shù)據(jù)處理方法,用于通過(guò)對(duì)分類器的訓(xùn)練來(lái)對(duì)有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行處理,包括:
從無(wú)標(biāo)簽數(shù)據(jù)中提取多組數(shù)據(jù)組,其中每組數(shù)據(jù)組均包含預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本;
為每一組數(shù)據(jù)組的數(shù)據(jù)樣本設(shè)置標(biāo)簽,構(gòu)成每一組數(shù)據(jù)組中包含所有標(biāo)簽組合的多個(gè)樣本集,其中一個(gè)樣本集中包含一種標(biāo)簽組合的數(shù)據(jù)樣本;
分別利用有標(biāo)簽數(shù)據(jù)和每一組數(shù)據(jù)組中的每一個(gè)樣本集訓(xùn)練所述分類器;
獲取每一組數(shù)據(jù)組中最高性能分類器對(duì)應(yīng)的樣本集,并構(gòu)成候選訓(xùn)練集;
將所述候選訓(xùn)練集中預(yù)設(shè)數(shù)量的數(shù)據(jù)加入到有標(biāo)簽數(shù)據(jù)中。
本發(fā)明還提出一種分類器訓(xùn)練方法,包括:
反復(fù)通過(guò)數(shù)據(jù)處理方法從無(wú)標(biāo)簽數(shù)據(jù)中獲取數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)中;
每一次數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)后,通過(guò)加入數(shù)據(jù)樣本的有標(biāo)簽數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練。
本發(fā)明還提出一種數(shù)據(jù)處理裝置,用于通過(guò)對(duì)分類器的訓(xùn)練來(lái)對(duì)有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行處理,包括:
數(shù)據(jù)組提取單元,用于從無(wú)標(biāo)簽數(shù)據(jù)中提取多組數(shù)據(jù)組,其中每組數(shù)據(jù)組均包含預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本;
標(biāo)簽設(shè)置單元,用于為每一組數(shù)據(jù)組的數(shù)據(jù)樣本設(shè)置標(biāo)簽,構(gòu)成每一組數(shù)據(jù)組中包含所有標(biāo)簽組合的多個(gè)樣本集,其中一個(gè)樣本集中包含一種標(biāo)簽組合的數(shù)據(jù)樣本;
訓(xùn)練單元,用于分別利用有標(biāo)簽數(shù)據(jù)和每一組數(shù)據(jù)組中的每一個(gè)樣本集訓(xùn)練所述分類器;
候選樣本獲取單元,用于獲取每一組數(shù)據(jù)組中最高性能分類器對(duì)應(yīng)的樣本集,并構(gòu)成候選訓(xùn)練集;
標(biāo)簽數(shù)據(jù)優(yōu)化單元,用于將所述候選訓(xùn)練集中預(yù)設(shè)數(shù)量的數(shù)據(jù)加入到有標(biāo)簽數(shù)據(jù)中。
本發(fā)明還提出一種分類器訓(xùn)練系統(tǒng),包括數(shù)據(jù)處理裝置以及訓(xùn)練裝置,其反復(fù)通過(guò)所述數(shù)據(jù)處理裝置從無(wú)標(biāo)簽數(shù)據(jù)中獲取數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)中,并在每一次數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)后,訓(xùn)練裝置通過(guò)加入數(shù)據(jù)樣本的有標(biāo)簽數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練。
相對(duì)于現(xiàn)有技術(shù),本發(fā)明的有益效果是:
本發(fā)明實(shí)施例的數(shù)據(jù)處理方法及裝置、分類器訓(xùn)練方法及系統(tǒng),充分考慮無(wú)標(biāo)簽數(shù)據(jù)的分布,將無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)放到一起學(xué)習(xí),使得分類器有更好的泛化能力。
本實(shí)施例的數(shù)據(jù)處理方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后一定能夠使得分類器性能變得更優(yōu)。
附圖說(shuō)明
圖1為本發(fā)明實(shí)施例的一種數(shù)據(jù)處理方法的流程圖;
圖2為本發(fā)明實(shí)施例的另一種數(shù)據(jù)處理方法的流程圖;
圖3為本發(fā)明實(shí)施例的一種數(shù)據(jù)處理裝置的結(jié)構(gòu)圖;
圖4為本發(fā)明實(shí)施例的另一種數(shù)據(jù)處理裝置的結(jié)構(gòu)圖;
圖5為本發(fā)明實(shí)施例的一種分類器訓(xùn)練系統(tǒng)的結(jié)構(gòu)圖;
圖6為本發(fā)明實(shí)施例的一種數(shù)據(jù)處理方法及裝置、分類器訓(xùn)練方法及系統(tǒng)的應(yīng)用環(huán)境示意圖。
具體實(shí)施方式
有關(guān)本發(fā)明的前述及其他技術(shù)內(nèi)容、特點(diǎn)及功效,在以下配合參考圖式的較佳實(shí)施例詳細(xì)說(shuō)明中將可清楚的呈現(xiàn)。通過(guò)具體實(shí)施方式的說(shuō)明,當(dāng)可對(duì)本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖式僅是提供參考與說(shuō)明之用,并非用來(lái)對(duì)本發(fā)明加以限制。
本發(fā)明實(shí)施例涉及一種數(shù)據(jù)處理方法及裝置、分類器訓(xùn)練方法及系統(tǒng),其應(yīng)用于服務(wù)器,請(qǐng)參閱圖6,其為上述的異常數(shù)據(jù)檢測(cè)方法及裝置、數(shù)據(jù)預(yù)處理方法及系統(tǒng)的運(yùn)行環(huán)境示意圖。一種服務(wù)器1200,該服務(wù)器1200包括有一個(gè)或一個(gè)以上計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的存儲(chǔ)器120、輸入單元130、顯示單元140、一個(gè)或者一個(gè)以上處理核心的處理器180、以及電源190等部件。本領(lǐng)域技術(shù)人員可以理解,圖6中示出的服務(wù)器結(jié)構(gòu)并不構(gòu)成對(duì)終端的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
存儲(chǔ)器120可用于存儲(chǔ)軟件程序以及模塊,處理器180通過(guò)運(yùn)行存儲(chǔ)在存儲(chǔ)器120的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲(chǔ)器120可主要包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)服務(wù)器1200的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲(chǔ)器120可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非易失性存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他易失性固態(tài)存儲(chǔ)器件。相應(yīng)地,存儲(chǔ)器120還可以包括存儲(chǔ)器控制器,以提供處理器180和輸入單元130對(duì)存儲(chǔ)器120的訪問(wèn)。
輸入單元130可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號(hào)輸入。具體地,輸入單元130可包括觸敏表面131以及其他輸入設(shè)備132。觸敏表面131,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面131上或在觸敏表面131附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動(dòng)相應(yīng)的連接裝置??蛇x的,觸敏表面131可包括觸摸檢測(cè)裝置和觸摸控制器兩個(gè)部分。其中,觸摸檢測(cè)裝置檢測(cè)用戶的觸摸方位,并檢測(cè)觸摸操作帶來(lái)的信號(hào),將信號(hào)傳送給觸摸控制器;觸摸控制器從觸摸檢測(cè)裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點(diǎn)坐標(biāo),再送給處理器180,并能接收處理器180發(fā)來(lái)的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實(shí)現(xiàn)觸敏表面131。除了觸敏表面131,輸入單元130還可以包括其他輸入設(shè)備132。具體地,其他輸入設(shè)備132可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
顯示單元140可用于顯示由用戶輸入的信息或提供給用戶的信息以及服務(wù)器1200的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來(lái)構(gòu)成。顯示單元140可包括顯示面板141,可選的,可以采用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機(jī)發(fā)光二極管)等形式來(lái)配置顯示面板141。進(jìn)一步的,觸敏表面131可覆蓋顯示面板141,當(dāng)觸敏表面131檢測(cè)到在其上或附近的觸摸操作后,傳送給處理器180以確定觸摸事件的類型,隨后處理器180根據(jù)觸摸事件的類型在顯示面板141上提供相應(yīng)的視覺輸出。雖然在圖6中,觸敏表面131與顯示面板141是作為兩個(gè)獨(dú)立的部件來(lái)實(shí)現(xiàn)輸入和輸入功能,但是在某些實(shí)施例中,可以將觸敏表面131與顯示面板141集成而實(shí)現(xiàn)輸入和輸出功能。
處理器180是服務(wù)器1200的控制中心,利用各種接口和線路連接整個(gè)服務(wù)器1200的各個(gè)部分,通過(guò)運(yùn)行或執(zhí)行存儲(chǔ)在存儲(chǔ)器120內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲(chǔ)在存儲(chǔ)器120內(nèi)的數(shù)據(jù),執(zhí)行服務(wù)器1200的各種功能和處理數(shù)據(jù),從而對(duì)服務(wù)器1200進(jìn)行整體監(jiān)控??蛇x的,處理器180可包括一個(gè)或多個(gè)處理核心;優(yōu)選的,處理器180可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無(wú)線通信??梢岳斫獾氖牵鲜稣{(diào)制解調(diào)處理器也可以不集成到處理器180中。
服務(wù)器1200還包括給各個(gè)部件供電的電源190(比如電池),優(yōu)選的,電源可以通過(guò)電源管理系統(tǒng)與處理器180邏輯相連,從而通過(guò)電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源190還可以包括一個(gè)或一個(gè)以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測(cè)電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
本發(fā)明實(shí)施例適用于可用建模樣本較少,無(wú)標(biāo)簽數(shù)據(jù)較多的情況,例如征信預(yù)警系統(tǒng)、情感分析系統(tǒng)等數(shù)據(jù)的分類,并利用無(wú)標(biāo)簽數(shù)據(jù)來(lái)提升分類器的性能。
實(shí)施例一
本發(fā)明實(shí)施例提出一種數(shù)據(jù)處理方法,請(qǐng)參見圖1,本實(shí)施例的數(shù)據(jù)處理方法包括:
S101,從無(wú)標(biāo)簽數(shù)據(jù)中提取多組數(shù)據(jù)組,其中每組數(shù)據(jù)組均包含預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本。所述的數(shù)據(jù)樣本可以是各種信息的集合,例如在征信系統(tǒng)中,姓名、身份證號(hào)碼、家庭住址、工作單位等身份識(shí)別信息,貸款發(fā)放銀行、貸款額、貸款期限、還款方式、實(shí)際還款記錄等貸款信息,發(fā)卡銀行、授信額度、還款記錄等信用卡信息可以共同構(gòu)成一條數(shù)據(jù)樣本。所述預(yù)設(shè)數(shù)量可以根據(jù)需要來(lái)設(shè)定,例如每組數(shù)據(jù)組都可以包含10個(gè)數(shù)據(jù)樣本,即可以依次從無(wú)標(biāo)簽數(shù)據(jù)中抽取10個(gè)數(shù)據(jù)樣本構(gòu)成數(shù)據(jù)組,假設(shè)無(wú)標(biāo)簽數(shù)據(jù)有100個(gè)數(shù)據(jù)樣本,那么最多可以提取出10組數(shù)據(jù)組。
S102,為每一組數(shù)據(jù)組的數(shù)據(jù)樣本設(shè)置標(biāo)簽,構(gòu)成每一組數(shù)據(jù)組中包含所有標(biāo)簽組合的多個(gè)樣本集,其中一個(gè)樣本集中包含一種標(biāo)簽組合的數(shù)據(jù)樣本。為數(shù)據(jù)樣本設(shè)置標(biāo)簽時(shí),需要依據(jù)有標(biāo)簽數(shù)據(jù)的標(biāo)簽來(lái)設(shè)置,比如假設(shè)有標(biāo)簽數(shù)據(jù)的標(biāo)簽分為優(yōu)質(zhì)用戶和非優(yōu)質(zhì)用戶兩種類別的標(biāo)簽,那么為數(shù)據(jù)樣本設(shè)置標(biāo)簽時(shí)同樣設(shè)置優(yōu)質(zhì)用戶或非優(yōu)質(zhì)用戶兩種標(biāo)簽。其中,標(biāo)簽的類別是根據(jù)不同系統(tǒng)的需要來(lái)設(shè)定的,比如在征信系統(tǒng)中,可以根據(jù)用戶的信用度分為優(yōu)質(zhì)用戶和非優(yōu)質(zhì)用戶兩種標(biāo)簽;又比如在情感分析系統(tǒng)中,可以根據(jù)輿情信息的語(yǔ)義定義,分為正面和負(fù)面兩種標(biāo)簽。當(dāng)然,標(biāo)簽類別的數(shù)量并不以兩種為限,但為了便于說(shuō)明,本發(fā)明實(shí)施例以兩種標(biāo)簽為例進(jìn)行描述。
所述標(biāo)簽組合就是指包含類別的標(biāo)簽的組合。假設(shè)標(biāo)簽類別有兩種,一個(gè)數(shù)據(jù)組含有10個(gè)數(shù)據(jù)樣本,隨機(jī)對(duì)這個(gè)數(shù)據(jù)組中的數(shù)據(jù)樣本打上標(biāo)簽,那么就共有210也就是1024種不同的標(biāo)簽組合,一個(gè)樣本集就是一種標(biāo)簽組合的數(shù)據(jù)樣本,也就是,這個(gè)數(shù)據(jù)組包含1024個(gè)樣本集。以一個(gè)簡(jiǎn)單的例子來(lái)說(shuō)明:
假設(shè)一個(gè)數(shù)據(jù)組Q中包含兩個(gè)數(shù)據(jù)樣本{(用戶A),(用戶B)},其中(用戶A)和(用戶B)中包括用戶A和用戶B的信用數(shù)據(jù),假設(shè)標(biāo)簽類別分為優(yōu)質(zhì)用戶和非優(yōu)質(zhì)用戶,那么對(duì)這個(gè)數(shù)據(jù)組Q進(jìn)行標(biāo)簽標(biāo)注,就形成四個(gè)樣本集:{(用戶A,優(yōu)質(zhì)用戶),(用戶B,優(yōu)質(zhì)用戶)}、{(用戶A,優(yōu)質(zhì)用戶),(用戶B,非優(yōu)質(zhì)用戶)}、{(用戶A,非優(yōu)質(zhì)用戶),(用戶B,優(yōu)質(zhì)用戶)}、{(用戶A,非優(yōu)質(zhì)用戶),(用戶B,非優(yōu)質(zhì)用戶)}。
S103,分別利用有標(biāo)簽數(shù)據(jù)和每一組數(shù)據(jù)組中的每一個(gè)樣本集訓(xùn)練分類器。步驟S102已經(jīng)為樣本集打上標(biāo)簽,因此可以依次把樣本集加入到有標(biāo)簽數(shù)據(jù)中來(lái)訓(xùn)練分類器。分類器通常屬于一個(gè)數(shù)學(xué)模型,其中包含眾多參數(shù),通常意義上所述對(duì)分類器的訓(xùn)練,即對(duì)分類器中參數(shù)的調(diào)整過(guò)程,以使分類器達(dá)到更好的分類效果。如果有10組數(shù)據(jù)組,每組數(shù)據(jù)組包含1024個(gè)樣本集,那么要訓(xùn)練分類器10240次。
S104,獲取每一組數(shù)據(jù)組中最高性能分類器對(duì)應(yīng)的樣本集,并構(gòu)成候選訓(xùn)練集。經(jīng)過(guò)步驟S103對(duì)分類器的訓(xùn)練,可以對(duì)分類器性能進(jìn)行排序,從而選出每一組數(shù)據(jù)組對(duì)應(yīng)的最高性能分類器,并獲取對(duì)應(yīng)的樣本集。分類器的性能可以通過(guò)AUC(Area Under Curve)值來(lái)考量,AUC值表示分類器ROC(Receiver Operating Characteristic)曲線下方的面積,AUC值越大,表示分類器性能越好。如果有10組數(shù)據(jù)組,那么可以選出10個(gè)最好性能分類器對(duì)應(yīng)的樣本集,這10個(gè)樣本集就構(gòu)成了候選訓(xùn)練集,候選訓(xùn)練集即是能對(duì)分類器的訓(xùn)練產(chǎn)生最好效果的數(shù)據(jù)樣本的集合。
以下對(duì)二類比較器的AUC值的計(jì)算進(jìn)行說(shuō)明:
首先定義:
TN比較器將實(shí)際負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù);
FN比較器將實(shí)際正類預(yù)測(cè)為負(fù)類的樣本數(shù);
FP比較器將實(shí)際負(fù)類預(yù)測(cè)為正類的樣本數(shù);
TP比較器將實(shí)際正類預(yù)測(cè)為正類的樣本數(shù);
其中,正類表示關(guān)注的類別,比如比較器的目的是找出優(yōu)質(zhì)用戶,那么優(yōu)質(zhì)用戶即為正類。
然后計(jì)算FRP(False Positive Rate,假正率)值和TPR(True Positive Rate,真正率)值:
FPR=FP/(FP+TN)
TRP=TP/(TP+FN)
接著以FPR為橫軸,TPR為縱軸,就得到分類器的ROC曲線,最后計(jì)算ROC曲線下方的面積,即AUC值,就能直觀地對(duì)分類器性能進(jìn)行評(píng)價(jià)。
S105,將所述候選訓(xùn)練集中預(yù)設(shè)數(shù)量的數(shù)據(jù)加入到有標(biāo)簽數(shù)據(jù)中。這里所述的預(yù)設(shè)數(shù)量也可以根據(jù)需要來(lái)設(shè)定,比如可以將候選訓(xùn)練集中所有樣本集中的數(shù)據(jù)均加入到有標(biāo)簽數(shù)據(jù)中,也可以線下測(cè)試選擇候選訓(xùn)練集中最優(yōu)的一部分樣本集的數(shù)據(jù)樣本加入到有標(biāo)簽數(shù)據(jù)中。選擇候選訓(xùn)練集中一部分樣本集的數(shù)據(jù)樣本加入到有標(biāo)簽數(shù)據(jù)中時(shí),還可以按照分類器的性能對(duì)候選訓(xùn)練集中的樣本集進(jìn)行排序,并選出需要數(shù)量的樣本集加入到有標(biāo)簽數(shù)據(jù)中。
本實(shí)施例的數(shù)據(jù)處理方法,充分考慮無(wú)標(biāo)簽數(shù)據(jù)的分布,實(shí)質(zhì)是將無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)放到一起學(xué)習(xí),使得分類器有更好的泛化能力(泛化能力[generalization ability]是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力)。
本實(shí)施例的數(shù)據(jù)處理方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后一定能夠使得分類器性能變得更優(yōu)。
實(shí)施例二
請(qǐng)參見圖2,其為本發(fā)明實(shí)施例的另一種數(shù)據(jù)處理方法的流程圖,本實(shí)施例的數(shù)據(jù)處理方法包括以下步驟:
S201,將有標(biāo)簽數(shù)據(jù)按照預(yù)設(shè)比例劃分為用于訓(xùn)練分類器的訓(xùn)練集和用于測(cè)試分類器的測(cè)試集。所述比例可以按照需要來(lái)設(shè)定,比如1:8或者1:9等。
S202,對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行聚類。當(dāng)需要處理的無(wú)標(biāo)簽樣本數(shù)非常多時(shí),為了節(jié)約計(jì)算資源,因而本實(shí)施例引入聚類算法,聚類以后每一類中的樣本是相似的,那么每一類的數(shù)據(jù)所打標(biāo)簽是相同的。
S203,從每一類別的無(wú)標(biāo)簽數(shù)據(jù)中提取出一個(gè)數(shù)據(jù)樣本,并將每預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本構(gòu)成一個(gè)所述數(shù)據(jù)組。
S204,提取多組數(shù)據(jù)組。
S205,為每一組數(shù)據(jù)組的數(shù)據(jù)樣本設(shè)置標(biāo)簽,構(gòu)成每一組數(shù)據(jù)組中包含所有標(biāo)簽組合的多個(gè)樣本集,其中一個(gè)樣本集中包含一種標(biāo)簽組合的數(shù)據(jù)樣本。
S206,將每一組數(shù)據(jù)組中的每一個(gè)樣本集的數(shù)據(jù)樣本分別加入所述訓(xùn)練集,構(gòu)成多個(gè)新的訓(xùn)練集;
S207,通過(guò)多個(gè)新的訓(xùn)練集分別訓(xùn)練所述分類器。
S208,分別計(jì)算經(jīng)過(guò)多個(gè)新的訓(xùn)練集訓(xùn)練的分類器的AUC值。
S209,獲取每一數(shù)據(jù)組中最高AUC值對(duì)應(yīng)的樣本集,并構(gòu)成所述候選訓(xùn)練集。
S210,將所述候選訓(xùn)練集中預(yù)設(shè)數(shù)量的數(shù)據(jù)加入到訓(xùn)練集中。
本實(shí)施例的數(shù)據(jù)處理方法,充分考慮無(wú)標(biāo)簽數(shù)據(jù)的分布,實(shí)質(zhì)是將無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)放到一起學(xué)習(xí),使得分類器有更好的泛化能力。
本實(shí)施例的數(shù)據(jù)處理方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后一定能夠使得分類器性能變得更優(yōu)。
本實(shí)施例的數(shù)據(jù)處理方法,針對(duì)無(wú)標(biāo)簽數(shù)據(jù)量過(guò)多的情況,提出聚類和半監(jiān)督結(jié)合使用的算法,大大地降低了分類器訓(xùn)練的時(shí)間復(fù)雜度。
實(shí)施例三
本實(shí)施例提出一種分類器訓(xùn)練方法,首先反復(fù)通過(guò)數(shù)據(jù)處理方法從無(wú)標(biāo)簽數(shù)據(jù)中獲取數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)中,然后在每一次數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)后,通過(guò)加入數(shù)據(jù)樣本的有標(biāo)簽數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練。其中,所述的數(shù)據(jù)處理方法與實(shí)施例一或?qū)嵤├嗤?,在此不再贅述?/p>
本實(shí)施例的分類器訓(xùn)練方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后能夠使得分類器性能變得更優(yōu)。與傳統(tǒng)的半監(jiān)督模型不同,本實(shí)施例的分類器訓(xùn)練方法不考慮具體打標(biāo)簽的準(zhǔn)確性,只考慮能否利用無(wú)標(biāo)簽樣本的分布來(lái)改善分類器的性能,并且保證不會(huì)出現(xiàn)引入無(wú)標(biāo)簽數(shù)據(jù)反而導(dǎo)致分類器性能變壞的情況,能夠很好利用無(wú)標(biāo)簽數(shù)據(jù)提升模型分類效果。因而,本實(shí)施例的分類器訓(xùn)練方法特別適用于存在大量無(wú)標(biāo)簽樣本,且有標(biāo)簽樣本數(shù)量不足的系統(tǒng),例如在社交征信預(yù)警模型中應(yīng)用本實(shí)施例的分類器訓(xùn)練方法,可以充分利用征信預(yù)警模型建設(shè)過(guò)程中大量未被利用的無(wú)標(biāo)簽數(shù)據(jù)來(lái)提升分類器性能,使得銀行對(duì)信貸用戶的風(fēng)控能力進(jìn)一步提升。
實(shí)施例四
本實(shí)施例提出一種數(shù)據(jù)處理裝置,用于通過(guò)對(duì)分類器的訓(xùn)練來(lái)對(duì)有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行處理,請(qǐng)參見圖3,本實(shí)施例的數(shù)據(jù)處理裝置包括:數(shù)據(jù)組提取單元31、標(biāo)簽設(shè)置單元32、訓(xùn)練單元33、候選樣本獲取單元34以及標(biāo)簽數(shù)據(jù)優(yōu)化單元35。
數(shù)據(jù)組提取單元31用于從無(wú)標(biāo)簽數(shù)據(jù)中提取多組數(shù)據(jù)組,其中每組數(shù)據(jù)組均包含預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本。所述的數(shù)據(jù)樣本可以是各種信息的集合。所述預(yù)設(shè)數(shù)量可以根據(jù)需要來(lái)設(shè)定。例如每組數(shù)據(jù)組都可以包含10個(gè)數(shù)據(jù)樣本,即可以依次從無(wú)標(biāo)簽數(shù)據(jù)中抽取10個(gè)數(shù)據(jù)樣本構(gòu)成數(shù)據(jù)組,假設(shè)無(wú)標(biāo)簽數(shù)據(jù)有100個(gè)數(shù)據(jù)樣本,那么最多可以提取出10組數(shù)據(jù)組。
標(biāo)簽設(shè)置單元32用于為每一組數(shù)據(jù)組的數(shù)據(jù)樣本設(shè)置標(biāo)簽,構(gòu)成每一組數(shù)據(jù)組中包含所有標(biāo)簽組合的多個(gè)樣本集,其中一個(gè)樣本集中包含一種標(biāo)簽組合的數(shù)據(jù)樣本。假設(shè)標(biāo)簽類別有兩種,一個(gè)數(shù)據(jù)組含有10個(gè)數(shù)據(jù)樣本,隨機(jī)對(duì)這個(gè)數(shù)據(jù)組中的數(shù)據(jù)樣本打上標(biāo)簽,那么就共有210也就是1024種不同的標(biāo)簽組合,一個(gè)樣本集就是一種標(biāo)簽組合的數(shù)據(jù)樣本,也就是,這個(gè)數(shù)據(jù)組包含1024個(gè)樣本集。
訓(xùn)練單元33用于分別利用有標(biāo)簽數(shù)據(jù)和每一組數(shù)據(jù)組中的每一個(gè)樣本集訓(xùn)練所述分類器。標(biāo)簽設(shè)置單元32已經(jīng)為樣本集打上標(biāo)簽,因此可以依次把樣本集加入到有標(biāo)簽數(shù)據(jù)中來(lái)訓(xùn)練分類器。如果有10組數(shù)據(jù)組,每組數(shù)據(jù)組包含1024個(gè)樣本集,那么要訓(xùn)練分類器10240次。
候選樣本獲取單元34用于獲取每一組數(shù)據(jù)組中最高性能分類器對(duì)應(yīng)的樣本集,并構(gòu)成候選訓(xùn)練集。經(jīng)過(guò)訓(xùn)練單元33對(duì)分類器的訓(xùn)練,可以對(duì)每一組數(shù)據(jù)組中的數(shù)據(jù)訓(xùn)練出分類器性能進(jìn)行排序,從而選出每一組數(shù)據(jù)組對(duì)應(yīng)的最高性能分類器,并獲取對(duì)應(yīng)的樣本集。分類器的性能可以通過(guò)AUC值來(lái)考量,AUC值越大,表示分類器性能越好。如果有10組數(shù)據(jù)組,那么可以選出10個(gè)最好性能分類器對(duì)應(yīng)的樣本集,這個(gè)10個(gè)樣本集就構(gòu)成了候選訓(xùn)練集,候選訓(xùn)練集即是能對(duì)分類器的訓(xùn)練產(chǎn)生最好效果的數(shù)據(jù)樣本的集合。
標(biāo)簽數(shù)據(jù)優(yōu)化單元35用于將所述候選訓(xùn)練集中預(yù)設(shè)數(shù)量的數(shù)據(jù)加入到有標(biāo)簽數(shù)據(jù)中。這里所述的預(yù)設(shè)數(shù)量也可以根據(jù)需要來(lái)設(shè)定,比如可以將候選訓(xùn)練集中所有樣本集中的數(shù)據(jù)均加入到有標(biāo)簽數(shù)據(jù)中,也可以線下測(cè)試選擇候選訓(xùn)練集中最優(yōu)的一部分樣本集的數(shù)據(jù)樣本加入到有標(biāo)簽數(shù)據(jù)中。選擇候選訓(xùn)練集中一部分樣本集的數(shù)據(jù)樣本加入到有標(biāo)簽數(shù)據(jù)中時(shí),還可以按照分類器的性能對(duì)候選訓(xùn)練集中的樣本集進(jìn)行排序,并選出需要數(shù)量的樣本集加入到有標(biāo)簽數(shù)據(jù)中。
本實(shí)施例的數(shù)據(jù)處理方法,充分考慮無(wú)標(biāo)簽數(shù)據(jù)的分布,實(shí)質(zhì)是將無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)放到一起學(xué)習(xí),使得分類器有更好的泛化能力(泛化能力[generalization ability]是指機(jī)器學(xué)習(xí)算法對(duì)新鮮樣本的適應(yīng)能力)。
本實(shí)施例的數(shù)據(jù)處理方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后一定能夠使得分類器性能變得更優(yōu)。
實(shí)施例五
請(qǐng)參見圖4,其為本發(fā)明實(shí)施例的另一種數(shù)據(jù)處理裝置的結(jié)構(gòu)圖。與實(shí)施例四相比,本實(shí)施例的數(shù)據(jù)處理裝置除了包括:數(shù)據(jù)組提取單元31、標(biāo)簽設(shè)置單元32、訓(xùn)練單元33、候選樣本獲取單元34及標(biāo)簽數(shù)據(jù)優(yōu)化單元35,還包括:標(biāo)簽數(shù)據(jù)劃分單元36和聚類單元37。
聚類單元37用于對(duì)無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行聚類。當(dāng)需要處理的無(wú)標(biāo)簽樣本數(shù)非常多時(shí),為了節(jié)約計(jì)算資源,因而本實(shí)施例引入聚類算法,聚類以后每一類中的樣本是相似的,那么每一類的數(shù)據(jù)所打標(biāo)簽是相同的。這樣,數(shù)據(jù)組提取單元31就可以從每一類別的無(wú)標(biāo)簽數(shù)據(jù)中提取出一個(gè)數(shù)據(jù)樣本,并將每預(yù)設(shè)數(shù)量的數(shù)據(jù)樣本構(gòu)成一個(gè)所述數(shù)據(jù)組。
標(biāo)簽數(shù)據(jù)劃分單元36用于將所述有標(biāo)簽數(shù)據(jù)按照預(yù)設(shè)比例劃分為用于訓(xùn)練分類器的訓(xùn)練集和用于測(cè)試分類器的測(cè)試集。
其中,所述訓(xùn)練單元33又進(jìn)一步包括:訓(xùn)練集設(shè)置模塊331和分類器訓(xùn)練模塊332。訓(xùn)練集設(shè)置模塊331用于將每一組數(shù)據(jù)組中的每一個(gè)樣本集的數(shù)據(jù)樣本分別加入所述訓(xùn)練集,構(gòu)成多個(gè)新的訓(xùn)練集。分類器訓(xùn)練模塊332用于通過(guò)多個(gè)新的訓(xùn)練集分別訓(xùn)練所述分類器。
所述候選樣本獲取單元34又進(jìn)一步包括:性能值計(jì)算模塊341和樣本集采集模塊342。性能值計(jì)算模塊341用于分別計(jì)算經(jīng)過(guò)多個(gè)新的訓(xùn)練集訓(xùn)練的分類器的AUC值。樣本集采集模塊342用于獲取每一數(shù)據(jù)組中最高AUC值對(duì)應(yīng)的樣本集,并構(gòu)成所述候選訓(xùn)練集。
本實(shí)施例的數(shù)據(jù)處理方法,充分考慮無(wú)標(biāo)簽數(shù)據(jù)的分布,實(shí)質(zhì)是將無(wú)標(biāo)簽數(shù)據(jù)和有標(biāo)簽數(shù)據(jù)放到一起學(xué)習(xí),使得分類器有更好的泛化能力。
本實(shí)施例的數(shù)據(jù)處理方法,利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后一定能夠使得分類器性能變得更優(yōu)。
本實(shí)施例的數(shù)據(jù)處理方法,針對(duì)無(wú)標(biāo)簽數(shù)據(jù)量過(guò)多的情況,提出聚類和半監(jiān)督結(jié)合使用的算法,大大地降低了分類器訓(xùn)練的時(shí)間復(fù)雜度。
實(shí)施例六
本實(shí)施例提出一種分類器訓(xùn)練系統(tǒng),請(qǐng)參見圖5,其包括數(shù)據(jù)處理裝置51以及訓(xùn)練裝置52。其首先反復(fù)通過(guò)數(shù)據(jù)處理裝置51從無(wú)標(biāo)簽數(shù)據(jù)中獲取數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)中,然后在每一次數(shù)據(jù)樣本加入有標(biāo)簽數(shù)據(jù)后,訓(xùn)練裝置52通過(guò)加入數(shù)據(jù)樣本的有標(biāo)簽數(shù)據(jù)對(duì)分類器進(jìn)行訓(xùn)練。其中,所述的數(shù)據(jù)處理裝置51與實(shí)施例四或?qū)嵤├逑嗤?,在此不再贅述?/p>
本實(shí)施例的分類器訓(xùn)練系統(tǒng),利用大量無(wú)標(biāo)簽數(shù)據(jù)樣本,采取啟發(fā)式遍歷組合標(biāo)簽思想,保證引入無(wú)標(biāo)簽樣本后能夠使得分類器性能變得更優(yōu)。與傳統(tǒng)的半監(jiān)督模型不同,本實(shí)施例的分類器訓(xùn)練方法不考慮具體打標(biāo)簽的準(zhǔn)確性,只考慮能否利用無(wú)標(biāo)簽樣本的分布來(lái)改善分類器的性能,并且保證不會(huì)出現(xiàn)引入無(wú)標(biāo)簽數(shù)據(jù)反而導(dǎo)致分類器性能變壞的情況,能夠很好利用無(wú)標(biāo)簽數(shù)據(jù)提升模型分類效果。因而,本實(shí)施例的分類器訓(xùn)練系統(tǒng)特別適用于存在大量無(wú)標(biāo)簽樣本,且有標(biāo)簽樣本數(shù)量不足的系統(tǒng),例如在社交征信預(yù)警模型中應(yīng)用本實(shí)施例的分類器訓(xùn)練方法,可以充分利用征信預(yù)警模型建設(shè)過(guò)程中大量未被利用的無(wú)標(biāo)簽數(shù)據(jù)來(lái)提升分類器性能,使得銀行對(duì)信貸用戶的風(fēng)控能力進(jìn)一步提升。
通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明實(shí)施例可以通過(guò)硬件實(shí)現(xiàn),也可以借助軟件加必要的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn)?;谶@樣的理解,本發(fā)明實(shí)施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該軟件產(chǎn)品可以存儲(chǔ)在一個(gè)非易失性存儲(chǔ)介質(zhì)(可以是CD-ROM,U盤,移動(dòng)硬盤等)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明實(shí)施例各個(gè)實(shí)施場(chǎng)景所述的方法。
以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例揭露如上,然而并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本申請(qǐng)技術(shù)方案范圍內(nèi),當(dāng)可利用上述揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾為等同變化的等效實(shí)施例,但凡是未脫離本申請(qǐng)技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。