本申請涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種用戶信用模型建立方法及裝置。
背景技術(shù):
當前互聯(lián)網(wǎng)金融的最大風險是用戶信用風險,建立一個良好的信用評估體系對于互聯(lián)網(wǎng)金融的健康發(fā)展具有重大意義。
現(xiàn)行的信用評估系統(tǒng)通常需要基于預(yù)先訓(xùn)練好的用戶信用模型計算用戶的信用分值。用戶信用模型的訓(xùn)練離不開大數(shù)據(jù)的支持,除了直接相關(guān)的信貸數(shù)據(jù),在信用模型訓(xùn)練中還會引入大量非結(jié)構(gòu)化的信用弱相關(guān)數(shù)據(jù),
現(xiàn)有的信用評估系統(tǒng)一般針對所有用戶使用統(tǒng)一的信用模型,也即在一套評分體系中完成對所有人群的信用評估。然而針對具有不同的群體特性的人群,統(tǒng)一的普適性模型往往無法很好地刻畫所有用戶的信用情況,使用統(tǒng)一的信用模型計算出來的用戶信用分值準確度較低。
技術(shù)實現(xiàn)要素:
本申請實施例提供一種用戶信用模型建立方法及裝置,用以解決現(xiàn)有技術(shù)中使用統(tǒng)一的信用模型計算出來的用戶信用分值準確度較低的問題。
本申請實施例提供一種用戶信用模型建立方法,包括:
從用戶數(shù)據(jù)庫中,選取至少一個用戶作為一個簇中的核心對象;
針對所述簇中的核心對象,根據(jù)該核心對象和所述用戶數(shù)據(jù)庫中除所述簇中的核心對象外的其它各個用戶分別在多種特征參數(shù)下的特征值,確定所述其它各個用戶分別與該核心對象之間的相似度,并根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶;
采用所述簇對應(yīng)的建模方式,建立針對所述簇中各個用戶的用戶信用模型。
可選地,所述從用戶數(shù)據(jù)庫中,選取至少一個用戶作為一個簇中的核心對象,包括:
從用戶數(shù)據(jù)庫中,選取在至少一種指定特征參數(shù)下的特征值符合預(yù)設(shè)的取值區(qū)間的用戶,并將選取的用戶作為一個簇中的核心對象。
可選地,根據(jù)該核心對象和所述其它各個用戶分別在多種特征參數(shù)下的特征值,確定所述其它各個用戶分別與該核心對象之間的相似度,包括:
根據(jù)該核心對象和所述其它各個用戶分別在多種特征參數(shù)下的特征值,以及其中每種特征參數(shù)的權(quán)重,確定所述其它各個用戶分別與該核心對象之間的相似度;其中,在所述多種特征參數(shù)中所述至少一種指定特征參數(shù)的權(quán)重大于其它特征參數(shù)的權(quán)重。
可選地,所述從用戶數(shù)據(jù)庫中,選取至少一個用戶作為一個簇中的核心對象,包括:
從用戶數(shù)據(jù)庫中選取至少一個指定用戶作為一個簇中的核心對象。
可選地,所述根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶,包括:
若與所述核心對象之間的相似度大于設(shè)定相似度閾值的鄰域用戶的數(shù)量大于設(shè)定數(shù)量閾值,則將該核心對象的鄰域用戶劃分到候選集中;
從所述候選集中選取一個用戶,若與選取的用戶之間的相似度大于設(shè)定相似度閾值的領(lǐng)域用戶的數(shù)量大于設(shè)定數(shù)量閾值,則將所述選取的用戶從所述候選集中移入到所述簇中,并將所述選取的用戶的鄰域用戶中未移入所述簇中的鄰域用戶劃分到所述候選集中,否則,將所述選取的用戶作為噪聲從所述候選集中移入到噪聲集中;
返回上述從候選集中選取一個用戶的步驟,直到所述候選集為空。
可選地,所述方法還包括:
將所述噪聲集中的用戶劃分到一個簇中,并建立針對該簇中各個用戶的用 戶信用模型。
本申請實施例提供一種用戶信用模型建立裝置,包括:
選取模塊,用于從用戶數(shù)據(jù)庫中,選取至少一個用戶作為一個簇中的核心對象;
確定模塊,用于針對所述簇中的每個核心對象,根據(jù)該核心對象和所述用戶數(shù)據(jù)庫中除所述簇中的核心對象外的其它各個用戶分別在多種特征參數(shù)下的特征值,確定所述其它各個用戶分別與該核心對象之間的相似度,并根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶;
模型建立模塊,用于采用所述簇對應(yīng)的建模方式,建立針對所述簇中各個用戶的用戶信用模型。
本申請實施例將用戶進行分簇后,可以針對每個簇的特點分別精準地構(gòu)建用戶信用模型。采用本申請實施例建立的用戶信用模型可以更加精確地描述每個簇內(nèi)用戶的信用情況,同時由于一開始分簇時就為每個簇選取了符合特定要求的核心對象,因此被分離出的簇的和在該簇上建立的用戶信用模型便具有較好的可解釋性。
附圖說明
圖1為選擇簇內(nèi)的核心對象;
圖2為本申請實施例一提供的用戶信用模型建立方法流程圖;
圖3為進行簇的擴展的流程示意圖;
圖4為基于這些分群進行用戶信用模型訓(xùn)練的示意圖。
圖5為本申請實施例二提供的用戶信用模型建立方法流程圖;
圖6為本申請實施例提供的用戶信用模型建立裝置結(jié)構(gòu)示意圖。
具體實施方式
本申請實施例提出了一種先對用戶分簇(或稱分群),再針對每個簇分別建立用戶信用模型的思想。在對用戶分簇時,采用了一種將有監(jiān)督方式和無監(jiān)督方式相結(jié)合的思想,首先基于有監(jiān)督的人為干預(yù)的方式選取符合要求的一些核心對象,然后在這些核心對象的基礎(chǔ)上基于無監(jiān)督方式進行簇的擴展,將相似度在一定閾值范圍內(nèi)的用戶劃分為一個簇中。這樣,本申請實施例無需限制劃分的簇的個數(shù),也無需限制簇內(nèi)的用戶數(shù),可以發(fā)現(xiàn)符合需求的任意大小的簇。
另外,在選取符合要求的核心對象時,本申請實施例中給出了兩種方式,在具體實施中,可以僅選擇其中一種方式使用,也可以將這兩種方式結(jié)合使用:
在一種方式下,首先建立至少一個符合特定要求的區(qū)域,每個區(qū)域?qū)?yīng)一個簇,該區(qū)域內(nèi)的用戶為對應(yīng)的簇內(nèi)的核心用戶。這里,符合特定要求的區(qū)域內(nèi)的用戶為在至少一種指定特征參數(shù)下的特征值符合預(yù)設(shè)的取值區(qū)間的用戶。另外,在確定兩個用戶之間的相似度時,會加大這至少一種指定特征參數(shù)的權(quán)重。如圖1所示,在區(qū)域1和區(qū)域4內(nèi)的用戶為基于這種方式選擇的簇內(nèi)的核心對象,分別以區(qū)域1和區(qū)域4內(nèi)的核心對象為基礎(chǔ),進行簇的擴展,最終形成兩個簇。
對于有些用戶,通過對其進行歷史行為數(shù)據(jù)分析,發(fā)現(xiàn)這些用戶具有我們所關(guān)注的某個用戶特點,但是對于該用戶特點,卻無法很確切地提取影響它的特征參數(shù),比如,這里的用戶特點可以是“收入穩(wěn)定”、“富有愛心”、“責任感強”等,此時可以選用第二種方式:直接指定具有某個用戶特點的一些核心用戶。如圖1所示,在區(qū)域2和區(qū)域3的用戶為直接指定的分別對應(yīng)不同用戶特點的核心對象,分別以區(qū)域2和區(qū)域3的核心對象為基礎(chǔ),進行簇的擴展,也最終形成兩個簇。
下面結(jié)合說明書附圖對本申請實施例作進一步詳細描述。
實施例一
在該實施例下,首先建立一些符合特定要求的區(qū)域,每個區(qū)域?qū)?yīng)一個簇。 這里,符合特定要求的區(qū)域內(nèi)的用戶為在至少一種指定特征參數(shù)下的特征值符合預(yù)設(shè)的取值區(qū)間的用戶。另外,在確定兩個用戶之間的相似度時,加大這至少一種指定特征參數(shù)的權(quán)重。
如圖2所示,以一個簇的形成為例,介紹本申請實施例一提供的用戶信用模型建立方法流程圖,包括以下步驟:
s201:從用戶數(shù)據(jù)庫中,選取在至少一種指定特征參數(shù)下的特征值符合預(yù)設(shè)的取值區(qū)間的至少一個用戶,并將選取的至少一個用戶作為一個簇中的核心對象。
在具體實施中,可以根據(jù)實際需要預(yù)先設(shè)置一些關(guān)注的指定特征參數(shù),比如當希望建立一個單身獨立女性群體時,可以將性別、婚姻狀況、經(jīng)濟狀況設(shè)置為所述指定特征參數(shù),比如對于性別,用特征值1表示男士,0表示女士,則針對性別所預(yù)設(shè)的取值區(qū)間為一個值0;對于婚姻狀況,用1表示未婚,0表示已婚,則針對婚姻狀況所預(yù)設(shè)的取值區(qū)間為一個值1;對于經(jīng)濟狀況,將年收入0~20萬歸一化到0~1之間,比如若年收入10萬,則特征值為0.5,若年收入在20萬以上,則特征值取為1,針對經(jīng)濟狀況所預(yù)設(shè)的取值區(qū)間為[0.4,1]?;诖耍摬襟E就是將性別、婚姻狀況和經(jīng)濟狀況對應(yīng)的特征值分別符合0、1、[0.4,1]的用戶選取為一個簇中的核心對象。
s202:針對所述簇中的每個核心對象,根據(jù)該核心對象和所述用戶數(shù)據(jù)庫中除所述簇中的核心對象外的其它各個用戶分別在多種特征參數(shù)下的特征值,以及其中每種特征參數(shù)的權(quán)重,確定所述其它各個用戶分別與該核心對象之間的相似度,并根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶;其中,在所述多種特征參數(shù)中所述至少一種指定特征參數(shù)的權(quán)重大于其它特征參數(shù)的權(quán)重。
該步驟中,針對選取的一個簇中的每個核心對象,分別以該核心對象為基礎(chǔ)進行簇的擴展。本申請實施例中,由于指定特征參數(shù)相比其它特征參數(shù)的重要度更高,因此將指定特征參數(shù)在計算相似度時的權(quán)重設(shè)置的大于其它特征參 數(shù)的權(quán)重。
在具體實施中,可以采用多種算法計算兩個用戶之間的相似度,比如可以采用歐式距離法、余弦相似性、皮爾森系數(shù)等,在實際實施中,可以根據(jù)實際需要進行選擇。下面以歐式距離為例進行介紹。
比如,在計算兩個用戶之間的相似度時,針對每個用戶,可以將該用戶在每個特征參數(shù)下的特征值乘以該特征參數(shù)的權(quán)重,得到該用戶對應(yīng)的多維坐標點的坐標值,通過計算兩個用戶各自對應(yīng)的多維坐標點之間的距離,得到這兩個用戶之間的相似度。這里,所述距離越大,兩個用戶之間的相似度越小,則具體可以將相似度設(shè)置為與距離成反比例的值,比如可以采用距離的倒數(shù)作為相似度(當然還可以定義其它的方式)。比如某個用戶在性別、婚姻狀況、經(jīng)濟狀況、支出狀況這四個特征參數(shù)下的特征值分別為0、1、0.5、0.2,這四個特征參數(shù)中性別、婚姻狀況、經(jīng)濟狀況為指定特征參數(shù),這三個指定特征參數(shù)的權(quán)重為4,支出狀況為非指定特征參數(shù),權(quán)重為1,則該用戶對應(yīng)的多維坐標點的坐標即為a(0,4,2,0.2)。假設(shè)另一用戶對應(yīng)的多維坐標點的坐標為b(4,4,2,0.2),則這兩個用戶對應(yīng)的多維坐標點之間的距離即為
在具體實施中,可以依次選擇每個核心對象進行簇的擴展,也可以以多個核心對象為基礎(chǔ),并行進行簇的擴展,若選擇第一種依次擴展的方式,則在以下一個核心對象為基礎(chǔ)進行簇的擴展時,可以自動忽略已歸入簇中的用戶。若選擇第二種并行擴展的方式,以不同核心對象為基礎(chǔ)擴展的用戶可能存在重復(fù),不過這對實施結(jié)果并無影響,最后合并擴展的用戶時,對重復(fù)的用戶作去重處理即可。
如圖3所示,在具體實施中,針對任一核心對象,具體可以根據(jù)以下進行簇的擴展:
s2a:確定所述用戶數(shù)據(jù)庫中除簇中的核心對象外的其它各個用戶分別與該核心對象之間的相似度。
s2b:判斷與該核心對象之間的相似度大于設(shè)定相似度閾值的鄰域用戶的數(shù)量是否大于設(shè)定數(shù)量閾值,若是,則進入s2c,否則,選擇下一個核心對象,并返回s2b,或結(jié)束操作。
s2c:將該核心對象的鄰域用戶劃分到候選集中,進入s2d。
s2d:從所述候選集中選取一個用戶,判斷與選取的用戶之間的相似度大于設(shè)定相似度閾值的領(lǐng)域用戶的數(shù)量是否大于設(shè)定數(shù)量閾值,若是,則進入s2e,否則進入s2f。
s2e:將所述選取的用戶從所述候選集中移入到所述簇中,并將所述選取的用戶的鄰域用戶中未移入所述簇中的鄰域用戶劃分到所述候選集中,返回s2d,直到所述候選集為空。
這里,選取的用戶的鄰域用戶中可能包括已經(jīng)移入所述簇中的鄰域用戶、已經(jīng)劃分到候選集中但未移入簇中的鄰域用戶、以及其它用戶,這里將其它用戶移入候選集中,已經(jīng)劃分到候選集中但未移入簇中的鄰域用戶則仍將其部署在候選集中。
s2f:將所述選取的用戶作為噪聲從所述候選集中移入到噪聲集中,返回s2d,直到所述候選集為空。
s203:采用所述簇對應(yīng)的建模方式,建立針對所述簇中各個用戶的用戶信用模型。
在具體實施中,針對每個簇的特點,分別選擇對應(yīng)建模方式(其中可以包括特征篩選算法及評價算法等),建立適用于每個簇的特有的用戶信用模型。比如,有的簇使用遺傳算法進行特征篩選的效果較好,有的簇則可能使用層次聚類算法進行特征篩選效果更好;有的簇可能使用邏輯回歸算法作為評價算法較好,有的簇則可能使用隨機森林算法作為評價算法更好。
另外,在具體實施中,還可以將噪聲集中的所有用戶都劃分到一個簇中,并針對該簇中各個用戶建立一個統(tǒng)一的用戶信用模型。
這里,由于本申請實施例希望做到精確分群,所以在實施中可以加大對噪 聲的過濾程度,對于那些不能夠被精確劃分到有特定特點的簇的用戶,可以將其一律劃分到一個單獨的簇中,并對這個簇沿用原來的算法來建立信用模型。
本申請實施例將用戶進行分群(簇)后,可以針對每個分群的特點分別精準地構(gòu)建用戶信用模型,如圖4所示,為基于這些分群進行用戶信用模型訓(xùn)練的示意圖。本申請實施例能夠精確分群,并針對每個分群分別建模,采用本申請實施例建立的用戶信用模型可以更加精確地描述每個人群的信用情況,同時由于一開始分群時就為每個分群選取了符合特定要求的核心對象,因此被分離出的群體的和在該群體上建立的用戶信用模型便具有較好的可解釋性。
實施例二
通過對一些用戶進行歷史行為數(shù)據(jù)分析,可能發(fā)現(xiàn)這些用戶具有我們所關(guān)注的某個用戶特點,但是對于該用戶特點,卻無法很確切地提取影響它的特征參數(shù),此時可以選用直接指定核心用戶的方式。
如圖5所示,為本申請實施例二提供的用戶信用模型建立方法流程圖,包括以下步驟:
s501:從用戶數(shù)據(jù)庫中選取至少一個指定用戶作為一個簇中的核心對象。
在具體實施中,根據(jù)關(guān)注的一些用戶特點,通過對一些用戶進行歷史行為數(shù)據(jù)分析,直接指定一些用戶作為簇中的核心對象,針對不同的用戶特點,可以指定不同簇中的核心用戶。這里以一個簇為例進行說明。
s502:針對所述簇中的每個核心對象,根據(jù)該核心對象和所述用戶數(shù)據(jù)庫中除所述簇中的核心對象外的其它各個用戶分別在多種特征參數(shù)下的特征值,確定所述其它各個用戶分別與該核心對象之間的相似度,并根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶。
這里,針對任一核心對象,具體進行簇的擴展的方式可以參見實施例一的描述,這里不再贅述。
以采用歐式距離法計算相似度為例,在計算兩個用戶之間的相似度時,針對每個用戶,可以將該用戶在每個特征參數(shù)下的特征值,作為該用戶對應(yīng)的多 維坐標點的坐標值,通過計算兩個用戶各自對應(yīng)的多維坐標點之間的距離,得到這兩個用戶之間的相似度。比如某個用戶在性別、婚姻狀況、經(jīng)濟狀況、支出狀況這四個特征參數(shù)下的特征值分別為0、1、0.5、0.2,則該用戶對應(yīng)的多維坐標點的坐標即為a(0,1,0.5,0.2)。假設(shè)另一用戶對應(yīng)的多維坐標點的坐標為b(1,1,0.5,0.2),則這兩個用戶對應(yīng)的多維坐標點之間的距離即為
s503:采用所述簇對應(yīng)的建模方式,建立針對所述簇中各個用戶的用戶信用模型。
具體參見實施例一的描述,這里不再贅述。
基于同一發(fā)明構(gòu)思,本申請實施例中還提供了一種與用戶信用模型建立方法對應(yīng)的用戶信用模型建立裝置,由于該裝置解決問題的原理與本申請實施例用戶信用模型建立方法相似,因此該裝置的實施可以參見方法的實施,重復(fù)之處不再贅述。
如圖6所示,為本申請實施例提供的用戶信用模型建立裝置結(jié)構(gòu)示意圖,包括:
選取模塊61,用于從用戶數(shù)據(jù)庫中,選取至少一個用戶作為一個簇中的核心對象;
確定模塊62,用于針對所述簇中的每個核心對象,根據(jù)該核心對象和所述用戶數(shù)據(jù)庫中除所述簇中的核心對象外的其它各個用戶分別在多種特征參數(shù)下的特征值,確定所述其它各個用戶分別與該核心對象之間的相似度,并根據(jù)所述其它各個用戶分別與該核心對象之間的相似度,確定劃分到所述簇中的其它用戶;
模型建立模塊63,用于采用所述簇對應(yīng)的建模方式,建立針對所述簇中各個用戶的用戶信用模型。
可選地,選取模塊61具體用于:
從用戶數(shù)據(jù)庫中,選取在至少一種指定特征參數(shù)下的特征值符合預(yù)設(shè)的取 值區(qū)間的用戶,并將選取的用戶作為一個簇中的核心對象。
可選地,確定模塊62具體用于:
根據(jù)該核心對象和所述其它各個用戶分別在多種特征參數(shù)下的特征值,以及其中每種特征參數(shù)的權(quán)重,確定所述其它各個用戶分別與該核心對象之間的相似度;其中,在所述多種特征參數(shù)中所述至少一種指定特征參數(shù)的權(quán)重大于其它特征參數(shù)的權(quán)重。
可選地,選取模塊61具體用于:
從用戶數(shù)據(jù)庫中選取至少一個指定用戶作為一個簇中的核心對象。
可選地,確定模塊62具體用于:
若與所述核心對象之間的相似度大于設(shè)定相似度閾值的鄰域用戶的數(shù)量大于設(shè)定數(shù)量閾值,則將該核心對象的鄰域用戶劃分到候選集中;
從所述候選集中選取一個用戶,若與選取的用戶之間的相似度大于設(shè)定相似度閾值的領(lǐng)域用戶的數(shù)量大于設(shè)定數(shù)量閾值,則將所述選取的用戶從所述候選集中移入到所述簇中,并將所述選取的用戶的鄰域用戶中未移入所述簇中的鄰域用戶劃分到所述候選集中,否則,將所述選取的用戶作為噪聲從所述候選集中移入到噪聲集中;
返回上述從候選集中選取一個用戶的步驟,直到所述候選集為空。
可選地,模型建立模塊63還用于:
將所述噪聲集中的用戶劃分到一個簇中,并建立針對該簇中各個用戶的用戶信用模型。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
本申請是參照根據(jù)本申請實施例的方法、裝置(系統(tǒng))、和計算機程序產(chǎn) 品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。