一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法
【專利摘要】一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,它涉及一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,本發(fā)明是要解決現(xiàn)有的基于限制數(shù)據(jù)的特征權(quán)值量化方法無法處理限制數(shù)據(jù)分布不均衡和限制數(shù)據(jù)存在不一致性的問題。本發(fā)明所述一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法按以下步驟進(jìn)行:一、合并“限制數(shù)據(jù)”和“非限制數(shù)據(jù)”進(jìn)行特征權(quán)值量化;二、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)分布系數(shù);三、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)置信度。本發(fā)明解決了限制數(shù)據(jù)分布不均衡和限制數(shù)據(jù)中存在不一致性的問題。技術(shù)要點(diǎn)在于結(jié)合限制數(shù)據(jù)和非限制數(shù)據(jù)進(jìn)行特征權(quán)值量化,并提出參數(shù)分布系數(shù)和置信度,本發(fā)明可應(yīng)用于網(wǎng)絡(luò)【技術(shù)領(lǐng)域】。
【專利說明】一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,人們接觸的信息量與日俱增,用戶急需一種有效的信息分析工具以協(xié)助其日常工作。聚類即是一種有效的信息分析工具,其通過凝聚相似數(shù)據(jù)能夠縮小用戶的查找范圍并加快用戶尋找相關(guān)信息的速度。
[0003]聚類中最基本的要素就是數(shù)據(jù)間的相似度度量函數(shù),有效的相似度度量函數(shù)顯然能夠幫助聚類算法獲得良好的聚類結(jié)果。目前大多數(shù)聚類算法以向量空間模型組織數(shù)據(jù),并通過計(jì)算不同數(shù)據(jù)間特征向量的夾角或距離來反映數(shù)據(jù)之間的相似度,例如歐式距離、余弦相似度。此類相似度計(jì)算方法視所有特征對數(shù)據(jù)相似性的描述能力或?qū)?shù)據(jù)的劃分能力是相同的,使類別最終呈現(xiàn)超球體分布。然而,現(xiàn)實(shí)中不同特征對數(shù)據(jù)的劃分能力顯然是不同的,因此有必要分析不同特征對相似度計(jì)算的貢獻(xiàn)能力來為特征賦予不同的權(quán)值。
[0004]傳統(tǒng)的聚類技術(shù)是一種無監(jiān)督的學(xué)習(xí)方法,在算法運(yùn)行前不需要獲取任何先驗(yàn)知識。然而,現(xiàn)實(shí)應(yīng)用中,用戶對于輸入數(shù)據(jù)可能存在某些限制,而聚類結(jié)果顯然要滿足用戶對于輸入數(shù)據(jù)的限制。目前最常使用的限制信息是must-link和can’ t-link點(diǎn)對限制信息。如果用戶指定輸入數(shù)據(jù)中的任兩個(gè)數(shù)據(jù)位于同一類別內(nèi),則說明這兩個(gè)數(shù)據(jù)或點(diǎn)對滿足must-link關(guān)系,而can’t-link關(guān)系正好相反。此類限制信息可以結(jié)合到特征權(quán)值量化中去,通過對那些能夠有效劃分限制數(shù)據(jù)的特征賦予較大的權(quán)值,顯然可以獲得更為準(zhǔn)確的相似度計(jì)算結(jié)果。然而傳統(tǒng)的基于限制數(shù)據(jù)的特征權(quán)值量化方法均無法處理以下兩種情況:1.用戶指定的限制數(shù)據(jù)的數(shù)量通常遠(yuǎn)少于全部的輸入數(shù)據(jù),這使得限制數(shù)據(jù)經(jīng)常是從整個(gè)特征空間中非均勻抽取的;2.傳統(tǒng)的特征權(quán)值量化方法認(rèn)為用戶提供的限制數(shù)據(jù)是準(zhǔn)確無矛盾的,然而現(xiàn)實(shí)應(yīng)用中用戶提供的限制數(shù)據(jù)中某些滿足must-link關(guān)系的數(shù)據(jù)對或按傳遞規(guī)則推導(dǎo)出的滿足此關(guān)系的數(shù)據(jù)對可能同時(shí)滿足can’ t-link關(guān)系。
[0005]當(dāng)存在第一個(gè)問題時(shí),非均勻分布的限制數(shù)據(jù)會使特征權(quán)值量化的結(jié)果出現(xiàn)“過適應(yīng)”現(xiàn)象,即錯(cuò)誤的將那些能夠有效劃分密集的限制數(shù)據(jù)的特征賦予較大的權(quán)值,而忽略了分布稀疏的限制數(shù)據(jù)對特征權(quán)值量化結(jié)果的影響。針對此問題,本發(fā)明實(shí)現(xiàn)參數(shù)“分布系數(shù)”來平衡限制數(shù)據(jù)的分布,降低密集分布的限制數(shù)據(jù)對特征權(quán)值量化結(jié)果的影響,同時(shí)提高稀疏分布的限制數(shù)據(jù)的作用,以防止出現(xiàn)“過適應(yīng)”現(xiàn)象。
[0006]當(dāng)存在第二個(gè)問題時(shí),傳統(tǒng)的特征權(quán)值量化方法均無法對其進(jìn)行處理。針對此問題,本發(fā)明實(shí)現(xiàn)參數(shù)“置信度”來衡量限制數(shù)據(jù)的不一致性,并對不一致的限制數(shù)據(jù)賦予較小的權(quán)值來降低其在特征權(quán)值量化中的作用。
【發(fā)明內(nèi)容】
[0007]本發(fā)明是要解決現(xiàn)有的基于限制數(shù)據(jù)的特征權(quán)值量化方法無法處理限制數(shù)據(jù)分布不均衡和限制數(shù)據(jù)存在不一致性的問題,而提出一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法。
[0008]本發(fā)明所述的一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,按以下步驟進(jìn)行:
[0009]步驟一、合并“限制數(shù)據(jù)”和“非限制數(shù)據(jù)”進(jìn)行特征權(quán)值量化:通過優(yōu)化特征的權(quán)值以使相似度小于0.5的數(shù)據(jù)對其相似度趨近于0,而使相似度大于0.5的數(shù)據(jù)對其相似度趨于I ;
[0010]步驟二、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)“分布系數(shù)”:用must-link關(guān)系將限制數(shù)據(jù)劃分為多個(gè)等價(jià)類,每個(gè)等價(jià)類內(nèi)包含的任一點(diǎn)對均滿足must-link關(guān)系J^Mmust-1ink關(guān)系的點(diǎn)對為用戶指定的位于同一類別內(nèi)的數(shù)據(jù),即相似的數(shù)據(jù),因此這些數(shù)據(jù)位于數(shù)據(jù)空間中相對密集的區(qū)域內(nèi),可使每個(gè)密集分布的區(qū)域在權(quán)值量化函數(shù)中擁有同樣的重要性以平衡限制數(shù)據(jù)的非均勻分布;
[0011]步驟三、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)“置信度”:為每個(gè)等價(jià)類內(nèi)的數(shù)據(jù)點(diǎn)對提供置信度,以確定其滿足用戶指定的限制關(guān)系的可信性,并融合此置信度進(jìn)行特征權(quán)值量化;“置信度”代表某一點(diǎn)對同時(shí)滿足must-link關(guān)系和can’t-link關(guān)系的可能性,以邊連接某一等價(jià)類(例如Tb)內(nèi)滿足must-link關(guān)系的點(diǎn)對,并通過點(diǎn)對間的距離計(jì)算該點(diǎn)對的“置信度”,置信度的計(jì)算過程是基于以下三種情況進(jìn)行的:
[0012]步驟三(l)、Tb中不存在不一致的點(diǎn)對,則該等價(jià)類中的任意點(diǎn)對間的置信度均為I;
[0013]步驟三(2)、Tb中存在不一致的點(diǎn)對,設(shè)其為(P,q),則對于等價(jià)類中的其它點(diǎn)對,設(shè)其為(i,j),通過i和j與P和q之間的距離來計(jì)算點(diǎn)對(i,j)的置信度;
[0014]步驟三(3)、對于不一致的點(diǎn)對,其置信度顯然為0.5,即其滿足must-link關(guān)系和can’ t-link關(guān)系的可能性均為50%。
[0015]步驟一的具體實(shí)現(xiàn)過程為:本發(fā)明以向量空間模型組織待聚類數(shù)據(jù),利用公式
【權(quán)利要求】
1.一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,其特征在于所述方法按以下步驟進(jìn)行: 步驟一、合并“限制數(shù)據(jù)”和“非限制數(shù)據(jù)”進(jìn)行特征權(quán)值量化:通過優(yōu)化特征的權(quán)值以使相似度小于0.5的數(shù)據(jù)對其相似度趨近于O,而使相似度大于0.5的數(shù)據(jù)對其相似度趨于I ; 步驟二、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)“分布系數(shù)”:用must-link關(guān)系將限制數(shù)據(jù)劃分為多個(gè)等價(jià)類,每個(gè)等價(jià)類內(nèi)包含的任一點(diǎn)對均滿足must-1 ink關(guān)系;滿足must-1 ink關(guān)系的點(diǎn)對為用戶指定的位于同一類別內(nèi)的數(shù)據(jù),即相似的數(shù)據(jù),這些數(shù)據(jù)位于數(shù)據(jù)空間中相對密集的區(qū)域內(nèi),可使每個(gè)密集分布的區(qū)域在權(quán)值量化函數(shù)中擁有同樣的重要性以平衡限制數(shù)據(jù)的非均勻分布; 步驟三、特征權(quán)值量化函數(shù)中結(jié)合參數(shù)“置信度”:為每個(gè)等價(jià)類內(nèi)的數(shù)據(jù)點(diǎn)對提供置信度,以確定其滿足用戶指定的限制關(guān)系的可信性,并融合此置信度進(jìn)行特征權(quán)值量化;“置信度”代表某一點(diǎn)對同時(shí)滿足must-link關(guān)系和can’ t-link關(guān)系的可能性,以邊連接某一等價(jià)類內(nèi)滿足must-link關(guān)系的點(diǎn)對,并通過點(diǎn)對間的距離計(jì)算該點(diǎn)對的“置信度”,置信度的計(jì)算過程是基于以下三種情況進(jìn)行的: 步驟三(l)、Tb中不存在不一致的點(diǎn)對,則該等價(jià)類中的任意點(diǎn)對間的置信度均為I ;步驟三(2)、Tb中存在不一致的點(diǎn)對,設(shè)其為(p,q),則對于等價(jià)類中的其它點(diǎn)對,設(shè)其為(i,j),通過i和j與P和q之間的距離來計(jì)算點(diǎn)對(i,j)的置信度; 步驟三(3)、對于不一致的點(diǎn)對,其置信度顯然為0.5,即其滿足must-link關(guān)系和can’ t-link關(guān)系的可能性均為50%。
2.如權(quán)利要求1所述的一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,其特征在于步驟一的具體實(shí)現(xiàn)過程為:本發(fā)明以向量空間模型組織待聚類數(shù)據(jù),利用公式
mC = X計(jì)算輸入數(shù)據(jù)之間的相似度,其中p與q為輸入數(shù)據(jù),由
眾=1
]上式得到相似度計(jì)算函數(shù)P = ) = 1+ β xdiv),并通過參數(shù)β使該函數(shù)均勻分布于P pqO~I之間; 依據(jù)那些能夠縮小MCS中點(diǎn)對間的相似度、而增大NCS中點(diǎn)對間的相似度的特征,對限制數(shù)據(jù)的劃分能力較強(qiáng)的想法,以此為依據(jù)即可得到下述的特征權(quán)值量化公式,當(dāng)此公式達(dá)到最小值時(shí)對應(yīng)的特征權(quán)值為最優(yōu)的特征權(quán)值;該公式為: FW= Σ Σ Pir X <? + (1- ' )x log(l - Pin
(I^j)GMCS (k,l)sNCS 使用隨機(jī)梯度下降算法優(yōu)化特征的權(quán)值wk,即可得權(quán)值更新幅度Λ wk:
3.如權(quán)利要求1或2所述的一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,其特征在于步驟二的具體實(shí)現(xiàn)過程為:將限制數(shù)據(jù)劃分為多個(gè)密集區(qū)域后,根據(jù)每個(gè)區(qū)域內(nèi)包含的數(shù)據(jù)數(shù)分別對不同區(qū)域內(nèi)的數(shù)據(jù)賦予不同的分布系數(shù)Xb,并將其結(jié)合到權(quán)值量化函數(shù)中去,結(jié)果如下:
4.如權(quán)利要求3所述的一種結(jié)合限制數(shù)據(jù)的特征權(quán)值量化方法,其特征在于,在步驟三中,將置信度融合到權(quán)值量化函數(shù)中即可獲得帶有置信度的權(quán)值量化函數(shù)FW:
【文檔編號】G06F17/15GK103544135SQ201310507228
【公開日】2014年1月29日 申請日期:2013年10月24日 優(yōu)先權(quán)日:2013年10月24日
【發(fā)明者】劉銘, 陳蕾, 吳沖, 劉秉權(quán), 劉遠(yuǎn)超 申請人:哈爾濱工業(yè)大學(xué)