一種生理數(shù)據(jù)離群檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及移動(dòng)健康管理系統(tǒng)中數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種生理數(shù)據(jù)離群 檢測(cè)方法及裝置。
【背景技術(shù)】
[0002] 離群檢測(cè)是數(shù)據(jù)挖掘的一種方法,著重于挖掘數(shù)據(jù)中相對(duì)孤立的異常數(shù)據(jù),可以 應(yīng)用于各種領(lǐng)域中。常用的離群檢測(cè)方法主要有四類:基于統(tǒng)計(jì)分布的方法、基于距離的方 法、基于密度的方法和基于偏差的方法。其中,基于統(tǒng)計(jì)分布的方法通常只針對(duì)單個(gè)屬性, 不能挖掘多維數(shù)據(jù)中的離群點(diǎn),并且需要事先了解數(shù)據(jù)的分布特征;基于距離的方法能夠 解決多維空間中的離群檢測(cè)問(wèn)題,不需要已知數(shù)據(jù)的分布情況,并且能夠避免大量的計(jì)算; 基于密度的方法以距離和密度兩個(gè)概念為基礎(chǔ),同時(shí)考慮樣本之間的距離和給定鄰域內(nèi)樣 本的個(gè)數(shù),通過(guò)定量評(píng)估數(shù)據(jù)的離群程度來(lái)檢測(cè)局部離群點(diǎn)和全局離群點(diǎn);基于偏差的離 群檢測(cè)方法不再使用統(tǒng)計(jì)方法和距離測(cè)度,它關(guān)心的是樣本點(diǎn)是否偏離于數(shù)據(jù)集的特征, 但仍停留在理論研究上。下面就上述幾種離群檢測(cè)方法做一些具體的介紹:
[0003] 現(xiàn)有技術(shù)中記載了一種數(shù)據(jù)中異常點(diǎn)的檢測(cè)方法,該方法應(yīng)用于工業(yè)生產(chǎn)技術(shù)領(lǐng) 域中,是一種基于統(tǒng)計(jì)分布的離群檢測(cè)方法,并且只針對(duì)服從正態(tài)分布的單個(gè)屬性。該方法 包括以下步驟:計(jì)算最大/次大數(shù)據(jù)值和最小/次小數(shù)據(jù)值之間的差值統(tǒng)計(jì)量,并將其與格 魯布斯(或肖維特)檢測(cè)臨界值相比較,最終確定最大數(shù)據(jù)值、最小數(shù)據(jù)值是否是異常點(diǎn);
[0004] 現(xiàn)有技術(shù)中記載了一種檢測(cè)數(shù)據(jù)中異常點(diǎn)的去除方法,該方法應(yīng)用于半導(dǎo)體制造
技術(shù)領(lǐng)域中,是一種基于統(tǒng)計(jì)分布的離群檢測(cè)方法,并且只針對(duì)服從正態(tài)分布的單個(gè)屬性。 該方法包括以下步驟:設(shè)定置信度及預(yù)計(jì)異常點(diǎn)數(shù)目,采用Tietjen&Moore方法計(jì)算第一 平方和、第二平方和和偏離值,并將偏離值與臨界值相比較,最終確定實(shí)際異常點(diǎn)數(shù)目和異 常點(diǎn)。
[0005] 現(xiàn)有技術(shù)中記載了一種識(shí)別離群交通數(shù)據(jù)的方法,該方法應(yīng)用于智能交通系統(tǒng)中 智能信息處理技術(shù)領(lǐng)域中,是一種基于密度的離群檢測(cè)方法,能夠?qū)崿F(xiàn)多維空間中全局離 群點(diǎn)和局部離群點(diǎn)的檢測(cè)。該方法包括以下步驟:計(jì)算數(shù)據(jù)的平均局部離群因子,使用兩個(gè) 準(zhǔn)則之一判斷離群數(shù)據(jù)(平均局部離群因子最高的m個(gè)數(shù)據(jù)或者平均局部離群因子大于給 定閾值的數(shù)據(jù)),最終刪除或修正離群數(shù)據(jù),或者分析離群數(shù)據(jù)所包含的隱藏信息。
[0006] 然而,對(duì)于上述幾種離群檢測(cè)的方法,在實(shí)現(xiàn)時(shí),會(huì)相應(yīng)的帶來(lái)不同的問(wèn)題:第一 種,僅適用于服從正態(tài)分布的單個(gè)屬性,只能夠判斷最大數(shù)據(jù)值和最小數(shù)據(jù)值是否是異常 點(diǎn),不能解決數(shù)據(jù)分布未知、具有多個(gè)維度、異常點(diǎn)數(shù)目可能大于2的人體生理數(shù)據(jù)的離群 檢測(cè)問(wèn)題;
[0007] 第二種,僅適用于服從正態(tài)分布的單個(gè)屬性,不能解決數(shù)據(jù)分布未知、具有多個(gè)維 度的人體生理數(shù)據(jù)的離群檢測(cè)問(wèn)題;
[0008] 第三種,僅適用于相互獨(dú)立的多個(gè)維度,不能解決不同維度量綱存在不一致、不同 維度之間存在相關(guān)性的人體生理數(shù)據(jù)的離群檢測(cè)問(wèn)題。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明實(shí)施例的目的在于提供一種生理數(shù)據(jù)離群檢測(cè)方法及裝置,通過(guò)將穩(wěn)健馬 氏距離與k近鄰離群檢測(cè)方法的結(jié)合,實(shí)現(xiàn)了對(duì)于生理數(shù)據(jù)的離群檢測(cè),提高了離群檢測(cè) 的效率。
[0010] 為了達(dá)到上述目的,本發(fā)明實(shí)施例提供了一種生理數(shù)據(jù)離群檢測(cè)方法,包括:
[0011] 確定top-q序列,所述top-q序列包含有數(shù)據(jù)集合中的q個(gè)樣本的k距離值,且所 述k距離值按照由大到小排列;
[0012] 選取數(shù)據(jù)集合中的第q+1個(gè)樣本,執(zhí)行步驟A;
[0013] 步驟A,確定當(dāng)前樣本的距離序列中是否包含有k個(gè)距離值;當(dāng)包含時(shí),執(zhí)行步驟 B,當(dāng)不包含時(shí),執(zhí)行步驟E;
[0014] 步驟B,選取第k小距離值,判斷該第k小距離值與所述t〇p-q序列中最小的k距 離值的關(guān)系;
[0015] 步驟C,當(dāng)該第k小距離值小于所述top-q序列中最小的k距離值時(shí),確定該第k 小距離值所屬的樣本不是離群點(diǎn);選取下一個(gè)樣本,重復(fù)執(zhí)行步驟A;
[0016] 步驟D,當(dāng)該第k個(gè)距離值不小于所述t〇p-q序列中最小的k距離值時(shí),確定當(dāng)前 樣本與剩余樣本中的下一樣本的距離值;執(zhí)行步驟B;
[0017] 當(dāng)當(dāng)前樣本已經(jīng)與剩余的所有樣本確定完距離值,且當(dāng)前第k小距離值不小于所 述top-q序列中最小的k距離值時(shí),將該第k小距離值替換所述top-q序列中最小的k距 離值,并對(duì)所述top-q序列進(jìn)行由大到小排列;選取下一個(gè)樣本,重復(fù)執(zhí)行步驟A;
[0018] 步驟E,利用所述協(xié)方差*確定當(dāng)前樣本到剩余樣本中的其它樣本的距離,直到 當(dāng)前樣本的距離序列中包含有k個(gè)距離值;之后執(zhí)行步驟B;
[0019] 重復(fù)上述步驟,直至遍歷完所有樣本,得到遍歷后的top-q序列,確定所述遍歷后 的top-q序列中的q個(gè)樣本為離群點(diǎn)。
[0020] 優(yōu)選地,所述確定top-q序列,包括:
[0021] 利用穩(wěn)健馬氏距離確定數(shù)據(jù)集合中最小行列式的協(xié)方差;
[0022] 選取所述數(shù)據(jù)集合中的q個(gè)樣本,利用所述協(xié)方差確定所述前q個(gè)樣本中的 每一個(gè)樣本到數(shù)據(jù)集合中的其它樣本的距離;
[0023] 將獲取到的距離值分別存儲(chǔ)到所對(duì)應(yīng)的樣本的距離序列中;
[0024] 選取距離序列中第k小距離值作為所對(duì)應(yīng)的樣本的k距離值;
[0025] 將q個(gè)樣本的所有k距離值存儲(chǔ)到top-q序列中。
[0026] 優(yōu)選地,在利用所述協(xié)方差*5;^確定樣本間的距離時(shí),通過(guò)下述公式:
[0027]
【主權(quán)項(xiàng)】
1. 一種生理數(shù)據(jù)離群檢測(cè)方法,其特征在于,應(yīng)用于移動(dòng)健康管理系統(tǒng)中,包括: 確定top-q序列,所述top-q序列包含有數(shù)據(jù)集合中的q個(gè)樣本的k距離值,且所述k 距離值按照由大到小排列; 選取數(shù)據(jù)集合中的第q+1個(gè)樣本,執(zhí)行步驟A; 步驟A,確定當(dāng)前樣本的距離序列中是否包含有k個(gè)距離值;當(dāng)包含時(shí),執(zhí)行步驟B,當(dāng) 不包含時(shí),執(zhí)行步驟E; 步驟B,選取第k小距離值,判斷該第k小距離值與所述top-q序列中最小的k距離值 的關(guān)系; 步驟C,當(dāng)該第k小距離值小于所述top-q序列中最小的k距離值時(shí),確定該第k小距 離值所屬的樣本不是離群點(diǎn);選取下一個(gè)樣本,重復(fù)執(zhí)行步驟A; 步驟D,當(dāng)該第k小距離值不小于所述top-q序列中最小的k距離值時(shí),確定當(dāng)前樣本 與剩余樣本中的下一樣本的距離值;執(zhí)行步驟B; 當(dāng)當(dāng)前樣本已經(jīng)與剩余的所有樣本確定完距離值,且當(dāng)前第k小距離值不小于所述top-q序列中最小的k距離值時(shí),將該第k小距離值替換所述top-q序列中最小的k距離 值,并對(duì)所述top-q序列進(jìn)行由大到小排列;選取下一個(gè)樣本,重復(fù)執(zhí)行步驟A; 步驟E,利用所述協(xié)方差確定當(dāng)前樣本到剩余樣本中的其它樣本的距離,直到當(dāng)前 樣本的距離序列中包含有k個(gè)距離值;之后執(zhí)行步驟B; 重復(fù)上述步驟,直至遍歷完所有樣本,得到遍歷后的top-q序列,確定所述遍歷后的top-q序列中的q個(gè)樣本為離群點(diǎn)。
2. 如權(quán)利要求1所述的方法,其特征在于,所述確定top-q序列,包括: 利用穩(wěn)健馬氏距離確定數(shù)據(jù)集合中最小行列式的協(xié)方差; 選取所述數(shù)據(jù)集合中的q個(gè)樣本,利用所述協(xié)方差確定所述q個(gè)樣本中的每一個(gè)樣 本到數(shù)據(jù)集合中的其它樣本的距離; 將獲取到的距離值分別存儲(chǔ)到所對(duì)應(yīng)的樣本的距離序列中; 選取距離序列中第k小距離值作為所對(duì)應(yīng)的樣本的k距離值; 將q個(gè)樣本的所有k距離值存儲(chǔ)到top-q序列中。
3. 如權(quán)利要求2所述的方法,其特征在于,在利用所述協(xié)方差確定樣本間的距離 時(shí),通過(guò)下述公式:
其中,X是指當(dāng)前樣本,Y是指下一樣本。
4. 一種生理數(shù)據(jù)離群檢測(cè)設(shè)備,其特征在于,包括: 確定模塊,用于確定top-q序列,所述top-q序列包含有數(shù)據(jù)集合中的q個(gè)樣本的k距 離值,且所述k距離值按照由大到小排列; 選取模塊,用于選取數(shù)據(jù)集合中的第q+1個(gè)樣本; 第一處理模塊,用于確定當(dāng)前樣本的距離序列中是否包含有k個(gè)距離值;當(dāng)包含時(shí),通 過(guò)第二處理模塊執(zhí)行;當(dāng)不包含時(shí),通過(guò)第三處理模塊執(zhí)行; 第二處理模塊,用于選取第k小距離值,判斷該第k小距離值與所述top-q序列中最小 的k距離值的關(guān)系;所述第二處理模塊,包括: 第一處理子模塊,用于當(dāng)該第k小距離值小于所述top-q序列中最小的k距離值時(shí),確 定該第k小距離值所屬的樣本不是離群點(diǎn);選取下一個(gè)樣本,返回第一處理模塊執(zhí)行; 第二處理子模塊,用于當(dāng)該第k小距離值不小于所述top-q序列中最小的k距離值時(shí), 確定當(dāng)前樣本與剩余樣本中的下一樣本的距離值;返回第二處理模塊執(zhí)行;還用于當(dāng)當(dāng)前 樣本已經(jīng)與剩余的所有樣本確定完距離值,且當(dāng)前第k小距離值不小于所述top-q序列中 最小的k距離值時(shí),將該第k小距離值替換所述top-q序列中最小的k距離值,并對(duì)所述 top-q序列進(jìn)行由大到小排列;選取下一個(gè)樣本,返回第一處理模塊執(zhí)行; 第三處理模塊,用于利用所述協(xié)方差<〇確定當(dāng)前樣本到剩余樣本中的其它樣本的距 離,直到當(dāng)前樣本的距離序列中包含有k個(gè)距離值;之后返回第二處理模塊執(zhí)行; 獲取模塊,用于在重復(fù)執(zhí)行上述各個(gè)處理模塊的處理直至遍歷完所有樣本后,得到遍 歷后的top-q序列,通過(guò)所述確定模塊確定所述遍歷后的top-q序列中的q個(gè)樣本為離群 點(diǎn)。
5. 如權(quán)利要求4所述的設(shè)備,其特征在于, 所述確定模塊,具體用于利用穩(wěn)健馬氏距離確定數(shù)據(jù)集合中最小行列式的協(xié)方差 選取所述數(shù)據(jù)集合中的q個(gè)樣本,利用所述協(xié)方差確定所述前q個(gè)樣本中的每一個(gè) 樣本到數(shù)據(jù)集合中的其它樣本的距離; 將獲取到的距離值分別存儲(chǔ)到所對(duì)應(yīng)的樣本的距離序列中; 選取距離序列中第k小距離值作為所對(duì)應(yīng)的樣本的k距離值; 將q個(gè)樣本的所有k距離值存儲(chǔ)到top-q序列中。
6. 如權(quán)利要求5所述的設(shè)備,其特征在于,在利用所述協(xié)方差>確定樣本間的距離 時(shí),采用下述公式:
其中,X是指當(dāng)前樣本,Y是指下一樣本。
【專利摘要】本發(fā)明公開(kāi)了一種生理數(shù)據(jù)離群檢測(cè)方法及裝置,包括:確定top-q序列,確定數(shù)據(jù)集合中剩余的樣本與其它樣本間的穩(wěn)健馬氏距離,得到各個(gè)樣本的距離序列,通過(guò)分別選取距離序列中的第k小距離值,與top-q序列中的最小距離值比較,將不小于top-q序列中的最小距離值的距離值替換該top-q序列的最小距離值,直至遍歷所有樣本,得到遍歷后的top-q序列,確定離群點(diǎn),從而實(shí)現(xiàn)了對(duì)于生理數(shù)據(jù)的離群檢測(cè),提高了離群檢測(cè)的效率。
【IPC分類】G06Q50-22, G06F17-30
【公開(kāi)號(hào)】CN104714964
【申請(qǐng)?zhí)枴緾N201310687125
【發(fā)明人】壽文卉
【申請(qǐng)人】中國(guó)移動(dòng)通信集團(tuán)公司
【公開(kāi)日】2015年6月17日
【申請(qǐng)日】2013年12月13日