一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng)及處理方法
【專利摘要】本發(fā)明公開了一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng)及處理方法,包括:數(shù)據(jù)預(yù)處理模塊;考勤綜合評(píng)級(jí)模塊;異常行為檢測(cè)模塊;潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊;考勤行為異常預(yù)警模塊。所述方法利用數(shù)據(jù)統(tǒng)計(jì)方法,針對(duì)企事業(yè)單位用戶考勤數(shù)據(jù)進(jìn)行用戶考勤行為模式的綜合分析,從而對(duì)用戶進(jìn)行綜合考勤量化評(píng)級(jí),發(fā)現(xiàn)考勤優(yōu)秀用戶。所述方法利用數(shù)據(jù)挖掘方法從考勤數(shù)據(jù)中發(fā)現(xiàn)諸如“代刷卡”、“先刷卡后吃飯”等潛在異常行為,從考勤優(yōu)秀用戶中識(shí)別偽優(yōu)秀用戶。本發(fā)明利用考勤數(shù)據(jù)的特性,針對(duì)用戶異??记谛袨檫M(jìn)行預(yù)警,同時(shí)發(fā)現(xiàn)用戶間的潛在關(guān)系網(wǎng)絡(luò),最終為人事考核與決策提供支持。
【專利說明】一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng)及處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,涉及一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng)及處理方法
【背景技術(shù)】
[0002]隨著時(shí)代的發(fā)展以及市場(chǎng)競(jìng)爭(zhēng)的加劇,人力資源已經(jīng)成為近年來各企事業(yè)單位的核心競(jìng)爭(zhēng)力。如何有效地進(jìn)行人力資源管理(Human Resource Management,HRM),是單位增強(qiáng)核心競(jìng)爭(zhēng)力、提高效率并降低成本的必要途徑。伴隨著信息化時(shí)代的到來,HRM經(jīng)歷了從20世紀(jì)60年代末的第一代HRM系統(tǒng)(簡(jiǎn)單薪酬統(tǒng)計(jì)計(jì)算),到20世紀(jì)70年代末的第二代HRM系統(tǒng)(基于數(shù)據(jù)庫(kù)技術(shù)的管理能力),直至21世紀(jì)初的第三代HRM系統(tǒng)(基于網(wǎng)絡(luò)技術(shù)的分布式處理);由傳統(tǒng)的手工管理,發(fā)展到了能夠利用計(jì)算機(jī)強(qiáng)大計(jì)算能力進(jìn)行自動(dòng)管理的階段,將HRM人員從大量的體力勞動(dòng)中解脫出來,極大提高了工作效率。
[0003]人事考勤管理(PersonnelCheck-On-ffork-Attendance Management, PCOffAM)作為HRM的重要組成部分,其管理對(duì)象定義為用戶(企事業(yè)單位員工,以及其他考勤行為的主體)。它能夠根據(jù)用戶考勤行為科學(xué)制定用戶績(jī)效與薪酬福利,從而調(diào)動(dòng)用戶的積極性,發(fā)揮用戶的潛能,為單位創(chuàng)造價(jià)值,給單位帶來效益。利用信息化技術(shù)快速有效地進(jìn)行PCOWAM保證了單位目標(biāo)實(shí)現(xiàn)與成員發(fā)展的最大化,在HRM信息化中對(duì)提高單位的工作效率,展現(xiàn)單位的現(xiàn)代管理風(fēng)貌具有重要的實(shí)際意義。
[0004]PCOWAM根據(jù)其考勤方式可以分為磁卡式考勤(例如各種接觸式或非接觸式的IC卡)以及生物特性識(shí)別考勤(例如人臉、指紋、虹膜等)。相應(yīng)地,考勤系統(tǒng)可分為磁卡考勤系統(tǒng)和生物考勤系統(tǒng)。
[0005]磁卡考勤系統(tǒng)的特點(diǎn)在于用磁卡作為考勤介質(zhì)進(jìn)行刷卡式考勤,而不需人的過多干預(yù);同時(shí)刷卡數(shù)據(jù)為結(jié)構(gòu)化,便于計(jì)算機(jī)存儲(chǔ)與處理。所以磁卡考勤系統(tǒng)的優(yōu)勢(shì)在于軟硬件成本較低,便于大規(guī)模推廣使用。但是其缺點(diǎn)在于:①無法杜絕代考勤行為(即“代刷卡”)磁卡有易復(fù)制性和壽命不長(zhǎng)的缺陷,故系統(tǒng)的后期維護(hù)成本較高考勤數(shù)據(jù)一般是結(jié)構(gòu)化或明碼保存,保密性能較差。
[0006]生物考勤系統(tǒng)的特點(diǎn)在于其考勤介質(zhì)為人自身,故具有天然的防偽性,可以徹底杜絕代考勤行為。同樣地,由于考勤介質(zhì)為人自身,故不存在介質(zhì)丟失問題,所以生物考勤系統(tǒng)的后期維護(hù)工作成本較低。但是其存在著明顯的缺點(diǎn):考勤介質(zhì)的復(fù)雜性決定了系統(tǒng)軟硬件設(shè)施的高成本,例如基于虹膜識(shí)別考勤系統(tǒng)的采集硬件與分析識(shí)別軟件的復(fù)雜性要遠(yuǎn)遠(yuǎn)高于磁卡式系統(tǒng)。這種高成本導(dǎo)致了該系統(tǒng)無法大規(guī)模推廣使用。
[0007]除了上述提及的兩類考勤系統(tǒng)所存在的固有問題,目前的PCOWAM系統(tǒng)仍然具有如下不足之處:(I)當(dāng)前系統(tǒng)對(duì)于用戶考勤行為的評(píng)價(jià)為簡(jiǎn)單定性分析,如全勤、半勤或缺勤等粗粒度分析,而沒有對(duì)考勤行為作細(xì)粒度的量化評(píng)級(jí),以區(qū)分出考勤優(yōu)秀用戶、一般用戶和懶散用戶;(2)當(dāng)前系統(tǒng)僅提供簡(jiǎn)單的考勤數(shù)據(jù)采集、錄入、存儲(chǔ),以及有限的統(tǒng)計(jì)分析(例如薪資計(jì)算、出勤率統(tǒng)計(jì)等),而針對(duì)考勤數(shù)據(jù)的深度挖掘和決策支持功能有待進(jìn)一步提高。例如,當(dāng)前系統(tǒng)無法有效地從考勤數(shù)據(jù)中發(fā)現(xiàn)用戶的異??记谛袨?例如“代刷卡”、“先刷卡后吃飯”等行為)并對(duì)這些異常行為進(jìn)行預(yù)警,從而導(dǎo)致系統(tǒng)的可信度不高,尤其是磁卡考勤系統(tǒng);(3)當(dāng)前系統(tǒng)忽視了考勤數(shù)據(jù)中所體現(xiàn)出來的用戶間潛在關(guān)系網(wǎng)絡(luò)。該潛在關(guān)系網(wǎng)絡(luò)由用戶的考勤行為產(chǎn)生,能夠從另一個(gè)側(cè)面反映用戶自發(fā)的社交關(guān)系與群體狀態(tài),發(fā)現(xiàn)該網(wǎng)絡(luò)對(duì)于用戶的科學(xué)管理、領(lǐng)導(dǎo)掌握用戶群體狀態(tài)并做出正確的決策能夠起到促進(jìn)作用。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的技術(shù)解決問題:克服現(xiàn)有技術(shù)的不足,提供一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng)及處理方法,充分利用考勤數(shù)據(jù)的特性,幫助分析與理解用戶的整體考勤模式;對(duì)用戶考勤行為進(jìn)行量化評(píng)級(jí);針對(duì)用戶異??记谛袨檫M(jìn)行快速識(shí)別與預(yù)警;同時(shí)能夠發(fā)現(xiàn)用戶間的潛在關(guān)系;最終為人事考核與決策提供支持。
[0009]本發(fā)明技術(shù)解決方案:一種基于磁卡考勤的用戶數(shù)據(jù)處理系統(tǒng),包括:考勤數(shù)據(jù)預(yù)處理模塊、考勤綜合量化評(píng)級(jí)模塊、偽考勤異常行為檢測(cè)模塊、代考勤異常行為檢測(cè)模塊、潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊和考勤行為的異常預(yù)警模塊;其中:
[0010]考勤數(shù)據(jù)預(yù)處理模塊,通過正規(guī)化以及時(shí)序關(guān)聯(lián)識(shí)別處理,將輸入的原始考勤數(shù)據(jù)集轉(zhuǎn)化成后續(xù)分析所需要的目標(biāo)數(shù)據(jù)集,所述目標(biāo)數(shù)據(jù)集包括時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集;所述正規(guī)化處理將原始考勤數(shù)據(jù)轉(zhuǎn)化成表格形式的時(shí)序流數(shù)據(jù)集,表格每一行記錄稱作一條“流”,包含用戶名、刷卡時(shí)間、刷卡地點(diǎn)、刷卡狀態(tài)信息;所述時(shí)序關(guān)聯(lián)識(shí)別處理將時(shí)序流數(shù)據(jù)集轉(zhuǎn)化成CSV(Comma Separated Values:逗號(hào)分隔值)文件結(jié)構(gòu)的時(shí)序橫行數(shù)據(jù)集,所述橫行數(shù)據(jù)中的每一橫行代表一個(gè)連續(xù)的行為序列,即一個(gè)較短時(shí)間段內(nèi)的密集刷卡行為;所述橫行記錄了連續(xù)行為序列所發(fā)生的時(shí)間或時(shí)間戳,以及同時(shí)發(fā)生的多個(gè)流;
[0011]考勤綜合量化評(píng)級(jí)模塊,通過統(tǒng)計(jì)方法對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行處理,得到用戶整體考勤模式以及用戶考勤多指標(biāo)得分;所述用戶整體考勤模式分為時(shí)序模式和空間模式,即通過時(shí)序統(tǒng)計(jì)得到用戶的整體考勤時(shí)序模式,通過空間統(tǒng)計(jì)得到用戶的整體考勤空間模式;所述多指標(biāo)得分是指通過統(tǒng)計(jì)分析得到用戶考勤綜合得分,對(duì)每個(gè)用戶的考勤行為進(jìn)行量化評(píng)級(jí),最終得到“考勤優(yōu)秀用戶”;
[0012]考勤異常行為檢測(cè)模塊,所述考勤異常行為檢測(cè)包括“偽考勤”異常行為檢測(cè)和“代考勤”異常行為檢測(cè),所述“偽考勤”異常行為檢測(cè)是通過構(gòu)建偽考勤檢測(cè)模型,對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的偽考勤行為即刷卡之后沒有進(jìn)入工作場(chǎng)所開展正常工作,而是立即離開工作場(chǎng)所;所述“代考勤”異常行為檢測(cè)是通過頻繁模式和關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法,對(duì)時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集進(jìn)行挖掘分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的代考勤行為,即某一用戶U1的刷卡考勤行為不是由自己完成,而是由其他用戶U2代勞,表現(xiàn)在U1和U2的考勤時(shí)間間隔非常短,可以認(rèn)為是同一個(gè)用戶的考勤行為;
[0013]潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊,通過基于可視化場(chǎng)景圖的數(shù)據(jù)挖掘方法,探測(cè)基于考勤行為的用戶潛在社交網(wǎng)絡(luò);再利用可視化人機(jī)交互的方式修正所生成的社交網(wǎng)絡(luò),便于從網(wǎng)絡(luò)中捕獲易于人理解的用戶間潛在關(guān)系;
[0014]考勤行為異常預(yù)警模塊,通過建立考勤行為多元回歸預(yù)測(cè)模型,對(duì)異??记谛袨檫M(jìn)行預(yù)警,使得決策者能夠根據(jù)預(yù)警及時(shí)做出決策響應(yīng)結(jié)果。
[0015]一種基于磁卡考勤行為的用戶數(shù)據(jù)處理方法,實(shí)現(xiàn)步驟為:
[0016]1.考勤數(shù)據(jù)預(yù)處理
[0017]該方法通過正規(guī)化以及時(shí)序關(guān)聯(lián)識(shí)別處理,將輸入的原始考勤數(shù)據(jù)集轉(zhuǎn)化成后續(xù)分析所需要的目標(biāo)數(shù)據(jù)集:時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集。其中處理后的數(shù)據(jù)集與傳統(tǒng)的PCOWAM數(shù)據(jù)的不同點(diǎn)在于:
[0018]I)與傳統(tǒng)數(shù)據(jù)相比,時(shí)序流數(shù)據(jù)集為表格形式,表格每一行記錄稱作一條“流”,包含用戶名、刷卡時(shí)間、刷卡地點(diǎn)、刷卡狀態(tài)等信息。這種數(shù)據(jù)結(jié)構(gòu)便于計(jì)算機(jī)對(duì)其進(jìn)行自動(dòng)化處理,例如排序、查詢、遍歷等操作。
[0019]2)與傳統(tǒng)數(shù)據(jù)相比,時(shí)序橫行數(shù)據(jù)集包含有用戶之間在考勤行為上的時(shí)序關(guān)聯(lián)信息,便于方法從中挖掘出異??记谛袨橐约鞍l(fā)現(xiàn)用戶潛在關(guān)系網(wǎng)絡(luò)。
[0020]2.考勤綜合量化評(píng)級(jí)
[0021]該方法通過統(tǒng)計(jì)的方法對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行處理,通過對(duì)考勤時(shí)間的細(xì)粒度評(píng)價(jià),得到用戶整體考勤模式以及用戶考勤綜合得分,最終得到“考勤優(yōu)秀用戶”。
[0022]該方法基于時(shí)空統(tǒng)計(jì)方法所獲得的用戶整體考勤模式分為時(shí)序模式以及空間模式,能夠從宏觀上表達(dá)出整體用戶所具有的時(shí)間上或者空間上的考勤行為特征。
[0023]該方法基于多維指標(biāo)量化模型所獲得的用戶考勤綜合得分,能夠?qū)γ總€(gè)用戶的考勤行為進(jìn)行量化評(píng)級(jí),便于科學(xué)分析與評(píng)價(jià)不同用戶的考勤質(zhì)量。
[0024]3.“偽考勤”異常行為檢測(cè)
[0025]該方法通過構(gòu)建偽考勤檢測(cè)模型,能夠發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的偽考勤行為(即刷卡之后沒有進(jìn)入工作場(chǎng)所開展正常工作,而是立即離開工作場(chǎng)所。例如“先刷卡后吃飯”行為:在考勤時(shí)間點(diǎn)之前刷卡,然后離開去吃飯,最后在考勤要求時(shí)間點(diǎn)之后再次刷卡進(jìn)入工作場(chǎng)所)。
[0026]該方法對(duì)于節(jié)省人力、提高效率、改善管理環(huán)境,并提高考勤制度約束力具有促進(jìn)作用。
[0027]4.“代考勤”異常行為檢測(cè)
[0028]該方法通過頻繁模式挖掘以及關(guān)聯(lián)分析,能夠發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的代考勤行為(即某一用戶U1的刷卡考勤行為不是由自己完成,而是由其他用戶U2代勞,表現(xiàn)在U1和U2的考勤時(shí)間間隔非常短,可以認(rèn)為是同一個(gè)用戶的考勤行為)。
[0029]該方法對(duì)于提高考勤可信度與透明化,規(guī)范用戶考勤行為具有促進(jìn)作用。
[0030]5.潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)
[0031 ] 該方法通過基于可視化場(chǎng)景圖的數(shù)據(jù)挖掘算法,能夠從考勤數(shù)據(jù)中自動(dòng)生成用戶潛在社交網(wǎng)絡(luò),從而反映出用戶自發(fā)的社交關(guān)系與群體狀態(tài)。
[0032]該方法利用可視化人機(jī)交互的方式修正所生成的社交網(wǎng)絡(luò),便于從網(wǎng)絡(luò)中捕獲易于人理解的用戶間潛在關(guān)系。
[0033]該方法對(duì)于用戶的科學(xué)管理、領(lǐng)導(dǎo)掌握用戶群體狀態(tài)并做出正確的決策具有促進(jìn)作用。
[0034]6.考勤行為的異常預(yù)警
[0035]該方法通過建立考勤行為多元回歸預(yù)測(cè)模型,對(duì)異??记谛袨檫M(jìn)行預(yù)警,使得決策者能夠根據(jù)預(yù)警及時(shí)做出決策響應(yīng)。
[0036]該方法對(duì)于實(shí)時(shí)動(dòng)態(tài)管理用戶的考勤狀態(tài),對(duì)用戶異常考勤行為做出實(shí)時(shí)相應(yīng)并最終指導(dǎo)決策制定具有促進(jìn)作用。
[0037]與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0038](I)本發(fā)明與傳統(tǒng)方法相比,能夠獲得用戶的整體考勤模式特征,便于決策者基于該模式特征科學(xué)制定考勤制度。
[0039](2)本發(fā)明與傳統(tǒng)方法相比,能夠?qū)τ脩艨记谛袨樽骷?xì)粒度的量化評(píng)級(jí),使之能夠區(qū)分出考勤優(yōu)秀用戶、一般用戶和懶散用戶,便于根據(jù)用戶評(píng)級(jí)結(jié)果科學(xué)制定績(jī)效與薪酬福利,從而調(diào)動(dòng)用戶的積極性。
[0040](3)本發(fā)明與傳統(tǒng)方法相比,利用數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)挖掘方法,能夠從考勤數(shù)據(jù)中發(fā)現(xiàn)用戶的偽考勤等異常行為并對(duì)這些異常行為進(jìn)行預(yù)警,便于檢測(cè)偽考勤優(yōu)秀用戶,保證了考勤制度的公正公平與管理透明化。
[0041](4)本發(fā)明與傳統(tǒng)方法相比,無需借助軟硬件成本均較高的生物考勤系統(tǒng)來杜絕代考勤行為。通過數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)挖掘方法來檢測(cè)考勤數(shù)據(jù)中“代刷卡”行為,能夠顯著降低考勤系統(tǒng)的造價(jià),便于大規(guī)模推廣使用。
[0042](5)本發(fā)明與傳統(tǒng)方法相比,借助數(shù)據(jù)挖掘方法能夠構(gòu)造可視化形式的用戶潛在關(guān)系網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠反映出用戶自發(fā)的社交關(guān)系與群體狀態(tài)。該網(wǎng)絡(luò)的發(fā)現(xiàn)對(duì)于用戶的科學(xué)管理、領(lǐng)導(dǎo)掌握用戶群體狀態(tài)并做出正確的決策能夠起到促進(jìn)作用。
【專利附圖】
【附圖說明】
[0043]圖1為本發(fā)明組成模塊框圖;
[0044]圖2是時(shí)序流數(shù)據(jù)集示意圖;
[0045]圖3是時(shí)序橫行數(shù)據(jù)集示意圖;
[0046]圖4是用戶整體考勤時(shí)序模式示意圖;
[0047]圖5是用戶整體考勤空間模式示意圖;
[0048]圖6是主考核指標(biāo)量化曲線之上班得分曲線;
[0049]圖7是主考核指標(biāo)量化曲線之下班得分曲線;
[0050]圖8是主考核指標(biāo)量化曲線之晚加班得分曲線;
[0051]圖9是考勤優(yōu)秀用戶集示意圖,其中:(a)圖是考勤優(yōu)秀用戶得分明細(xì)表格;(b)圖是用戶得分整體分布圖;
[0052]圖10是偽考勤檢測(cè)模型示意圖;
[0053]圖11是代考勤檢測(cè)算法示意圖,其中黑點(diǎn)以及“A、B、C、D”等字母代表不同的用戶;
[0054]圖12是關(guān)系聚類構(gòu)建示意圖;
[0055]圖13是局部潛在代考勤用戶發(fā)現(xiàn)示意圖,其中E、F、G點(diǎn)為局部潛在代考勤用戶,連接這些點(diǎn)的虛線為局部潛在代考勤關(guān)系;
[0056]圖14是全局潛在代考勤用戶發(fā)現(xiàn)示意圖,其中I點(diǎn)為全局潛在代考勤用戶,連接I點(diǎn)的虛線為全局潛在代考勤關(guān)系;
[0057]圖15是調(diào)整頻繁關(guān)系閾值r并更新關(guān)系聚類示意圖,其中:[0058](a)圖和(b)圖是r取值過小導(dǎo)致了聚類數(shù)目過少、聚類尺寸過大;(c)圖是!取值過大導(dǎo)致了聚類尺寸過小;(d)圖是!取值合適使得產(chǎn)生的聚類在大小和數(shù)目上均始終,故聚類易于人理解;
[0059]圖16是調(diào)整局部潛在關(guān)系閾值r'并更新U1。以及R1。示意圖,其中:
[0060](a)圖是r'取值過小導(dǎo)致了局部潛在代考勤用戶數(shù)目過多,代考勤關(guān)系過于復(fù)雜;(b)圖是r'取值過大導(dǎo)致了局部潛在代考勤用戶以及代考勤關(guān)系數(shù)目過少;(c)圖是r/取值合適使得產(chǎn)生的局部潛在代考勤用戶以及代考勤關(guān)系易于人理解;
[0061]圖17是調(diào)整全局潛在關(guān)系閾值r"并更新Ug。以及Rg。示意圖,其中:
[0062](a)圖是r"取值過小導(dǎo)致了全局潛在代考勤用戶數(shù)目過多,代考勤關(guān)系過于復(fù)雜;(b)圖是r"取值過大導(dǎo)致了全局潛在代考勤用戶以及代考勤關(guān)系數(shù)目過少;(c)圖是r"取值合適使得產(chǎn)生的全局潛在代考勤用戶以及代考勤關(guān)系易于人理解;
[0063]圖18是考勤行為的異常預(yù)警方法示意圖,其中:(a)圖是回歸模型訓(xùn)練示意圖,圖中自變量為多元屬性(工作日以及天氣狀況),因變量為考勤時(shí)間;(b)圖異常考勤預(yù)警示意圖;
[0064]圖19是天氣狀況量化表格(截取一部分)。
【具體實(shí)施方式】
[0065]為了使本發(fā)明的目的、技術(shù)方案和發(fā)明優(yōu)勢(shì)更加清楚明白,以下對(duì)本發(fā)明的實(shí)施方式做具體介紹。
[0066]名詞定義
[0067]用戶:企事業(yè)單位員工,以及其他考勤行為的主體。
[0068]決策者:領(lǐng)導(dǎo),以及其他企事業(yè)單位管理層人員。
[0069]本本發(fā)明基于數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)挖掘和可視化技術(shù),可以充分利用考勤數(shù)據(jù)的特性:幫助分析與理解用戶的整體考勤模式;對(duì)用戶考勤行為進(jìn)行量化評(píng)級(jí);針對(duì)用戶異常考勤行為進(jìn)行預(yù)警;同時(shí)能夠發(fā)現(xiàn)用戶間的潛在關(guān)系;最終為人事考核與決策提供支持。如圖1所示,本發(fā)明包括:考勤數(shù)據(jù)預(yù)處理模塊、考勤綜合量化評(píng)級(jí)模塊、偽考勤異常行為檢測(cè)模塊、代考勤異常行為檢測(cè)模塊、潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊和考勤行為的異常預(yù)警模塊;其中:
[0070]1.考勤數(shù)據(jù)預(yù)處理模塊
[0071]通過正規(guī)化以及時(shí)序關(guān)聯(lián)識(shí)別處理,將輸入的原始考勤數(shù)據(jù)集轉(zhuǎn)化成后續(xù)分析所需要的目標(biāo)數(shù)據(jù)集:時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集,見圖2~圖3。
[0072]如圖2所示,正規(guī)化處理將原始考勤數(shù)據(jù)轉(zhuǎn)化成表格形式的時(shí)序流數(shù)據(jù)集。表格每一行記錄稱作一條“流”,包含用戶名、刷卡時(shí)間、刷卡地點(diǎn)、刷卡狀態(tài)等信息。
[0073]如圖3所示,時(shí)序關(guān)聯(lián)識(shí)別處理將時(shí)序流數(shù)據(jù)集轉(zhuǎn)化成CSV文件結(jié)構(gòu)的時(shí)序橫行數(shù)據(jù)集。橫行數(shù)據(jù)中的每一橫行代表一個(gè)連續(xù)的行為序列,即一個(gè)較短時(shí)間段內(nèi)的密集刷卡行為。該橫行記錄了連續(xù)行為序列所發(fā)生的時(shí)間(時(shí)間戳),以及同時(shí)發(fā)生的多個(gè)流(每個(gè)流以其用戶名作為標(biāo)識(shí)符)。該橫行的格式為:“時(shí)間戳1:用戶1,用戶2,用戶3,…”。時(shí)序關(guān)聯(lián)識(shí)別處理的具體步驟如下:
[0074](I)將預(yù)處理得到的時(shí)序流數(shù)據(jù)集按刷卡時(shí)間進(jìn)行升序排序,得到“有序時(shí)序流數(shù)據(jù)集”。[0075](2)設(shè)定一個(gè)時(shí)間段閾值tmin(例如5秒)用以判斷兩條流是否同時(shí)發(fā)生,即兩次刷卡處于同一個(gè)較短時(shí)間段內(nèi)。同時(shí),設(shè)定一個(gè)時(shí)間戳標(biāo)志和流數(shù)組,用以保存橫行的時(shí)間戮和每條流。
[0076](3)逐條掃描有序時(shí)序流數(shù)據(jù)集,判斷本條流的發(fā)生時(shí)間與上條流的發(fā)生時(shí)間之差是否小于tmin。如果滿足該條件,將該兩條流保存至流數(shù)組;并在時(shí)間戳標(biāo)志為空的條件下,將上條流的發(fā)生時(shí)間保存至?xí)r間戳標(biāo)志(此時(shí),時(shí)間戳標(biāo)志不再為空)。如果不滿足該條件,則在時(shí)間戳標(biāo)志不為空的情況下,將時(shí)間戳標(biāo)志和流數(shù)組按照橫行格式輸出至?xí)r序橫行數(shù)據(jù)集;同時(shí),清空時(shí)時(shí)間戳標(biāo)志和流數(shù)組。
[0077](4)反復(fù)執(zhí)行步驟(3),直至?xí)r序流數(shù)據(jù)集掃描完畢,獲得時(shí)序橫行數(shù)據(jù)集。
[0078]2.考勤綜合量化評(píng)級(jí)模塊
[0079]通過統(tǒng)計(jì)算法對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行處理,得到用戶整體考勤模式以及用戶考勤多指標(biāo)得分。
[0080]在介紹之前,對(duì)具體考勤管理制度作如下定義:有效考勤時(shí)間分為上班考勤時(shí)間Tup和下班考勤時(shí)間Td_。其中Tup為上午8點(diǎn)半,Td_下午17點(diǎn)半。
[0081]2.1用戶整體考勤模式分析模塊
[0082]用戶整體考勤模式分為時(shí)序模式(圖4)和空間模式(圖5)。
[0083]獲得時(shí)序模式的具體方法步驟如下:
[0084]步驟1:設(shè)置一個(gè)時(shí)間窗,窗口寬度為Win (例如60秒)。在時(shí)間軸上逐步滑動(dòng)時(shí)間窗(滑動(dòng)步長(zhǎng)等于窗口寬度)。
[0085]步驟2:每滑動(dòng)一次,循環(huán)掃描時(shí)序流數(shù)據(jù),統(tǒng)計(jì)落在該時(shí)間窗內(nèi)的流的數(shù)目。
[0086]步驟3:滑動(dòng)時(shí)間窗從O點(diǎn)到23點(diǎn)59分59秒,重復(fù)執(zhí)行步驟2,可獲得考勤數(shù)據(jù)在一天內(nèi)各個(gè)時(shí)間段的時(shí)序序列。
[0087]步驟4:調(diào)整Win大小,并且選擇不同時(shí)間闊度的時(shí)序流數(shù)據(jù)(例如不同月份的數(shù)據(jù)),獲得不同粒度的時(shí)序序列,并通過對(duì)該序列進(jìn)行可視化展示,即可獲知用戶的整體考勤時(shí)序模式。
[0088]獲得空間模式的具體方法步驟如下:
[0089]步驟1:掃描時(shí)序流數(shù)據(jù),統(tǒng)計(jì)不同刷卡地點(diǎn)的流的數(shù)目,可獲得考勤數(shù)據(jù)的整體空間分布。
[0090]步驟2:通過對(duì)該分布進(jìn)行可視化展示(例如圖5所示的柱狀圖),即可獲知用戶的整體考勤空間模式。
[0091]2.2用戶考勤多指標(biāo)評(píng)分模塊
[0092]具體方法步驟如下:
[0093]步驟1:將時(shí)序流數(shù)據(jù)集按“用戶名一刷卡時(shí)間”進(jìn)行升序排序,得到“〈用戶,時(shí)間>有序時(shí)序流數(shù)據(jù)集”。
[0094]步驟2:逐行掃描〈用戶,時(shí)間 > 有序時(shí)序流數(shù)據(jù)集,將用戶相同并且日期相同的多條相鄰流進(jìn)行篩選:只保留首尾兩條流,作為與考勤得分相關(guān)的有效流數(shù)據(jù)(如果只有一條流,則復(fù)制該流,即認(rèn)為首尾流相同)。最終得到“考勤相關(guān)時(shí)序流數(shù)據(jù)集”。
[0095]步驟3:針對(duì)考勤相關(guān)時(shí)序流數(shù)據(jù)集,將數(shù)據(jù)集按用戶、按日期進(jìn)行劃分,每個(gè)用戶每一天的流數(shù)據(jù)作為一個(gè)“劃分單元”。[0096]步驟4:針對(duì)每一個(gè)劃分單元,進(jìn)行考勤得分多維量化評(píng)級(jí)。最終得到每個(gè)用戶每一天的考勤得分S。
[0097]步驟5:將每個(gè)用戶的所有劃分單元的得分進(jìn)行加權(quán)平均,得到該用戶的考勤綜合得分S*。
[0098]步驟6:將所有用戶U按照S*進(jìn)行降序排序,提取前M個(gè)用戶作為“考勤優(yōu)秀用戶集’’U*(見圖9)。
[0099]其中步驟4和步驟5中對(duì)于每一個(gè)劃分單元的得分計(jì)算方法,所采用的模型為考勤得分多維量化評(píng)級(jí)模型。該模型的細(xì)節(jié)如下:
[0100]步驟4 一 1:設(shè)定主考核指標(biāo)為:上班得分、下班得分、晚加班得分。主考核指標(biāo)分別依考核權(quán)重給定滿分分值,例如上班和下班得分滿分50分,及格30分;晚加班得分滿分50分,及格O分。
[0101]步驟4 一 2:根據(jù)前文所定義的考勤管理制度,設(shè)定主考核指標(biāo)量化曲線(見圖6~圖8)。曲線包括上班得分曲線Cur1、下班得分曲線Cur2以及晚加班得分曲線Cur3。Cur1、Cur2和Cur3均包含3個(gè)拐點(diǎn):T,P,Z。其中T代表滿分點(diǎn),P代表及格分點(diǎn)(考勤管理制度中的“有效考勤時(shí)間”,例如Tup-上午8點(diǎn)半;以及Td_-下午5點(diǎn)半),Z代表零分點(diǎn)。以Cur1為例,當(dāng)考勤時(shí)間t小于等于T (可取8點(diǎn)15分)時(shí),得滿分;當(dāng)t大于等于Z (可取8點(diǎn)52分)時(shí),得零分;當(dāng)t大于T且小于等于P (可取8點(diǎn)半)時(shí),得分為滿分到及格分的線性衰減;當(dāng)t大于P且小于Z時(shí),得分為及格分到零分的二次衰減(對(duì)遲到考勤的懲罰)。Cur2在形態(tài)上與Cur1呈鏡像對(duì)稱關(guān)系。Cur3則在形態(tài)上與Cur2 —致,唯一區(qū)別在于P點(diǎn)等于Z點(diǎn),即沒有二次衰 減區(qū)間。
[0102]步驟4 一 3:參照主考核指標(biāo)量化曲線Cur1' Cur2和Cur3,可以得到不同用戶不同日期的主考核得分S。具體方法為:將每一個(gè)劃分單元中的第一條流對(duì)應(yīng)Cur1,求出上班得分S1 ;將劃分單元中的第二條流對(duì)應(yīng)Cur2和Cur3,求出下班得分S2和晚加班得分S3 ;S =Si+S2+S3o
[0103]步驟5 — 1:將不同用戶的主考核得分S除以該用戶的考勤日期數(shù)目,得到該用戶的主考核平均得分S。
[0104]步驟5 — 2:設(shè)定補(bǔ)充考核指標(biāo)為:遲到率1、早退率e、缺勤率a以及非工作日加班率O。其中I為(S1小于上班及格分 > 的天數(shù)占考勤總天數(shù)的比例;e為<S2小于下班及格分 > 的天數(shù)占考勤總天數(shù)的比例;a為(SJS2 = 0>的天數(shù)占考勤總天數(shù)的比例;o為〈Si不小于上班及格分且S2不小于下班及格分 > 的天數(shù)占考勤總天數(shù)的比例。
[0105]步驟5 — 3:按照如下公式計(jì)算得到每個(gè)用戶的考勤綜合得分S*:
[0106]S*: 5.(1-/).(?.?,.).(1 2α).( 2ο).[0107]3.“偽考勤”異常行為檢測(cè)模塊
[0108]該模塊通過構(gòu)建偽考勤檢測(cè)模型,能夠發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的偽考勤行為,具體步驟為:
[0109]步驟1:將預(yù)處理得到的時(shí)序流數(shù)據(jù)集按“用戶名、刷卡時(shí)間”進(jìn)行升序排序。
[0110]步驟2:構(gòu)建偽考勤檢測(cè)模型(見圖10)。
[0111]該模型包含兩個(gè)時(shí)間段的檢測(cè):時(shí)間段A和時(shí)間段B。時(shí)間段A代表考勤時(shí)間點(diǎn)之前,例如小于等于上午8點(diǎn)半;時(shí)間段B代表考勤時(shí)間點(diǎn)之后,例如上午8點(diǎn)半至上午9點(diǎn)之間。
[0112]該模型將考勤地點(diǎn)分為兩類:工作地點(diǎn)(例如進(jìn)入工作場(chǎng)所的門禁)與其他地點(diǎn)。該模型認(rèn)為在其他地點(diǎn)刷卡僅證明該次刷卡是有效考勤,但只有在工作地點(diǎn)刷卡才是真正進(jìn)入了工作場(chǎng)所正常工作。
[0113]該模型提供一個(gè)頻繁度閾值f。如果某一用戶在時(shí)間段A刷卡簽到,同時(shí)在同一天的時(shí)間段B進(jìn)入工作場(chǎng)所,則認(rèn)為具有偽考勤的嫌疑。當(dāng)用戶具有偽考勤嫌疑的次數(shù)F(即天數(shù))大于f時(shí),則確認(rèn)該用戶在這些天的考勤為偽考勤。
[0114]步驟3:掃描步驟I得到的有排序時(shí)序流數(shù)據(jù),同時(shí)利用步驟2構(gòu)建的偽考勤檢測(cè)模型,針對(duì)每一個(gè)用戶,檢測(cè)其具有偽考勤嫌疑的次數(shù)F。
[0115]步驟4:掃描所有用戶,當(dāng)用戶的偽考勤嫌疑次數(shù)F>f時(shí),則認(rèn)為該用戶具有頻繁的偽考勤行為。
[0116]步驟5:記錄所有具有頻繁偽考勤行為的用戶,將其定義為“偽考勤用戶集” Uf。
[0117]步驟6:求得“偽考勤優(yōu)秀用戶集”為Uf H U*。
[0118]4.“代考勤”異常行為檢測(cè)模塊
[0119]通過頻繁模式挖掘以及關(guān)聯(lián)分析,能夠發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的代考勤行為。如圖11所示,具體步驟為:
[0120]步驟1:指定“挖掘數(shù)據(jù)集”為預(yù)處理得到的時(shí)序橫行數(shù)據(jù)集。
[0121]步驟2:設(shè)置一個(gè)頻率計(jì)數(shù)器矩陣K,其尺寸等于用戶數(shù)目N。其中K(i,i)代表用戶i在時(shí)序橫行數(shù)據(jù)集中的出現(xiàn)頻率(即用戶i所存在的橫行數(shù)目),K(i,j)代表用戶i和用戶j在時(shí)序橫行數(shù)據(jù)及中同時(shí)出現(xiàn)的頻率(即用戶i和用戶j所同時(shí)存在的橫行數(shù)目)。
[0122]步驟3:設(shè)置一個(gè)關(guān)系矩陣R,其尺寸等于N。其中R(i,j)代表用戶i和用戶j之間的關(guān)系值:關(guān)系值越大,代表用戶之間的“代刷卡”行為越頻繁)。
[0123]步驟4:對(duì)挖掘數(shù)據(jù)集進(jìn)行逐行掃描。每掃描一行,更新計(jì)數(shù)器矩陣K。
[0124]步驟5:針對(duì)所有用戶U,利用用戶之間的支持度(support)和置信度(confidence)計(jì)算任意用戶i和用戶j之間的關(guān)系值R(i, j)。關(guān)系值計(jì)算公式如下:
[0125]
【權(quán)利要求】
1.一種基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于包括:考勤數(shù)據(jù)預(yù)處理模塊、考勤綜合量化評(píng)級(jí)模塊、偽考勤異常行為檢測(cè)模塊、代考勤異常行為檢測(cè)模塊、潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊和考勤行為的異常預(yù)警模塊;其中: 考勤數(shù)據(jù)預(yù)處理模塊,通過正規(guī)化以及時(shí)序關(guān)聯(lián)識(shí)別處理,將輸入的原始考勤數(shù)據(jù)集轉(zhuǎn)化成后續(xù)分析所需要的目標(biāo)數(shù)據(jù)集,所述目標(biāo)數(shù)據(jù)集包括時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集;所述正規(guī)化處理將原始考勤數(shù)據(jù)轉(zhuǎn)化成表格形式的時(shí)序流數(shù)據(jù)集,表格每一行記錄稱作一條“流”,包含用戶名、刷卡時(shí)間、刷卡地點(diǎn)、刷卡狀態(tài)信息;所述時(shí)序關(guān)聯(lián)識(shí)別處理將時(shí)序流數(shù)據(jù)集轉(zhuǎn)化成CSV(Comma Separated Values:逗號(hào)分隔值)文件結(jié)構(gòu)的時(shí)序橫行數(shù)據(jù)集,所述橫行數(shù)據(jù)中的每一橫行代表一個(gè)連續(xù)的行為序列,即一個(gè)較短時(shí)間段內(nèi)的密集刷卡行為;所述橫行記錄了連續(xù)行為序列所發(fā)生的時(shí)間或時(shí)間戳,以及同時(shí)發(fā)生的多個(gè)流; 考勤綜合量化評(píng)級(jí)模塊,通過統(tǒng)計(jì)方法對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行處理,得到用戶整體考勤模式以及用戶考勤多指標(biāo)得分;所述用戶整體考勤模式分為時(shí)序模式和空間模式,即通過時(shí)序統(tǒng)計(jì)得到用戶的整體考勤時(shí)序模式,通過空間統(tǒng)計(jì)得到用戶的整體考勤空間模式;所述多指標(biāo)得分是指通過統(tǒng)計(jì)分析得到用戶考勤綜合得分,對(duì)每個(gè)用戶的考勤行為進(jìn)行量化評(píng)級(jí),最終得到“考勤優(yōu)秀用戶”; 考勤異常行為檢測(cè)模塊,所述考勤異常行為檢測(cè)包括“偽考勤”異常行為檢測(cè)和“代考勤”異常行為檢測(cè),所述“偽考勤”異常行為檢測(cè)是通過構(gòu)建偽考勤檢測(cè)模型,對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的偽考勤行為即刷卡之后沒有進(jìn)入工作場(chǎng)所開展正常工作,而是立即離開工作場(chǎng)所;所述“代考勤”異常行為檢測(cè)是通過頻繁模式和關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法,對(duì)時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集進(jìn)行挖掘分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的代考勤行為,即某一用戶U1的刷卡考勤行為不是由自己完成,而是由其他用戶U2代勞,表現(xiàn)在仏和U2的考勤時(shí)間間隔非常短,可以認(rèn)為是同一個(gè)用戶的考勤行為; 潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊,通過基于可視化場(chǎng)景圖的數(shù)據(jù)挖掘方法,探測(cè)基于考勤行為的用戶潛在社交網(wǎng)絡(luò);再利用可視化人機(jī)交互的方式修正所生成的社交網(wǎng)絡(luò),便于從網(wǎng)絡(luò)中捕獲易于人理解的用戶間潛在關(guān)系; 考勤行為異常預(yù)警模塊,通過建立考勤行為多元回歸預(yù)測(cè)模型,對(duì)異??记谛袨檫M(jìn)行預(yù)警,使得決策者能夠根據(jù)預(yù)警及時(shí)做出決策響應(yīng)結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述考勤數(shù)據(jù)預(yù)處理模塊中時(shí)序關(guān)聯(lián)識(shí)別處理的具體方法步驟如下: (1)將預(yù)處理得到的時(shí)序流數(shù)據(jù)集按刷卡時(shí)間進(jìn)行升序排序,得到“有序時(shí)序流數(shù)據(jù)集”; (2)設(shè)定一個(gè)時(shí)間段閾值tmin用以判斷兩條流是否同時(shí)發(fā)生,即兩次刷卡處于同一個(gè)較短時(shí)間段內(nèi);同時(shí)設(shè)定一個(gè)時(shí)間戳標(biāo)志和流數(shù)組,用以保存橫行的時(shí)間戳和每條流;
(3)逐條掃描有序時(shí)序流數(shù)據(jù)集,判斷本條流的發(fā)生時(shí)間與上條流的發(fā)生時(shí)間之差是否小于tmin,如果滿足該條件,將該兩條流保存至流數(shù)組;并在時(shí)間戳標(biāo)志為空的條件下,將上條流的發(fā)生時(shí)間保存至?xí)r間戳標(biāo)志,此時(shí)時(shí)間戳標(biāo)志不再為空;如果不滿足該條件,則在時(shí)間戳標(biāo)志不為空的情況下,將時(shí)間戳標(biāo)志和流數(shù)組按照橫行格式輸出至?xí)r序橫行數(shù)據(jù)集;同時(shí),清空時(shí)間戳標(biāo)志和流數(shù)組;(4)反復(fù)執(zhí)行步驟(3),直至?xí)r序流數(shù)據(jù)集掃描完畢,獲得時(shí)序橫行數(shù)據(jù)集。
3.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述通過時(shí)序統(tǒng)計(jì)能夠得到用戶的整體考勤時(shí)序模式為: (1)設(shè)置一個(gè)時(shí)間窗,窗口寬度為Win,在時(shí)間軸上逐步滑動(dòng)時(shí)間窗; (2)每滑動(dòng)一次,循環(huán)掃描時(shí)序流數(shù)據(jù),統(tǒng)計(jì)落在該時(shí)間窗內(nèi)的流的數(shù)目; (3)滑動(dòng)時(shí)間窗從O點(diǎn)到23點(diǎn)59分59秒,重復(fù)執(zhí)行步驟(2),獲得考勤數(shù)據(jù)在一天內(nèi)各個(gè)時(shí)間段的時(shí)序序列; (4)調(diào)整Win大小,獲得不同粒度的時(shí)序序列,并通過對(duì)該序列進(jìn)行可視化展示,即獲知用戶的整體考勤時(shí)序模式。
4.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述通過空間統(tǒng)計(jì)能夠得到用戶的整體考勤空間模式實(shí)現(xiàn)為: (1)掃描時(shí)序流數(shù)據(jù),統(tǒng)計(jì)不同刷卡地點(diǎn)的流的數(shù)目,可獲得考勤數(shù)據(jù)的整體空間分 布; (2)通過對(duì)該分布進(jìn)行可視化展示,即獲知用戶的整體考勤空間模式。
5.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述通過統(tǒng)計(jì)分析得到用戶考勤多指標(biāo)得分實(shí)現(xiàn)為: (1)將時(shí)序流數(shù)據(jù)集按“用戶名一刷卡時(shí)間”進(jìn)行升序排序,得到“〈用戶,時(shí)間〉有序時(shí)序流數(shù)據(jù)集”; (2)逐行掃描〈用戶,時(shí)間〉有序時(shí)序流數(shù)據(jù)集,將用戶相同并且日期相同的多條相鄰流進(jìn)行篩選:只保留首尾兩條流,作為與考勤得分相關(guān)的有效流數(shù)據(jù);最終得到“考勤相關(guān)時(shí)序流數(shù)據(jù)集”; (3)針對(duì)考勤相關(guān)時(shí)序流數(shù)據(jù)集,將數(shù)據(jù)集按用戶、按日期進(jìn)行劃分,每個(gè)用戶每一天的流數(shù)據(jù)作為一個(gè)“劃分單元”; (4)針對(duì)每一個(gè)劃分單元,進(jìn)行考勤得分多維量化評(píng)級(jí),最終得到每個(gè)用戶每一天的考勤得分S ; (5)將每個(gè)用戶的所有劃分單元的得分S進(jìn)行加權(quán)平均,得到該用戶的考勤綜合得分S氺; (6)將所有用戶U按照S*進(jìn)行降序排序,提取前M個(gè)用戶作為“考勤優(yōu)秀用戶集”U*。
6.根據(jù)權(quán)利要求5所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述步驟4中考勤得分多維量化評(píng)級(jí)方法如下: 步驟4 一 1:設(shè)定主考核指標(biāo)為:上班得分、下班得分、晚加班得分;主考核指標(biāo)分別依考核權(quán)重給定滿分分值,例如上班和下班得分滿分50分,及格30分;晚加班得分滿分50分,及格O分; 步驟4 一 2:根據(jù)前文所定義的考勤管理制度,設(shè)定主考核指標(biāo)量化曲線,所述曲線包括上班得分曲線Cur1、下班得分曲線Cur2以及晚加班得分曲線CuivCur1Xur2和Cur3均包含3個(gè)拐點(diǎn):T,P,Z,其中T代表滿分點(diǎn),P代表及格分點(diǎn)即考勤管理制度中的“有效考勤時(shí)間”,Z代表零分點(diǎn);Cur2在形態(tài)上與Cur1呈鏡像對(duì)稱關(guān)系;Cur3則在形態(tài)上與Cur2 —致,唯一區(qū)別在于P點(diǎn)等于Z點(diǎn),即沒有二次衰減區(qū)間; 步驟4 一 3:參照主考核指標(biāo)量化曲線CUr1、Cur2和Cur3,可以得到不同用戶不同日期的主考核得分S,具體實(shí)現(xiàn)為:將每一個(gè)劃分單元中的第一條流對(duì)應(yīng)Cur1,求出上班得分S1 ;將劃分單元中的第二條流對(duì)應(yīng)Cur2和Cur3,求出下班得分S2和晚加班得分S3 ;S =Si+S2+S3 ; 步驟5 — 1:將不同用戶的主考核得分S除以該用戶的考勤日期數(shù)目,得到該用戶的主考核平均得分、 步驟5 — 2:設(shè)定補(bǔ)充考核指標(biāo)為:遲到率1、早退率e、缺勤率a以及非工作日加班率O,其中I為(S1小于上班及格分 > 的天數(shù)占考勤總天數(shù)的比例;e為<S2小于下班及格分>的天數(shù)占考勤總天數(shù)的比例;3為(SJS2 = O〉的天數(shù)占考勤總天數(shù)的比例;0為(S1不小于上班及格分且S2不小于下班及格分 > 的天數(shù)占考勤總天數(shù)的比例; 步驟5 — 3:按照如下公式計(jì)算得到每個(gè)用戶的考勤綜合得分S*:
7.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述“偽考勤”異常行為檢測(cè)具體實(shí)現(xiàn)如下: (1)將考勤數(shù)據(jù)預(yù)處理模塊預(yù)處理得到的時(shí)序流數(shù)據(jù)集按“用戶名、刷卡時(shí)間”進(jìn)行升序排序; (2)構(gòu)建偽考勤檢測(cè)模型,所述模型包含兩個(gè)時(shí)間段的檢測(cè):時(shí)間段A和時(shí)間段B,時(shí)間段A代表考勤時(shí)間點(diǎn)之前;時(shí)間段B代表考勤時(shí)間點(diǎn)之后;將考勤地點(diǎn)分為兩類:工作地點(diǎn)與其他地點(diǎn),在其他地點(diǎn)刷卡僅證明該次刷卡是有效考勤,但只有在工作地點(diǎn)刷卡才是真正進(jìn)入了工作場(chǎng)所正常工作;該模型提供一個(gè)頻繁度閾值f,如果某一用戶在時(shí)間段A刷卡簽到,同時(shí)在同一天的時(shí)間段B進(jìn)入工作場(chǎng)所,則認(rèn)為具有偽考勤的嫌疑,當(dāng)用戶具有偽考勤嫌疑的次數(shù)F即天數(shù)大于f時(shí),則確認(rèn)該用戶在這些天的考勤為偽考勤; (3)掃描步驟(1)得到的有排序時(shí)序流數(shù)據(jù),利用步驟(2)構(gòu)建的偽考勤檢測(cè)模型,針對(duì)每一個(gè)用戶,檢測(cè)其具有偽考勤嫌疑的次數(shù)F ; (4)掃描所有用戶,當(dāng)用戶的偽考勤嫌疑次數(shù)F>f時(shí),則認(rèn)為該用戶具有頻繁的偽考勤行為; (5)記錄所有具有頻繁偽考勤行為的用戶,將其定義為“偽考勤用戶集”Uf; (6)求得“偽考勤優(yōu)秀用戶集”為ufn u*,Uf η U*代表“偽考勤用戶集”與“考勤優(yōu)秀用戶集”的交集,其中U*代表“考勤優(yōu)秀用戶集”。
8.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述“代考勤”異常行為檢測(cè)具體實(shí)現(xiàn)如下: (1)指定“挖掘數(shù)據(jù)集”為權(quán)利要求1預(yù)處理得到的時(shí)序橫行數(shù)據(jù)集; (2)設(shè)置一個(gè)頻率計(jì)數(shù)器矩陣K,其尺寸等于用戶數(shù)目N,其中K(i,i)代表用戶i在時(shí)序橫行數(shù)據(jù)集中的出現(xiàn)頻率,即用戶i所存在的橫行數(shù)目,K(i,j)代表用戶i和用戶j在時(shí)序橫行數(shù)據(jù)及中同時(shí)出現(xiàn)的頻率,即用戶i和用戶j所同時(shí)存在的橫行數(shù)目; (3)設(shè)置一個(gè)關(guān)系矩陣R,其尺寸等于N,其中R(i,j)代表用戶i和用戶j之間的關(guān)系值:關(guān)系值越大,代表用戶之間的“代刷卡”行為越頻繁; (4)對(duì)挖掘數(shù)據(jù)集進(jìn)行逐行掃描。每掃描一行,更新計(jì)數(shù)器矩陣K;(5)針對(duì)所有用戶U,利用用戶之間的支持度(support)和置信度(confidence)計(jì)算任意用戶i和用戶j之間的關(guān)系值R (i, j),關(guān)系值計(jì)算公式如下:
9.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊中通過基于可視化場(chǎng)景圖的數(shù)據(jù)挖掘方法,探測(cè)基于考勤行為的用戶潛在社交網(wǎng)絡(luò)的實(shí)現(xiàn)為: (1)構(gòu)建聚類,針對(duì)代考勤用戶集^,將該用戶集中關(guān)系值R(i,j)大于關(guān)系閾值r的用戶對(duì)用黑實(shí)線連接,形成若干個(gè)關(guān)系聚類C,每個(gè)關(guān)系聚類可以看作是一個(gè)用戶集團(tuán),集團(tuán)內(nèi)部的用戶關(guān)系緊密,存在頻繁的代考勤現(xiàn)象; (2)從剩余用戶(U-Ur)中發(fā)現(xiàn)“局部潛在代考勤用戶”Uk; 局部潛在代考勤用戶代表著這樣一類用戶u1:雖然和其他任意單個(gè)用戶u之間沒有緊密的關(guān)系(R(Ul,u) < r),但是和某一個(gè)聚類Ci具有一定的關(guān)系
10.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述潛在社交網(wǎng)絡(luò)發(fā)現(xiàn)模塊利用可視化人機(jī)交互的方式修正所生成的社交網(wǎng)絡(luò)實(shí)現(xiàn)為: (1)反復(fù)調(diào)整頻繁關(guān)系閾值r,并通過生成的聚類的尺寸和數(shù)目的變化來更新潛在關(guān)系網(wǎng)絡(luò)G,直至結(jié)果易于人理解; (2)反復(fù)調(diào)整局部潛在關(guān)系閾值r',并通過所發(fā)現(xiàn)的U1。以及R1。的變化來更新潛在關(guān)系網(wǎng)絡(luò)G,直至結(jié)果易于人理解; (3)反復(fù)調(diào)整全局潛在關(guān)系閾值r",并通過所發(fā)現(xiàn)的Ug。以及Rg。的變化來更新潛在關(guān)系網(wǎng)絡(luò)G,直至結(jié)果易于人理解。
11.根據(jù)權(quán)利要求1所述的基于磁卡考勤行為的用戶數(shù)據(jù)處理系統(tǒng),其特征在于:所述考勤行為異常預(yù)警模塊的具體實(shí)現(xiàn)為: (1)指定多元回歸預(yù)測(cè)模型的自變量:工作日、天氣; (2)指定預(yù)測(cè)模型的因變量:考勤時(shí)間,包括上班時(shí)間和下班時(shí)間; (3)針對(duì)每一名用戶,通過多元線性回歸方法,以歷史考勤數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),構(gòu)建考勤時(shí)間預(yù)測(cè)模型;所述模型輸出包括上述自變量即當(dāng)天的工作日和天氣,輸出包括上述因變量即當(dāng)天的考勤時(shí)間預(yù)測(cè)值Tp及其均方差σ ; (4)針對(duì)每名用戶設(shè)置一個(gè)異??记谟?jì)數(shù)器Ca以及一個(gè)異常偏離變量A; (5)針對(duì)每名用戶,每天將上述自變量輸入各自的預(yù)測(cè)模型,并將其輸出結(jié)果與考勤相關(guān)時(shí)序流數(shù)據(jù)集中的真實(shí)考勤時(shí)間I;作比較,如果I;偏離預(yù)測(cè)的考勤正常區(qū)間[Τρ_σ,Τρ+σ],則 Ca 加 1,A= Tr-Tp ; (6)當(dāng)某名用戶的Ca大于預(yù)先設(shè)定的閾值Camax時(shí),或者A大于預(yù)先設(shè)定的閾值A(chǔ)max時(shí),則發(fā)出報(bào)警。
12.一種基于磁卡考勤的用戶數(shù)據(jù)處理方法,其特征在于實(shí)現(xiàn)步驟如下: (1)通過正規(guī)化以及時(shí)序關(guān)聯(lián)識(shí)別處理,將輸入的原始考勤數(shù)據(jù)集轉(zhuǎn)化成后續(xù)分析所需要的目標(biāo)數(shù)據(jù)集,所述目標(biāo)數(shù)據(jù)集包括時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集;所述正規(guī)化處理將原始考勤數(shù)據(jù)轉(zhuǎn)化成表格形式的時(shí)序流數(shù)據(jù)集,表格每一行記錄稱作一條“流”,包含用戶名、刷卡時(shí)間、刷卡地點(diǎn)、刷卡狀態(tài)信息;所述時(shí)序關(guān)聯(lián)識(shí)別處理將時(shí)序流數(shù)據(jù)集轉(zhuǎn)化成CSV文件結(jié)構(gòu)的時(shí)序橫行數(shù)據(jù)集,所述橫行數(shù)據(jù)中的每一橫行代表一個(gè)連續(xù)的行為序列,即一個(gè)較短時(shí)間段內(nèi)的密集刷卡行為;所述橫行記錄了連續(xù)行為序列所發(fā)生的時(shí)間或時(shí)間戳,以及同時(shí)發(fā)生的多個(gè)流; (2)通過統(tǒng)計(jì)方法對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行處理,得到用戶整體考勤模式以及用戶考勤多指標(biāo)得分;所述用戶整體考勤模式分為時(shí)序模式和空間模式,即通過時(shí)序統(tǒng)計(jì)得到用戶的整體考勤時(shí)序模式,通過空間統(tǒng)計(jì)得到用戶的整體考勤空間模式;所述多指標(biāo)得分是指通過統(tǒng)計(jì)分析得到用戶考勤綜合得分,對(duì)每個(gè)用戶的考勤行為進(jìn)行量化評(píng)級(jí),最終得到“考勤優(yōu)秀用戶”; (3)考勤異常行為檢測(cè),所述考勤異常行為檢測(cè)包括“偽考勤”異常行為檢測(cè)和“代考勤”異常行為檢測(cè),所述“偽考勤”異常行為檢測(cè)是通過構(gòu)建偽考勤檢測(cè)模型,對(duì)時(shí)序流數(shù)據(jù)集進(jìn)行分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的偽考勤行為即刷卡之后沒有進(jìn)入工作場(chǎng)所開展正常工作,而是立即離開工作場(chǎng)所;所述“代考勤”異常行為檢測(cè)是通過頻繁模式和關(guān)聯(lián)分析的數(shù)據(jù)挖掘方法,對(duì)時(shí)序流數(shù)據(jù)集以及時(shí)序橫行數(shù)據(jù)集進(jìn)行挖掘分析,發(fā)現(xiàn)用戶考勤數(shù)據(jù)中的代考勤行為,即某一用戶U1的刷卡考勤行為不是由自己完成,而是由其他用戶U2代勞,表現(xiàn)在仏和U2的考勤時(shí)間間隔非常短,可以認(rèn)為是同一個(gè)用戶的考勤行為; (4)通過基于可視化場(chǎng)景圖的數(shù)據(jù)挖掘方法,探測(cè)基于考勤行為的用戶潛在社交網(wǎng)絡(luò);再利用可視化人機(jī)交互的方式修正所生成的社交網(wǎng)絡(luò),便于從網(wǎng)絡(luò)中捕獲易于人理解的用戶間潛在關(guān)系; (5)通過建立考勤行為多元回歸預(yù)測(cè)模型,對(duì)異??记谛袨檫M(jìn)行預(yù)警,使得決策者能夠根據(jù)預(yù)警及時(shí)做出決策響應(yīng)結(jié)果。
【文檔編號(hào)】G06Q10/06GK104036360SQ201410277406
【公開日】2014年9月10日 申請(qǐng)日期:2014年6月19日 優(yōu)先權(quán)日:2014年6月19日
【發(fā)明者】王浩, 張晨, 徐帆江, 王微, 呂品 申請(qǐng)人:中國(guó)科學(xué)院軟件研究所