基于文本履歷信息的信息可視化方法及智能可視分析系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于文本履歷信息的信息可視化方法及智能可視分析系統(tǒng)。本方法為:1)對(duì)每一文本履歷信息中的經(jīng)歷信息,進(jìn)行經(jīng)歷等級(jí)量化計(jì)算,得到成長(zhǎng)軌跡序列數(shù)據(jù),并將該數(shù)據(jù)可視化;2)選取多份文本履歷信息的成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算,得到文本履歷間的潛在社交關(guān)系,并將該潛在社交關(guān)系進(jìn)行社交網(wǎng)絡(luò)可視化;3)基于履歷間的潛在社交關(guān)系,將具有單位交集的履歷轉(zhuǎn)化成相應(yīng)人員所在單位的組織層級(jí)關(guān)系,并將該組織層級(jí)關(guān)系進(jìn)行組織機(jī)構(gòu)可視化。本發(fā)明通過(guò)數(shù)據(jù)挖掘與信息可視化技術(shù)能夠獲得履歷所代表的個(gè)人的時(shí)空成長(zhǎng)經(jīng)歷,發(fā)現(xiàn)人員之間的潛在社交關(guān)系,還原出人員間的組織層級(jí)關(guān)系,從而獲得群體成長(zhǎng)模式及社交關(guān)系的深層次認(rèn)知。
【專利說(shuō)明】基于文本履歷信息的信息可視化方法及智能可視分析系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,涉及一種基于文本履歷信息的智能可視分析系 統(tǒng)及信息可視化方法。
【背景技術(shù)】
[0002] 履歷信息是一種總結(jié)個(gè)人經(jīng)歷的信息,它存在于履歷數(shù)據(jù)中,主要包括個(gè)人基本 信息以及個(gè)人經(jīng)歷資料的簡(jiǎn)要說(shuō)明。個(gè)人基本信息包括姓名、性別、出生年月、民族、教育程 度、政治面貌、宗教信仰、主要家庭成員、主要社會(huì)關(guān)系、婚姻與個(gè)人健康狀況等。個(gè)人經(jīng)歷 作為履歷的重要內(nèi)容通常包括個(gè)人過(guò)去的學(xué)習(xí)經(jīng)歷、任職經(jīng)歷等。
[0003] 個(gè)人履歷數(shù)據(jù)作為人員測(cè)評(píng)的重要依據(jù),它從多個(gè)方面反映了個(gè)人過(guò)去的行為以 及當(dāng)前的能力。履歷分析基于履歷數(shù)據(jù)所體現(xiàn)出來(lái)的人員過(guò)去的行為來(lái)預(yù)測(cè)將來(lái)的行為, 從而廣泛應(yīng)用于各企事業(yè)單位的人事選拔與招聘,政府部門的干部考核與管理,以及科技 人才流動(dòng)研究與評(píng)價(jià)。
[0004] 隨著信息技術(shù)的不斷發(fā)展,近年來(lái)電子履歷數(shù)據(jù)呈爆炸方式增長(zhǎng)與傳播。電子履 歷從來(lái)源上劃分主要包括:①存在于互聯(lián)網(wǎng)上的公開履歷;②存在于各企事業(yè)單位以及人 才招聘系統(tǒng)中的非公開履歷。此外,電子履歷從形態(tài)上劃分可以分為結(jié)構(gòu)化履歷和非結(jié)構(gòu) 化履歷兩種:①結(jié)構(gòu)化履歷。通常為表格形式,來(lái)源于人事招聘系統(tǒng)或單位內(nèi)部的管理系 統(tǒng),其履歷結(jié)構(gòu)較規(guī)范且固定,便于統(tǒng)一管理。但是,結(jié)構(gòu)化履歷因其結(jié)構(gòu)固定且擴(kuò)展性較 弱,很難對(duì)其進(jìn)行基于語(yǔ)義的深層次分析。②非結(jié)構(gòu)化履歷。通常為文本形式,其來(lái)源較廣, 例如互聯(lián)網(wǎng)各大新聞?wù)军c(diǎn)或社交媒體。非結(jié)構(gòu)化履歷結(jié)構(gòu)多樣,不便于統(tǒng)一分析與管理。但 是,非結(jié)構(gòu)化履歷因其以文本作為載體,其中往往蘊(yùn)含豐富的語(yǔ)義信息,故可以對(duì)其進(jìn)行基 于語(yǔ)義的智能分析,例如語(yǔ)義查找與分類等任務(wù)。
[0005] 與此同時(shí),隨著履歷數(shù)據(jù)量的不斷增加,傳統(tǒng)的基于人工的履歷分析方法因其效 率較低,在快速處理大量履歷數(shù)據(jù)的任務(wù)中往往顯得力不從心。因此,依靠計(jì)算機(jī)強(qiáng)大處理 能力的履歷分析系統(tǒng)(CurriculumVitaeAnalysisSystem,CVAS)應(yīng)運(yùn)而生。CVAS主要 針對(duì)結(jié)構(gòu)化履歷數(shù)據(jù)進(jìn)行自動(dòng)化的履歷分析與管理。它借助于計(jì)算機(jī)其強(qiáng)大的處理與分析 能力,能夠基于履歷數(shù)據(jù)快速過(guò)濾不符合要求的履歷,大大提高履歷分析的效率。而且,它 也可以根據(jù)具體應(yīng)用需求,對(duì)履歷數(shù)據(jù)進(jìn)行定量分析與科學(xué)評(píng)估,使得履歷分析結(jié)構(gòu)更加 合理可靠。所以,近年來(lái)CVAS越來(lái)越受到企事業(yè)單位人事管理部門的重視,被廣泛地用于 人員選拔等人事資源管理活動(dòng)中。
[0006] 綜上所述,履歷分析技術(shù)的發(fā)展經(jīng)歷了最初的手工分析技術(shù),到互聯(lián)網(wǎng)時(shí)代下的 計(jì)算機(jī)自動(dòng)分析技術(shù)。尤其是近年來(lái)出現(xiàn)的CVAS,運(yùn)用計(jì)算機(jī)強(qiáng)大處理能力極大地提高了 履歷分析的效率,得到了各領(lǐng)域的廣泛應(yīng)用。
[0007] 但是,現(xiàn)有CVAS依然存在著如下不足之處:(1)當(dāng)前系統(tǒng)不適用于針對(duì)非結(jié)構(gòu)化 履歷數(shù)據(jù)的分析。非結(jié)構(gòu)化履歷通常為純文本形式存儲(chǔ)(例如tXt、w〇rd、pdf等形式),格 式不統(tǒng)一且變化較大,很難直接應(yīng)用于當(dāng)前的CVAS。換句話說(shuō),當(dāng)前CVAS缺乏將非結(jié)構(gòu)化 履歷轉(zhuǎn)化為結(jié)構(gòu)化履歷的能力。(2)當(dāng)前系統(tǒng)的分析能力主要體現(xiàn)在簡(jiǎn)單規(guī)則下的定性分 析與定量計(jì)算(例如履歷篩選與打分)以及統(tǒng)計(jì)管理方面(例如生成履歷信息報(bào)表),而忽 略了對(duì)于履歷中所蘊(yùn)含的潛在模式的智能挖掘以及直觀可視分析,尤其是忽略了從履歷中 挖掘出個(gè)人成長(zhǎng)模式以及對(duì)于成長(zhǎng)模式的直觀可視化,從而無(wú)法幫助用戶完成一些復(fù)雜任 務(wù),例如基于語(yǔ)義的履歷查找與分類、人事任免推薦、職業(yè)生涯規(guī)劃等。(3)當(dāng)前系統(tǒng)僅針對(duì) 單個(gè)履歷進(jìn)行孤立分析,而忽視了履歷之間的關(guān)聯(lián)性。履歷間的潛在關(guān)聯(lián)能夠反映人員之 間的潛在社交關(guān)系,該關(guān)系由個(gè)人的潛在經(jīng)歷交集產(chǎn)生,例如同學(xué)、同事、同鄉(xiāng)、戰(zhàn)友、合作 者、競(jìng)爭(zhēng)對(duì)手等關(guān)系。基于該關(guān)系能夠還原并構(gòu)建出人員之間的潛在社交網(wǎng)絡(luò),該網(wǎng)絡(luò)對(duì)于 履歷的科學(xué)管理、用戶掌握人員間的潛在社會(huì)關(guān)聯(lián)、發(fā)現(xiàn)人員間的組織機(jī)構(gòu)層級(jí)關(guān)系從而 獲得深層次認(rèn)知能夠起到促進(jìn)作用。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明技術(shù)解決的問(wèn)題:克服現(xiàn)有方法與系統(tǒng)的不足,提供一種基于文本履歷信 息的智能可視分析系統(tǒng)及信息可視化方法,充分利用履歷數(shù)據(jù)中的潛在模式信息,基于自 然語(yǔ)言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及信息可視化技術(shù)構(gòu)建履歷信息可視分析環(huán)境,幫助用 戶理解履歷中的潛在成長(zhǎng)模式及履歷間的潛在關(guān)聯(lián)信息,從而為基于語(yǔ)義的履歷查找與分 類、人事任免推薦、職業(yè)生涯規(guī)劃以及人際關(guān)系把握等任務(wù)提供支持。該發(fā)明技術(shù)為通用框 架,旨在發(fā)現(xiàn)履歷數(shù)據(jù)中所蘊(yùn)含的潛在成長(zhǎng)模式以及人員間的潛在社交關(guān)系,并將這些模 式特征以及社交關(guān)系以直觀的可視化方式加以表達(dá)。它可以廣泛應(yīng)用于職員履歷、干部履 歷、企業(yè)高管履歷以及科研人員履歷的智能挖掘及信息可視化領(lǐng)域。
[0009] 本發(fā)明技術(shù)解決方案:一種基于文本履歷信息的智能可視分析系統(tǒng),包括:文本 履歷預(yù)處理模塊;個(gè)人成長(zhǎng)經(jīng)歷量化模塊;個(gè)人成長(zhǎng)模式挖掘模塊;群體潛在社交關(guān)系挖 掘模塊;組織機(jī)構(gòu)生成模塊;履歷信息可視化模塊;履歷可視分析模塊。其中:
[0010] 文本履歷預(yù)處理模塊。該模塊將非結(jié)構(gòu)化的文本履歷數(shù)據(jù)進(jìn)行預(yù)處理,抽取履歷 信息中的有效要素(包括個(gè)人基本信息以及經(jīng)歷信息),得到結(jié)構(gòu)化的履歷要素XML數(shù)據(jù) (ExtensibleMarkupLanguage,可擴(kuò)展標(biāo)記語(yǔ)言)。該模塊借助自然語(yǔ)言處理技術(shù)將格式 不統(tǒng)一的多源履歷文本轉(zhuǎn)化為具有統(tǒng)一結(jié)構(gòu)的履歷要素?cái)?shù)據(jù),為后續(xù)模塊的處理提供了數(shù) 據(jù)基礎(chǔ)。
[0011] 個(gè)人成長(zhǎng)經(jīng)歷量化模塊。該模塊針對(duì)履歷要素中的經(jīng)歷信息,進(jìn)行經(jīng)歷等級(jí)的量 化計(jì)算,從而得到成長(zhǎng)軌跡序列數(shù)據(jù)。該模塊利用自然語(yǔ)言處理技術(shù)將履歷要素中的經(jīng)歷 信息量化為等級(jí)信息,為后續(xù)模塊的挖掘及可視化提供了基礎(chǔ)。
[0012] 個(gè)人成長(zhǎng)模式挖掘模塊。該模塊利用機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘技術(shù),對(duì)成長(zhǎng)軌跡序 列數(shù)據(jù)進(jìn)行時(shí)間維度以及空間維度的類型分析,得到履歷的時(shí)空成長(zhǎng)模式。
[0013] 群體潛在社交關(guān)系挖掘模塊。該模塊利用數(shù)據(jù)挖掘中的關(guān)聯(lián)算法,對(duì)多份履歷的 成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算,得到履歷間的潛在社交關(guān)系(例如同學(xué)、同事、同鄉(xiāng)、戰(zhàn) 友、合作者、競(jìng)爭(zhēng)對(duì)手等關(guān)系)。
[0014] 組織機(jī)構(gòu)生成模塊。該模塊以多份履歷所代表群體的潛在社交關(guān)系為基礎(chǔ),能夠 從群體的單位交集信息中提取并還原出組織機(jī)構(gòu)的層級(jí)信息。
[0015] 履歷信息可視化模塊。該模塊以一種基于文本履歷信息的信息可視化方法為基 礎(chǔ),借助可視化隱喻手段,將前面提及的履歷成長(zhǎng)軌跡序列數(shù)據(jù)以及各挖掘模塊所輸出的 挖掘結(jié)果轉(zhuǎn)化成直觀易于理解的信息可視化圖。所生成的可視化圖能夠幫助用戶快速掌握 履歷數(shù)據(jù)的特征以及其中蘊(yùn)含的知識(shí)。
[0016] 履歷可視分析模塊。該模塊基于信息可視化圖構(gòu)建履歷信息可視分析環(huán)境,利用 人機(jī)交互技術(shù)幫助用戶從時(shí)間和空間維度來(lái)理解履歷中的潛在信息及模式特征,從而獲得 深層次的認(rèn)知。
[0017] 一種基于文本履歷信息的信息可視化方法,其實(shí)現(xiàn)步驟為:
[0018] 1.履歷時(shí)空軌跡可視化算法。該算法基于成長(zhǎng)隱喻思想,將履歷中的抽象成長(zhǎng)信 息轉(zhuǎn)化為形象的時(shí)空軌跡可視化表達(dá)。該算法生成的時(shí)空軌跡可視化圖通過(guò)對(duì)成長(zhǎng)軌跡序 列數(shù)據(jù)的可視化,能夠?qū)⒃境橄蟮膫€(gè)人成長(zhǎng)信息以時(shí)空?qǐng)D的方式直觀地表達(dá)出來(lái)。
[0019] 2.履歷潛在社交網(wǎng)絡(luò)可視化算法。該算法基于履歷間的潛在社交關(guān)系,構(gòu)建履歷 社交網(wǎng)絡(luò)可視化表達(dá)。該算法基于挖掘得到的履歷間潛在關(guān)系,構(gòu)建履歷社交網(wǎng)絡(luò)可視化 表達(dá),所生成的潛在關(guān)系圖能夠?qū)⒃境橄蟮穆臍v間潛在關(guān)系以網(wǎng)絡(luò)圖的方式直觀地表達(dá) 出來(lái)。
[0020] 3.履歷組織層級(jí)可視化算法。該算法基于履歷間的潛在社交關(guān)系,構(gòu)建人員所在 單位的組織層級(jí)可視化表達(dá)。該算法從履歷信息中抽取出履歷間的單位交集信息,將具有 單位交集的履歷轉(zhuǎn)化成相應(yīng)單位的組織層級(jí)關(guān)系,并將這種關(guān)系以基于表格結(jié)構(gòu)的組織機(jī) 構(gòu)圖的方式可視化出來(lái)。
[0021] 與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0022] 1.本發(fā)明與傳統(tǒng)方法相比,以非結(jié)構(gòu)化文本形式的履歷數(shù)據(jù)作為數(shù)據(jù)源,基于自 然語(yǔ)言處理技術(shù),通過(guò)履歷結(jié)構(gòu)化要素提取機(jī)制滿足了多源異構(gòu)履歷數(shù)據(jù)的統(tǒng)一處理需 求,大大增強(qiáng)了系統(tǒng)及方法的適用范圍。
[0023] 2.本發(fā)明與傳統(tǒng)方法相比,側(cè)重于對(duì)履歷數(shù)據(jù)中所蘊(yùn)含的潛在模式信息進(jìn)行智能 挖掘,同時(shí)針對(duì)履歷模式信息進(jìn)行深層次的可視分析,能夠得到履歷數(shù)據(jù)中的成長(zhǎng)軌跡模 式與成長(zhǎng)類別模式,從而能夠?qū)σ恍┗谡Z(yǔ)義的履歷查找與分類、人事考核與任免推薦等 履歷信息深層次分析任務(wù)提供支持。
[0024] 3.本發(fā)明與傳統(tǒng)方法相比,創(chuàng)新性地將履歷間的潛在關(guān)聯(lián)引入分析過(guò)程,通過(guò)挖 掘與信息可視化技術(shù)能夠獲得履歷所代表的人員之間的潛在社交關(guān)系?;谠摑撛陉P(guān)系能 夠構(gòu)建一個(gè)人員間的潛在社交網(wǎng)絡(luò)?;谠撋缃痪W(wǎng)絡(luò)能夠還原出人員間的組織層級(jí)關(guān)系, 從而將大量履歷所體現(xiàn)出的模式特征以一個(gè)宏觀視角提供給用戶,從而獲得群體社交關(guān)系 的深層次認(rèn)知。
【專利附圖】
【附圖說(shuō)明】
[0025] 圖1是本發(fā)明組成模塊框圖。
[0026] 圖2系統(tǒng)架構(gòu)圖。
[0027] 圖3是履歷時(shí)間維度成長(zhǎng)軌跡類別定義范例圖,其中:(a)圖為成長(zhǎng)型軌跡圖,(b) 圖為穩(wěn)健型軌跡圖,(C)圖為波動(dòng)型軌跡圖,(d)圖為衰退型軌跡圖。各圖中實(shí)線為個(gè)人成 長(zhǎng)軌跡,虛線為總體樣本的成長(zhǎng)軌跡平均值。
[0028] 圖4是履歷空間維度成長(zhǎng)軌跡類別定義范例圖,其中:(a)圖為"地方一中央"型軌 跡圖,(b)圖為"地方一中央一地方"型軌跡圖,(C)圖為"中央一地方"型軌跡圖,(C)圖為 "中央一地方一地方一中央"型軌跡圖。
[0029] 圖5是個(gè)人成長(zhǎng)軌跡分類結(jié)果示意圖。
[0030] 圖6是群體潛在關(guān)系挖掘結(jié)果展示示意圖,其中:(a)圖為成長(zhǎng)軌跡相似性關(guān)系 圖,(b)圖為經(jīng)歷交集關(guān)系圖。
[0031] 圖7是個(gè)人成長(zhǎng)圖,其中:(a)圖為時(shí)間維度的成長(zhǎng)軌跡圖,(b)圖為空間維度的成 長(zhǎng)軌跡圖。
[0032] 圖8是潛在關(guān)系圖。
[0033] 圖9是組織機(jī)構(gòu)圖。
[0034] 圖10是履歷軌跡的信息統(tǒng)計(jì)分析示意圖。
[0035] 圖11是履歷軌跡的時(shí)空關(guān)聯(lián)交互分析示意圖。其中(a)為時(shí)間軌跡圖,(b)為空 間軌跡圖,且(a)中虛線框所示的經(jīng)歷段與(b)中的虛線箭頭所示的成長(zhǎng)軌跡相對(duì)應(yīng)。
[0036] 圖12是履歷時(shí)空軌跡的模式可視分析示意圖。圖中展示了個(gè)人成長(zhǎng)過(guò)程中所體 現(xiàn)出來(lái)的"成長(zhǎng)期"、"瓶頸期"和"突破期"等模式。以官員升遷為例,"成長(zhǎng)期"代表生涯初 期的快速升遷;"瓶頸期"代表生涯中期遇到了瓶頸,升遷較慢;"突破期"代表生涯末期突 破瓶頸,繼續(xù)升遷。
[0037] 圖13是履歷社交網(wǎng)絡(luò)交互可視分析示意圖。其中(a)為時(shí)間軌跡圖,(b)為空間 軌跡圖,(c)社交網(wǎng)絡(luò)圖。(a)中的虛線框與(b)中的虛線框在時(shí)空維度上相對(duì)應(yīng),且其履 歷交集的具體信息在(c)中顯示。
【具體實(shí)施方式】
[0038] 為了使本發(fā)明的目的、技術(shù)方案和發(fā)明優(yōu)勢(shì)更加清楚明白,以下對(duì)本發(fā)明的實(shí)施 方式做具體介紹。
[0039] 名詞定義
[0040] 人員:履歷所代表的主體,例如企事業(yè)單位員工,政府部門干部,企業(yè)高管以及科 研人員。
[0041] 用戶:系統(tǒng)使用者,通常為決策者,例如領(lǐng)導(dǎo)以及其他企事業(yè)單位管理層人員。
[0042] 履歷:政府部門的干部履歷、企事業(yè)單位的職員履歷、企業(yè)高管履歷、科研人員履 歷、明星履歷等。
[0043] 本發(fā)明所涉及思想、算法以及系統(tǒng)為通用框架,均可以推廣到上述各類型的履歷 數(shù)據(jù)分析任務(wù)中。這里為便于說(shuō)明本
【發(fā)明內(nèi)容】
,以政府部門的"干部履歷"為例進(jìn)行闡述。[0044] 本發(fā)明基于自然語(yǔ)言處理、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和信息可視化技術(shù),構(gòu)建履歷信息 可視分析環(huán)境,可以充分利用文本履歷數(shù)據(jù)中的信息,將履歷信息中對(duì)決策起重要作用的 潛在知識(shí)提取出來(lái),并將這些潛在知識(shí)以基于成長(zhǎng)隱喻的直觀可視化方式進(jìn)行展示,從而 幫助用戶理解履歷所表達(dá)的潛在模式特征及履歷間的潛在關(guān)聯(lián)信息,從而為履歷模糊查找 與智能分類、自動(dòng)人事任免、職業(yè)生涯規(guī)劃以及人際關(guān)系把握等任務(wù)提供支持。
[0045] 如圖1所示,本發(fā)明包括:文本履歷預(yù)處理模塊、個(gè)人成長(zhǎng)經(jīng)歷量化模塊、個(gè)人成 長(zhǎng)模式挖掘模塊、群體潛在社交關(guān)系挖掘模塊、組織機(jī)構(gòu)生成模塊、履歷信息可視化模塊以 及履歷可視分析模塊。本發(fā)明的系統(tǒng)架構(gòu)圖如圖2所示。其中:
[0046] 1.文本履歷預(yù)處理模塊
[0047] 該模塊將非結(jié)構(gòu)化的履歷文本數(shù)據(jù)進(jìn)行預(yù)處理,通過(guò)格式過(guò)濾、中文分詞以及命 名實(shí)體識(shí)別等自然語(yǔ)言處理技術(shù)抽取履歷信息中的有效要素,得到結(jié)構(gòu)化的履歷要素XML 數(shù)據(jù)(ExtensibleMarkupLanguage,可擴(kuò)展標(biāo)記語(yǔ)言)。
[0048]XML數(shù)據(jù)格式按照履歷數(shù)據(jù)的特征設(shè)計(jì)而成。XML數(shù)據(jù)為層級(jí)結(jié)構(gòu),其結(jié)構(gòu)如下所 /Jn〇
[0049]
【權(quán)利要求】
1. 一種基于文本履歷信息的信息可視化方法,其步驟為: 1) 對(duì)每一文本履歷信息中的經(jīng)歷信息,進(jìn)行經(jīng)歷等級(jí)量化計(jì)算,得到成長(zhǎng)軌跡序列數(shù) 據(jù),并將該數(shù)據(jù)進(jìn)行可視化; 2) 選取多份文本履歷信息的成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算,得到文本履歷間的潛在 社交關(guān)系,并將該潛在社交關(guān)系進(jìn)行社交網(wǎng)絡(luò)可視化; 3) 基于履歷間的潛在社交關(guān)系,構(gòu)建人員所在單位的組織層級(jí)可視化表達(dá),將具有單 位交集的履歷轉(zhuǎn)化成相應(yīng)單位的組織層級(jí)關(guān)系,并將該組織層級(jí)關(guān)系進(jìn)行組織機(jī)構(gòu)可視 化。
2. 如權(quán)利要求1所述的方法,其特征在于如果履歷為非結(jié)構(gòu)化文本履歷,則首先將其 轉(zhuǎn)換為結(jié)構(gòu)化的文本履歷信息,其方法為: 1) 對(duì)非結(jié)構(gòu)化文本履歷進(jìn)行格式過(guò)濾,獲得包含履歷信息的純履歷文本; 2) 利用自然語(yǔ)言處理技術(shù)對(duì)純履歷文本進(jìn)行分詞與命名實(shí)體識(shí)別,然后進(jìn)行履歷特征 要素抽取,處理得到包含履歷要素的結(jié)構(gòu)化文本塊; 3) 將包含履歷要素的結(jié)構(gòu)化文本塊進(jìn)行格式轉(zhuǎn)化,形成結(jié)構(gòu)化的文本履歷信息。
3. 如權(quán)利要求2所述的方法,其特征在于所述結(jié)構(gòu)化的文本履歷信息包括:履歷基本 信息和經(jīng)歷信息表;所述履歷基本信息包括姓名、性別、民族和出生地,所述經(jīng)歷信息表為 一個(gè)表結(jié)構(gòu),表頭包含開始時(shí)間、終止時(shí)間、地點(diǎn)、單位、職務(wù)字段。
4. 如權(quán)利要求3所述的方法,其特征在于對(duì)于單位履歷特征要素,采用關(guān)鍵字匹配算 法進(jìn)行履歷特征要素的抽取:首先創(chuàng)建一單位關(guān)鍵詞詞典,所述單位關(guān)鍵詞詞典中每一行 元素包括關(guān)鍵字和輔助關(guān)鍵字兩部分信息,其中,輔助關(guān)鍵字包括R型和L型兩種,多個(gè)輔 助關(guān)鍵字用逗號(hào)相隔;然后利用單位關(guān)鍵詞詞典進(jìn)行單位要素識(shí)別:當(dāng)識(shí)別到了詞典中的 某一關(guān)鍵字,且其右側(cè)無(wú) R型輔助關(guān)鍵字,同時(shí)左側(cè)無(wú) L型輔助關(guān)鍵字時(shí),則識(shí)別成功;反 之,識(shí)別失??;對(duì)于其他履歷特征要素,采取正則表達(dá)式匹配法進(jìn)行履歷特征要素的抽取。
5. 如權(quán)利要求3所述的方法,其特征在于得到所述成長(zhǎng)軌跡序列數(shù)據(jù)的方法為: 1) 對(duì)每一文本履歷信息的經(jīng)歷信息表按照開始時(shí)間字段進(jìn)行升序排序,得到有序經(jīng)歷 信息表; 2) 逐條掃描有序經(jīng)歷信息表中的記錄,從每一條記錄中提取出地點(diǎn)、單位與職務(wù)字段, 并將各個(gè)字段值分別與已有的經(jīng)歷等級(jí)量化庫(kù)進(jìn)行比對(duì)識(shí)別,對(duì)匹配的實(shí)體賦予設(shè)定的量 化量級(jí); 3) 將包含不同量級(jí)大小的經(jīng)歷段集合組成有序序列,得到所述成長(zhǎng)軌跡序列數(shù)據(jù)。
6. 如權(quán)利要求1或5所述的方法,其特征在于所述成長(zhǎng)軌跡序列數(shù)據(jù)為一六元組,即〈 起始時(shí)間,終止時(shí)間,地點(diǎn),單位,職務(wù),量化等級(jí)〉。
7. 如權(quán)利要求1?5任一所述的方法,其特征在于得到所述潛在社交關(guān)系的方法為: 1) 選取η份履歷的成長(zhǎng)軌跡序列數(shù)據(jù),計(jì)算其中任意兩個(gè)履歷Mi與%之間的成長(zhǎng)軌 跡序列數(shù)據(jù)的相似性sim(i,j),得到一相似性矩陣sim ; 2) 掃描矩陣sim,如果sim(i,j) > Stl,則認(rèn)為Mi與%的成長(zhǎng)軌跡具有相似性,Stl為相 似性閾值; 3) 計(jì)算該η份履歷的成長(zhǎng)軌跡序列數(shù)據(jù)中任意兩履歷Mi與%之間的匹配度mch(i, j), 并將二者的經(jīng)歷交集細(xì)節(jié)記錄到一履歷要素交集its (i,j); 4)根據(jù)匹配度mch (i,j),判斷Mi與Mj的成長(zhǎng)經(jīng)歷之間是否具有交集,如果有,則根據(jù) 對(duì)應(yīng)的交集its (i,j)確定Mi與Mj之間的潛在關(guān)系,并且根據(jù)sim(i,j)確定Mi與Mj之間 的密切程度。
8. 如權(quán)利要求7所述的方法,其特征在于計(jì)算該η份履歷的成長(zhǎng)軌跡序列數(shù)據(jù)中任意 兩履歷Mi與Mj之間的匹配度mch(i,j),并將二者的經(jīng)歷交集細(xì)節(jié)記錄到一履歷要素交集 its (i,j)的方法為: 1) 設(shè)置兩個(gè)初始值為〇的計(jì)數(shù)器Ct和(;:Ct代表Mi與%之間進(jìn)行要素比對(duì)的次數(shù): (;代表M i與%要素比對(duì)時(shí)出現(xiàn)相同要素的次數(shù);定義一個(gè)差異要素成分列表err (i,j),其 元素為Mi與%之間不相同的履歷要素;定義一個(gè)履歷要素交集列表its (i,j),其元素為Mi 與%之間相同的履歷要素; 2) 逐項(xiàng)掃描Mi和%的各基本信息要素,每掃描一個(gè)要素,Ct加1 ;同時(shí),針對(duì)任意要素 f,如果其值在Mi和%中相同,則(;加1,并將該要素 f添加至its (i,j);反之,則將該要素 f 添加至 err (i, j); 3) 逐行掃描Mi和Mj的經(jīng)歷信息表,針對(duì)每一行經(jīng)歷段,逐項(xiàng)掃描該經(jīng)歷段所包含的時(shí) 間、地點(diǎn)、單位、職務(wù)字段,且每掃描一個(gè)字段,C t加1 ;同時(shí),針對(duì)任意字段e,如果其值在Mi 和%中相同,則(;加1,并將該要素添加至its (i,j);反之,則將該要素添加至err (i,j); 4) 根據(jù)公式mch (i, j) = Cr/Ct計(jì)算Mi與Mj的匹配度mch (i, j)。
9. 如權(quán)利要求1?5任一所述的方法,其特征在于所述基于履歷間的潛在社交關(guān)系,構(gòu) 建人員所在單位的組織層級(jí)的組織機(jī)構(gòu)生成方法,該方法為: 1) 將所述潛在社交關(guān)系記錄為一矩陣R,矩陣元素 Rij代表履歷Mi和履歷Mj之間的潛 在社受關(guān)系; 2) 建立一組織機(jī)構(gòu)庫(kù)V,用于保存所有的組織機(jī)構(gòu)及其成員信息;其中庫(kù)中元素為樹 狀結(jié)構(gòu),樹的根節(jié)點(diǎn)為組織名稱,葉節(jié)點(diǎn)為成員信息,其具體結(jié)構(gòu)為:〈組織名稱,〈成員1, 職務(wù)1,是否現(xiàn)任〉,〈成員2,職務(wù)2,是否現(xiàn)任 >,…,〈成員m,職務(wù)m,是否現(xiàn)任>> ; 3) 遍歷矩陣R,如果&所代表的履歷Mi和履歷%存在單位交集,則將該單位以及履歷 Mi和履歷Mj保存至該組織機(jī)構(gòu)庫(kù)V ; 4) 將V中的所有元素按照所述樹狀結(jié)構(gòu),采用組織機(jī)構(gòu)可視化方法進(jìn)行可視化表達(dá)。
10. 如權(quán)利要求1或2所述的方法,其特征在于對(duì)每一成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行時(shí)間維度 以及空間維度的類型分析,得到對(duì)應(yīng)文本履歷的時(shí)空成長(zhǎng)模式;其中,得到所述時(shí)空成長(zhǎng)模 式的方法為:首先定義履歷隨時(shí)間變遷的成長(zhǎng)類型和履歷隨空間遷移的成長(zhǎng)類型,并確定 每一成長(zhǎng)類型的特征;其中,隨時(shí)間變遷的成長(zhǎng)類型特征包括:等級(jí)時(shí)間跨度特征和或時(shí) 序成長(zhǎng)斜率特征,根據(jù)履歷中的單位地理位置確定隨空間遷移的成長(zhǎng)類型特征;選取一部 分成長(zhǎng)軌跡序列數(shù)據(jù)作為樣本數(shù)據(jù),根據(jù)確定的成長(zhǎng)類型特征標(biāo)記其成長(zhǎng)類型;利用機(jī)器 學(xué)習(xí)分類器對(duì)樣本數(shù)據(jù)進(jìn)行分類訓(xùn)練,得到分類器模型參數(shù),然后對(duì)未標(biāo)記成長(zhǎng)軌跡序列 數(shù)據(jù)進(jìn)行分類標(biāo)記。
11. 一種基于文本履歷信息的智能可視分析系統(tǒng),其特征在于包括個(gè)人成長(zhǎng)經(jīng)歷量化 模塊、群體潛在社交關(guān)系挖掘模塊、組織機(jī)構(gòu)生成模塊和履歷信息可視化模塊,其中: 個(gè)人成長(zhǎng)經(jīng)歷量化模塊,用于對(duì)履歷要素中的經(jīng)歷信息進(jìn)行經(jīng)歷等級(jí)的量化計(jì)算,得 到成長(zhǎng)軌跡序列數(shù)據(jù); 群體潛在社交關(guān)系挖掘模塊,用于對(duì)多份履歷的成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行關(guān)聯(lián)計(jì)算,得 到履歷間的潛在社交關(guān)系; 組織機(jī)構(gòu)生成模塊,用于以多份履歷所代表群體的潛在社交關(guān)系為基礎(chǔ),從群體的單 位交集信息中提取并還原出組織機(jī)構(gòu)的層級(jí)信息; 履歷信息可視化模塊,用于將履歷的成長(zhǎng)軌跡序列數(shù)據(jù)以及群體潛在社交關(guān)系挖掘模 塊、組織機(jī)構(gòu)生成模塊所輸出的結(jié)果轉(zhuǎn)化成信息可視化圖。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于所述系統(tǒng)還包括文本履歷預(yù)處理模塊和個(gè) 人成長(zhǎng)模式挖掘模塊;其中,文本履歷預(yù)處理模塊,用于將非結(jié)構(gòu)化的文本履歷數(shù)據(jù)進(jìn)行預(yù) 處理,抽取履歷信息中的要素,得到結(jié)構(gòu)化的履歷要素 XML數(shù)據(jù);個(gè)人成長(zhǎng)模式挖掘模塊, 用于對(duì)成長(zhǎng)軌跡序列數(shù)據(jù)進(jìn)行時(shí)間維度以及空間維度的類型分析,得到履歷的時(shí)空成長(zhǎng)模 式。
【文檔編號(hào)】G06Q10/06GK104318340SQ201410496047
【公開日】2015年1月28日 申請(qǐng)日期:2014年9月25日 優(yōu)先權(quán)日:2014年9月25日
【發(fā)明者】王浩, 張晨, 徐帆江, 王微 申請(qǐng)人:中國(guó)科學(xué)院軟件研究所