一種人物畫像與職位匹配的方法及系統(tǒng)的制作方法
【專利說明】
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機及網(wǎng)絡(luò)領(lǐng)域,尤其是一種人物畫像與職位匹配的方法及系統(tǒng)?!尽颈尘凹夹g(shù)】】
[0002]早期在線招聘平臺缺乏對用戶提供個性化推薦的計算能力和技術(shù)手段,將研發(fā)重點放在搜索技術(shù)的提高上:將職位依據(jù)地點、行業(yè)、待遇、學(xué)歷要求、技能要求等等方面劃分為若干個子門類,減小用戶的檢索難度。
[0003]隨著互聯(lián)網(wǎng)的發(fā)展,行業(yè)對用戶體驗愈發(fā)重視,伴隨著計算能力和分詞技術(shù)的提高,在線招聘平臺逐步開始了向個性化推薦的轉(zhuǎn)變;最早的推薦方式依舊是基于檢索,即將用戶信息文本分詞并提取關(guān)鍵詞,然后依據(jù)關(guān)鍵詞對職位庫進行檢索;這種方式其實并沒有改變檢索本質(zhì),僅僅是減輕了用戶的錄入負擔(dān)。
[0004]隨后協(xié)同過濾技術(shù)出現(xiàn),運用對用戶隱性反饋的分析,比如對點擊、收藏、投遞等等行為的記錄,從而挖掘出用戶喜好的職位類型。這一方法也是目前業(yè)界主流的推薦手段之一。該方法同樣有許多弊端,比如冷啟動問題、數(shù)據(jù)稀疏性問題等等;但最大的問題在于完全忽略了用戶的個人信息和職位描述信息。
[0005]后來人們引入數(shù)據(jù)挖掘方法進行人物畫像,包括K-means等聚類方法,在一定程度上改善了用戶基礎(chǔ)信息的提取和整合工作。
[0006]近幾年機器學(xué)習(xí)算法,尤其是深度學(xué)習(xí)算法得到了廣泛的應(yīng)用,包括卷積神經(jīng)網(wǎng)絡(luò)(CNN,ConvoIut 1n neural network)、循環(huán)神經(jīng)網(wǎng)絡(luò)(R麗,Recurrent NeuralNetworks)、主題模型、詞向量等方法,有了新的手段將職位描述的文本和詞語映射到向量空間當(dāng)中,統(tǒng)一的數(shù)學(xué)表征為職位的聚類分析,挖掘更多的深層次信息提供了更多的可能。
[0007]上述需要解釋的術(shù)語包括:人物畫像:從用戶處收集到的個人信息以及社交網(wǎng)絡(luò)信息,經(jīng)過聚類整理,形成一系列的人物屬性特征,并依據(jù)特征分類所得即為人物畫像。機器學(xué)習(xí):機器學(xué)習(xí)是一門研究機器獲取新知識和新技能,并識別現(xiàn)有知識的學(xué)問,強調(diào)用數(shù)據(jù)或以往的經(jīng)驗,以自動優(yōu)化和改進計算機程序和算法性能。聚類分析:聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。深度學(xué)習(xí):深度學(xué)習(xí)是機器學(xué)習(xí)的附屬概念之一,源于人工神經(jīng)網(wǎng)絡(luò)的研究,通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。
[0008]經(jīng)發(fā)明人進一步研究發(fā)現(xiàn),在現(xiàn)有技術(shù)中申請(專利)號:200510077871.4的申請公開說明書中的技術(shù)背景中介紹了多種系統(tǒng)和方法,其主要匹配思路是依據(jù)現(xiàn)有條件和希望條件進行匹配,這種方式中通過雙方的希望條件或現(xiàn)有條件進行自動匹配,使匹配度數(shù)值化,進而把數(shù)值高的推薦給對方。另一篇申請(專利)號:200710143140.4中,介紹了一種通過媒合度的方法來進行匹配,這種方法和先前介紹的申請(專利)號:200510077871.4中的方法相似,都是通過加設(shè)權(quán)重計分的方法來反映偏好,從中選擇出相應(yīng)的那類招聘單位或求職者。
[0009]綜上,現(xiàn)有技術(shù)的缺點是類似的,S卩I)這種方式通常只考慮某一方的要求,沒有考慮到用戶與招聘單位是雙向匹配的過程,忽略了匹配另一方的要求,實用性差。2)人物信息與職位信息之間往往存在著非字面層面上的模糊關(guān)系,將人物的每條特征與職位的每條要求都獨立看待,忽略了人物特征之間與職位要求之間的相關(guān)性,也就忽略了隱含的深層次信息,從而存在著模糊偏好很難實現(xiàn)精確配對的問題。
【
【發(fā)明內(nèi)容】
】
[0010]本發(fā)明提供了一種人物畫像與職位匹配的方法及系統(tǒng),目的是保留住并利用到職位描述的語義信息,挖掘出人物畫像與職位之間更深層次的關(guān)聯(lián),有效提高人物畫像和職位的匹配精度和匹配速度。
[0011]本發(fā)明的一種人物畫像與職位匹配的方法,包括下列步驟:S1、對職位信息預(yù)處理的步驟:對職位信息進行預(yù)處理,得到經(jīng)預(yù)處理的歷史職位詞語序列和經(jīng)預(yù)處理的當(dāng)前職位詞語序列;S2、職位特征標(biāo)注的步驟:對所述的經(jīng)預(yù)處理的歷史職位詞語序列進行處理,得到已標(biāo)注的歷史職位信息和歷史職位分類模型;以及,對所述的經(jīng)預(yù)處理的當(dāng)前職位詞語序列進行處理,得到已標(biāo)注的當(dāng)前職位信息和當(dāng)前職位分類模型;S3、關(guān)聯(lián)提取的步驟:根據(jù)已有的人物畫像信息和上述得到的歷史職位分類模型,提取人物畫像與歷史職位特征的關(guān)聯(lián);S4、模型訓(xùn)練的步驟:根據(jù)上述得到的已標(biāo)注的歷史職位信息、歷史職位分類模型、已標(biāo)注的當(dāng)前職位信息以及當(dāng)前職位分類模型,獲取歷史職位特征與當(dāng)前職位特征的關(guān)聯(lián);S5、結(jié)果輸出的步驟:根據(jù)已有的人物畫像信息以及上述得到的人物畫像與歷史職位特征的關(guān)聯(lián)、歷史職位特征與當(dāng)前職位特征的關(guān)聯(lián)、已標(biāo)注的當(dāng)前職位信息,獲取人物畫像與當(dāng)前職位的匹配度。
[0012]其中,步驟SI中所述的對職位信息進行預(yù)處理包括:輸入職位的各項數(shù)據(jù);將所述職位的各項數(shù)據(jù)中的中文文本進行分詞后進行文本清洗操作,非中文文本的職位信息則根據(jù)數(shù)據(jù)類型按照特征處理流程進行清洗操作。
[0013]其中,步驟S2中所述的對經(jīng)預(yù)處理的歷史職位詞語序列進行處理包括:生成文檔的向量表示;使用機器學(xué)習(xí)方法,將歷史職位聚類并標(biāo)注特征或類別;使用機器學(xué)習(xí)方法,訓(xùn)練歷史職位分類模型。設(shè)總共m個職位的所有文本包含的詞語總數(shù)為S,每個職位的文本信息為一個文檔D,一個包含d個詞語的文檔D的詞語序列為[wl,w2,…,wd],每個文檔的s值各不相同;生成文檔的向量表示具體包括:通過向量空間模型將每個文檔轉(zhuǎn)化為具有同等長度s的向量,此時整體信息為一個m*s的矩陣S,每一行代表一個文檔向量,每一列即每個維度表示一個詞語的特定統(tǒng)計量;再將維度從s縮減到q,即矩陣S轉(zhuǎn)化為m*q的矩陣Q,其中每一維度在數(shù)學(xué)意義上代表一個復(fù)合特征;使用機器學(xué)習(xí)方法,將歷史職位聚類并標(biāo)注特征或類別具體包括:視每個文檔向量為向量空間中的散點進行聚類分析,將散點劃分為k個類別,每個行向量標(biāo)注一個類別;使用機器學(xué)習(xí)方法,訓(xùn)練歷史職位分類模型具體包括:已標(biāo)注了 k個類別的m*q矩陣Q做訓(xùn)練數(shù)據(jù),訓(xùn)練得到歷史職位分類模型。
[0014]其中,步驟S2中所述的對經(jīng)預(yù)處理的當(dāng)前職位詞語序列進行處理包括:生成文檔的向量表示;使用機器學(xué)習(xí)方法,將當(dāng)前職位聚類并標(biāo)注特征或類別;使用機器學(xué)習(xí)方法,訓(xùn)練當(dāng)前職位分類模型。
[0015]其中,步驟S3中通過數(shù)據(jù)挖掘和深度學(xué)習(xí)方法提取所述的人物畫像與歷史職位特征的關(guān)聯(lián)。設(shè)人物畫像信息用一個n*p矩陣P表示,代表有η種人物類型,用P種特征來表示;歷史職位分類模型在數(shù)學(xué)意義上可簡單抽象成一個k*q矩陣C,其余歷史職位信息用k行矩陣X表示;人物畫像與歷史職位的n*k關(guān)系矩陣R,R?表示第i種人物畫像與第j種歷史職位類型的關(guān)聯(lián)頻度;所述人物畫像與歷史職位特征的關(guān)聯(lián),具體為人物畫像特征與歷史職位特征之間的關(guān)聯(lián)矩陣1]=時(?^)+^^如)+0,其中_數(shù)和8函數(shù)是對矩陣的變換函數(shù),矩陣B是偏置矩陣,α、β、γ分別是各線性加權(quán)項的權(quán)重參數(shù)。
[0016]其中,步驟S4中具體使用機器學(xué)習(xí)、深度學(xué)習(xí)方法和訓(xùn)練模型方法,將歷史職位特征與當(dāng)前職位特征的關(guān)聯(lián)。
[0017]其中,步驟S5中具體包括:用矩陣P代表人物畫像,用矩陣U代表人物畫像與歷史職位特征的關(guān)聯(lián),用矩陣V代表歷史職位特征與當(dāng)前職位特征的關(guān)聯(lián),用矩陣Y代表已標(biāo)注的當(dāng)前職位信息;人物畫像與當(dāng)前職位的匹配度W = f(P