專利名稱:用于將職業(yè)關(guān)系數(shù)據(jù)與商用數(shù)據(jù)內(nèi)容聚合和關(guān)聯(lián)的系統(tǒng)和方法
用于將職業(yè)關(guān)系數(shù)據(jù)與商用數(shù)據(jù)內(nèi)容聚合和關(guān)聯(lián)的系統(tǒng)和方法相關(guān)申請的交叉引用本申請要求2010年I月29日提交的第61/299,802號(hào)美國臨時(shí)專利申請的優(yōu)先權(quán),其內(nèi)容通過引用合并于此。版權(quán)聲明本專利文獻(xiàn)的公開的一部分包含受版權(quán)保護(hù)的內(nèi)容。當(dāng)專利文獻(xiàn)或?qū)@_出現(xiàn)在專利和商標(biāo)局的專利文件或記錄中時(shí),版權(quán)所有人不反對任何人對專利文獻(xiàn)或?qū)@_的傳真復(fù)制,但除此之外,無論如何均保留所有版權(quán)權(quán)利。
背景技術(shù):
I.發(fā)明的領(lǐng)域本公開涉及執(zhí)行如下處理的系統(tǒng)聚合、預(yù)審(pre-qualify)、以及合并關(guān)于個(gè)人和個(gè)人隸屬或者已經(jīng)隸屬的企業(yè)實(shí)體的一個(gè)或更多個(gè)信息來源,從而產(chǎn)生職業(yè)簡檔,以及將職業(yè)簡檔存儲(chǔ)并且維護(hù)在其他系統(tǒng)可以訪問的管理數(shù)據(jù)存儲(chǔ)庫中。2.相關(guān)技術(shù)的描述本部分中描述的方法是可以實(shí)行的方法,但不必是之前已經(jīng)想到或者實(shí)行的方法。因此,除非相反地指示,本部分中描述的方法對于本申請的權(quán)利要求可能不是現(xiàn)有技術(shù),并且不由于包含在本部分中而承認(rèn)是現(xiàn)有技術(shù)。為了本文獻(xiàn)的目的,術(shù)語“職業(yè)”被定義為是企業(yè)實(shí)體的,或者涉及企業(yè)實(shí)體,或者涉及由美國勞工部、勞工統(tǒng)計(jì)局或任何其他公認(rèn)機(jī)構(gòu)列出的職位或者頭銜。當(dāng)前市場上存在可獲得的職業(yè)簡檔產(chǎn)品。然而,相比于個(gè)人具有的與企業(yè)實(shí)體的關(guān)系的性質(zhì),這些產(chǎn)品一般更關(guān)注關(guān)于個(gè)人的數(shù)據(jù)、或者個(gè)人與之具有職業(yè)關(guān)系的企業(yè)實(shí)體。這些職業(yè)簡檔產(chǎn)品依賴于大量來源,包括由個(gè)人直接提供的信息。然而,這些職業(yè)簡檔產(chǎn)品無法通過采用健壯的如下匹配處理來唯一地識(shí)別個(gè)人或企業(yè)實(shí)體該匹配處理用于識(shí)別個(gè)人、企業(yè)實(shí)體、或個(gè)人與一個(gè)或更多個(gè)企業(yè)之間的關(guān)系。這些職業(yè)簡檔產(chǎn)品訪問各種來源以建立職業(yè)簡檔,但是不包括如下處理審查(qualify)來自這些來源的數(shù)據(jù)以從各種來源中的每個(gè)來源獲得最佳質(zhì)量的信息。在一些情況下,職業(yè)簡檔產(chǎn)品采用如下技術(shù)該技術(shù)例如不允許涉及個(gè)人的高級(jí)數(shù)據(jù)元素,例如電子郵件地址和直撥電話號(hào)碼要適當(dāng)?shù)乇或?yàn)證并被聚合到職業(yè)簡檔中。當(dāng)前職業(yè)簡檔產(chǎn)品的技術(shù)缺陷在于,盡管當(dāng)前職業(yè)簡檔產(chǎn)品可能能夠合并來自多個(gè)來源的關(guān)于企業(yè)環(huán)境中的個(gè)人或者與企業(yè)相關(guān)的個(gè)人的數(shù)據(jù),并且將合并的數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中,但是當(dāng)前職業(yè)簡檔產(chǎn)品可能無意中為個(gè)人產(chǎn)生了多于一條記錄。本發(fā)明通過以下處理克服了該缺陷該處理包括將來自多個(gè)來源的數(shù)據(jù)與提供每個(gè)個(gè)人和相關(guān)聯(lián)的企業(yè)的唯一標(biāo)識(shí)符的存儲(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行匹配,然后利用唯一標(biāo)識(shí)符將關(guān)于個(gè)人的數(shù)據(jù)指引到單個(gè)記錄。
發(fā)明內(nèi)容
提供了一種方法,其包括(i)接收第一記錄,該第一記錄包含個(gè)人的身份、企業(yè)的名稱、以及個(gè)人在企業(yè)中的職位;(ii)將第一記錄與提供企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配;(iii)將第一記錄與提供個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配;(iii)將(a)唯一企業(yè)標(biāo)識(shí)符、(b)唯一個(gè)人標(biāo)識(shí)符、以及(C)個(gè)人在企業(yè)中的職位的唯一職位標(biāo)識(shí)符附加到第一記錄;(iv)基于唯一企業(yè)標(biāo)識(shí)符、唯一個(gè)人標(biāo)識(shí)符、以及唯一職位標(biāo)識(shí)符將第一記錄與第二記錄進(jìn)行匹配;以及(V)將第一記錄和第二記錄合并為結(jié)果記錄。本發(fā)明設(shè)法克服當(dāng)前職業(yè)簡檔產(chǎn)品的各種缺點(diǎn)。即,本發(fā)明設(shè)法通過將職業(yè)人員具有或者已經(jīng)具有的與一個(gè)或更多個(gè)企業(yè)實(shí)體的多個(gè)當(dāng)前職位或過去職位關(guān)聯(lián)到一個(gè)統(tǒng)一的個(gè)人職業(yè)簡檔,來生成職業(yè)簡檔。本發(fā)明也設(shè)法通過使用確保數(shù)據(jù)完整、準(zhǔn)確以及及時(shí)的通常自動(dòng)執(zhí)行的處理,來改進(jìn)職業(yè)人員聯(lián)系數(shù)據(jù)處理。此外,本發(fā)明設(shè)法移除對可以處理的聯(lián)系記錄的數(shù)量和類型的任何限制。另外,本發(fā)明設(shè)法將個(gè)人的數(shù)據(jù),例如職業(yè)人員電子郵件地址和直撥電話號(hào)碼與為該個(gè)人創(chuàng)建的統(tǒng)一簡檔相關(guān)聯(lián)。
本公開具有的優(yōu)于現(xiàn)有技術(shù)的優(yōu)點(diǎn)在于使用與關(guān)于個(gè)人和企業(yè)的數(shù)據(jù)的參考數(shù)據(jù)庫的高質(zhì)量匹配服務(wù),以便為該數(shù)據(jù)建立具有高置信度的準(zhǔn)確度的職業(yè)簡檔。本發(fā)明包括識(shí)別、審查、以及聚合多個(gè)來源的現(xiàn)有和以前的職業(yè)關(guān)系和聯(lián)系信息的動(dòng)作。本發(fā)明包括如下處理驗(yàn)證與個(gè)人和企業(yè)實(shí)體兩者有關(guān)的來源數(shù)據(jù),并且將個(gè)人和與企業(yè)實(shí)體有關(guān)的身份和聯(lián)系數(shù)據(jù)(包括個(gè)人具有的與企業(yè)實(shí)體的職位)與正發(fā)布或存儲(chǔ)在數(shù)據(jù)存儲(chǔ)庫中的結(jié)果信息相關(guān)聯(lián),其中,該數(shù)據(jù)存儲(chǔ)庫由已被提供了對數(shù)據(jù)存儲(chǔ)庫的訪問的個(gè)人和企業(yè)實(shí)體稍后使用。該處理包括匹配處理,該匹配處理用來將多個(gè)來源的信息與所建立的承載關(guān)于個(gè)人和企業(yè)實(shí)體的信息的數(shù)據(jù)存儲(chǔ)庫進(jìn)行比較。本發(fā)明采用之前驗(yàn)證的包括每個(gè)企業(yè)實(shí)體和每個(gè)個(gè)人的唯一標(biāo)識(shí)符的企業(yè)實(shí)體信息,并且使該信息符合之前驗(yàn)證的個(gè)人信息,其中該個(gè)人信息包括每個(gè)個(gè)人的唯一標(biāo)識(shí)符、以及個(gè)人在給定的相關(guān)聯(lián)的企業(yè)實(shí)體中已經(jīng)擁有的每個(gè)職位的唯一標(biāo)識(shí)符。因此,本處理產(chǎn)生了具有唯一標(biāo)識(shí)符的職業(yè)簡檔(professional prof ile),其中所述唯一標(biāo)識(shí)符應(yīng)用到企業(yè)實(shí)體、個(gè)人身份以及職位的每個(gè)唯一值。職業(yè)簡檔放置在可由其他系統(tǒng)和產(chǎn)品訪問的綜合數(shù)據(jù)存儲(chǔ)庫中。因此,綜合數(shù)據(jù)存儲(chǔ)庫包含如下數(shù)據(jù)所述數(shù)據(jù)涉及個(gè)人與企業(yè)實(shí)體之間的當(dāng)前和之前的職業(yè)關(guān)系和關(guān)聯(lián)兩者、以及與這些關(guān)系相關(guān)的具體職位和頭銜。另外,綜合數(shù)據(jù)存儲(chǔ)庫包含個(gè)人和企業(yè)實(shí)體的身份、聯(lián)系和其他類似的數(shù)據(jù),以及每個(gè)個(gè)人、企業(yè)實(shí)體及其之間的關(guān)系的唯一標(biāo)識(shí)符。本發(fā)明包括如下處理所述處理針對多個(gè)數(shù)據(jù)來源和其他數(shù)據(jù)存儲(chǔ)庫評估綜合數(shù)據(jù)存儲(chǔ)庫,以確保數(shù)據(jù)完整、準(zhǔn)確和及時(shí)。本公開的系統(tǒng)和方法包括(a)聚集來自至少一個(gè)數(shù)據(jù)來源的關(guān)于個(gè)人和企業(yè)實(shí)體的多個(gè)數(shù)據(jù),并且將如此聚集的數(shù)據(jù)提供到存儲(chǔ)庫;(b)對數(shù)據(jù)進(jìn)行凈化、解析以及標(biāo)準(zhǔn)化;以及對聚集的數(shù)據(jù)中的關(guān)于個(gè)人和企業(yè)實(shí)體的信息進(jìn)行數(shù)據(jù)驗(yàn)證;(C)從之前開發(fā)的維護(hù)關(guān)于企業(yè)實(shí)體的數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)庫中,檢索、評估和選擇與來源記錄上的企業(yè)實(shí)體數(shù)據(jù)最類似的候選企業(yè)實(shí)體,因此產(chǎn)生企業(yè)實(shí)體匹配,并且維護(hù)關(guān)于企業(yè)實(shí)體匹配的質(zhì)量的信息;(d)從之前開發(fā)的維護(hù)關(guān)于個(gè)人的數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)庫中,檢索、評估和選擇與來源記錄上的個(gè)人最類似的候選個(gè)人,因此產(chǎn)生個(gè)人匹配,并且維護(hù)關(guān)于個(gè)人匹配的質(zhì)量的信息;(e)將來源數(shù)據(jù)記錄分組到職業(yè)簡檔中,其中一個(gè)個(gè)人關(guān)聯(lián)到企業(yè)實(shí)體;(f)進(jìn)一步將來源數(shù)據(jù)分組到每個(gè)個(gè)人在企業(yè)實(shí)體中擁有的就業(yè)職位;(g)將來自一個(gè)或更多個(gè)來源記錄的來源數(shù)據(jù)按優(yōu)先順序排列并且聚合到每個(gè)簡檔及其相關(guān)聯(lián)的職位記錄中;以及(h)將關(guān)于個(gè)人、企業(yè)實(shí)體、個(gè)人與企業(yè)實(shí)體之間的關(guān)系、相關(guān)聯(lián)的來源標(biāo)識(shí)符以 及處理日期的數(shù)據(jù)發(fā)布或存儲(chǔ)到數(shù)據(jù)存儲(chǔ)庫中。
圖I將來自一個(gè)或更多個(gè)來源的數(shù)據(jù)變換為識(shí)別個(gè)人及其相關(guān)聯(lián)的企業(yè)實(shí)體和企業(yè)關(guān)系的合并信息的方法的功能框圖。圖2是圖I中所示的凈化和預(yù)審處理的功能框圖。圖3是由圖I中所示的企業(yè)實(shí)體處理和個(gè)人身份匹配處理125執(zhí)行的操作的功能框圖。圖4是用于執(zhí)行圖I的方法的系統(tǒng)的框圖。在每個(gè)圖中,用相同的附圖標(biāo)記表示對于多于一個(gè)圖來說共同的部件或特征。
具體實(shí)施例方式圖I是將來自一個(gè)或更多個(gè)來源的數(shù)據(jù)變換為識(shí)別個(gè)人及其相關(guān)聯(lián)的企業(yè)實(shí)體和企業(yè)關(guān)系的合并信息的方法100的功能框圖。方法100包括三個(gè)通常的操作階段,即(I)聚集、凈化和預(yù)審階段101,(2)檢索、評估、選擇和匹配階段110,以及(3)呈現(xiàn)和維護(hù)階段134。聚集、凈化和預(yù)審階段101涉及從來源105收集數(shù)據(jù),并且執(zhí)行凈化和預(yù)審處理115。檢索、評估、選擇和匹配階段110包括企業(yè)實(shí)體匹配120、個(gè)人身份匹配125、職位識(shí)別處理127和合并處理130。呈現(xiàn)和維護(hù)階段134包括涉及管理數(shù)據(jù)存儲(chǔ)庫135的操作。來源105是關(guān)于個(gè)人(即人)和個(gè)人所隸屬的企業(yè)的數(shù)據(jù)。即,來源105包含諸如個(gè)人身份數(shù)據(jù)、企業(yè)實(shí)體數(shù)據(jù)或其組合的信息。該數(shù)據(jù)可包括諸如個(gè)人姓名、企業(yè)名稱、企業(yè)地址、職位名稱和電話號(hào)碼的信息。該數(shù)據(jù)可通過外源性動(dòng)作(例如通過購買數(shù)據(jù))、或者通過內(nèi)源性動(dòng)作(例如通過訪問內(nèi)部文件)來獲得。來源105包括多個(gè)來源,例如從來源I至來源N。來源I包括記錄106,而來源2包括記錄107。盡管在圖I中,來源105包括多個(gè)來源,但是方法100被設(shè)想能夠?qū)碜园瑔蝹€(gè)數(shù)據(jù)結(jié)構(gòu)(例如單個(gè)記錄)的單個(gè)來源的數(shù)據(jù)進(jìn)行操作。簡言之,方法100聚集了來自來源105的與個(gè)人和企業(yè)實(shí)體相關(guān)聯(lián)的多個(gè)數(shù)據(jù),并且產(chǎn)生如下簡檔該簡檔唯一地識(shí)別在企業(yè)實(shí)體和企業(yè)關(guān)系的環(huán)境中的相關(guān)聯(lián)的個(gè)人。該簡檔作為簡檔140存儲(chǔ)在管理數(shù)據(jù)資料庫在135中。
圖2是凈化和預(yù)審處理115的功能框圖。凈化和預(yù)審處理115以一個(gè)或更多個(gè)數(shù)據(jù)元素或記錄的形式從來源105獲得數(shù)據(jù),并且執(zhí)行標(biāo)準(zhǔn)化處理205、凈化處理210和驗(yàn)證處理215。標(biāo)準(zhǔn)化處理205和凈化處理210分別用來標(biāo)準(zhǔn)化和凈化每個(gè)輸入來源記錄中的數(shù)據(jù)元素,包括但不限于企業(yè)名稱、地址和企業(yè)電話號(hào)碼。在執(zhí)行標(biāo)準(zhǔn)化處理205和凈化處理210時(shí),僅接受滿足預(yù)定義的接受標(biāo)準(zhǔn)的記錄用于進(jìn)一步的處理。預(yù)定義的接受標(biāo)準(zhǔn)可以是任何想要的用于決定數(shù)據(jù)是否適合于進(jìn)一步處理的標(biāo)準(zhǔn),例如美國電話號(hào)碼必須具有10個(gè)數(shù)字。標(biāo)準(zhǔn)化處理205對包含在記錄中的數(shù)據(jù)元素進(jìn)行標(biāo)準(zhǔn)化。例如,標(biāo)準(zhǔn)化處理205可執(zhí)行以下中的一個(gè)或更多個(gè)(a)在物理地址數(shù)據(jù)元素不可用的情況下,創(chuàng)建用于郵寄地址的物理地址;(b)為來自來源105的數(shù)據(jù)標(biāo)識(shí)和分配合適的國家代碼;或者(c)生成和分配標(biāo)準(zhǔn)化的數(shù)字代碼,該數(shù)字代碼標(biāo)識(shí)由來自來源105的數(shù)據(jù)中呈現(xiàn)的給定個(gè)人所擁有的企業(yè)職位。凈化處理210移除不需要的、多余的或者不相關(guān)的數(shù)據(jù)。例如,凈化處理210可能執(zhí)行以下中的一個(gè)或更多個(gè)(a)搜索并移除手機(jī)號(hào)碼和傳真號(hào)碼;(b)識(shí)別并移除非標(biāo)準(zhǔn) 的姓后綴;或者(C)識(shí)別并移除具有不可用的域名的電子郵件地址。驗(yàn)證處理215驗(yàn)證記錄中的各種數(shù)據(jù)元素。例如,驗(yàn)證處理215可執(zhí)行以下中的一個(gè)或更多個(gè)Ca)確認(rèn)從來源105取出的給定企業(yè)實(shí)體中的給定個(gè)人的當(dāng)前職位和電話號(hào)碼;或者(b)使服務(wù)器對來自來源105的數(shù)據(jù)中的電子郵件地址進(jìn)行服務(wù)器電子郵件地址驗(yàn)證。因此,凈化處理210和驗(yàn)證處理215識(shí)別來自來源105的無效的數(shù)據(jù)和記錄,并且移除無效的數(shù)據(jù)和記錄,使得無效的數(shù)據(jù)和記錄不被進(jìn)一步處理。圖3是由圖I中所示的企業(yè)實(shí)體匹配處理120和個(gè)人身份匹配處理125執(zhí)行的操作的功能框圖。為了示例的目的,假定正在處理記錄106。企業(yè)實(shí)體匹配處理120和個(gè)人身份匹配處理125從之前開發(fā)的數(shù)據(jù)存儲(chǔ)庫中檢索、評估和選擇與來源記錄106中的數(shù)據(jù)最類似的企業(yè)實(shí)體和個(gè)人身份信息。企業(yè)實(shí)體匹配處理120從由凈化和預(yù)審處理115促進(jìn)(promoted)的記錄中檢索記錄106,識(shí)別記錄106中與特定的企業(yè)實(shí)體相關(guān)聯(lián)的數(shù)據(jù),以及查詢企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305關(guān)于該特定企業(yè)實(shí)體的額外信息。企業(yè)實(shí)體匹配處理120識(shí)別與來源記錄106相關(guān)聯(lián)的可能的企業(yè),并且當(dāng)識(shí)別了匹配時(shí)(參見第7,392,240號(hào)美國專利(Scriffignano等),其全部內(nèi)容通過引用合并于此),應(yīng)用唯一標(biāo)識(shí)符、匹配級(jí)別字串、匹配數(shù)據(jù)簡檔和置信度代碼唯一標(biāo)識(shí)符是多字符代碼,該多字符代碼識(shí)別主題,使得該主題可以與所有其他主題相區(qū)分。給定的唯一標(biāo)識(shí)符僅可以使用一次。優(yōu)選地,唯一標(biāo)識(shí)符是永久的,即唯一標(biāo)識(shí)符僅分配一次并且從不重復(fù)利用。因此,一旦將唯一標(biāo)識(shí)符分配給主題,該唯一標(biāo)識(shí)符將僅識(shí)別該特定的主題。數(shù)據(jù)通用編號(hào)系統(tǒng)(DUNS)號(hào)碼可以用作這樣的唯一標(biāo)識(shí)符。匹配級(jí)別字串是指示記錄中的數(shù)據(jù)字段的匹配質(zhì)量的級(jí)別的字串。例如,假定記錄106包含兩個(gè)字段,并且企業(yè)實(shí)體匹配處理120試圖將這兩個(gè)字段與企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305中的記錄進(jìn)行匹配。還假定,第一個(gè)字段中的數(shù)據(jù)是精確匹配,而第二個(gè)字段中的數(shù)據(jù)僅是部分匹配。因此,第一個(gè)字段的匹配得到比第二個(gè)字段的匹配更好的匹配級(jí)別。
匹配數(shù)據(jù)簡檔是如下代碼該代碼指示在兩個(gè)記錄的匹配確定中使用的是兩個(gè)記錄的哪個(gè)特定元素。例如,假定具有關(guān)于ABC公司的第一記錄,通過識(shí)別兩個(gè)記錄的每個(gè)記錄指示相同的公司董事長、或相同的商標(biāo)名稱、或相同的前企業(yè)名稱,將第一記錄與ABC公司的第二記錄進(jìn)行匹配。因此,匹配數(shù)據(jù)簡檔可以指示該匹配是基于董事長、或商標(biāo)名稱、或前企業(yè)名稱的匹配來進(jìn)行的。置信度代碼指示匹配是正確的確定性的程度。企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305是關(guān)于企業(yè)的信息的數(shù)據(jù)庫,企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305是之前已開發(fā)的并且已針對準(zhǔn)確度進(jìn)行了校驗(yàn)的。包含于企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305中的企業(yè)信息的示例可包括企業(yè)的法定名稱、商標(biāo)名稱、郵寄地址、物理地址和主要電話號(hào)碼。企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305響應(yīng)于來自企業(yè)實(shí)體匹配處理120的查詢而返回企業(yè)數(shù)據(jù),該企業(yè)數(shù)據(jù)被企業(yè)實(shí)體匹配處理120認(rèn)為是與記錄106中識(shí)別的企業(yè)的匹配。來自企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305的企業(yè)數(shù)據(jù)還包括企業(yè)的唯一標(biāo)識(shí)符,例如DUNS號(hào)碼,即唯一企業(yè)標(biāo)識(shí)符。
因此,企業(yè)實(shí)體匹配處理120選擇與記錄106中的對應(yīng)數(shù)據(jù)最接近的匹配的數(shù)據(jù)的集合。例如,企業(yè)實(shí)體匹配處理120在企業(yè)數(shù)據(jù)記錄106與企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305中的數(shù)據(jù)之間尋找最佳匹配。然后,企業(yè)實(shí)體匹配處理120將之后用在合并處理130中的唯一企業(yè)標(biāo)識(shí)符和其他信息(類似于匹配級(jí)別字串、匹配數(shù)據(jù)簡檔和置信度代碼)附加到記錄106。然后,企業(yè)實(shí)體匹配處理120將記錄106轉(zhuǎn)發(fā)給個(gè)人身份匹配處理125。個(gè)人身份匹配處理125接收記錄106并且識(shí)別記錄106中作為與特定的個(gè)人身份、即特定的人相關(guān)的屬性的數(shù)據(jù),以及向個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310查詢關(guān)于該特定的人的更多信息。個(gè)人身份匹配處理利用與由企業(yè)實(shí)體匹配處理120利用的處理類似的匹配處理,來識(shí)別最可能與記錄106相關(guān)聯(lián)的個(gè)人。個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310是關(guān)于個(gè)人的信息的數(shù)據(jù)庫,個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310是之前已開發(fā)的并且針對準(zhǔn)確度已進(jìn)行了校驗(yàn)的。包含于個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310中的個(gè)人身份信息的示例包括名字、中間名、姓氏、出生月份、出生日、出生年份、居住城市和居住州。個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310響應(yīng)來自個(gè)人身份匹配處理125的查詢而返回個(gè)人身份數(shù)據(jù),該個(gè)人身份數(shù)據(jù)被個(gè)人身份匹配處理125認(rèn)為是與記錄106中識(shí)別的個(gè)人的匹配。來自個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310的個(gè)人身份數(shù)據(jù)還包括個(gè)人的唯一標(biāo)識(shí)符,即唯一個(gè)人標(biāo)識(shí)符。因此,個(gè)人身份匹配處理125選擇與記錄106中的對應(yīng)數(shù)據(jù)最接近的匹配的數(shù)據(jù)。例如,個(gè)人身份匹配處理125在記錄106中關(guān)于個(gè)人的數(shù)據(jù)與個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310中的數(shù)據(jù)之間尋找最佳匹配。然后,個(gè)人身份匹配處理125將之后用于合并處理130中的唯一個(gè)人標(biāo)識(shí)符、匹配級(jí)別字串、匹配數(shù)據(jù)簡檔和置信度代碼附加到記錄106。然后,個(gè)人身份匹配處理125將記錄106轉(zhuǎn)發(fā)給職位識(shí)別處理127。再次參考圖I。職位識(shí)別處理127向記錄106分配唯一職位標(biāo)識(shí)符。唯一職位標(biāo)識(shí)符是識(shí)別特定的人在特定的企業(yè)中的特定職位的唯一標(biāo)識(shí)符。唯一職位標(biāo)識(shí)符基于標(biāo)準(zhǔn)化處理205中分配的職位代碼、企業(yè)實(shí)體匹配處理120中分配的唯一企業(yè)標(biāo)識(shí)符和個(gè)人身份匹配處理125中分配的唯一個(gè)人標(biāo)識(shí)符。假定記錄107包括關(guān)于與記錄106相同的個(gè)人的數(shù)據(jù),但是記錄107中的數(shù)據(jù)與記錄106中的數(shù)據(jù)不相同。記錄107可能包括或可能不包含與記錄106中的相同的企業(yè)數(shù)據(jù)。方法100以與記錄106類似的方式處理記錄107,因此將相同的個(gè)人身份信息和個(gè)人的唯一標(biāo)識(shí)符附加到記錄107,并且也附加企業(yè)信息、唯一企業(yè)標(biāo)識(shí)符和適合于記錄107中的企業(yè)信息的唯一職位標(biāo)識(shí)符,其可能與記錄106中的企業(yè)的企業(yè)信息和唯一企業(yè)標(biāo)識(shí)符相同或不相同。然后,方法100將記錄107存儲(chǔ)到臨時(shí)存儲(chǔ)中,即臨時(shí)存儲(chǔ)庫145中。合并處理130對已被企業(yè)實(shí)體匹配處理120、個(gè)人身份匹配處理125和職位識(shí)別處理127處理的記錄進(jìn)行分組、按優(yōu)先順序排列和聚合,并且建立復(fù)合記錄,該復(fù)合記錄提供給定個(gè)人的企業(yè)職位、與一個(gè)或更多個(gè)企業(yè)實(shí)體的關(guān)系和關(guān)聯(lián)的復(fù)合視圖。合并處理130從臨時(shí)存儲(chǔ)庫145獲得記錄106和記錄107,并且與已被企業(yè)實(shí)體匹配處理120、個(gè)人身份匹配處理125和職位識(shí)別處理127處理的其他記錄相關(guān)聯(lián)地對記錄106和記錄107進(jìn)行匯編和排序。然而,對于本討論,將討論限制于對記錄106和記錄107的考慮。合并處理130基于由企業(yè)實(shí)體匹配處理120分配的唯一企業(yè)標(biāo)識(shí)符、由個(gè)人身份匹配處理125分配的唯一個(gè)人標(biāo)識(shí)符、以及由職位識(shí)別處理127分配的唯一職位標(biāo)識(shí)符,將記錄106和記錄107識(shí)別為屬于相同的唯一個(gè)人,因此產(chǎn)生簡檔132。
合并處理130對與簡檔132相關(guān)聯(lián)的職業(yè)屬性,例如職位、名稱和企業(yè)的位置進(jìn)行分組,并且根據(jù)與在企業(yè)實(shí)體匹配處理120和個(gè)人身份匹配處理125期間識(shí)別的一樣的數(shù)據(jù)特征,例如數(shù)據(jù)的來源(例如來源I對來源2)、數(shù)據(jù)的年代、或匹配的質(zhì)量(例如匹配級(jí)別字串),對簡檔132中的屬性進(jìn)行排序和組織。因此,簡檔132是針對給定的唯一個(gè)人的匯編記錄,其提供該個(gè)人和該個(gè)人在一個(gè)或更多個(gè)企業(yè)實(shí)體中擁有的職位的復(fù)合視圖。管理數(shù)據(jù)存儲(chǔ)庫135從合并處理130接收簡檔132,并且將簡檔132存儲(chǔ)為簡檔142。管理數(shù)據(jù)存儲(chǔ)庫135保存多個(gè)簡檔140。簡檔142是多個(gè)簡檔140之一。在回顧中,方法100 (i)接收記錄106,該記錄106包含個(gè)人的身份、企業(yè)的名稱、以及個(gè)人在企業(yè)中的職位,(ii)將記錄106與企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305中提供企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配,(iii)將記錄106與個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310中提供個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配,(iii)將(a)唯一企業(yè)標(biāo)識(shí)符、(b)唯一個(gè)人標(biāo)識(shí)符、以及(c)個(gè)人在企業(yè)中的職位的唯一職位標(biāo)識(shí)符附加到記錄106,(iv)基于唯一企業(yè)標(biāo)識(shí)符、唯一個(gè)人標(biāo)識(shí)符、以及唯一職位標(biāo)識(shí)符,將記錄106與記錄107進(jìn)行匹配,以及(V)將記錄106和記錄107合并為結(jié)果記錄,即簡檔132。在方法100中,以個(gè)人身份匹配處理125在企業(yè)實(shí)體匹配處理120之后的順序執(zhí)行企業(yè)實(shí)體匹配處理120和個(gè)人身份匹配處理125。然而,可以以企業(yè)實(shí)體匹配處理120在個(gè)人身份匹配處理125之后的順序執(zhí)行這兩個(gè)處理,或者彼此同時(shí)執(zhí)行。另外,方法100不必在處理第二記錄之前完成第一記錄的處理,而是可以同時(shí)處理多個(gè)記錄。圖4是用于執(zhí)行方法100的系統(tǒng)400的框圖。系統(tǒng)400包括與網(wǎng)絡(luò)425 (例如因特網(wǎng))耦合的計(jì)算機(jī)405,例如服務(wù)器。計(jì)算機(jī)405包括處理器410和存儲(chǔ)器415。盡管計(jì)算機(jī)405在本文中被表示為獨(dú)立裝置,但是不限于此,而是可以與分布式處理系統(tǒng)中的其它裝置(未示出)耦合。處理器410是由邏輯電路構(gòu)成的電子裝置,其響應(yīng)并且執(zhí)行指令。存儲(chǔ)器415是包含可被處理器410讀取并且執(zhí)行(因此控制處理器410的操作)的數(shù)據(jù)和指令的裝置。存儲(chǔ)器415可以以機(jī)存取存儲(chǔ)器(RAM)、硬盤驅(qū)動(dòng)器、只讀存儲(chǔ)器(ROM)、或其組合來實(shí)現(xiàn)。存儲(chǔ)器415的組件之一是程序模塊420。
程序模塊420包含使得處理器410執(zhí)行本文中描述的方法的指令。例如,在程序模塊420的控制下,處理器410執(zhí)行凈化和預(yù)審處理115、企業(yè)實(shí)體匹配處理120、個(gè)人身份匹配處理125、職位識(shí)別處理127、以及合并處理130的操作。本文中使用術(shù)語“模塊”表示如下功能操作該功能操作可被具體實(shí)施為獨(dú)立組件或者多個(gè)從屬組件的集成配置。因此,程序模塊420可被實(shí)現(xiàn)為單個(gè)模塊、或者可被實(shí)現(xiàn)為彼此合作地操作的多個(gè)模塊。因此,凈化和預(yù)審處理115、企業(yè)匹配處理120、個(gè)人身份匹配處理125、職位識(shí)別處理127、以及合并處理130中的任一個(gè)可以被配置為獨(dú)立的處理或分
層的從屬處理。而且,盡管程序模塊420在本文中被描述為安裝在存儲(chǔ)器415中,因此以軟件來實(shí)現(xiàn),但是程序模塊420可以以硬件(例如電子電路)、固件、軟件、或其組合中的任一個(gè)來實(shí)現(xiàn)。
經(jīng)由網(wǎng)絡(luò)425,處理器410與來源105、企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305、個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310、臨時(shí)存儲(chǔ)庫145、以及管理數(shù)據(jù)存儲(chǔ)庫135中的每個(gè)進(jìn)行通信。例如,處理器410從來源105讀取數(shù)據(jù),從企業(yè)實(shí)體數(shù)據(jù)存儲(chǔ)庫305和個(gè)人身份存儲(chǔ)庫310查詢和接收數(shù)據(jù),以及將簡檔132輸出到管理數(shù)據(jù)存儲(chǔ)庫135。盡管企業(yè)個(gè)人數(shù)據(jù)存儲(chǔ)庫305、個(gè)人身份數(shù)據(jù)存儲(chǔ)庫310、臨時(shí)存儲(chǔ)庫145、以及管理數(shù)據(jù)存儲(chǔ)庫135在圖4中被表示為離散的數(shù)據(jù)庫,但是他們也可以以單個(gè)數(shù)據(jù)庫系統(tǒng)來具體實(shí)現(xiàn)、或者分布在多個(gè)數(shù)據(jù)庫系統(tǒng)上。當(dāng)程序模塊420被表示為已經(jīng)載入到存儲(chǔ)器415中時(shí),程序模塊420可被配置在存儲(chǔ)介質(zhì)430上,以便隨后載入到存儲(chǔ)器415中。存儲(chǔ)介質(zhì)430也是以計(jì)算機(jī)程序編碼的計(jì)算機(jī)可讀介質(zhì),并且可以是以有形的形式在其上存儲(chǔ)程序模塊420的任意傳統(tǒng)的存儲(chǔ)介質(zhì)。存儲(chǔ)介質(zhì)430的示例包括軟盤、光盤、磁帶、只讀存儲(chǔ)器、光存儲(chǔ)介質(zhì)、通用串行總線(USB)閃速驅(qū)動(dòng)器、數(shù)字多功能盤、或者壓縮驅(qū)動(dòng)器。替選地,存儲(chǔ)介質(zhì)430可以是位于遠(yuǎn)程存儲(chǔ)系統(tǒng)并且經(jīng)由網(wǎng)絡(luò)425與計(jì)算機(jī)405耦合的隨機(jī)存取存儲(chǔ)器、或者其他類型的電子存儲(chǔ)器。以下的表I提供了對記錄106和記錄107進(jìn)行處理的方法100的示例。對于該示例,假定方法100同時(shí)處理記錄106和記錄107。記錄106和記錄107中的修訂數(shù)據(jù)以粗體示出。盡管表I指示凈化和預(yù)審處理115、企業(yè)實(shí)體匹配處理120、個(gè)人身份匹配處理125、職位識(shí)別處理127、以及合并處理130正執(zhí)行特定的操作,但是實(shí)際上,處理是由處理器410執(zhí)行的。表I記錄的示例性處理^ 處理中的步驟## ^記錄/簡檔的狀態(tài)^1記錄請6在來源-105中等待進(jìn)入凈化和(迄廣106)
爾審處理IlS John Smith
President ABC Inc
350 Fifth Ave Suit 7712 New York, NY 10118 (917) 555-5555 ismithrff abcinc.com Birth Mon 01 Birth Day 27 Birth Yr 1975 Last 4 SSN:
2記錄請7在來源丨05中等待進(jìn)入凈化和(記錄107)
預(yù)審處理 M5 Jonathan R. Smith II
Product Director DEF Inc
160 Columbus Avenue
New York, NY 10023 (212) 555-IliO
■8磁置重_適6111|;.£0111
Birth Mon 01 Birth Day 27 Birth Yr 1975 Last 4 SSN:
權(quán)利要求
1.一種方法,包括 接收第一記錄,所述第一記錄包含個(gè)人的身份、企業(yè)的名稱、以及所述個(gè)人在所述企業(yè)中的職位; 將所述第一記錄與提供所述企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將所述第一記錄與提供所述個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將(a)所述唯一企業(yè)標(biāo)識(shí)符、(b)所述唯一個(gè)人標(biāo)識(shí)符、以及(C)所述個(gè)人在所述企業(yè)中的所述職位的唯一職位標(biāo)識(shí)符附加到所述第一記錄; 基于所述唯一企業(yè)標(biāo)識(shí)符、所述唯一個(gè)人標(biāo)識(shí)符、以及所述唯一職位標(biāo)識(shí)符將所述第一記錄與第二記錄進(jìn)行匹配;以及 將所述第一記錄和第二記錄合并為結(jié)果記錄。
2.根據(jù)權(quán)利要求I所述的方法,其中,所述將所述第一記錄與提供所述唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配包括在所述第一記錄中的企業(yè)數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配。
3.根據(jù)權(quán)利要求I所述的方法,其中,將所述第一記錄與提供所述唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配包括在所述第一記錄中的關(guān)于所述個(gè)人的數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配。
4.根據(jù)權(quán)利要求I所述的方法,其中,所述唯一企業(yè)標(biāo)識(shí)符包括數(shù)據(jù)通用編號(hào)系統(tǒng)(DUNS)號(hào)碼。
5.一種系統(tǒng),包括 處理器;以及 存儲(chǔ)器,包含能夠被所述處理器讀取的指令,以及當(dāng)所述指令被所述處理器讀取時(shí),使得所述處理器 接收第一記錄,所述第一記錄包含個(gè)人的身份、企業(yè)的名稱、以及所述個(gè)人在所述企業(yè)中的職位; 將所述第一記錄與提供所述企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將所述第一記錄與提供所述個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將(a)所述唯一企業(yè)標(biāo)識(shí)符、(b)所述唯一個(gè)人標(biāo)識(shí)符、以及(C)所述個(gè)人在所述企業(yè)中的所述職位的唯一職位標(biāo)識(shí)符附加到所述第一記錄; 基于所述唯一企業(yè)標(biāo)識(shí)符、所述唯一個(gè)人標(biāo)識(shí)符、以及所述唯一職位標(biāo)識(shí)符將所述第一記錄與第二記錄進(jìn)行匹配;以及 將所述第一記錄和第二記錄合并為結(jié)果記錄。
6.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,使得所述處理器將所述第一記錄與提供所述唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配的所述指令包括使得所述處理器在所述第一記錄中的企業(yè)數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配的指令。
7.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,使得所述處理器將所述第一記錄與提供所述唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配的所述指令包括使得所述處理器在所述第一記錄中的關(guān)于所述個(gè)人的數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配的指令。
8.根據(jù)權(quán)利要求5所述的系統(tǒng),其中,所述唯一企業(yè)標(biāo)識(shí)符包括數(shù)據(jù)通用編號(hào)系統(tǒng)(DUNS)號(hào)碼。
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),包含能夠被所述處理器讀取的指令,以及當(dāng)所述指令被所述處理器讀取時(shí),使得所述處理器 接收第一記錄,所述第一記錄包含個(gè)人的身份、企業(yè)的名稱、以及所述個(gè)人在所述企業(yè)中的職位; 將所述第一記錄與提供所述企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將所述第一記錄與提供所述個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配; 將(a)所述唯一企業(yè)標(biāo)識(shí)符、(b)所述唯一個(gè)人標(biāo)識(shí)符、以及(C)所述個(gè)人在所述企業(yè)中的所述職位的唯一職位標(biāo)識(shí)符附加到所述第一記錄; 基于所述唯一企業(yè)標(biāo)識(shí)符、所述唯一個(gè)人標(biāo)識(shí)符、以及所述唯一職位標(biāo)識(shí)符將所述第一記錄與第二記錄進(jìn)行匹配;以及 將所述第一記錄和第二記錄合并為結(jié)果記錄。
10.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀存儲(chǔ),其中,使得所述處理器將所述第一記錄與提供所述唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配的所述指令包括使得所述處理器在所述第一記錄中的企業(yè)數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配的指令。
11.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀存儲(chǔ),其中,使得所述處理器將所述第一記錄與提供所述唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配的所述指令包括使得所述處理器在所述第一記錄中的關(guān)于所述個(gè)人的數(shù)據(jù)與數(shù)據(jù)庫中的數(shù)據(jù)之間尋找最佳匹配的指令。
12.根據(jù)權(quán)利要求9所述的計(jì)算機(jī)可讀存儲(chǔ),其中,所述唯一企業(yè)標(biāo)識(shí)符包括數(shù)據(jù)通用編號(hào)系統(tǒng)(DUNS)號(hào)碼。
全文摘要
提供了一種方法,其包括(i)接收第一記錄,該第一記錄包含個(gè)人的身份、企業(yè)的名稱、以及個(gè)人在企業(yè)中的職位;(ii)將第一記錄與提供企業(yè)的唯一企業(yè)標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配;(iii)將第一記錄與提供個(gè)人的唯一個(gè)人標(biāo)識(shí)符的數(shù)據(jù)進(jìn)行匹配;(iii)將(a)唯一企業(yè)標(biāo)識(shí)符、(b)唯一個(gè)人標(biāo)識(shí)符、以及(c)個(gè)人在企業(yè)中的職位的唯一職位標(biāo)識(shí)符附加到第一記錄;(iv)基于唯一企業(yè)標(biāo)識(shí)符、唯一個(gè)人標(biāo)識(shí)符、以及唯一職位標(biāo)識(shí)符將第一記錄與第二記錄進(jìn)行匹配;以及(v)將第一記錄和第二記錄合并為結(jié)果記錄。
文檔編號(hào)G06F7/00GK102782642SQ201180011500
公開日2012年11月14日 申請日期2011年1月28日 優(yōu)先權(quán)日2010年1月29日
發(fā)明者卡馬·哈拉, 基姆·朗茲, 大衛(wèi)·哈努沙克, 安東尼·斯克里菲尼亞諾, 約翰·尼科代莫, 貝塔尼·德克爾, 邁克爾·克萊內(nèi) 申請人:鄧白氏公司