本發(fā)明涉及數(shù)據(jù)融合
技術(shù)領(lǐng)域:
,具體地說是一種實用性強(qiáng)的基于學(xué)習(xí)的實體識別方法。
背景技術(shù):
:隨著信息技術(shù)和工業(yè)自動化的不斷進(jìn)步和發(fā)展,工業(yè)領(lǐng)域企業(yè)中產(chǎn)生著越來越多的數(shù)據(jù)。其中,結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)正以指數(shù)級的增長趨勢出現(xiàn),對數(shù)據(jù)的存儲、管理和分析帶來了更大的挑戰(zhàn),而如何高效利用這些海量數(shù)據(jù)也成為亟待解決的問題。為了更好地利用現(xiàn)有的這些數(shù)據(jù)資源,必須對數(shù)據(jù)進(jìn)行一定程度的融合或者挖掘。但是,由于信息更新的數(shù)據(jù)很快,數(shù)據(jù)源的種類繁多,使得數(shù)據(jù)不斷堆積不能及時更新而出現(xiàn)過時的現(xiàn)象。同時,不同數(shù)據(jù)源的異構(gòu)性,使得數(shù)據(jù)存在質(zhì)量問題,即存在大量的“臟數(shù)據(jù)”。在一個或者多個數(shù)據(jù)庫中,同一現(xiàn)實世界實體可能有多種描述方式。由于對實物和信息的定位的差異,來自不同數(shù)據(jù)源的信息類型多種多樣,對同一個實體的描述也各不相同。而實體識別的目的,就是從數(shù)據(jù)集中識別出描述同一真實世界實體的元組。實體識別的結(jié)果,可以在數(shù)據(jù)質(zhì)量管理的其他階段得到廣泛應(yīng)用。同一實體具體不同描述的這一問題,在各種應(yīng)用領(lǐng)域的信息系統(tǒng)中也普遍存在。早期的實體識別算法主要是對重復(fù)的記錄進(jìn)行檢測,以便獲得識別結(jié)果。當(dāng)前采用的算法,主要是基于相似性函數(shù)和基于規(guī)則的方法。有的的研究是利用關(guān)系中的主鍵和函數(shù)依賴,定義描述同一實體不同記錄的規(guī)則;利用用戶標(biāo)注的實例學(xué)習(xí)字符串的轉(zhuǎn)換規(guī)則進(jìn)行識別來提高精確度;提出一種生命式的、領(lǐng)域無關(guān)的、能夠定義實體識別規(guī)則的語言Deduplog;基于MapReduce框架進(jìn)行的幾何相似性研究,對數(shù)據(jù)分塊技術(shù)進(jìn)行總結(jié)分析;在真實數(shù)據(jù)集基礎(chǔ)上,對實體統(tǒng)一的效率問題進(jìn)行評價。另外,還有在啟發(fā)式方法、距離函數(shù)、馬爾科夫鏈等方面的研究。目前最新的實體識別方法采用機(jī)器學(xué)習(xí)的算法,提出了一種協(xié)同學(xué)習(xí)(Co-learning)方法。但是,隨著信息時代的來臨,各種各樣的數(shù)據(jù)源源不斷地產(chǎn)生,實體識別面臨著新的困難和挑戰(zhàn):(1)數(shù)據(jù)量急劇增多,計算量和計算難度增加,計算效率也成為一個急需解決的問題;(2)數(shù)據(jù)源多樣,存在多種結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占主導(dǎo),同時存在著很多噪聲數(shù)據(jù);(3)數(shù)據(jù)之間有著復(fù)雜的關(guān)系,需要更多的信息去辨別不同的實體之間的關(guān)系。實體識別技術(shù)主要是通過某種計算規(guī)則或規(guī)律,采用某種計算方法來識別出實體之前是否為同一實體的可能性。由于實體識別在數(shù)據(jù)質(zhì)量管理中具有十分重要的意義,對實體識別的研究也得到了足夠的重視。然而,盡管現(xiàn)有的方法在很多的應(yīng)用中能夠有效地識別實體,但是仍存在很多的不足:(1)當(dāng)前,實體識別存在重名和異名的問題;(2)傳統(tǒng)的實體識別方法往往是基于元組的相似性比較來獲取結(jié)果;(3)目前,實體識別方法中采用的相似性度量沒有考慮到不同詞之間的相關(guān)性;(4)對數(shù)據(jù)質(zhì)量評估的體系不是很完善?;诖髷?shù)據(jù)的時代背景之下,Hadoop無疑是當(dāng)前比較流行的用于處理大數(shù)據(jù)的有效工具。其中,HDFS和MapReduce為大數(shù)據(jù)解決方案提供了有效的數(shù)據(jù)存儲和高效的數(shù)據(jù)處理模式。本發(fā)明在大數(shù)據(jù)的背景下提出了一種在Hadoop平臺的MapReduce框架下基于學(xué)習(xí)的實體識別方法。通過對MadReduce的工作流程進(jìn)行詳細(xì)分析,運行基于機(jī)器學(xué)習(xí)的算法,并行處理數(shù)據(jù)集來識別出數(shù)據(jù)實體。本發(fā)明的方法大大地提高了實體識別的效果,具有很好的處理性能和效果,滿足了識別海量數(shù)據(jù)中的實體的需求。技術(shù)實現(xiàn)要素:本發(fā)明的技術(shù)任務(wù)是針對以上不足之處,提供一種實用性強(qiáng)、基于學(xué)習(xí)的實體識別方法。一種基于學(xué)習(xí)的實體識別方法,其實現(xiàn)過程為:首先產(chǎn)生分類器:從數(shù)據(jù)記錄中抽取出部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集并人工標(biāo)出分類,對其進(jìn)行預(yù)處理,根據(jù)相似度值和匹配情況產(chǎn)生分類器;然后應(yīng)用分類器:把數(shù)據(jù)記錄中除訓(xùn)練數(shù)據(jù)集外的其它數(shù)據(jù)作為測試數(shù)據(jù)集存儲到分布式文件系統(tǒng)中,作為實體識別的輸入,采用訓(xùn)練好的分類模型對測試數(shù)據(jù)集進(jìn)行分類處理;最后根據(jù)系統(tǒng)匹配結(jié)果,得出最終的實體識別結(jié)果。所述分類器產(chǎn)生的具體過程為:首先從數(shù)據(jù)記錄中收集相關(guān)的數(shù)據(jù)集,抽取出訓(xùn)練數(shù)據(jù)集;對獲取的訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,即對訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)記,并利用笛卡爾積組成R和S的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對,這里的R和S是兩個不同的數(shù)據(jù)集;對訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算,由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值,這里的k取值范圍為3≤k<10;根據(jù)以上訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對的相似度值和匹配或者不匹配的結(jié)果,進(jìn)行分類器訓(xùn)練;根據(jù)訓(xùn)練分類器的結(jié)果生成一個內(nèi)部的分類模型作為分類器。所述分類器的應(yīng)用過程為:首先標(biāo)記測試數(shù)據(jù)集,并利用笛卡爾積組成R和S的測試數(shù)據(jù)集數(shù)據(jù)對,這里的R和S是兩個不同的數(shù)據(jù)集;對測試數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算,由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值,這里的k取值范圍為3≤k<10;根據(jù)以上測試數(shù)據(jù)集數(shù)據(jù)對的相似度值為分類器提供特征值,利用生成的分類器,由分類器返回匹配或者不匹配的結(jié)果;最后,輸出只包含匹配實體對的識別結(jié)果。所述實體識別是指確定兩個或多個數(shù)據(jù)記錄描述的是否為同一個實體對象,其中:對單個數(shù)據(jù)集的實體識別過程描述為:對兩個數(shù)據(jù)集的實體識別過程描述為:在上述公式中,R和S是兩個不同的數(shù)據(jù)集;e表示為實體;i、j為自然數(shù);Ψ是識別函數(shù),用來計算數(shù)據(jù)記錄描述的是否為同一個實體;θ是合并函數(shù),把數(shù)據(jù)記錄合并成一個記錄,并對整個數(shù)據(jù)庫不產(chǎn)生影響;Ω是實體識別后產(chǎn)生的新的實體數(shù)據(jù)集。實體識別過程是在機(jī)器識別模型中進(jìn)行的,該機(jī)器識別模型用來處理實體,即通過Map函數(shù)和Reduce函數(shù),將輸入的所有鍵值對按照key部分是否相同來進(jìn)行快速分組,并最終得到機(jī)器識別階段的結(jié)果。Map函數(shù)的處理過程是對數(shù)據(jù)集中的實體記錄初步處理的過程,經(jīng)過Map處理的數(shù)據(jù)對以<key,value>的形式存在;Map函數(shù)的輸入是經(jīng)過Split分片后的數(shù)據(jù)塊,每個數(shù)據(jù)塊中包含若干條數(shù)據(jù)記錄,對于每一條數(shù)據(jù)記錄,調(diào)用一次Map函數(shù)進(jìn)行處理;在Map函數(shù)內(nèi)部,isEntity()函數(shù)首先檢查輸入的數(shù)據(jù)記錄是否符合實體記錄的定義,若滿足實體記錄的定義,則將該條數(shù)據(jù)記錄作為Map函數(shù)的輸出值value輸出。Reduce函數(shù)的處理過程是對經(jīng)過Map過程處理后的數(shù)據(jù)進(jìn)行處理,經(jīng)過Reduce處理的數(shù)據(jù)以<key,value>的形式存在;Reduce函數(shù)的輸入是Map函數(shù)輸出出來的鍵值對,且輸入Reduce函數(shù)的鍵值對由所有Reduce進(jìn)程中的一個來處理,最后Reduce以文件的形式將分組到同一類的記錄輸出到HDFS里儲存起來。本發(fā)明的一種基于學(xué)習(xí)的實體識別方法,具有以下優(yōu)點:本發(fā)明提出的一種基于學(xué)習(xí)的實體識別方法,可以充分利用Hadoop并行處理模型和MapReduce框架,采用和機(jī)器學(xué)習(xí)結(jié)合的方式,通過應(yīng)用分類器來提高執(zhí)行速度,并能達(dá)到很好的識別效果,可以很好地滿足識別海量數(shù)據(jù)中的實體的需求,具有很好的處理性能和效果,實用性強(qiáng),易于推廣。附圖說明附圖1為本發(fā)明MapReduce工作流程圖。附圖2為本發(fā)明模擬效果圖。附圖3為本發(fā)明實體識別工作流程圖。附圖4為本發(fā)明完成時間和加速比的實驗結(jié)果對比圖。附圖5為本發(fā)明兩種算法實驗結(jié)果對比圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明。本發(fā)明提供一種基于學(xué)習(xí)的實體識別方法,首先,要對實體有一個整體的認(rèn)識。由于對現(xiàn)實世界中的同一個實體的描述、理解和定位等方面的不同,造成同一個實體有多種表述方式。實體識別就是要從這些不同名稱和理解的數(shù)據(jù)集中識別出這個實體,把多條描述同一個實體的信息整合到一起,形成一條對實體的描述的過程。所以,實體識別最根本的目的是確定兩個或多個數(shù)據(jù)記錄描述的是否為同一個實體對象。如附圖1、圖2所示,假設(shè)R和S是兩個不同的數(shù)據(jù)集,這里的數(shù)據(jù)集可采用任意企業(yè)的數(shù)據(jù)集,比如某制造企業(yè)產(chǎn)生的海量數(shù)據(jù),e表示為實體,i、j為自然數(shù),Ψ是識別函數(shù),是被函數(shù)用來計算數(shù)據(jù)記錄描述的是否為同一個實體,θ是合并函數(shù),合并函數(shù)通過某種規(guī)則把數(shù)據(jù)記錄合并成一個記錄,并對整個數(shù)據(jù)庫不產(chǎn)生影響,Ω是實體識別后產(chǎn)生的新的實體數(shù)據(jù)集。如果對單個數(shù)據(jù)集的實體識別過程描述為:對兩個數(shù)據(jù)集的實體識別過程描述為:那么,根據(jù)不同的計算框架,多個數(shù)據(jù)集也可以有這樣的形式化描述結(jié)果。實體識別的關(guān)鍵是數(shù)據(jù)記錄的匹配,可以通過基于機(jī)器學(xué)習(xí)的方法進(jìn)行處理。如下圖所示所示的表格中,都是對實體“直接無減粗紗”的描述,所以它們有可能描述的是同一個實體對象。通過設(shè)置識別函數(shù)Ψ和合并函數(shù)θ,通過實體對形式的對比,最終識別出這個實體對象。編號產(chǎn)品名產(chǎn)品ID產(chǎn)品TEX001粗紗T838T2400002直接無堿粗紗T838Tnull003直接無堿粗紗null2400004nullT838T2400005直接無堿粗紗T838T2400本發(fā)明的實體識別過程是在機(jī)器識別模型中進(jìn)行的,該機(jī)器識別模型充分利用MapReduce并行框架的快速分組優(yōu)勢,將輸入的所有鍵值對按照key部分是否相同來進(jìn)行快速分組,并最終得到機(jī)器識別階段的結(jié)果。下面簡單說明機(jī)器識別階段中Map函數(shù)和Reduce函數(shù)的工作流程。Map函數(shù)可簡單定義成如下的形式:Map過程是對數(shù)據(jù)集中的實體記錄初步處理的過程,經(jīng)過Map處理的數(shù)據(jù)對會以<key,value>的形式存在。Map函數(shù)的輸入是經(jīng)過Split分片后的數(shù)據(jù)塊,每個數(shù)據(jù)塊中包含若干條數(shù)據(jù)記錄。對于每一條數(shù)據(jù)記錄,都會調(diào)用一次Map函數(shù)進(jìn)行處理。在Map函數(shù)內(nèi)部,isEntity()函數(shù)首先會檢查輸入的數(shù)據(jù)記錄是否符合實體記錄的定義。若滿足實體記錄的定義,則將該條數(shù)據(jù)記錄作為Map函數(shù)的輸出值value輸出。Reduce函數(shù)可簡單定義成如下的形式:Map過程之后就是Reduce過程了,它對經(jīng)過Map過程處理后的數(shù)據(jù)進(jìn)行處理,而經(jīng)過Reduce處理的數(shù)據(jù)同樣會以<key,value>的形式存在。Reduce函數(shù)的輸入是上一步Map函數(shù)輸出出來的鍵值對,具體的處理過程可以自行定義。輸入Reduce函數(shù)的鍵值對,只會有由所有Reduce進(jìn)程中的一個來處理,這是由鍵值對中key值部分以及MapReduce框架所確定的,這樣可以確保每一個鍵值對都不會被多個Reduce重復(fù)處理。最后,Reduce會以文件的形式將分組到同一類的記錄輸出到HDFS里儲存起來。Map和Reduce兩個過程,共同組成了MapReduce框架,是實體識別過程中重要的兩個關(guān)鍵步驟。基于上述描述,如附圖3所示,本發(fā)明的實現(xiàn)過程為:首先產(chǎn)生分類器:從數(shù)據(jù)記錄中抽取出部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集并人工標(biāo)出分類,對其進(jìn)行預(yù)處理,根據(jù)相似度值和匹配情況產(chǎn)生分類器;然后應(yīng)用分類器:把數(shù)據(jù)記錄中除訓(xùn)練數(shù)據(jù)集外的其它數(shù)據(jù)作為測試數(shù)據(jù)集存儲到分布式文件系統(tǒng)中,作為實體識別的輸入,采用訓(xùn)練好的分類模型對測試數(shù)據(jù)集進(jìn)行分類處理;最后根據(jù)系統(tǒng)匹配結(jié)果,得出最終的實體識別結(jié)果。所述分類器產(chǎn)生的具體過程為:首先從數(shù)據(jù)記錄中收集相關(guān)的數(shù)據(jù)集,抽取出訓(xùn)練數(shù)據(jù)集;對獲取的訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,即對訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)記,并利用笛卡爾積組成R和S的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對,這里的R和S是兩個不同的數(shù)據(jù)集;對訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算,由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值,這里的k取值范圍為3≤k<10;根據(jù)以上訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對的相似度值和匹配或者不匹配的結(jié)果,進(jìn)行分類器訓(xùn)練;根據(jù)訓(xùn)練分類器的結(jié)果生成一個內(nèi)部的分類模型作為分類器。所述分類器的應(yīng)用過程為:首先標(biāo)記測試數(shù)據(jù)集,并利用笛卡爾積組成R和S的測試數(shù)據(jù)集數(shù)據(jù)對,這里的R和S是兩個不同的數(shù)據(jù)集;對測試數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算,由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值,這里的k取值范圍為3≤k<10;根據(jù)以上測試數(shù)據(jù)集數(shù)據(jù)對的相似度值為分類器提供特征值,利用生成的分類器,由分類器返回匹配或者不匹配的結(jié)果;最后,輸出只包含匹配實體對的識別結(jié)果。在上述表格中,001和002組成一個數(shù)據(jù)對,“產(chǎn)品名”、“產(chǎn)品ID”、“產(chǎn)品TEX”這3個匹配函數(shù),計算它倆相似度值。根據(jù)這兩個記錄對的相似度值,就能判斷它倆是不是一個數(shù)據(jù)。實驗說明:實驗選取集群中的某一節(jié)點作為單機(jī)處理數(shù)據(jù)集的環(huán)境,對選取的的數(shù)據(jù)集進(jìn)行處理,得到對應(yīng)的數(shù)據(jù)處理時間。然后,分別測試在并行集群環(huán)境中不同節(jié)點數(shù)下處理數(shù)據(jù)的效果。在附圖4中,起點在上側(cè)的折線表示的是完成時間,起點在下側(cè)的折線表示的是對應(yīng)的加速比,由此分析可得,隨著節(jié)點數(shù)的增多,完成時間縮短,運行速度逐漸加快。將實驗最終的結(jié)果與基于規(guī)則的算法的實驗結(jié)果進(jìn)行對比,采用準(zhǔn)確率、召回率及F值作為識別結(jié)果精確性的標(biāo)準(zhǔn)衡量。在附圖5中,上邊的折線表示基于學(xué)習(xí)的算法的結(jié)果,下邊的折線是基于規(guī)則的算法的結(jié)果,由此對比發(fā)現(xiàn),基于學(xué)習(xí)的算法的精確度較高。通過實驗,證明了本發(fā)明提出的方法極可以充分利用Hadoop并行處理模型和MapReduce框架并能達(dá)到很好的識別效果,極大地加快了實體識別的速度,提高了實體識別的效率,可以很好地滿足識別海量數(shù)據(jù)中的實體的需求。上述具體實施方式僅是本發(fā)明的具體個案,本發(fā)明的專利保護(hù)范圍包括但不限于上述具體實施方式,任何符合本發(fā)明的一種基于學(xué)習(xí)的實體識別方法的權(quán)利要求書的且任何所述
技術(shù)領(lǐng)域:
的普通技術(shù)人員對其所做的適當(dāng)變化或替換,皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。當(dāng)前第1頁1 2 3