一種基于學(xué)習(xí)的實體識別方法與流程

文檔序號：12364373閱讀：809來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)融合
技術(shù)領(lǐng)域：
，具體地說是一種實用性強(qiáng)的基于學(xué)習(xí)的實體識別方法。
背景技術(shù)：
：隨著信息技術(shù)和工業(yè)自動化的不斷進(jìn)步和發(fā)展，工業(yè)領(lǐng)域企業(yè)中產(chǎn)生著越來越多的數(shù)據(jù)。其中，結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)正以指數(shù)級的增長趨勢出現(xiàn)，對數(shù)據(jù)的存儲、管理和分析帶來了更大的挑戰(zhàn)，而如何高效利用這些海量數(shù)據(jù)也成為亟待解決的問題。為了更好地利用現(xiàn)有的這些數(shù)據(jù)資源，必須對數(shù)據(jù)進(jìn)行一定程度的融合或者挖掘。但是，由于信息更新的數(shù)據(jù)很快，數(shù)據(jù)源的種類繁多，使得數(shù)據(jù)不斷堆積不能及時更新而出現(xiàn)過時的現(xiàn)象。同時，不同數(shù)據(jù)源的異構(gòu)性，使得數(shù)據(jù)存在質(zhì)量問題，即存在大量的“臟數(shù)據(jù)”。在一個或者多個數(shù)據(jù)庫中，同一現(xiàn)實世界實體可能有多種描述方式。由于對實物和信息的定位的差異，來自不同數(shù)據(jù)源的信息類型多種多樣，對同一個實體的描述也各不相同。而實體識別的目的，就是從數(shù)據(jù)集中識別出描述同一真實世界實體的元組。實體識別的結(jié)果，可以在數(shù)據(jù)質(zhì)量管理的其他階段得到廣泛應(yīng)用。同一實體具體不同描述的這一問題，在各種應(yīng)用領(lǐng)域的信息系統(tǒng)中也普遍存在。早期的實體識別算法主要是對重復(fù)的記錄進(jìn)行檢測，以便獲得識別結(jié)果。當(dāng)前采用的算法，主要是基于相似性函數(shù)和基于規(guī)則的方法。有的的研究是利用關(guān)系中的主鍵和函數(shù)依賴，定義描述同一實體不同記錄的規(guī)則；利用用戶標(biāo)注的實例學(xué)習(xí)字符串的轉(zhuǎn)換規(guī)則進(jìn)行識別來提高精確度；提出一種生命式的、領(lǐng)域無關(guān)的、能夠定義實體識別規(guī)則的語言Deduplog；基于MapReduce框架進(jìn)行的幾何相似性研究，對數(shù)據(jù)分塊技術(shù)進(jìn)行總結(jié)分析；在真實數(shù)據(jù)集基礎(chǔ)上，對實體統(tǒng)一的效率問題進(jìn)行評價。另外，還有在啟發(fā)式方法、距離函數(shù)、馬爾科夫鏈等方面的研究。目前最新的實體識別方法采用機(jī)器學(xué)習(xí)的算法，提出了一種協(xié)同學(xué)習(xí)(Co-learning)方法。但是，隨著信息時代的來臨，各種各樣的數(shù)據(jù)源源不斷地產(chǎn)生，實體識別面臨著新的困難和挑戰(zhàn)：(1)數(shù)據(jù)量急劇增多，計算量和計算難度增加，計算效率也成為一個急需解決的問題；(2)數(shù)據(jù)源多樣，存在多種結(jié)構(gòu)化數(shù)據(jù)，半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)占主導(dǎo)，同時存在著很多噪聲數(shù)據(jù)；(3)數(shù)據(jù)之間有著復(fù)雜的關(guān)系，需要更多的信息去辨別不同的實體之間的關(guān)系。實體識別技術(shù)主要是通過某種計算規(guī)則或規(guī)律，采用某種計算方法來識別出實體之前是否為同一實體的可能性。由于實體識別在數(shù)據(jù)質(zhì)量管理中具有十分重要的意義，對實體識別的研究也得到了足夠的重視。然而，盡管現(xiàn)有的方法在很多的應(yīng)用中能夠有效地識別實體，但是仍存在很多的不足：(1)當(dāng)前，實體識別存在重名和異名的問題；(2)傳統(tǒng)的實體識別方法往往是基于元組的相似性比較來獲取結(jié)果；(3)目前，實體識別方法中采用的相似性度量沒有考慮到不同詞之間的相關(guān)性；(4)對數(shù)據(jù)質(zhì)量評估的體系不是很完善?；诖髷?shù)據(jù)的時代背景之下，Hadoop無疑是當(dāng)前比較流行的用于處理大數(shù)據(jù)的有效工具。其中，HDFS和MapReduce為大數(shù)據(jù)解決方案提供了有效的數(shù)據(jù)存儲和高效的數(shù)據(jù)處理模式。本發(fā)明在大數(shù)據(jù)的背景下提出了一種在Hadoop平臺的MapReduce框架下基于學(xué)習(xí)的實體識別方法。通過對MadReduce的工作流程進(jìn)行詳細(xì)分析，運行基于機(jī)器學(xué)習(xí)的算法，并行處理數(shù)據(jù)集來識別出數(shù)據(jù)實體。本發(fā)明的方法大大地提高了實體識別的效果，具有很好的處理性能和效果，滿足了識別海量數(shù)據(jù)中的實體的需求。技術(shù)實現(xiàn)要素：本發(fā)明的技術(shù)任務(wù)是針對以上不足之處，提供一種實用性強(qiáng)、基于學(xué)習(xí)的實體識別方法。一種基于學(xué)習(xí)的實體識別方法，其實現(xiàn)過程為：首先產(chǎn)生分類器：從數(shù)據(jù)記錄中抽取出部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集并人工標(biāo)出分類，對其進(jìn)行預(yù)處理，根據(jù)相似度值和匹配情況產(chǎn)生分類器；然后應(yīng)用分類器：把數(shù)據(jù)記錄中除訓(xùn)練數(shù)據(jù)集外的其它數(shù)據(jù)作為測試數(shù)據(jù)集存儲到分布式文件系統(tǒng)中，作為實體識別的輸入，采用訓(xùn)練好的分類模型對測試數(shù)據(jù)集進(jìn)行分類處理；最后根據(jù)系統(tǒng)匹配結(jié)果，得出最終的實體識別結(jié)果。所述分類器產(chǎn)生的具體過程為：首先從數(shù)據(jù)記錄中收集相關(guān)的數(shù)據(jù)集，抽取出訓(xùn)練數(shù)據(jù)集；對獲取的訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理，即對訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)記，并利用笛卡爾積組成R和S的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對，這里的R和S是兩個不同的數(shù)據(jù)集；對訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算，由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值，這里的k取值范圍為3≤k＜10；根據(jù)以上訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對的相似度值和匹配或者不匹配的結(jié)果，進(jìn)行分類器訓(xùn)練；根據(jù)訓(xùn)練分類器的結(jié)果生成一個內(nèi)部的分類模型作為分類器。所述分類器的應(yīng)用過程為：首先標(biāo)記測試數(shù)據(jù)集，并利用笛卡爾積組成R和S的測試數(shù)據(jù)集數(shù)據(jù)對，這里的R和S是兩個不同的數(shù)據(jù)集；對測試數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算，由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值，這里的k取值范圍為3≤k＜10；根據(jù)以上測試數(shù)據(jù)集數(shù)據(jù)對的相似度值為分類器提供特征值，利用生成的分類器，由分類器返回匹配或者不匹配的結(jié)果；最后，輸出只包含匹配實體對的識別結(jié)果。所述實體識別是指確定兩個或多個數(shù)據(jù)記錄描述的是否為同一個實體對象，其中：對單個數(shù)據(jù)集的實體識別過程描述為：對兩個數(shù)據(jù)集的實體識別過程描述為：在上述公式中，R和S是兩個不同的數(shù)據(jù)集；e表示為實體；i、j為自然數(shù)；Ψ是識別函數(shù)，用來計算數(shù)據(jù)記錄描述的是否為同一個實體；θ是合并函數(shù)，把數(shù)據(jù)記錄合并成一個記錄，并對整個數(shù)據(jù)庫不產(chǎn)生影響；Ω是實體識別后產(chǎn)生的新的實體數(shù)據(jù)集。實體識別過程是在機(jī)器識別模型中進(jìn)行的，該機(jī)器識別模型用來處理實體，即通過Map函數(shù)和Reduce函數(shù)，將輸入的所有鍵值對按照key部分是否相同來進(jìn)行快速分組，并最終得到機(jī)器識別階段的結(jié)果。Map函數(shù)的處理過程是對數(shù)據(jù)集中的實體記錄初步處理的過程，經(jīng)過Map處理的數(shù)據(jù)對以<key，value>的形式存在；Map函數(shù)的輸入是經(jīng)過Split分片后的數(shù)據(jù)塊，每個數(shù)據(jù)塊中包含若干條數(shù)據(jù)記錄，對于每一條數(shù)據(jù)記錄，調(diào)用一次Map函數(shù)進(jìn)行處理；在Map函數(shù)內(nèi)部，isEntity()函數(shù)首先檢查輸入的數(shù)據(jù)記錄是否符合實體記錄的定義，若滿足實體記錄的定義，則將該條數(shù)據(jù)記錄作為Map函數(shù)的輸出值value輸出。Reduce函數(shù)的處理過程是對經(jīng)過Map過程處理后的數(shù)據(jù)進(jìn)行處理，經(jīng)過Reduce處理的數(shù)據(jù)以<key，value>的形式存在；Reduce函數(shù)的輸入是Map函數(shù)輸出出來的鍵值對，且輸入Reduce函數(shù)的鍵值對由所有Reduce進(jìn)程中的一個來處理，最后Reduce以文件的形式將分組到同一類的記錄輸出到HDFS里儲存起來。本發(fā)明的一種基于學(xué)習(xí)的實體識別方法，具有以下優(yōu)點：本發(fā)明提出的一種基于學(xué)習(xí)的實體識別方法，可以充分利用Hadoop并行處理模型和MapReduce框架，采用和機(jī)器學(xué)習(xí)結(jié)合的方式，通過應(yīng)用分類器來提高執(zhí)行速度，并能達(dá)到很好的識別效果，可以很好地滿足識別海量數(shù)據(jù)中的實體的需求，具有很好的處理性能和效果，實用性強(qiáng)，易于推廣。附圖說明附圖1為本發(fā)明MapReduce工作流程圖。附圖2為本發(fā)明模擬效果圖。附圖3為本發(fā)明實體識別工作流程圖。附圖4為本發(fā)明完成時間和加速比的實驗結(jié)果對比圖。附圖5為本發(fā)明兩種算法實驗結(jié)果對比圖。具體實施方式下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步說明。本發(fā)明提供一種基于學(xué)習(xí)的實體識別方法，首先，要對實體有一個整體的認(rèn)識。由于對現(xiàn)實世界中的同一個實體的描述、理解和定位等方面的不同，造成同一個實體有多種表述方式。實體識別就是要從這些不同名稱和理解的數(shù)據(jù)集中識別出這個實體，把多條描述同一個實體的信息整合到一起，形成一條對實體的描述的過程。所以，實體識別最根本的目的是確定兩個或多個數(shù)據(jù)記錄描述的是否為同一個實體對象。如附圖1、圖2所示，假設(shè)R和S是兩個不同的數(shù)據(jù)集，這里的數(shù)據(jù)集可采用任意企業(yè)的數(shù)據(jù)集，比如某制造企業(yè)產(chǎn)生的海量數(shù)據(jù)，e表示為實體，i、j為自然數(shù)，Ψ是識別函數(shù)，是被函數(shù)用來計算數(shù)據(jù)記錄描述的是否為同一個實體，θ是合并函數(shù)，合并函數(shù)通過某種規(guī)則把數(shù)據(jù)記錄合并成一個記錄，并對整個數(shù)據(jù)庫不產(chǎn)生影響，Ω是實體識別后產(chǎn)生的新的實體數(shù)據(jù)集。如果對單個數(shù)據(jù)集的實體識別過程描述為：對兩個數(shù)據(jù)集的實體識別過程描述為：那么，根據(jù)不同的計算框架，多個數(shù)據(jù)集也可以有這樣的形式化描述結(jié)果。實體識別的關(guān)鍵是數(shù)據(jù)記錄的匹配，可以通過基于機(jī)器學(xué)習(xí)的方法進(jìn)行處理。如下圖所示所示的表格中，都是對實體“直接無減粗紗”的描述，所以它們有可能描述的是同一個實體對象。通過設(shè)置識別函數(shù)Ψ和合并函數(shù)θ，通過實體對形式的對比，最終識別出這個實體對象。編號產(chǎn)品名產(chǎn)品ID產(chǎn)品TEX001粗紗T838T2400002直接無堿粗紗T838Tnull003直接無堿粗紗null2400004nullT838T2400005直接無堿粗紗T838T2400本發(fā)明的實體識別過程是在機(jī)器識別模型中進(jìn)行的，該機(jī)器識別模型充分利用MapReduce并行框架的快速分組優(yōu)勢，將輸入的所有鍵值對按照key部分是否相同來進(jìn)行快速分組，并最終得到機(jī)器識別階段的結(jié)果。下面簡單說明機(jī)器識別階段中Map函數(shù)和Reduce函數(shù)的工作流程。Map函數(shù)可簡單定義成如下的形式：Map過程是對數(shù)據(jù)集中的實體記錄初步處理的過程，經(jīng)過Map處理的數(shù)據(jù)對會以<key，value>的形式存在。Map函數(shù)的輸入是經(jīng)過Split分片后的數(shù)據(jù)塊，每個數(shù)據(jù)塊中包含若干條數(shù)據(jù)記錄。對于每一條數(shù)據(jù)記錄，都會調(diào)用一次Map函數(shù)進(jìn)行處理。在Map函數(shù)內(nèi)部，isEntity()函數(shù)首先會檢查輸入的數(shù)據(jù)記錄是否符合實體記錄的定義。若滿足實體記錄的定義，則將該條數(shù)據(jù)記錄作為Map函數(shù)的輸出值value輸出。Reduce函數(shù)可簡單定義成如下的形式：Map過程之后就是Reduce過程了，它對經(jīng)過Map過程處理后的數(shù)據(jù)進(jìn)行處理，而經(jīng)過Reduce處理的數(shù)據(jù)同樣會以<key，value>的形式存在。Reduce函數(shù)的輸入是上一步Map函數(shù)輸出出來的鍵值對，具體的處理過程可以自行定義。輸入Reduce函數(shù)的鍵值對，只會有由所有Reduce進(jìn)程中的一個來處理，這是由鍵值對中key值部分以及MapReduce框架所確定的，這樣可以確保每一個鍵值對都不會被多個Reduce重復(fù)處理。最后，Reduce會以文件的形式將分組到同一類的記錄輸出到HDFS里儲存起來。Map和Reduce兩個過程，共同組成了MapReduce框架，是實體識別過程中重要的兩個關(guān)鍵步驟。基于上述描述，如附圖3所示，本發(fā)明的實現(xiàn)過程為：首先產(chǎn)生分類器：從數(shù)據(jù)記錄中抽取出部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)集并人工標(biāo)出分類，對其進(jìn)行預(yù)處理，根據(jù)相似度值和匹配情況產(chǎn)生分類器；然后應(yīng)用分類器：把數(shù)據(jù)記錄中除訓(xùn)練數(shù)據(jù)集外的其它數(shù)據(jù)作為測試數(shù)據(jù)集存儲到分布式文件系統(tǒng)中，作為實體識別的輸入，采用訓(xùn)練好的分類模型對測試數(shù)據(jù)集進(jìn)行分類處理；最后根據(jù)系統(tǒng)匹配結(jié)果，得出最終的實體識別結(jié)果。所述分類器產(chǎn)生的具體過程為：首先從數(shù)據(jù)記錄中收集相關(guān)的數(shù)據(jù)集，抽取出訓(xùn)練數(shù)據(jù)集；對獲取的訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理，即對訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)進(jìn)行標(biāo)記，并利用笛卡爾積組成R和S的訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對，這里的R和S是兩個不同的數(shù)據(jù)集；對訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算，由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值，這里的k取值范圍為3≤k＜10；根據(jù)以上訓(xùn)練數(shù)據(jù)集數(shù)據(jù)對的相似度值和匹配或者不匹配的結(jié)果，進(jìn)行分類器訓(xùn)練；根據(jù)訓(xùn)練分類器的結(jié)果生成一個內(nèi)部的分類模型作為分類器。所述分類器的應(yīng)用過程為：首先標(biāo)記測試數(shù)據(jù)集，并利用笛卡爾積組成R和S的測試數(shù)據(jù)集數(shù)據(jù)對，這里的R和S是兩個不同的數(shù)據(jù)集；對測試數(shù)據(jù)集數(shù)據(jù)對進(jìn)行相似度計算，由k個不同的匹配函數(shù)計算得到相應(yīng)的相似度值，這里的k取值范圍為3≤k＜10；根據(jù)以上測試數(shù)據(jù)集數(shù)據(jù)對的相似度值為分類器提供特征值，利用生成的分類器，由分類器返回匹配或者不匹配的結(jié)果；最后，輸出只包含匹配實體對的識別結(jié)果。在上述表格中，001和002組成一個數(shù)據(jù)對，“產(chǎn)品名”、“產(chǎn)品ID”、“產(chǎn)品TEX”這3個匹配函數(shù)，計算它倆相似度值。根據(jù)這兩個記錄對的相似度值，就能判斷它倆是不是一個數(shù)據(jù)。實驗說明：實驗選取集群中的某一節(jié)點作為單機(jī)處理數(shù)據(jù)集的環(huán)境，對選取的的數(shù)據(jù)集進(jìn)行處理，得到對應(yīng)的數(shù)據(jù)處理時間。然后，分別測試在并行集群環(huán)境中不同節(jié)點數(shù)下處理數(shù)據(jù)的效果。在附圖4中，起點在上側(cè)的折線表示的是完成時間，起點在下側(cè)的折線表示的是對應(yīng)的加速比，由此分析可得，隨著節(jié)點數(shù)的增多，完成時間縮短，運行速度逐漸加快。將實驗最終的結(jié)果與基于規(guī)則的算法的實驗結(jié)果進(jìn)行對比，采用準(zhǔn)確率、召回率及F值作為識別結(jié)果精確性的標(biāo)準(zhǔn)衡量。在附圖5中，上邊的折線表示基于學(xué)習(xí)的算法的結(jié)果，下邊的折線是基于規(guī)則的算法的結(jié)果，由此對比發(fā)現(xiàn)，基于學(xué)習(xí)的算法的精確度較高。通過實驗，證明了本發(fā)明提出的方法極可以充分利用Hadoop并行處理模型和MapReduce框架并能達(dá)到很好的識別效果，極大地加快了實體識別的速度，提高了實體識別的效率，可以很好地滿足識別海量數(shù)據(jù)中的實體的需求。上述具體實施方式僅是本發(fā)明的具體個案，本發(fā)明的專利保護(hù)范圍包括但不限于上述具體實施方式，任何符合本發(fā)明的一種基于學(xué)習(xí)的實體識別方法的權(quán)利要求書的且任何所述
技術(shù)領(lǐng)域：
的普通技術(shù)人員對其所做的適當(dāng)變化或替換，皆應(yīng)落入本發(fā)明的專利保護(hù)范圍。當(dāng)前第1頁1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：耿玉水;姜雪松;李鵬;
技術(shù)所有人：齊魯工業(yè)大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于學(xué)習(xí)的實體識別方法與流程