欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種企業(yè)數(shù)據(jù)匹配方法和裝置制造方法

文檔序號:6505400閱讀:143來源:國知局
一種企業(yè)數(shù)據(jù)匹配方法和裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N企業(yè)數(shù)據(jù)匹配方法,包括:獲取企業(yè)名稱數(shù)據(jù);根據(jù)預置的字典庫對企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞;根據(jù)地址屬性分詞獲取對應的最高子行政級別地址;根據(jù)最高子行政級別地址對企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合;將記錄對集合進行比較決策獲得匹配記錄對。本發(fā)明實施例還提供了對應的裝置。本發(fā)明實施例通過分詞得到地址屬性詞,根據(jù)地址屬性詞得到最高子行政級別地址作為分塊,將同一分塊能的企業(yè)名稱數(shù)據(jù)兩兩配對形成匹配記錄對,減少了計算量,提供了匹配精度。
【專利說明】
一種企業(yè)數(shù)據(jù)匹配方法和裝置

【技術領域】
[0001]本申請涉及數(shù)據(jù)匹配【技術領域】,特別是涉及一種企業(yè)數(shù)據(jù)匹配方法和裝置。

【背景技術】
[0002]在企業(yè)的生產活動中,會產生大量的業(yè)務數(shù)據(jù),事實上企業(yè)很難確保其所積累數(shù)據(jù)的質量,其原因是多種多樣的,如:錄入錯誤、完整性約束缺失、信息的多種描述方式等,更復雜的是,相互獨立的數(shù)據(jù)源不僅表述相同實體時使用的值不相同,甚至存儲結構、關于數(shù)據(jù)的基本假設也不相同。企業(yè)的生產活動又是以其數(shù)據(jù)為基礎,大到市場分析、決策,小到業(yè)務查詢,都是在業(yè)務數(shù)據(jù)之上的操作。顯然企業(yè)所累積數(shù)據(jù)的質量沒有保障,其所做操作也將無法保障。為了達到企業(yè)對業(yè)務數(shù)據(jù)去重的目的,需要發(fā)明一種高效、準確、自動的匹配方法,快速準確地發(fā)現(xiàn)描述同一實體的不同記錄。
[0003]為了解決上述應用中的問題,現(xiàn)有技術提出一種記錄匹配方法,主要包括:首先對企業(yè)名稱數(shù)據(jù)進行分詞獲取名稱詞;然后將相近名稱詞的企業(yè)名稱數(shù)據(jù)經(jīng)過比較和決策算法獲得匹配記錄對展示給操作員。
[0004]在現(xiàn)有的技術方案中,由于只關注名稱詞做匹配,在匹配過程中可能出現(xiàn)兩個地方相近名稱的企業(yè)名稱數(shù)據(jù)的比對,出現(xiàn)匹配不精確的情況;還因為按照名稱詞進行記錄對匹配,計算量過大。


【發(fā)明內容】

[0005]本申請所要解決的技術問題是提供一種企業(yè)數(shù)據(jù)匹配方法能夠更加精確和快速的形成匹配記錄對。
[0006]相應的,本申請還提供了針對上述企業(yè)數(shù)據(jù)匹配方法對應的裝置。
[0007]為了解決上述問題,本申請公開了一種企業(yè)數(shù)據(jù)匹配方法,包括:
[0008]獲取企業(yè)名稱數(shù)據(jù);
[0009]根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞;
[0010]根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址;
[0011]根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合;
[0012]將記錄對集合進行比較決策獲得匹配記錄對。
[0013]進一步,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址包括:
[0014]將地址屬性分詞與預置字典中的地址詞進行比對;
[0015]當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0016]當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0017]進一步,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址還包括:
[0018]當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞;
[0019]根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊;
[0020]當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
[0021]進一步,所述根據(jù)最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合還包括:
[0022]將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
[0023]進一步,所述將記錄對集合進行比較決策獲得匹配記錄對包括:
[0024]將所述記錄對經(jīng)過比較算法獲得算法比較記錄對;
[0025]將所述算法比較記錄對進行決策獲得匹配記錄對。
[0026]本申請還提供了一種企業(yè)數(shù)據(jù)匹配裝置,包括:
[0027]獲取模塊,用于獲取企業(yè)名稱數(shù)據(jù);
[0028]分詞模塊,用于根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞;
[0029]地址獲取模塊,用于根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址;
[0030]分塊模塊,用于根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合;
[0031]比較決策模塊,用于將記錄對集合進行比較決策獲得匹配記錄對。
[0032]進一步,所述地址獲取模塊具體用于,將地址屬性分詞與預置字典中的地址詞進行比對;當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0033]進一步,所述地址獲取模塊還用于,當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞;
[0034]根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊;
[0035]當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
[0036]進一步,所述分塊模塊具體用于,將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
[0037]進一步,所述比較決策模塊還包括:
[0038]比較模塊,用于將所述記錄對經(jīng)過比較算法獲得算法比較記錄對;
[0039]決策模塊,用于將所述算法比較記錄對進行決策獲得匹配記錄對。
[0040]與現(xiàn)有技術相比,本申請包括以下優(yōu)點:本申請通過分詞得到地址屬性詞,根據(jù)所述地址屬性詞得到最高子行政級別地址作為分塊,將同一分塊能的企業(yè)名稱數(shù)據(jù)兩兩配對形成匹配記錄對,減少了計算量,提供了匹配精度。

【專利附圖】

【附圖說明】
[0041]圖1是本發(fā)明一種企業(yè)數(shù)據(jù)匹配方法一實施例的流程架構圖圖;
[0042]圖2是本發(fā)明一種企業(yè)數(shù)據(jù)匹配方法一實施例的流程示意圖;
[0043]圖3是本發(fā)明一種企業(yè)數(shù)據(jù)匹配方法一實施例中獲取省份的流程示意圖;
[0044]圖4是本發(fā)明一種企業(yè)數(shù)據(jù)匹配裝置一裝置的結構示意圖。

【具體實施方式】
[0045]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0046]參照圖2,示出了本申請一種企業(yè)數(shù)據(jù)匹配方法;
[0047]在本發(fā)明實施例中,所述最高子行政級別地址為當前應用行政級別下的最高子行政級別,例如若本發(fā)明實施例應用在全國領域,則所述最高子行政級別地址為省、直轄市、自治州和特別行政區(qū)等一級行政級別,當然如果本發(fā)明實施例應用在全球范圍內,則最高子行政級別地址則可以是各國家、地區(qū)等名稱。在本發(fā)明實施例中以在中國區(qū)域實施為例進行表述:
[0048]步驟S101、獲取企業(yè)名稱數(shù)據(jù);
[0049]本發(fā)明實施例中的企業(yè)名稱數(shù)據(jù)可以是在已輸入被記錄在數(shù)據(jù)庫的數(shù)據(jù)。
[0050]步驟S102、根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞;
[0051]在本發(fā)明實施例中,企業(yè)名稱數(shù)據(jù)主要利用行業(yè)詞、地址詞對公司名稱進行分詞,而不是使用通用的分詞工具對公司名稱進行分詞。通用的分詞工具無法滿足記錄匹配過程的需要:1.其字典涵蓋不到特定領域的公司名稱,如“西安國盛大藥房”,在開源分詞工具IKAnalyzer上使用智能切分的分詞結果是“西/安國/盛大/藥房”,其原因在于IKAnalyzer分詞所使用的字典中沒能涵蓋“國盛”或“國盛大藥房”;2.通用分詞工具只能夠給出其分詞結果,如“同仁堂/藥店”無法提供[同仁堂:名稱詞]/[藥店:特征詞]這樣詳細的詞性標注結果。因此本發(fā)明實施例針對企業(yè)名稱數(shù)據(jù)這一特定領域,定制化一個字典庫,其中包含了地址信息、名稱詞信息、特征詞信息等。利用Trie樹技術組織定制化的字典庫,通過使用后綴思想來提高匹配結果的精確度。如“西安國盛大藥房”通過從后向前搜索首先識別出“大藥房”(大藥房是存儲在字典中的特征詞),并且沒有以“大藥房”結尾的其他關鍵詞,因此識別出[大藥房:特征詞],接下來識別出“國盛”(國盛是存儲在字典中的名稱詞),[國盛:名稱詞],最后識別出“西安”(西安是存儲在字典中的地址詞),[西安:地址]。
[0052]步驟S103、根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址;
[0053]進一步,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址包括:
[0054]將地址屬性分詞與預置字典中的地址詞進行比對;
[0055]當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0056]當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0057]進一步,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址還包括:
[0058]當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞;
[0059]根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊;
[0060]當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
[0061]利用地址信息分塊,這一步驟主要利用企業(yè)名稱數(shù)據(jù)中的地址信息,以及記錄在地址屬性上的信息,通過地址信息獲得該企業(yè)名稱數(shù)據(jù)所對應的省,將省份相同的記錄放在同一個塊中用作后續(xù)處理,其中省份信息缺失的將置為Null。其中企業(yè)名稱數(shù)據(jù)地址屬性上的信息作為主要參考信息,如果在地址屬性上能夠獲取到該公司所在的省份,將不再提取公司名稱中的省份信息,否則將從企業(yè)名稱數(shù)據(jù)中提取地址信息。從公司名稱中提取省份信息的詳細過程如圖3所示。利用地址屬性詞、公司名稱中獲得的省份信息,將省份相同的記錄放入同一記錄塊內,將省份缺失的記錄放入同一記錄塊,將省份缺失的記錄塊記為空白塊。
[0062]步驟S104、根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合;
[0063]進一步,所述根據(jù)最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合還包括:
[0064]將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
[0065]這一步驟是利用已經(jīng)產生的分塊產生記錄對,首先將同一分塊內的企業(yè)名稱數(shù)據(jù)兩兩組成記錄對,其次將空白塊中的每一條企業(yè)名稱數(shù)據(jù)與其他分塊內的所有企業(yè)名稱數(shù)據(jù)兩兩組成記錄對。將所有產生的記錄對放在同一集合內,去掉重復記錄對,組成記錄對集合,作為比較決策流程的輸入。
[0066]步驟S105、將記錄對集合進行比較決策獲得匹配記錄對。
[0067]進一步,所述將記錄對集合進行比較決策獲得匹配記錄對包括:
[0068]將所述記錄對經(jīng)過比較算法獲得算法比較記錄對;
[0069]將所述算法比較記錄對進行決策獲得匹配記錄對。
[0070]針對分塊算法的輸出,對于記錄對集合中的每一對記錄對首先計算其相似度,然后通過與預置閾值相比較,如果高于閾值則認為該記錄對是匹配的,并將其輸出,如果記錄對不匹配則不輸出。
[0071]對于待比較的記錄對,首先獲取企業(yè)名稱數(shù)據(jù)地址信息,地址信息的獲得與獲取省份時類似,主要利用地址屬性信息,并將地址信息存儲成省、市、縣/區(qū)、鎮(zhèn)/鄉(xiāng)/街道、村/小區(qū)、樓、號等標準化的形式;然后獲取其公司名稱信息,并將公司名稱存儲成層級組織。其中地址信息如“深圳南山高新中一道35號”分詞并標準化成“廣東省:省/深圳市:市/南山區(qū):區(qū)/高新中一道:道/35號:號”,公司名稱信息如“一致藥店南山同心分店”被分詞成“〈一致:名稱詞/藥店:特征詞 >,南山:地址詞,< 同心:名稱詞/分店:特征詞>”。
[0072]其中地址標準化部分,除了將類似于“深圳”這樣一個城市名稱擴展成“深圳市”之夕卜,另一個值的強調的地方在于考慮了通過市對省信息的補齊,如上面提到的“深圳南山”的信息,由于深圳這個市存在且只存在于廣東省,因此將類似缺少省份的數(shù)據(jù)通過數(shù)據(jù)中的有關市的信息映射到該省上,這一部分功能的實現(xiàn)依賴于一個市到省的映射表。
[0073]在本發(fā)明實施例中,預置盡可能全的特征詞、地址信息詞,企業(yè)名稱數(shù)據(jù)中不能被識別的部分往往是公司名稱詞,因此有必要將未識別的詞作為公司名稱詞處理。當然另外一個輔助信息是該未識別詞應該位于某一特征詞前面,并與該特征詞聯(lián)合構成一個組織。
[0074]在將地址信息標準化、公司名稱存儲成層級組織結構后,在此基礎上計算記錄對的相似度。首先計算地址的相似度,通過對記錄對中兩條企業(yè)名稱數(shù)據(jù)在省、市、縣/區(qū)、鎮(zhèn)/鄉(xiāng)/街道、村/小區(qū)、樓、號上分別計算是否相同,并利用加權計算來獲得兩條記錄的相似度。如果兩條企業(yè)名稱數(shù)據(jù)的相似度過低,比如深圳市與東莞市雖然同在一個省,可是其市信息同時存在卻不相同并且不存在相互縮寫關系,則兩條企業(yè)名稱數(shù)據(jù)的相似度極低,此時直接將兩條企業(yè)名稱數(shù)據(jù)的地址相似度作為記錄對的相似度輸出。只有在記錄對在地址信息上的相似度足夠高的時候才進一步計算最小組織單位是否匹配。
[0075]進一步,步驟S105后還可以包括:
[0076]根據(jù)所述匹配的記錄對輸出記錄組。
[0077]決策流程輸出了匹配記錄對,這些記錄對中可能同時存在<a,b>匹配、<b, c>匹配,但是并沒有<a,c>記錄對的匹配信息,為此在產生記錄組的時候利用一個傳遞規(guī)則:
[0078]如果〈a,b>> <b, c> 匹配,貝丨J〈a, c> 匹配。
[0079]使所有能夠匹配上的記錄產生一個閉包,如上例中的[a] = [b] = [c] = {a, b,c}。
[0080]通過上述規(guī)則,利用已經(jīng)匹配的記錄對就可以將相互匹配的企業(yè)名稱數(shù)據(jù)歸入一個記錄組中。
[0081]本發(fā)明實施例通過分詞得到地址屬性詞,根據(jù)所述地址屬性詞得到最高子行政級別地址作為分塊,將同一分塊能的企業(yè)名稱數(shù)據(jù)兩兩配對形成匹配記錄對,減少了計算量,提供了匹配精度。
[0082]對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
[0083]如圖3所述為本發(fā)明一種企業(yè)數(shù)據(jù)匹配裝置一實施例的結構示意圖,包括:
[0084]獲取模塊21,用于獲取企業(yè)名稱數(shù)據(jù);
[0085]分詞模塊22,用于根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞;
[0086]地址獲取模塊23,用于根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址;
[0087]分塊模塊24,用于根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合;
[0088]比較決策模塊25,用于將記錄對集合進行比較決策獲得匹配記錄對。
[0089]進一步,所述地址獲取模塊23具體用于,將地址屬性分詞與預置字典中的地址詞進行比對;當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;
[0090]進一步,所述地址獲取模塊23還用于,當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞;
[0091]根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊;
[0092]當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
[0093]進一步,所述分塊模塊24具體用于,將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
[0094]進一步,所述比較決策模塊25還包括:
[0095]比較模塊251,用于將所述記錄對經(jīng)過比較算法獲得算法比較記錄對;
[0096]決策模塊252,用于將所述算法比較記錄對進行決策獲得匹配記錄對。
[0097]本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0098]以上對本申請所提供的一種企業(yè)數(shù)據(jù)匹配方法和裝置,進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本申請的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
【權利要求】
1.一種企業(yè)數(shù)據(jù)匹配方法,其特征在于,包括: 獲取企業(yè)名稱數(shù)據(jù); 根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞; 根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址; 根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合; 將記錄對集合進行比較決策獲得匹配記錄對。
2.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址包括: 將地址屬性分詞與預置字典中的地址詞進行比對; 當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊; 當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊。
3.根據(jù)權利要求1所述的方法,其特征在于,所述根據(jù)地址屬性分詞獲取對應的最高子行政級別地址還包括: 當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞; 根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊; 當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
4.根據(jù)權利要求2或3所述的方法,其特征在于,所述根據(jù)最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合還包括: 將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
5.根據(jù)權利要求4所述的方法,其特征在于,所述將記錄對集合進行比較決策獲得匹配記錄對包括: 將所述記錄對經(jīng)過比較算法獲得算法比較記錄對; 將所述算法比較記錄對進行決策獲得匹配記錄對。
6.一種企業(yè)數(shù)據(jù)匹配裝置,其特征在于,包括: 獲取模塊,用于獲取企業(yè)名稱數(shù)據(jù); 分詞模塊,用于根據(jù)預置的字典庫對所述企業(yè)名稱數(shù)據(jù)進行分詞獲取地址屬性分詞; 地址獲取模塊,用于根據(jù)所述地址屬性分詞獲取對應的最高子行政級別地址; 分塊模塊,用于根據(jù)所述最高子行政級別地址對所述企業(yè)名稱數(shù)據(jù)進行分塊形成記錄對集合; 比較決策模塊,用于將記錄對集合進行比較決策獲得匹配記錄對。
7.根據(jù)權利要求6所述的裝置,其特征在于,所述地址獲取模塊具體用于,將地址屬性分詞與預置字典中的地址詞進行比對;當所述地址屬性分詞包括預置字典中最高子行政級別地址時,以所述最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊;當所述地址屬性分詞僅包括預置字典中第二級子行政級別地址時,根據(jù)所述第二級子行政級別地址在字典中獲取對應的最高子行政級別地址作為該企業(yè)名稱數(shù)據(jù)分塊。
8.根據(jù)權利要求6所述的裝置,其特征在于,所述地址獲取模塊還用于,當所述地址屬性分詞不包括第二季子行政級別地址時,獲取最后地址詞; 根據(jù)所述最后地址詞獲取最高子行政級別地址,將所述最高子行政級別地址作為所述企業(yè)名稱數(shù)據(jù)分塊; 當所述地址屬性分詞不包括任何地址詞時,將所述企業(yè)名稱數(shù)據(jù)作為空白分塊記錄。
9.根據(jù)權利要求7或8所述的裝置,其特征在于,所述分塊模塊具體用于,將同一個分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對,將空白分塊內的企業(yè)名稱數(shù)據(jù)與其它所有分塊內的企業(yè)名稱數(shù)據(jù)兩兩配對形成記錄對。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述比較決策模塊還包括: 比較模塊,用于將所述記錄對經(jīng)過比較算法獲得算法比較記錄對; 決策模塊,用于將所述算法比較記錄對進行決策獲得匹配記錄對。
【文檔編號】G06F17/27GK104252507SQ201310279896
【公開日】2014年12月31日 申請日期:2013年6月28日 優(yōu)先權日:2013年6月28日
【發(fā)明者】邊旭 申請人:北京華傲達數(shù)據(jù)技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
夏津县| 淳安县| 驻马店市| 原平市| 赤峰市| 辽源市| 温宿县| 高陵县| 望城县| 玉龙| 广平县| 安顺市| 双峰县| 涟水县| 兴海县| 桐柏县| 贵德县| 任丘市| 清流县| 陆丰市| 志丹县| 普洱| 类乌齐县| 竹北市| 陇川县| 福建省| 茶陵县| 同德县| 邯郸县| 定南县| 兴隆县| 花垣县| 汕头市| 中西区| 乐山市| 翁牛特旗| 青铜峡市| 大余县| 石嘴山市| 汕头市| 斗六市|