欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法

文檔序號:6481543閱讀:273來源:國知局
專利名稱:一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法
技術(shù)領域
本發(fā)明涉及一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法,屬于數(shù)據(jù)庫技術(shù)領域。
背景技術(shù)
模式匹配在許多應用中都起著關(guān)鍵作用,如數(shù)據(jù)倉庫中的數(shù)據(jù)抽取過程需要將數(shù)據(jù)源 的數(shù)據(jù)按倉庫的格式轉(zhuǎn)換;電子商務信息交換的處理中的異構(gòu)消息的映射;以及數(shù)據(jù)集成 中全局視圖的構(gòu)建。
由于準確的語義信息只有模式設計者才能真正掌握,不能在模式本身中完全表達,所 以模式匹配的自動實現(xiàn)是一個難以解決的問題,使得模式的匹配工作經(jīng)常要用戶大量參 與,成為數(shù)據(jù)交換的應用中的瓶頸問題。 一個高效的模式匹配算法需要一系列的基礎技術(shù) 的組合,包括綜合考慮語言學相關(guān)知識、數(shù)據(jù)類型的內(nèi)在關(guān)聯(lián)、數(shù)據(jù)實例間的關(guān)系以及領 域知識等等。
目前模式匹配主要有基于模式內(nèi)部信息的模式匹配和基于大規(guī)模數(shù)據(jù)以及背景知識 的模式匹配等兩類。基于待匹配模式內(nèi)部信息的模式匹配優(yōu)點在于整合模式內(nèi)聚信息,其 局限性在于模式自身語義的不完備;基于大規(guī)模數(shù)據(jù)以及背景知識的模式匹配方法充分利 用了數(shù)據(jù)實例或者以往的匹配結(jié)果,但往往不具備通用性,并且學習數(shù)據(jù)較難獲取。同時, 現(xiàn)有方法在以下方面存在缺陷
1、 多對多的復雜匹配情況的處理;
2、 同名異義字段的匹配;
3、 算法的執(zhí)行效率。

發(fā)明內(nèi)容
本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足,提供一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法。 本發(fā)明解決其技術(shù)問題采用的技術(shù)方案是
一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法,該方法包括模式信息分析、模式信息分類、模 式信息整合以及模式元素相似度的計算四個步驟;
(1)所述模式信息分析用于實現(xiàn)解析格式化的源模式以及目標模式的元素信息,包
括以下步驟
A、獲取源數(shù)據(jù)庫模式XML文檔及目標數(shù)據(jù)庫模式XML文檔;B、 使用XML解析工具D0M4J解析XML文檔;
C、 整理解析出的模式元素信息,分別生成源模式元素名集合、源模式元素名與元素 描述對集合、源模式元素名與元素類型對集合、目標模式元素名集合、目標模式元素名與 元素描述對集合以及目標模式元素名與元素類型集合;
(2)所述模式信息分類用于歸類模式信息分析階段分析出的模式元素信息,將所有 元素分別按名稱、描述以及類型進行分類;主要包括名稱分類方法,描述分類方法以及類 型分類方法;
所述名稱分類方法用于根據(jù)模式元素名對源模式元素進行分類,并且計算每個目標模 式元素隸屬于源模式各類別的隸屬度,包括以下步驟-
D、 獲取源模式元素名稱集;
E、 對源模式元素按分隔符分解并去除公共前綴;
F、 對該詞集進行同義詞擴展;
G、 對該同義詞集中的元素進行3段解析后得文本集,該文本集實際就表示了類別所 具有的特征;
H、 各類別以及標識各類別的特征文本集作為訓練樣例送入名稱分類方法,以供分類 方法學習各類別特征;未經(jīng)過訓練樣例學習的分類方法不具有分類新樣例的能力;
I、 對目標模式元素,直接將各目標模式元素的3段解析字符串的集合作為待分類樣 例送入已經(jīng)學習完的名稱分類方法,以計算出各字符串對應各源模式的各類別的評估值, 各評估值將會作為模式整合階段的形式概念上下文的數(shù)據(jù)進行整合,名稱分類方法的輸出 結(jié)果的形式化表示如下
P, <~< 、 , 5, …e,, >, e [1,附],
其中,w為源模式字段數(shù),M為目標模式字段數(shù),A是指名稱分類方法輸出的第/個
類別,這里用源模式元素名指代各類別,向量<& 2... >是指該類別中包含的元素;
^是源模式元素,^, ..、是根據(jù)評估值選取的目標元素;/是自然數(shù);
所述描述分類方法用于根據(jù)模式元素的是元素描述對源模式元素進行分類,并且計算 每個目標模式元素隸屬于源模式各類別的隸屬度,包括以下步驟 J、獲取源模式元素描述集;
K、各類別以及標識各類別的特征描述集作為訓練樣例送入描述分類方法,以供分類 方法學習各類別特征;
6L、對于目標模式元素,直接將各目標模式元素的描述集作為待分類樣例送入已經(jīng)學 習完的描述分類方法,以計算出各描述對應各源模式的各類別的評估值,描述分類方法的 輸出結(jié)果的形式化表示如下
《,—< WV氣〉,'e[i,附],
其中,m為源模式字段數(shù),"為目標模式字段數(shù);其中&是指描述分類方法輸出的第 /個類別,這里用源模式元素名指代各類別,向量< ,^,^..氣>是指該類別中包含的元 素; 是源模式元素,^,^..々是根據(jù)評估值選取的目標元素;z'是自然數(shù);
所述類型分類方法用于將源模式以及目標模式各元素根據(jù)自身元素類型歸類,包含以 下步驟-
M、獲取源模式元素名與元素類型對集合以及目標模式元素名與元素類型對集合; N、按下述規(guī)則將各元素分類
i 、數(shù)值包括TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT, FLOAT, DOUBLE, DECIMAL;
ii字符串包括CHAR, VARCHAR, TINYBLOB , BLOB, MEDIUMBLOB, LONGBLOB, TINYTEXT, TEXT, MEDIUMTEXT, LONGTEXT, ENUM, SET;
iii、日期及時間DATE, TIME, DATETIME, TIMESTAMP, YEAR;類型屬于同 一類的模式元素劃為一類;
(3)所述模式信息整合用于整合模式信息分類的分類結(jié)果以及元素結(jié)構(gòu)信息,構(gòu)建 加權(quán)模糊概念格,主要是采用形式概念分析法來整合各模式分類信息及模式約束信息、構(gòu) 建加權(quán)模糊形式背景,并以此為依據(jù)構(gòu)建加權(quán)模糊概念格;
所述加權(quán)模糊形式背景的構(gòu)建包括以下步驟
I、 構(gòu)建形式背景的屬性分別是約束屬性、名稱分類屬性、描述分類屬性以及類型 分類屬性;
II、 為各屬性設定權(quán)值以及有效值區(qū)間所有約束屬性權(quán)值為1,有效值區(qū)間為[l,l]; 所有名稱分類屬性權(quán)值為0.8,有效值區(qū)間為
;所有描述分類屬性權(quán)值為0.9,有效 值區(qū)間為
;所有類型分類屬性權(quán)值為0.7,有效值區(qū)間為
;
III、 構(gòu)建形式背景對象形式背景對象是所有源目標元素以及目標元素;
IV、 針對形式背景各屬性,填入各形式背景對象具有該屬性的程度,對約束屬性及類 型分類屬性,以值l表示完全具有;值0表示完全不具有;對名稱分類屬性以及描述分類屬性,填入模式分類階段的各評估值;
所述加權(quán)模糊概念格構(gòu)建方法包括以下步驟 ③、將加權(quán)模糊形式背景單一化,構(gòu)建對應O-l矩陣; 、遍歷該矩陣,找出所有相對最大全1子矩陣; ③、去除重復矩陣;
、確定參數(shù)與偏序關(guān)系,形成最終的加權(quán)模糊概念格; (4)所述模式元素相似度的計算用于根據(jù)加權(quán)模糊概念格計算模式元素之間的匹配 度并設定閾值確定元素之間的匹配關(guān)系,采用的相似計算模型基于加權(quán)模糊概念格,計算 公式如下
g ((a v 6)A ) + ag ((a - 6)A ) + (1 - or) g ((6 - c )A )

(7)
其中,g表示勢函數(shù)g(P), P表示函數(shù)g的參數(shù),為概念格中一概念子集,"為平 衡因子,表示相似的對稱性,a表示概念的權(quán)重, 表示概念的每個外延對每個屬性的
平均隸屬度,("N/6)八表示加權(quán)模糊概念格中"、6兩結(jié)點公共的且只有一條向上邊的祖先
結(jié)點的集合,(a-"A表示那些只在fl中出現(xiàn)但未在6中出現(xiàn)的只有一條向上邊的祖先結(jié)點
的集合,(6-";r表示只在6中出現(xiàn)但未在a中出現(xiàn)的只有一條向上邊的祖先結(jié)點的集合。
有益效果
本發(fā)明通過提取模式本身固有信息模式元素名稱、元素描述以及元素類型,構(gòu)建信 息文本,利用樸素貝葉斯分類方法來對信息文本歸類;引入形式概念分析整合上述歸類信 息以及模式的結(jié)構(gòu)信息并構(gòu)建加權(quán)模糊概念格;通過一種新的相似評估模型獲取最終的匹 配結(jié)果。解決模式匹配在實際應用中出現(xiàn)的上述問題,提高計算機在解決模式匹配問題時 的效率,減少CPU資源的浪費。


圖l:本發(fā)明的數(shù)據(jù)庫模式自動匹配方法主體流程圖; 圖2:本發(fā)明的名稱分類算法流程圖; 圖3:本發(fā)明的描述分類算法流程圖;圖4:本發(fā)明的概念格快速構(gòu)建算法主體流程圖。
具體實施例方式
本發(fā)明提供一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法,該方法的基本思想是,對初始模式 信息歸類后,將權(quán)值與模糊值引入傳統(tǒng)形式概念分析法整合歸類信息,創(chuàng)建加權(quán)模糊形式 背景、獲取蘊涵的概念、確立概念間偏序關(guān)系,生成加權(quán)模糊概念格;建立加權(quán)模糊概念 格的相似計算模型,設定格式閾值,計算最終概念之間的匹配度,獲取模式元素之間的匹 配關(guān)系。
有關(guān)定義如下
定義1設Z為所有對象的集合,y為所有屬性的集合,加權(quán)模糊形式背景是映射
Xxy二[O,l],如果對象jceJT具有屬性;^;r,則/(jc,;;卜附,we
。令w(y) = "," e
,
標識屬性的重要性。
定義2對于加權(quán)模糊形式背景中的每個屬性,選取兩個閾值《與a,滿足 OS^《a《1。 A, a分別稱為屬性下界與上界。
定義3設/為xxr上的加權(quán)模糊形式背景,對于= z ,則 c(x') = {y s ;r i &《/(x,力s ^, Vx e x'}表示x'中全體對象所共有的屬性集。
定義4設/為X"上的加權(quán)模糊形式背景,對于,則
c(r') = & e x i ^《/(:c,力《^,yy e 表示同時具有;r'中所有屬性的對象集。
定義5設/為U上的加權(quán)模糊形式背景,X'GZ, / er。其中,r'=C(X'), xeX',
,er', lx'l與l"分別是集合x', y'的基數(shù)。當lx'卜o時有
定義6設/為% xr上的加權(quán)模糊形式背景,x' £ x , r' £ ;r 。其中,= c(;T), 少er', lx'l與ly'l分別是集合;T, y'的基數(shù)。當ly'卜o吋規(guī)定
(2)
xeZ ,
(3)
定義7設/為Xx;r上的加權(quán)模糊形式背景,z'gX, y'ey。如果x、c(r')且y'=c(x'),則稱(jr',r',fT,ftO為/上的加權(quán)模糊概念,z'、 r'分別稱為加權(quán)模糊概念
(U',(7,w)的外延(Extent)和內(nèi)涵(Intent)。 cr依據(jù)公式(2)計算,表示這個概念的外 延對應于每個屬性的平均隸屬度。w依據(jù)式(3)計算,表示這個概念的權(quán)值。用<^,表 示X x r上加權(quán)模糊形式背景/的所有加權(quán)模糊概念集。
定義8設/為Zxy上的加權(quán)模糊形式背景,如果(義",^,w,), (X2,;t2,ct2,w2)是/的 加權(quán)模糊概念(其中s表示偏序關(guān)系)。規(guī)定《G^。(a,i;,cTpq;m(;^,r2,c72,^), i;ei;。(;^,i;,^,6;,)《(X2,i;,CT2,6;2)。稱(^,i;,^,^)為(x2,;r2,o"2,ffl2)的子概念, (x2 , y2, <72, 2)為(a , d, ^)的超概念。
顯然,關(guān)系《是集合^^上的一個偏序關(guān)系,它可誘導出^^上的一個格結(jié)構(gòu),可以
證明,它是一個完備格。相應的上確界與下確界定義為
其中(X"", ,^)eJ^,J是指標集,此完備格稱為加權(quán)模糊形式背景/的加權(quán)模糊
概念格,在沒有歧義的情況下,仍然記為^a。
根據(jù)上述基本思想,再結(jié)合附圖對本發(fā)明的方法進行說明。參照圖l,圖l是本發(fā)明 主體流程圖。該方法包括以下步驟
步驟l、模式信息分析,對源模式以及目標模式的XML文檔解析,獲取其中的模式 元素名稱以及對應的描述以及類型,用于實現(xiàn)解析格式化的源模式以及目標模式的元素信 息,包括以下步驟
A、 獲取源數(shù)據(jù)庫模式XML文檔及目標數(shù)據(jù)庫模式XML文檔;
B、 使用XML解析工具DOM4J解析XML文檔;
c、 整理解析出的模式元素信息,分別生成源模式元素名集合、源模式元素名與元素 描述對集合、源模式元素名與元素類型對集合、目標模式元素名集合、目標模式元素名與 元素描述對集合以及目標模式元素名與元素類型集合;
步驟2、模式信息分類,分別按照模式元素名稱、元素描述以及元素類型多元素進行 分類。采用名稱分類方法、描述分類方法以及類型分類方法分類模式信息分析階段的輸出 結(jié)果。名稱分類方法,描述分類方法的分類行為是指以源模式各模式元素作為一個類別,
10類別名即為源模式元素的元素名;分類方法對源模式與目標模式的每個元素對計算出評估 數(shù)值,將目標模式元素劃歸到對應的源模式元素;類型分類方法的分類行為是指設定三大 類即數(shù)值、閂期及時間,根據(jù)分類規(guī)則以及所有元素數(shù)據(jù)類型,將各元素劃歸歸到相應的 類別中。
步驟3、模式信息整合,利用形式概念法整合分類結(jié)果以及模式約束信息,所述約束 信息標識該元素是否為主鍵或外鍵,對形式背景中對象各屬性分配合適的權(quán)值以區(qū)分在對 匹配度計算的貢獻度大小,形成加權(quán)模糊概念格。
步驟4、模式元素匹配度的相似計算。相似計算階段基于前階段的輸出加權(quán)模糊概念 格,根據(jù)公式(6),分別計算格中概念兩兩之間的相似度。通過概念格相關(guān)定義可知,概 念格的外延部分包含了對象也即模式的各個元素,若某概念包含了一模式元素,同時該概 念也是包含該模式元素的所有概念中具有內(nèi)涵最多的概念,則該概念能夠最具體的表示該 模式元素。因此通過找出所有能具體描述各模式元素的各概念,從而間接獲取源模式及目 標模式元素之間的匹配度,通過設定合適的匹配度閾值來確定最終的匹配關(guān)系。對匹配成 功的結(jié)點對生成映射關(guān)系,以XSLT文檔形式存儲。
圖2是模式信息分類中名稱分類方法流程圖,該方法包含以下步驟
步驟l、獲取源模式元素名稱集。
步驟2、對源模式元素按分隔符分解并去除公共前綴。
步驟3、將該詞集進行同義詞擴展。
步驟4、對該同義詞集中的元素進行3段解析后得文本集。該文本集實際就表示了類 別所具有的特征。
步驟5、各類別以及標識各類別的特征文本集作為訓練樣例送入名稱分類方法,以供 分類方法學習各類別特征。未經(jīng)過訓練樣例學習的分類方法不具有分類新樣例的能力。
步驟6、對目標模式元素,直接將各目標模式元素的3段解析字符串的集合作為待分 類樣例送入已經(jīng)學習完的名稱分類方法,以計算出各字符串對應各源模式的各類別的評估 值,各評估值將會作為模式整合階段的形式概念上下文的數(shù)據(jù)進行整合,名稱分類方法的 輸出結(jié)果的形式化表示如下-
<formula>formula see original document page 11</formula>
其中,m為源模式字段數(shù),"為目標模式字段數(shù),A是指名稱分類方法輸出的第Z個 類別,這里用源模式元素名指代各類別,向量< ,^, .』, >是指該類別中包含的元素。 e,,是源模式元素,^,,,.\是根據(jù)評估值選取的目標元素,/是fi然數(shù);圖3是模式信息分類中名稱分類方法流程圖,該方法包含以下步驟 步驟l、獲取源模式元素描述集。
步驟2、各類別以及標識各類別的特征描述集作為訓練樣例送入描述分類方法,以供 分類方法學習各類別特征。
步驟3、對于目標模式元素,直接將各目標模式元素的描述集作為待分類樣例送入已 經(jīng)學習完的描述分類方法,以計算出各字符串對應各源模式的各類別的評估值,描述分類 方法的輸出結(jié)果的形式化表示如下-
《仨< VVV"e', 、'e[l,m〗。
其中,附為源模式字段數(shù),n為目標模式字段數(shù)。其中《,是指描述分類方法輸出的第!' 個類別,這里用源模式元素名指代各類別,向量< V ^ , ^ ..、 >是指該類別中包含的元素。 ^是源模式元素,6,1,^..、是根據(jù)評估值選取的目標元素,Z'是自然數(shù);
類型分類方法用于將源模式以及目標模式各元素根據(jù)自身元素類型歸類,包含以下步

步驟1、獲取源模式元素名-元素類型對集合以及目標模式元素名-元素類型對集合; 步驟2、按下述規(guī)則將各元素分類
i 、數(shù)值包括TINYINT, SMALLINT, MEDIUMINT, INT, BIGINT, FLOAT, DOUBLE, DECIMAL;
ii、 字符串包括CHAR, VARCHAR, TINYBLOB, BLOB, MEDIUMBLOB, LONGBLOB,頂YTEXT, TEXT, MEDIUMTEXT, LONGTEXT, ENUM, SET;
iii、 日期及時間DATE, TIME, DATETIME, TIMESTAMP, YEAR;類型屬于同 一類的模式元素劃為一類;
模式信息整合用于整合模式信息分類的分類結(jié)果以及元素結(jié)構(gòu)信息,構(gòu)建加權(quán)模糊概 念格,主要是采用形式概念分析法來整合各模式分類信息及模式約束信息、構(gòu)建加權(quán)模糊 形式背景,并以此為依據(jù)構(gòu)建加權(quán)模糊概念格;
所述加權(quán)模糊形式背景的構(gòu)建包括以下步驟
I、 構(gòu)建形式背景的屬性分別是約束屬性(FK, PK)、名稱分類屬性(所有月)、 描述分類屬性(所有《)以及類型分類屬性(NUM、 STRING、 TIME);
II、 為各屬性設定權(quán)值以及有效值區(qū)間所有約束屬性權(quán)值為1,有效值區(qū)間為[l,l]; 所有名稱分類屬性權(quán)值為0.8,有效值區(qū)間為
;所有描述分類屬性權(quán)值為0.9,有效
12值區(qū)間為
;所有類型分類屬性權(quán)值為0.7,有效值區(qū)間為
;
III、構(gòu)建形式背景對象形式背景對象是所有源目標元素以及目標元素; IV、針對形式背景各屬性,填入各形式背景對象具有該屬性的程度,對約束屬性及類型分 類屬性,以值1表示完全具有;值O表示完全不具有;對名稱分類屬性以及描述分類屬性,
填入模式分類階段的各評估值;本發(fā)明還提供一種實現(xiàn)概念格快速構(gòu)建的算法,該方法的
基本思想是通過搜索所有的相對最大子矩陣來獲取所有的概念,并根據(jù)相關(guān)定義,確定
各參數(shù)以及概念之間的偏序關(guān)系。
圖4是概念格快速構(gòu)建方法的主體流程圖,該方法包括以下步驟
步驟1、首先根據(jù)Xxy上的加權(quán)模糊形式背景/ ,將滿足各屬性閾值的數(shù)據(jù)規(guī)整為1,
即將加權(quán)模糊形式背景/單一化,得到對應0-1矩陣( )_ ;
步驟2、由于",,)中所有相異的相對最大全1子矩陣即為加權(quán)模糊形式上下文/的
所有概念的0-l表示。因此,從矩陣元素 遍歷到c^,找出以各結(jié)點做為左上角元素的
所有相對最大全1子矩陣;
步驟3、去除搜索過程的重復項;
步驟4、根據(jù)公式(2)、 (3)計算概念格各參數(shù),并進行相應的合并與調(diào)整,從而得 到加權(quán)模糊概念格中所有的加權(quán)模糊形式概念,根據(jù)定義8,確定概念之間的偏序關(guān)系; 步驟5、構(gòu)建加權(quán)模糊概念格,以XML方式表示。
模式元素相似度的計算用于根據(jù)加權(quán)模糊概念格計算模式元素之間的匹配度并設定 閾值確定元素之間的匹配關(guān)系,采用的相似計算模型基于加權(quán)模糊概念格,計算公式如下
g((aV6)A) + g((a_6)A) + (l —a)g((6 —a)A)
<formula>formula see original document page 13</formula>(7)
其中,g表示勢函數(shù)g(P), P表示函數(shù)g的參數(shù),為概念格中一概念子集,"為平 衡因子,表示相似的對稱性,w。表示概念的權(quán)重, 表示概念的每個外延對每個屬性的 平均隸屬度,("vZ^表示加權(quán)模糊概念格中"、6兩結(jié)點公共的且只有一條向上邊的祖先 結(jié)點的集合,。-。A表示那些只在"中出現(xiàn)但未在6中出現(xiàn)的只有一條向上邊的祖先結(jié)點 的集合,(6一<表示只在6中出現(xiàn)但未在"中出現(xiàn)的只有一條向上邊的祖先結(jié)點的集合。 核心函數(shù)描述如下CONCEPTS—CONSTRUCTION ( ContextMatrix)
{ —
(") 仨加權(quán)模糊形式背景單一化后0-1矩陣ContextMatrix, co/尸o/"^S^ <~從當
前位置向右橫向檢查,值為1的位置集。C^i^"WmV—候選相對最大全1子矩陣的最
后一行在在h,)中的對應位置。rawp0/"^sw—從當前位置向下豎向檢査,值為l的
位置集。
從矩陣左上角第一個位置開始,從矩陣左上往右下檢查(A)^中每個數(shù)據(jù)。,
若^值為o
終止當前循環(huán),繼續(xù)檢査下一數(shù)據(jù); co/尸ofw血<~ 0 s
橫向循環(huán)檢査~右側(cè)所有位置直到游標重新到達當前位置 若游標所在位置值為1
cw^o滅mv <~當前數(shù)據(jù)~所在行;
向下循環(huán)檢查^對應的第J列的數(shù)值。,直到游標回到當前位置。 若^值為1
r。w戶。/"f5^ <~ rcw/"。Z"^S^ u (^所在行號^ ; 對co/尸o^Sd中每個列位置co/
若/;所在行在對應co/處值不為1
通過co/尸o/"W" 、 raw尸oZ"f&f及cwrPo/Wi ow輸出當前的f矣選矩陣。
在co/Po/W&,中將失效位co/后的數(shù)據(jù)刪除。
終止當前的內(nèi)循環(huán)
cwP。Z"^ 。w <~當前數(shù)據(jù) ;所在斗??;
通過co/尸o/W&f 、 tow尸o/W5W及CMr尸oZ"Wow輸出當前的候選矩陣。 停止。
1權(quán)利要求
1. 一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法,其特征在于該方法包括模式信息分析、模式信息分類、模式信息整合以及模式元素相似度的計算四個步驟;(1)所述模式信息分析用于實現(xiàn)解析格式化的源模式以及目標模式的元素信息,包括以下步驟A、獲取源數(shù)據(jù)庫模式XML文檔及目標數(shù)據(jù)庫模式XML文檔;B、使用XML解析工具DOM4J解析XML文檔;C、整理解析出的模式元素信息,分別生成源模式元素名集合、源模式元素名與元素描述對集合、源模式元素名與元素類型對集合、目標模式元素名集合、目標模式元素名與元素描述對集合以及目標模式元素名與元素類型集合;(2)所述模式信息分類用于歸類模式信息分析階段分析出的模式元素信息,將所有元素分別按名稱、描述以及類型進行分類;主要包括名稱分類方法,描述分類方法以及類型分類方法;所述名稱分類方法用于根據(jù)模式元素名對源模式元素進行分類,并且計算每個目標模式元素隸屬于源模式各類別的隸屬度,包括以下步驟D、獲取源模式元素名稱集;E、對源模式元素按分隔符分解并去除公共前綴;F、對該詞集進行同義詞擴展;G、對該同義詞集中的元素進行3段解析后得文本集,該文本集實際就表示了類別所具有的特征;H、各類別以及標識各類別的特征文本集作為訓練樣例送入名稱分類方法,以供分類方法學習各類別特征;未經(jīng)過訓練樣例學習的分類方法不具有分類新樣例的能力;I、對目標模式元素,直接將各目標模式元素的3段解析字符串的集合作為待分類樣例送入已經(jīng)學習完的名稱分類方法,以計算出各字符串對應各源模式的各類別的評估值,各評估值將會作為模式整合階段的形式概念上下文的數(shù)據(jù)進行整合,名稱分類方法的輸出結(jié)果的形式化表示如下其中,m為源模式字段數(shù),n為目標模式字段數(shù),pi是指名稱分類方法輸出的第i個類別,這里用源模式元素名指代各類別,向量是指該類別中包含的元素;是源模式元素,是根據(jù)評估值選取的目標元素;i是自然數(shù);所述描述分類方法用于根據(jù)模式元素的是元素描述對源模式元素進行分類,并且計算每個目標模式元素隸屬于源模式各類別的隸屬度,包括以下步驟J、獲取源模式元素描述集;K、各類別以及標識各類別的特征描述集作為訓練樣例送入描述分類方法,以供分類方法學習各類別特征;L、對于目標模式元素,直接將各目標模式元素的描述集作為待分類樣例送入已經(jīng)學習完的描述分類方法,以計算出各描述對應各源模式的各類別的評估值,描述分類方法的輸出結(jié)果的形式化表示如下其中,m為源模式字段數(shù),n為目標模式字段數(shù);其中qi是指描述分類方法輸出的第i個類別,這里用源模式元素名指代各類別,向量是指該類別中包含的元素;是源模式元素,是根據(jù)評估值選取的目標元素;i是自然數(shù);所述類型分類方法用于將源模式以及目標模式各元素根據(jù)自身元素類型歸類,包含以下步驟M、獲取源模式元素名與元素類型對集合以及目標模式元素名與元素類型對集合;N、按下述規(guī)則將各元素分類i、數(shù)值包括TINYINT,SMALLINT,MEDIUMINT,INT,BIGINT,F(xiàn)LOAT,DOUBLE,DECIMAL;ii字符串包括CHAR,VARCHAR,TINYBLOB,BLOB,MEDIUMBLOB,LONGBLOB,TINYTEXT,TEXT,MEDIUMTEXT,LONGTEXT,ENUM,SET;iii、日期及時間DATE,TIME,DATETIME,TIMESTAMP,YEAR;類型屬于同一類的模式元素劃為一類;(3)所述模式信息整合用于整合模式信息分類的分類結(jié)果以及元素結(jié)構(gòu)信息,構(gòu)建加權(quán)模糊概念格,主要是采用形式概念分析法來整合各模式分類信息及模式約束信息、構(gòu)建加權(quán)模糊形式背景,并以此為依據(jù)構(gòu)建加權(quán)模糊概念格;所述加權(quán)模糊形式背景的構(gòu)建包括以下步驟I、構(gòu)建形式背景的屬性分別是約束屬性、名稱分類屬性、描述分類屬性以及類型分類屬性;II、為各屬性設定權(quán)值以及有效值區(qū)間所有約束屬性權(quán)值為1,有效值區(qū)間為[1,1];所有名稱分類屬性權(quán)值為0.8,有效值區(qū)間為
;所有描述分類屬性權(quán)值為0.9,有效值區(qū)間為
;所有類型分類屬性權(quán)值為0.7,有效值區(qū)間為
;III、構(gòu)建形式背景對象形式背景對象是所有源目標元素以及目標元素;IV、針對形式背景各屬性,填入各形式背景對象具有該屬性的程度,對約束屬性及類型分類屬性,以值1表示完全具有;值0表示完全不具有;對名稱分類屬性以及描述分類屬性,填入模式分類階段的各評估值;所述加權(quán)模糊概念格構(gòu)建方法包括以下步驟①、將加權(quán)模糊形式背景單一化,構(gòu)建對應0-1矩陣;②、遍歷該矩陣,找出所有相對最大全1子矩陣;③、去除重復矩陣;④、確定參數(shù)與偏序關(guān)系,形成最終的加權(quán)模糊概念格;(4)所述模式元素相似度的計算用于根據(jù)加權(quán)模糊概念格計算模式元素之間的匹配度并設定閾值確定元素之間的匹配關(guān)系,采用的相似計算模型基于加權(quán)模糊概念格,計算公式如下其中,g表示勢函數(shù)g(P),P表示函數(shù)g的參數(shù),為概念格中一概念子集,α為平衡因子,表示相似的對稱性,ωc表示概念的權(quán)重,σI表示概念的每個外延對每個屬性的平均隸屬度,(a∨b)^表示加權(quán)模糊概念格中a、b兩結(jié)點公共的且只有一條向上邊的祖先結(jié)點的集合,(a-b)^表示那些只在a中出現(xiàn)但未在b中出現(xiàn)的只有一條向上邊的祖先結(jié)點的集合,(b-a)^表示只在b中出現(xiàn)但未在a中出現(xiàn)的只有一條向上邊的祖先結(jié)點的集合。
全文摘要
本發(fā)明公開了一種實現(xiàn)數(shù)據(jù)庫模式自動匹配的方法,包括模式信息分析、模式信息分類、模式信息整合以及模式元素相似度的計算四個步驟。模式信息分析用于實現(xiàn)解析格式化的源模式以及目標模式的元素信息;模式信息分類用于歸類模式信息分析階段分析出的模式元素信息,將所有元素分別按名稱、描述以及類型進行分類;模式信息整合用于整合模式信息分類的分類結(jié)果以及元素結(jié)構(gòu)信息,構(gòu)建加權(quán)模糊概念格;模式元素相似度的計算用于根據(jù)加權(quán)模糊概念格計算模式元素之間的匹配度并設定閾值確定元素之間的匹配關(guān)系。本發(fā)明的數(shù)據(jù)庫模式自動匹配的方法,解決模式匹配在實際應用中出現(xiàn)的問題,提高計算機在解決模式匹配問題時的效率,減少CPU資源的浪費。
文檔編號G06F17/30GK101504654SQ200910026030
公開日2009年8月12日 申請日期2009年3月17日 優(yōu)先權(quán)日2009年3月17日
發(fā)明者李小平, 峰 王, 茜 王, 聃 黃 申請人:東南大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丰都县| 怀宁县| 青铜峡市| 临洮县| 土默特左旗| 沅陵县| 金川县| 正安县| 都江堰市| 山西省| 凤庆县| 长丰县| 五大连池市| 新巴尔虎左旗| 屯门区| 正安县| 宁都县| 赤城县| 罗江县| 榆树市| 文昌市| 云梦县| 土默特右旗| 青浦区| 清水河县| 阿克苏市| 甘德县| 清镇市| 博乐市| 梨树县| 旺苍县| 内黄县| 哈尔滨市| 邹城市| 堆龙德庆县| 新平| 乐安县| 田林县| 临西县| 谷城县| 左贡县|