專利名稱:一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法。是一種能提高系統(tǒng)性能并且不降低查準(zhǔn)率和查全率計(jì)算方法。
背景技術(shù):
在異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下能夠區(qū)分出相同和不相同的屬性是實(shí)現(xiàn)數(shù)據(jù)庫(kù)互操作的一個(gè)重要前提條件。許多參考文獻(xiàn)討論了如何區(qū)分異構(gòu)數(shù)據(jù)庫(kù)中相同屬性的問題。但這些方法不能區(qū)分出現(xiàn)實(shí)世界中存在的不相同(似)的數(shù)據(jù)類型描述的同一屬性(后面給出數(shù)據(jù)類型之間相同(似)性的定義)O例如,關(guān)系模式:Student (Sno, Shame, Sage.Sdept)假如描述屬性Sno的數(shù)據(jù)類型是整型,則用于區(qū)分屬性的特征向量類似為:(data type, length, key or not, value constraints, aver-age, rain, max)特征向量的具體取值為:(int,4,key,notnull,95030,95001。95059)1假如描述屬性Sno的數(shù)據(jù)類型是字符型,則用于區(qū)分屬性的特征向量類似為:(data type, length, key or not, value constraints, theratio of the number ofnumerical characters to the totalnumber of characters,the ratio of white—spacecharac-ters tO total characters, statistics on length)。特征向量的具體取值為:(char,5, key, not null, 1,0,5)2顯然,由于用不相同(似)數(shù)據(jù)類型描述同一屬性時(shí)特征向量的巨大差異性,目前通過比較描述屬性的特征向量信息不能夠區(qū)分出不相同(似)的數(shù)據(jù)類型描述的同一屬性(如⑴和⑵).
既然用描述屬性的特征向量信息不能區(qū)分出不相同(似)的數(shù)據(jù)類型描述的同一屬性,我們認(rèn)為在不相同(似)的數(shù)據(jù)類型描述的屬性中進(jìn)行相似屬性的確定是無實(shí)際意義的.所以,本文提出一種基于數(shù)據(jù)類型的方法來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)環(huán)境下相同屬性的確定。該方法要求首先對(duì)各個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)根據(jù)數(shù)據(jù)類型分類,然后在數(shù)據(jù)庫(kù)之間具有相同數(shù)據(jù)類型描述的屬性內(nèi)部進(jìn)行屬性是否相同的確定。由于屬性根據(jù)數(shù)據(jù)類型進(jìn)行了分類,從而可以實(shí)現(xiàn)不同數(shù)據(jù)類型內(nèi)確定相同屬性過程的并行計(jì)算(在第3部分理論上分析了該方法并行計(jì)算的可行性),同時(shí),該方法也明顯地減少了語(yǔ)義集成過程中屬性的比較次數(shù)。實(shí)驗(yàn)結(jié)果顯示我們提出的方法能明顯提高系統(tǒng)的運(yùn)行效率,并且不降低語(yǔ)義集成中數(shù)據(jù)的查準(zhǔn)率和查全率。
發(fā)明內(nèi)容
基于上述情況,特此發(fā)明一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法;該方法根據(jù)屬性的元數(shù)據(jù)信息排除了大部分不相等的屬性對(duì),從而解決了文[10,11]中確定屬性關(guān)系時(shí)比較費(fèi)時(shí)的問題。但是,該方法僅使用屬性的元數(shù)據(jù)信息,并未使用數(shù)據(jù)內(nèi)容信息,使用文[9]中的規(guī)則。則具有相同元數(shù)據(jù)信息描述的不同屬性不能被區(qū)分開。同時(shí),該方法不能實(shí)現(xiàn)相同屬性確定過程的并行計(jì)算。我們認(rèn)為為了提高數(shù)據(jù)的查準(zhǔn)率和查全率,描述屬性的特征向量中應(yīng)增加描述數(shù)據(jù)內(nèi)容方面的信息,通過計(jì)算模式信息和數(shù)據(jù)內(nèi)容與統(tǒng)計(jì)信息的概率值來確定相同屬性。1.在數(shù)值型屬性間進(jìn)行相同屬性的確定;首先,進(jìn)行數(shù)值型屬性間相同屬性的確定。我們把描述數(shù)值型屬性特征的信息分為三類:模式信息、數(shù)據(jù)限制和數(shù)據(jù)內(nèi)容。(I)模式信息:包括數(shù)據(jù)類型、長(zhǎng)度、是否為鍵屬性;(2)數(shù)據(jù)限制:包括外鍵信息、屬性取值范圍限制、是否允許為空;(3)數(shù)據(jù)內(nèi)容:包括最大值、最小值、平均值、標(biāo)準(zhǔn)差;2.在字符型屬性間進(jìn)行相同屬性的確定;其中模式信息、數(shù)據(jù)限制如數(shù)值型屬性,數(shù)據(jù)內(nèi)容部分包括:字符型屬性的具體取值中數(shù)字字符占整個(gè)字符的比率,空白字符占整個(gè)字符的比率,字符所占空間的統(tǒng)計(jì)長(zhǎng)度。其中,:字符所占空間的統(tǒng)計(jì)長(zhǎng)度是指實(shí)際用來存儲(chǔ)字符的長(zhǎng)度,而不是事先分配的存儲(chǔ)空問的長(zhǎng)度。
權(quán)利要求
1.一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法:該方法是是易于實(shí)現(xiàn)語(yǔ)義集成過程的并行計(jì)算。
2.根據(jù)權(quán)利要求1的基于一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法,此方法的分為三大部分:在數(shù)值型屬性間進(jìn)行相同屬性的確定、在宇符型屬性間進(jìn)行相同屬性的確定、在稀有型屬性間進(jìn)行相同屬性的確定。
全文摘要
一種異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成過程的并行計(jì)算方法區(qū)分相同屬性是異構(gòu)數(shù)據(jù)庫(kù)環(huán)境下語(yǔ)義集成中的一個(gè)重要環(huán)節(jié),主要的方法是用特征描述屬性來評(píng)估屬性之間的相似性。雖然這種方法具有較高自動(dòng)化和易于實(shí)現(xiàn)的特點(diǎn),但它將花費(fèi)更多的時(shí)間來比較所有的屬性且不能在語(yǔ)義集成中實(shí)現(xiàn)并行計(jì)算。本文提出了一種基于數(shù)據(jù)類型的方法來實(shí)現(xiàn)異構(gòu)數(shù)據(jù)環(huán)境下相同屬性的確定,這種方法具有在描述比較時(shí)間的同時(shí)實(shí)現(xiàn)語(yǔ)義集成的并行計(jì)算的特點(diǎn)。
文檔編號(hào)G06F17/30GK103092868SQ201110344888
公開日2013年5月8日 申請(qǐng)日期2011年11月1日 優(yōu)先權(quán)日2011年11月1日
發(fā)明者楊際榮 申請(qǐng)人:鎮(zhèn)江華揚(yáng)信息科技有限公司