一種基于相似度的語義Web服務(wù)聚類標(biāo)注方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于智能語義網(wǎng)中語義Web服務(wù)計(jì)算領(lǐng)域,具體涉及基于相似度的語義 Web服務(wù)聚類標(biāo)注方法。
【背景技術(shù)】
[0002] 隨著物聯(lián)網(wǎng)的快速崛起,能夠通過網(wǎng)絡(luò)進(jìn)行操控和數(shù)據(jù)交換的設(shè)備和資源類型日 益增多。思科預(yù)測(cè),到2020年,互聯(lián)網(wǎng)設(shè)備的數(shù)量將達(dá)到500億左右。隨著各種各樣物聯(lián) 網(wǎng)實(shí)體設(shè)備和應(yīng)用平臺(tái)的出現(xiàn),物聯(lián)網(wǎng)開始面臨異構(gòu)化實(shí)體之間信息交換和協(xié)同工作的問 題。
[0003] 目前有研究嘗試把面向服務(wù)的跨平臺(tái)思想引入到物聯(lián)網(wǎng)中。通過把物理世界中各 個(gè)實(shí)體的功能用服務(wù)化的形式進(jìn)行描述,從而使得實(shí)體的功能能夠以統(tǒng)一的服務(wù)接口來被 訪問和調(diào)用,并進(jìn)一步向外界提供其自身的功能。如此,異構(gòu)的實(shí)體之間就能通過服務(wù)接口 進(jìn)行信息的交互和功能的協(xié)同。并且,可以通過服務(wù)發(fā)現(xiàn)技術(shù),發(fā)現(xiàn)滿足用戶請(qǐng)求的服務(wù) 或是服務(wù)鏈,進(jìn)而查找到相應(yīng)執(zhí)行服務(wù)功能的實(shí)體,最終驅(qū)動(dòng)異質(zhì)的實(shí)體共同協(xié)作,完成請(qǐng) 求。由此,服務(wù)發(fā)現(xiàn)技術(shù)為有效地解決異構(gòu)設(shè)備實(shí)體之間的協(xié)同工作問題提供了解決方案。 除此之外,語義Web的加入能夠提高服務(wù)發(fā)現(xiàn)技術(shù)的智能化程度,明確的語義有利于讓實(shí) 體之間更好的理解彼此的信息含義。語義技術(shù)在物聯(lián)網(wǎng)中的引入能增強(qiáng)物聯(lián)網(wǎng)平臺(tái)的數(shù)據(jù) 融合處理和資源查詢能力,來滿足復(fù)雜多變的應(yīng)用需求。
[0004] 然而,在對(duì)海量實(shí)體功能進(jìn)行服務(wù)化的形式進(jìn)行描述,突破資源間異質(zhì)性障礙的 同時(shí),將導(dǎo)致語義Web服務(wù)的數(shù)量繁多,功能類型冗雜。其中將存在許多相似功能的服務(wù)。 所以,需要對(duì)存放這些服務(wù)的服務(wù)庫進(jìn)行聚類,并對(duì)每一類的服務(wù)標(biāo)注中心服務(wù),從而提高 服務(wù)發(fā)現(xiàn)效率。
[0005] 基于相似度的語義Web服務(wù)聚類標(biāo)注方法指的是基于語義Web服務(wù)之間相似度的 計(jì)算值,對(duì)語義Web服務(wù)進(jìn)行類別劃分,從而起到對(duì)實(shí)體功能進(jìn)行歸類和標(biāo)注的作用,最終 達(dá)到在物聯(lián)網(wǎng)實(shí)體的服務(wù)化描述不斷增加的同時(shí),提高服務(wù)發(fā)現(xiàn)的效率。
[0006] 在服務(wù)相似度計(jì)算方面,現(xiàn)有的研究成果中,已成型的API有Woogle和0WLS-MX。 Woogle所支持的Web服務(wù)結(jié)構(gòu)是非語義的,不能直接應(yīng)用到語義Web服務(wù)相似度的計(jì)算中。 相比之下,0WLS-MX包含語義推理模塊,支持語義相似度的計(jì)算。然而,0WLS-MX采用的是匹 配過濾的方法,用EXACT,PLUGIN,SUBSUMES,SUBSUMED-BY和NEAREEST-NEIGHBOR這五種過 濾器來確定兩個(gè)服務(wù)之間的相似度關(guān)系。由此,所得到的相似度為五個(gè)固定的關(guān)系值,相似 度數(shù)值不夠細(xì)化和準(zhǔn)確。目前已有的DoM計(jì)算方法,它是運(yùn)用服務(wù)的I/O本體參數(shù)計(jì)算服 務(wù)間相似度的方法。雖然,語義Web服務(wù)的1/0本體參數(shù)能夠很直接的描述對(duì)應(yīng)服務(wù)模塊 的功能,但是,在計(jì)算相似度時(shí),僅有服務(wù)的1/0參數(shù),并不能很清晰的描述服務(wù)功能的領(lǐng) 域和特征。
[0007] 在服務(wù)聚類算法方面,Christian等人運(yùn)用AL(AverageLinkage)層次聚類算法 的變種,用中值代替平均值來計(jì)算類中心點(diǎn)與其他類之間的距離。然而,分層聚類的方式很 可能導(dǎo)致最終聚類得到的是少數(shù)的大類,容易導(dǎo)致服務(wù)搜索效率偏低。m!等人提出了多維 度的相似度計(jì)算方法,運(yùn)用Κ-MEANS算法計(jì)算服務(wù)之間的相似度。Κ-MEANS算法需指定聚類 個(gè)數(shù),且初始點(diǎn)的選擇對(duì)結(jié)果的影響很大。Aliz等人提出了基于粒子群算法的語義Web服 務(wù)聚類方法。然而該算法需要指定聚類個(gè)數(shù)以及算法迭代的次數(shù),且該算法容易陷入局部 最優(yōu)解的困境中。Pop等人提出了基于蟻群算法的服務(wù)聚類方法。然而該方法的收斂速度 慢,有可能陷入局部最優(yōu)的困境之中。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明的目的在于克服現(xiàn)有語義Web服務(wù)相似度計(jì)算技術(shù)以及服務(wù)聚類標(biāo)注技 術(shù)的不足,提出了一種基于I/O混合及關(guān)鍵字的語義Web服務(wù)相似度計(jì)算方法,并進(jìn)一步提 供了一種基于相似度的語義Web服務(wù)聚類標(biāo)注的方法。
[0009] 本發(fā)明的目的通過以下技術(shù)方案得以實(shí)現(xiàn):
[0010] -種基于相似度的語義Web服務(wù)聚類標(biāo)注方法,包括如下兩個(gè)步驟:
[0011] 1)語義Web服務(wù)相似度計(jì)算;
[0012] 2)基于相似度計(jì)算結(jié)果,運(yùn)用算法對(duì)語義Web服務(wù)進(jìn)行聚類和中心服務(wù)標(biāo)注;
[0013] 上述步驟1)所述計(jì)算方法,包括兩個(gè)部分:1/0混合參數(shù)相似度計(jì)算,以及關(guān)鍵字 相似度計(jì)算。
[0014] 所述語義Web服務(wù)相似度的計(jì)算,結(jié)合了輸入/輸出即I/O參數(shù)混合相似度計(jì)算 與服務(wù)描述關(guān)鍵字相似度計(jì)算的結(jié)果,綜合得出語義Web服務(wù)相似度的計(jì)算結(jié)果,使之更 能準(zhǔn)確反映服務(wù)功能之間的差異與相似程度;
[0015] 所述的I/O參數(shù)能夠很直接的描述對(duì)應(yīng)服務(wù)模塊的功能。I/O參數(shù)通常作為從功 能角度計(jì)算語義Web服務(wù)相似度的衡量標(biāo)準(zhǔn)。
[0016] 上述步驟1)所述計(jì)算方法,計(jì)算公式
[0017] 其中,Sim(Sl,S2)表示語義Web服務(wù)S1與S2之間的相似度數(shù)值,Sim_ Func(Sl,S2)表示語義Web服務(wù)S1與S2之間的I/O混合參數(shù)相似度,Sim_Key(Sl,S2)表 示語義Web服務(wù)S1與S2之間的關(guān)鍵字相似度。
[0018] 上述步驟1)所述的I/O混合參數(shù)相似度,其所表示的含義如圖1所示。計(jì)算公式 為:
[0020] 其中,SimInputs(Sl,S2)是語義Web服務(wù)S1和S2的輸入?yún)?shù)相似度, Sinwputs(Sl,S2)為輸出參數(shù)相似度。其中,
[0021] SimIn(Sl,S2)表示語義Web服務(wù)S1的輸入?yún)?shù)對(duì)于語義Web服務(wù)S2的輸入?yún)?shù)之 間的相似度。SimIn (S2,S1)反之,表示語義Web服務(wù)S2的輸入本體參數(shù)對(duì)于語義Web服務(wù)S1
的輸入本體參數(shù)之間的相似度。其中,
[0022] 如上式所示,Sin^JCLC2J表示語義Web服務(wù)S1的單個(gè)輸入?yún)?shù)Ch與語義Web 服務(wù)S2的單個(gè)輸入或輸出參數(shù)C2#間的相似度。
將概念Ch與語義Web服務(wù)S2的每一個(gè)輸入和輸出本體概念進(jìn)行匹配,得到匹配度最大的 一對(duì)概念的相似度數(shù)值。而概念之間的匹配度計(jì)算公式為:
[0024] sim(X,Y)的含義是Y對(duì)于X的相似程度。α是一個(gè)調(diào)節(jié)權(quán)重的參數(shù),ae[0, 1]。 D= {x}表示對(duì)象空間,而X、Y是D中的模糊集,sim:UXU- [0, 1]是積空間UXU上的模 糊相似關(guān)系。應(yīng)用該公式計(jì)算能夠得到兩個(gè)概念之間的相似度。
[0025] 上述步驟1)所述關(guān)鍵字相似度中的關(guān)鍵字,指的是用于描述語義Web服務(wù)的owls 服務(wù)描述文件文本標(biāo)題內(nèi)容以及profile:textDescription中文本詞匯的交集。
[0026] 上述步驟1)所述的語義Web服務(wù)的關(guān)鍵字相似度,計(jì)算公式為
[0027] 其中,SimWOTd(Sl,S2)為對(duì)于語義Web服務(wù)S1,它與語義Web服務(wù)S2之間的關(guān)鍵 字相似度;SimWOTd(Sl,S2)為對(duì)于語義Web服務(wù)S2,它與語義Web服務(wù)S1之間的關(guān)鍵字相 似度。
[0028] TGdJ表示的是關(guān)鍵字klj^TF-IDF加權(quán)值。TF-IDF是一種對(duì)字詞在一段文本 中的重要程度進(jìn)行統(tǒng)計(jì)和計(jì)算的方法。其中,
[0029] 10?;表不關(guān)鍵字i的逆向文件頻率(inversedocumentfrequency,IDF)。IDF表 示一個(gè)詞語在所有文件中的重要程度。在這里,由于只考慮關(guān)鍵字在相應(yīng)服務(wù)描述文件中 的重要性,而不考慮關(guān)鍵字的普遍性,所以IDF1= 1。
[0030]
:表示關(guān)鍵字i在文檔d中的TF詞頻(TermFrequency),即出現(xiàn)的頻率。在 本文中,文檔d指的是語義Web服務(wù)描述文件,而關(guān)鍵字i指的是通過textdescription和 語義Web服務(wù)名稱中的單詞取交集得到的。
[0031] Sin^kli,k2j)表示語義Web服務(wù)S1的某個(gè)關(guān)鍵字kh與語義Web服務(wù)S2的一個(gè) 關(guān)鍵字1^之間的相似度。
i表示逐一計(jì)算服務(wù)S1的關(guān)鍵字kh 與服務(wù)S2的所有關(guān)鍵字k2i之間的相似度,取最大值返回。其中,由于關(guān)鍵字為文本文字, 沒有與之直接關(guān)聯(lián)的本體信息,我們采用NormalizedGoogle〇8;^311〇6[52]來計(jì)算關(guān)鍵字之 間的相似度,計(jì)算公式為=l-NGDG^,!^)
[0032] 其中,NGD(kli,k2)表不兩個(gè)關(guān)鍵字之間的NormalizedGoogleDistance,
[0034] 步驟2)所述的根據(jù)相似度計(jì)算結(jié)果,提出基于AffinityPropagation(AP)的聚 類標(biāo)注算法對(duì)語義Web服務(wù)進(jìn)行聚類和中心服務(wù)標(biāo)注。算法步驟為:
[0035] 步驟2. 1將一個(gè)語義Web服務(wù)看作是一個(gè)數(shù)據(jù)點(diǎn);
[0036] 步驟2. 2將語義Web服務(wù)之間的相似度換算成數(shù)據(jù)點(diǎn)之間的距離;
[0037] 步驟2. 3初始化聚類標(biāo)注算法的參考值參數(shù),阻尼系數(shù);
[0038] 步驟2. 4通過在數(shù)據(jù)點(diǎn)之間傳遞responsibility和availability兩類消息,來 確定哪些數(shù)據(jù)點(diǎn)是中心點(diǎn);
[0039] 步驟2. 5將其他數(shù)據(jù)點(diǎn)歸類至中心數(shù)據(jù)點(diǎn)所代表的服務(wù)集中。
[0040] 步驟2. 2所述的將語義Web服務(wù)之間的相似度換算成數(shù)據(jù)點(diǎn)之間的距離,技術(shù)方 案如下:s(i,k)表示在語義Web服務(wù)的距離矩陣中,服務(wù)i與服務(wù)k之間的距離。s(i,k) 的計(jì)算