欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于隨機游走的服務(wù)和標簽推薦方法

文檔序號:6371842閱讀:235來源:國知局
專利名稱:一種基于隨機游走的服務(wù)和標簽推薦方法
技術(shù)領(lǐng)域
本發(fā)明屬于服務(wù)計算技術(shù)領(lǐng)域,涉及基于語義擴充及隨機游走的服務(wù)和標簽推薦。
背景技術(shù)
社會化標注起初是作為一種提供個人用戶對于查詢控制的一種方法出現(xiàn)的。它允許個人用戶使用自己的語言——帶有個人理解的標簽——來組織和獲取信息。當把這些標簽提供給其他個體時,標簽的價值就從個體擴展到了團體,不但可以重新找到你標注的內(nèi) 容,而且可以探索那些標注的類似的內(nèi)容。所以標注從一種個人使用的工具發(fā)展到內(nèi)容發(fā)現(xiàn)。大眾標注存在標簽濫用,標準缺乏,信息檢索效率低的問題,用戶之間難以理解對方的標簽,系統(tǒng)不能為用戶提供同義詞詞典,標簽語義模糊,邏輯關(guān)系不明確,標簽缺乏次序等缺點。但是由于其作為一種普通用戶為網(wǎng)絡(luò)資源提供元數(shù)據(jù)的方式,在網(wǎng)絡(luò)上得到了廣泛的使用。語義查詢目的是為了通過了解搜索用戶的目的以及搜索關(guān)鍵字的上下文意思來更好的提高搜索精度。對于語義查詢,主要有擴充關(guān)鍵詞實現(xiàn)語義查詢,概念定位,復(fù)雜限制條件查詢,問題解答,語義連接路徑發(fā)現(xiàn)等。現(xiàn)在主流的搜索引擎如google,將某些語義查詢進行融合。語義查詢的結(jié)果是根據(jù)語義相關(guān)度大小從大到小給出搜索結(jié)果,而不是用類似googlePageRank算法來預(yù)測相關(guān)度。由于web2. 0時代主要關(guān)注數(shù)據(jù)的呈現(xiàn)和與人的交互,沒有很好利用數(shù)據(jù)的內(nèi)部結(jié)構(gòu),要實現(xiàn)對Mashup的智能搜索,需要對信息進行重組。Mashup是指將多個API服務(wù)加在一起,形成一個整合應(yīng)用。標簽作為一種新的資源描述方式,人們可以通過對資源使用各種標簽標注實現(xiàn)對信息資源的歸類整理。標簽系統(tǒng)使得普通用戶可以提供半結(jié)構(gòu)化的元數(shù)據(jù),以較好的完成智能搜索。但尚未出現(xiàn)將標簽應(yīng)用于Mashup技術(shù)的技術(shù)方案。

發(fā)明內(nèi)容
本發(fā)明主要是針對隨著服務(wù)數(shù)量的不斷增多,服務(wù)搜索過程沒有很好利用數(shù)據(jù)的內(nèi)部結(jié)構(gòu)、服務(wù)注冊過程中標簽標注的隨意性等問題,提出一種基于隨機游走的服務(wù)和標簽推薦方法。本發(fā)明的技術(shù)方案為一種基于隨機游走的服務(wù)及標簽推薦方法,基于元信息數(shù)據(jù)進行Mashup服務(wù)推薦和標簽推薦,所述元信息數(shù)據(jù)包括Mashup服務(wù)和API服務(wù)的元信息,Mashup服務(wù)的元信息包括Mashup文檔集合,API服務(wù)的元信息包括API服務(wù)的標簽;所述進行Mashup服務(wù)推薦,包括以下子步驟,步驟Al,根據(jù)元信息數(shù)據(jù),建立標簽與Mashup服務(wù)的關(guān)聯(lián)網(wǎng)并記為TMAN,其中,節(jié)點代表標簽或Mashup服務(wù),邊代表標簽與Mashup服務(wù)之間的關(guān)聯(lián)關(guān)系;步驟A2,根據(jù)步驟Al所得關(guān)聯(lián)網(wǎng)TMAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN1,如果兩個標簽在關(guān)聯(lián)網(wǎng)TMAN中共用了一個Mashup服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊;步驟A3,輸入待查詢的標簽t,在關(guān)聯(lián)網(wǎng)TMAN上查找標簽t對應(yīng)的所有Mashup服務(wù);步驟A4,計算標簽t對應(yīng)的所有Mashup服務(wù)分別的相關(guān)性分數(shù),并給標簽t對應(yīng)的所有Mashup服務(wù)進行降序排序,按排列結(jié)果推薦給用戶;相關(guān)性分數(shù)的計算公式如下,S(Xi) = - T i+l/rij其中,s (Xi)為關(guān)聯(lián)網(wǎng)TMAN中與標簽t對應(yīng)的某個Mashup服務(wù)Xi的相關(guān)性分數(shù),Iii代表Mashup服務(wù)Xi的標簽數(shù)目,T i表示標簽t在Mashup服務(wù)Xi的標簽序列中的位置;所述Mashup服務(wù)Xi的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTNl上的隨機游走,計算Mashup服務(wù)Xi的Hi個標簽分別的分數(shù)并進行降序排列得到的結(jié)果;所述進行標簽推薦,包括以下子步驟,步驟BI,根據(jù)元信息數(shù)據(jù),構(gòu)建標簽與API服務(wù)的關(guān)聯(lián)網(wǎng)并記為TAN,其中,節(jié)點代表標簽或API服務(wù),邊代表標簽與API服務(wù)之間的關(guān)聯(lián)關(guān)系;步驟B2,根據(jù)步驟BI所得關(guān)聯(lián)網(wǎng)TAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN2,如果兩個標簽在關(guān)聯(lián)網(wǎng)TAN中共用了一個API服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊; 步驟B3,根據(jù)元信息數(shù)據(jù),通過計算API描述文檔夾角余弦值,得到兩個API描述文檔的相似性;步驟B4,構(gòu)建API服務(wù)的拓撲圖,節(jié)點代表API服務(wù),節(jié)點之間的邊上權(quán)值為步驟B3所得兩個API描述文檔的相似性,根據(jù)拓撲圖得到某個輸入的API服務(wù)描述文本最近的K個鄰居節(jié)點,K為預(yù)設(shè)參數(shù);步驟B5,將步驟B4所得K個鄰居節(jié)點分別的標簽序列最前面的m個標簽進行合并,m為預(yù)設(shè)參數(shù);每個鄰居節(jié)點的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTN2上的隨機游走,計算鄰居節(jié)點的相應(yīng)Mashup服務(wù)的所有標簽分別的分數(shù)并進行降序排列得到的結(jié)果;步驟B6,將從步驟B5中所得mXK個標簽的合并結(jié)果,放入列表q中,按列表q中的各標簽的分數(shù)及出現(xiàn)頻率進行降序排列,按排列結(jié)果推薦給用戶。而且,步驟A4和步驟B5中計算標簽的分數(shù)實現(xiàn)方式如下,迭代計算標簽所在節(jié)點j的分數(shù)Sk (j)直到滿足預(yù)設(shè)的結(jié)束條件,計算公式為sk (j) = Y E Ph ⑴ Pij+(I-Y )1 其中,0〈i,j彡N',當前迭代次數(shù)k=l,2…,N'表示共現(xiàn)網(wǎng)中節(jié)點集中節(jié)點總數(shù),
是共現(xiàn)網(wǎng)的鄰接矩陣,Pij代表從共現(xiàn)網(wǎng)中的節(jié)點i到節(jié)點j的轉(zhuǎn)移概率,所述
Lan in
轉(zhuǎn)移概率為節(jié)點i和j之間的權(quán)值Wu除以節(jié)點i和與節(jié)點i直接相鄰的所有節(jié)點Win之間的權(quán)值之和,n為節(jié)點i的鄰居節(jié)點的總數(shù),設(shè)以節(jié)點i為起點在共現(xiàn)網(wǎng)上進行隨機游走,Y是預(yù)設(shè)的游走到鄰居節(jié)點的概率,I-Y是游走到共現(xiàn)網(wǎng)中其他任一節(jié)點概率,是預(yù)設(shè)的節(jié)點i初始概率分布;步驟A4中,共現(xiàn)網(wǎng)為TTNl ;步驟B5中,共現(xiàn)網(wǎng)為TTN2。而且,步驟A4給標簽t對應(yīng)的所有Mashup服務(wù)進行排序時,若存在具有相同相關(guān)性分數(shù)的Mashup服務(wù),采用互熵進行降序排序。
而且,步驟A3中,若輸入的待查詢的詞不是元信息數(shù)據(jù)中的標簽,采用wordNet進行同義詞的擴充,直到找到和這個詞相關(guān)的系統(tǒng)中的標簽,作為待查詢的標簽t。而且,預(yù)設(shè)給定閾值k,若在關(guān)聯(lián)網(wǎng)TMAN上查找所得標簽t對應(yīng)的所有Mashup服務(wù)的總數(shù)小于給定閾值k,根據(jù)基于Mashup服務(wù)之間的共現(xiàn)網(wǎng)MMN,采用TopKDijkastra算法查找擴充標簽t對應(yīng)的Mashup服務(wù),然后執(zhí)行步驟A4,否則直接執(zhí)行步驟A4 ;所述共現(xiàn)網(wǎng)MMN,是根據(jù)元信息數(shù)據(jù)構(gòu)建的Mashup服務(wù)之間的共現(xiàn)網(wǎng),當兩個Mashup服務(wù)之間的語義相關(guān)度大于0時相應(yīng)節(jié)點之間有一條邊,Mashup服務(wù)之間的語義相關(guān)度由三部分的加權(quán)和構(gòu)成,三個部分分別為描述文本的距離函數(shù)、由共用API服務(wù)產(chǎn)生的相似度和由共用標簽產(chǎn)生的相似度,第一部分為描述文本夾角余弦值,后兩個部分的相似度通過Jacard相似度系數(shù)計算;
所述TopKDijkastra算法包括以下子步驟, 步驟A3. 1,在共現(xiàn)網(wǎng)TTNl上查找所得標簽t關(guān)聯(lián)的所有Mashup服務(wù),作為初始的集合S,將集合S中Mashup服務(wù)的標記currentDistance都標記為0,其余標記為無窮大;步驟A3. 2,如果集合S中的Mashup服務(wù)數(shù)目小于給定閾值k,計算集合S中的所有Mashup服務(wù)在共現(xiàn)網(wǎng)MMN的鄰居節(jié)點到集合S的最短距離,并將此距離賦值給標記currentDistance,進入步驟A3. 3,否則算法結(jié)束,返回集合S ;步驟A3. 3,將大于0且最小的標記currentDistance對應(yīng)的Mashup服務(wù)加入到集合S中,并將該Mashup服務(wù)的標記currentDistance設(shè)置為0,返回步驟A3. 2,直到算法結(jié)束。而且,共現(xiàn)網(wǎng)TTN1、TTN2的邊上權(quán)值通過Jacard相似度系數(shù)計算.。本發(fā)明通過在Mashup語義網(wǎng)上進行對查詢結(jié)果的擴充來達到對結(jié)果集的查詢,并且通過tag隨機游走的方式來對Mashup結(jié)果集排序呈現(xiàn)給用戶,同時根據(jù)標簽和對應(yīng)API服務(wù)之間的相關(guān)性對標簽自動進行排序,進行API服務(wù)的標簽推薦。具有如下優(yōu)點
I.利用Mashup語義擴充和隨機游走的方法提升了 Mashup服務(wù)的查詢準確率;2.利用隨機游走的方法進行標簽推薦,過濾掉一些和API服務(wù)不直接相關(guān)的標簽,提高了標簽推薦的準確率。


圖I是本發(fā)明實施例的關(guān)聯(lián)網(wǎng)TAN與共現(xiàn)網(wǎng)TTN2的轉(zhuǎn)化示意圖。
具體實施例方式以下結(jié)合附圖和實施例詳細說明本發(fā)明技術(shù)方案。實施例是基于ProgrammableWeb, Programmableffeb 是著名的 Mashup 和開放 API服務(wù)目錄,到2011年2月止已羅列了 6,000多個Mashup和4,000多個API服務(wù),并提供了Mashup和API服務(wù)的一些注冊信息,包括它們的名字、URL、提供者、標簽等。Mashup是由API服務(wù)組合得到的,API是服務(wù),因此符合本發(fā)明對數(shù)據(jù)的要求。以ProgrammableWeb上的數(shù)據(jù)為載體,可以根據(jù)用戶需要提供Mashup服務(wù)推薦和標簽推薦。元信息數(shù)據(jù)包括Mashup服務(wù)和API服務(wù)的元信息,Mashup服務(wù)的元信息包括Mashup文檔集合,API服務(wù)的元信息包括API服務(wù)的標簽。具體實施時,可以通過手工方式或開發(fā)專門的網(wǎng)絡(luò)爬蟲盡可能多的從網(wǎng)上收集Mashup和API的元信息,包括API的名稱、API的id、API描述信息、API的標簽、Mashup的名稱、Mashup描述信息、Mashup使用的API服務(wù)集合、Mashup的標簽、Mashup注冊的時間、Mashup的開發(fā)者、Mashup的地址等,根據(jù)數(shù)據(jù)特點做必要的處理,盡量減少數(shù)據(jù)中的錯誤,并將這些處理后的數(shù)據(jù)存于本地數(shù)據(jù)庫。實施例使用網(wǎng)爬工具將ProgrammableWeb上從2005年(建站時)到2010年I月12日所有Mashup應(yīng)用的名稱、描述信息、API和標簽信息爬了下來,存儲在本地數(shù)據(jù)庫中。Programmableffeb上的數(shù)據(jù)都是由用戶提交的,存在一定的隨意性,數(shù)據(jù)存在一些錯誤
(I)有些Mashup存在重復(fù)注冊現(xiàn)象,一些Mashup雖然它們名稱不一樣,但是它們的其它信息都一樣。對于這些Mashup在數(shù)據(jù)集中只保存一份。(2)有些Mashup僅提供了名稱,但是其它的注冊信息缺失。這些Mashup將不作為實驗數(shù)據(jù)。同時,用于標識Mashup的標簽也存在不一致,同一種含義的標簽有多種不同的表現(xiàn)形式,如“api”、“Api”和“APIs”都表示API,但是形式不同,有些標簽甚至拼寫錯誤。使用現(xiàn)有技術(shù)中的Suffix StrippingAlgorithm (后綴剝離算法)對標簽進行預(yù)處理,并轉(zhuǎn)化成同一詞性,可以盡量消除存在的不 一致性。最終,數(shù)據(jù)集包含4,505個Mashup,4, 506個API和I, 806個標簽。實施例進行Mashup服務(wù)推薦,包括以下子步驟,步驟Al,根據(jù)元信息數(shù)據(jù),建立標簽與Mashup服務(wù)的關(guān)聯(lián)網(wǎng)并記為TMAN,其中,節(jié)點代表標簽或Mashup服務(wù),邊代表標簽與Mashup服務(wù)之間的關(guān)聯(lián)關(guān)系。步驟A2,根據(jù)步驟Al所得關(guān)聯(lián)網(wǎng)TMAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN1,如果兩個標簽在關(guān)聯(lián)網(wǎng)TMAN中共用了一個Mashup服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊。TTNl= (NI, El, Wl)共現(xiàn)網(wǎng)TTNl是一個無向加權(quán)網(wǎng),每個標簽是共現(xiàn)網(wǎng)TTNl中的一個節(jié)點,NI是共現(xiàn)網(wǎng)TTNl中所有標簽構(gòu)成的節(jié)點集,邊上權(quán)值通過Jacard相似度系數(shù)計算,計算方式為標簽之間的相似度在數(shù)值上等于由Mashup服務(wù)的交集的秩與API并集的秩的比值;E1是共現(xiàn)網(wǎng)TTNl中所有邊構(gòu)成的集合,Wl是存儲共現(xiàn)網(wǎng)TTNl中每條邊上權(quán)值的矩陣,矩陣Wl中的元素&標識節(jié)點i與節(jié)點j之間的權(quán)值。步驟A3,輸入待查詢的標簽t,在關(guān)聯(lián)網(wǎng)TMAN上查找標簽t對應(yīng)的所有Mashup服務(wù)??紤]到用戶輸入的詞可能不是已有的標簽,本發(fā)明進一步提出步驟A3中,若輸入的待查詢的詞不是元信息數(shù)據(jù)中的標簽,采用wordNet進行同義詞的擴充,直到找到和這個詞相關(guān)的系統(tǒng)中的標簽,作為待查詢的標簽t。為了保證推薦服務(wù)的數(shù)量,還可以預(yù)設(shè)給定閾值k,若在關(guān)聯(lián)網(wǎng)TMAN上查找所得標簽t對應(yīng)的所有Mashup服務(wù)的總數(shù)小于給定閾值k,根據(jù)基于Mashup服務(wù)之間的共現(xiàn)網(wǎng)MMN,采用TopKDijkastra算法查找擴充標簽t對應(yīng)的Mashup服務(wù),然后執(zhí)行步驟A4,否則直接執(zhí)行步驟A4。例如,設(shè)定閾值為5,輸入查詢詞vizualization,得到一個Mashup服務(wù)oddflower,此時結(jié)果數(shù)小于閾值5,再進行Mashup語義擴充查詢返回4個Mashup服務(wù):Eye Search、Search Mashup、TaggrouncU iPhone People Search。所述共現(xiàn)網(wǎng)MMN,是根據(jù)元信息數(shù)據(jù)構(gòu)建的Mashup服務(wù)之間的共現(xiàn)網(wǎng),當兩個Mashup服務(wù)之間的語義相關(guān)度大于0時相應(yīng)節(jié)點之間有一條邊,
Mashup服務(wù)之間的語義相關(guān)度由三部分的加權(quán)和構(gòu)成,三個部分分別為描述文本的距離函數(shù)、由共用API服務(wù)產(chǎn)生的相似度和由共用標簽產(chǎn)生的相似度,第一部分為描述文本夾角余弦值,后兩個部分的相似度通過Jacard相似度系數(shù)計算。即共用API服務(wù)產(chǎn)生的相似度由API服務(wù)產(chǎn)生的相似度在數(shù)值上等于由API服務(wù)的交集的秩與API服務(wù)并集的秩的比值;由共用標簽產(chǎn)生的相似度在數(shù)值上等于由標簽的交集的秩與標簽并集的秩的比值。所述TopKDijkastra算法是通過對Dijkastra算法進行修改得到的,包括以下子步驟步驟A3. 1,在共現(xiàn)網(wǎng)TTNl上查找所得標簽t關(guān)聯(lián)的所有Mashup服務(wù),作為初始的集合S,將集合S中Mashup服務(wù)的標記currentDistance都標記為0,其余標記為無窮大;步驟A3. 2,如果集合S中的Mashup服務(wù)數(shù)目小于給定閾值k,計算集合S中的所有Mashup服務(wù)在共現(xiàn)網(wǎng)MMN的鄰居節(jié)點到集合S的最短距離,并將此距離賦值給標記currentDistance,進入步驟A3. 3,否則算法結(jié)束,返回集合S ;
步驟A3. 3,將大于0且最小的標記currentDistance對應(yīng)的Mashup服務(wù)加入到集合S中,并將該Mashup服務(wù)的標記currentDistance設(shè)置為0,返回步驟A3. 2,直到算法結(jié)束。步驟A4,計算標簽t對應(yīng)的所有Mashup服務(wù)分別的相關(guān)性分數(shù),給標簽t對應(yīng)的所有Mashup服務(wù)進行降序排序,按排列結(jié)果推薦給用戶;相關(guān)性分數(shù)的計算公式如下,S(Xi) = - T i+l/rij其中,s (Xi)為關(guān)聯(lián)網(wǎng)TMAN中與標簽t對應(yīng)的某個Mashup服務(wù)Xi的相關(guān)性分數(shù),Iii代表Mashup服務(wù)Xi的標簽數(shù)目,T i表示標簽t在Mashup服務(wù)Xi的標簽序列中的位置;所述Mashup服務(wù)Xi的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTNl上的隨機游走,計算Mashup服務(wù)Xi的Hi個標簽分別的分數(shù)并進行降序排列得到的結(jié)果。對給標簽t對應(yīng)的所有Mashup服務(wù)按相關(guān)性分數(shù)進行排序時,若存在具有相同相關(guān)性分數(shù)的Mashup服務(wù),這些相同相關(guān)性分數(shù)的Mashup服務(wù)采用互熵進行降序排序?;レ赜嬎銥楝F(xiàn)有技術(shù),可對于標簽t對應(yīng)的所有Mashup服務(wù)的Mashup文檔集合中標簽t的詞頻分布,和標簽t對應(yīng)的某個Mashup服務(wù)的Mashup文檔中標簽t的詞頻分布進行計算互熵。例如,給定閾值5,輸入查詢詞email,搜索結(jié)果中的Mashup服務(wù)AOL Mail onNetvibes, AOLMail for Facebook, EasyMsg, Flickr Image Mail, Hulka Mail Search,Notifyr, Outlook Plugin for Box. net, usend. io,這八個 Mashup 服務(wù)的相關(guān)性分數(shù)相同,用互熵來進行排序之后的順序如下A0L Mail on Netvibes, AOLMail for Facebook,usend. io, Flickr Image Mail, EasyMsg, Hulka Mail Search, Outlook Plugin for Box.net, Notifyr。本步驟計算標簽的分數(shù)實現(xiàn)方式如下,迭代計算標簽所在節(jié)點j的分數(shù)Sk (j)直到滿足預(yù)設(shè)的結(jié)束條件,計算公式為sk (j) = Y E Ph ⑴ Pij+(I-Y )1 其中,0〈i,j彡N',當前迭代次數(shù)k=l,2…,N'表示共現(xiàn)網(wǎng)TTNl中節(jié)點集中節(jié)點
總數(shù),Py = Y ",是共現(xiàn)網(wǎng)TTNl的鄰接矩陣,Pij代表從共現(xiàn)網(wǎng)TTNl中的節(jié)點i到節(jié)點j
乙n m的轉(zhuǎn)移概率,所述轉(zhuǎn)移概率為節(jié)點i和j之間的權(quán)值wu除以節(jié)點i和與節(jié)點i直接相鄰的所有節(jié)點Win之間的權(quán)值之和,n為節(jié)點i的鄰居節(jié)點的總數(shù),設(shè)以節(jié)點i為起點在共現(xiàn)網(wǎng)TTNl上進行隨機游走,Y是預(yù)設(shè)的游走到鄰居節(jié)點的概率,I-Y是游走到共現(xiàn)網(wǎng)TTNl中其他任一節(jié)點概率,Inj是預(yù)設(shè)的節(jié)點i初始概率分布,可設(shè)為TTNl中節(jié)點數(shù)目的倒數(shù)。例如,API 服務(wù) Tribe HR 有 6 個標簽sbweb、jobs、hrms、HR、enterprise、hris,他們初始概率mj為1/6,經(jīng)過隨機游走之后各標簽節(jié)點分數(shù)為0. 0896,0. 0903,0. 1185,0. 0985,0. 0892、0. 1185。具體實施時,迭代的結(jié)束條件可由本領(lǐng)域技術(shù)人員自行根據(jù)需要設(shè)定,例如設(shè)為是否達到預(yù)設(shè)最大迭代次數(shù),或者本次與上一次迭代所得分數(shù)的差值是否達到預(yù)設(shè)閾值。所述進行標簽推薦,包括以下子步驟,步驟BI,根據(jù)元信息數(shù)據(jù),構(gòu)建標簽與API服務(wù)的關(guān)聯(lián)網(wǎng)并記為TAN (Tag-APINetwork, TAN)。其中,節(jié)點代表標簽或API服務(wù),邊代表標簽與API服務(wù)之間的關(guān)聯(lián)關(guān)系。如圖 I,節(jié)點代表 tag (包括 climate、weather、europe、mapping、Australia)和 API 服務(wù)(包括 weatherBug GEO、Navlost NWX Weather> Australian Burean of Meteorology),邊代表他們之間的關(guān)聯(lián)關(guān)系。步驟B2,根據(jù)步驟BI所得關(guān)聯(lián)網(wǎng)TAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN2(tag_tagNetwork〗),如果兩個標簽在關(guān)聯(lián)網(wǎng)TAN中共用了一個API服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊。與共現(xiàn)網(wǎng)TTNl類似,共現(xiàn)網(wǎng)TTN2中,節(jié)點i和j之間的權(quán)值Wij同樣也采用相似度,可通過Jacard相似度系數(shù)計算,如圖I中標注的值I、1/2、1/3等。步驟B3,根據(jù)元信息數(shù)據(jù),通過計算API描述文檔夾角余弦值,得到兩個API描述文檔的相似性。實施例采用以下現(xiàn)有計算公式Sim(DP.Dl) = co<0) =’其中 Di 表示文檔 i,Dj 表示文檔 j,0 表示 Di和Dj之間的夾角。步驟B4,構(gòu)建API服務(wù)的拓撲圖,節(jié)點代表API服務(wù),節(jié)點之間的邊上權(quán)值為步驟B3所得兩個API描述文檔的相似性,根據(jù)拓撲圖得到某個輸入的API服務(wù)描述文本最近的K個鄰居節(jié)點。K為預(yù)設(shè)參數(shù)。步驟B5,將步驟B4所得K個鄰居節(jié)點分別的標簽序列最前面的m個標簽進行合并,m為預(yù)設(shè)參數(shù);每個鄰居節(jié)點的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTN2上的隨機游走,計算鄰居節(jié)點的相應(yīng)Mashup服務(wù)的所有標簽分別的分數(shù)并進行降序排列得到的結(jié)果。本步驟的實現(xiàn)與步驟A4 一致迭代計算標簽所在節(jié)點j的分數(shù)Sk (j)直到滿足預(yù)設(shè)的結(jié)束條件,計算公式為
權(quán)利要求
1.一種基于隨機游走的服務(wù)及標簽推薦方法,其特征在于基于元信息數(shù)據(jù)進行Mashup服務(wù)推薦和標簽推薦,所述元信息數(shù)據(jù)包括Mashup服務(wù)和API服務(wù)的元信息,Mashup服務(wù)的元信息包括Mashup文檔集合,API服務(wù)的元信息包括API服務(wù)的標簽; 所述進行Mashup服務(wù)推薦,包括以下子步驟, 步驟Al,根據(jù)元信息數(shù)據(jù),建立標簽與Mashup服務(wù)的關(guān)聯(lián)網(wǎng)并記為TMAN,其中,節(jié)點代表標簽或Mashup服務(wù),邊代表標簽與Mashup服務(wù)之間的關(guān)聯(lián)關(guān)系; 步驟A2,根據(jù)步驟Al所得關(guān)聯(lián)網(wǎng)TMAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN1,如果兩個標簽在關(guān)聯(lián)網(wǎng)TMAN中共用了一個Mashup服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊; 步驟A3,輸入待查詢的標簽t,在關(guān)聯(lián)網(wǎng)TMAN上查找標簽t對應(yīng)的所有Mashup服務(wù);步驟A4,計算標簽t對應(yīng)的所有Mashup服務(wù)分別的相關(guān)性分數(shù),并給標簽t對應(yīng)的所有Mashup服務(wù)進行降序排序,按排列結(jié)果推薦給用戶;相關(guān)性分數(shù)的計算公式如下, S(Xi) = - T j+1/rii 其中,s (Xi)為關(guān)聯(lián)網(wǎng)TMAN中與標簽t對應(yīng)的某個Mashup服務(wù)Xi的相關(guān)性分數(shù),Iii代表Mashup服務(wù)Xi的標簽數(shù)目,Ti表示標簽t在Mashup服務(wù)Xi的標簽序列中的位置;所述Mashup服務(wù)Xi的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTNl上的隨機游走,計算Mashup服務(wù)Xi的Hi個標簽分別的分數(shù)并進行降序排列得到的結(jié)果; 所述進行標簽推薦,包括以下子步驟, 步驟BI,根據(jù)元信息數(shù)據(jù),構(gòu)建標簽與API服務(wù)的關(guān)聯(lián)網(wǎng)并記為TAN,其中,節(jié)點代表標簽或API服務(wù),邊代表標簽與API服務(wù)之間的關(guān)聯(lián)關(guān)系; 步驟B2,根據(jù)步驟BI所得關(guān)聯(lián)網(wǎng)TAN,轉(zhuǎn)化得到標簽之間的共現(xiàn)網(wǎng)TTN2,如果兩個標簽在關(guān)聯(lián)網(wǎng)TAN中共用了一個API服務(wù),那么兩個標簽分別對應(yīng)的節(jié)點之間存在一條邊;步驟B3,根據(jù)元信息數(shù)據(jù),通過計算API描述文檔夾角余弦值,得到兩個API描述文檔的相似性; 步驟B4,構(gòu)建API服務(wù)的拓撲圖,節(jié)點代表API服務(wù),節(jié)點之間的邊上權(quán)值為步驟B3所得兩個API描述文檔的相似性,根據(jù)拓撲圖得到某個輸入的API服務(wù)描述文本最近的K個鄰居節(jié)點,K為預(yù)設(shè)參數(shù); 步驟B5,將步驟B4所得K個鄰居節(jié)點分別的標簽序列最前面的m個標簽進行合并,m為預(yù)設(shè)參數(shù);每個鄰居節(jié)點的標簽序列,是根據(jù)在共現(xiàn)網(wǎng)TTN2上的隨機游走,計算鄰居節(jié)點的相應(yīng)Mashup服務(wù)的所有標簽分別的分數(shù)并進行降序排列得到的結(jié)果; 步驟B6,將從步驟B5中所得mXK個標簽的合并結(jié)果,放入列表q中,按列表q中的各標簽的分數(shù)及出現(xiàn)頻率進行降序排列,按排列結(jié)果推薦給用戶。
2.如權(quán)利要求I所述基于隨機游走的服務(wù)及標簽推薦方法,其特征在于步驟A4和步驟B5中計算標簽的分數(shù)實現(xiàn)方式如下, 迭代計算標簽所在節(jié)點j的分數(shù)sk (j)直到滿足預(yù)設(shè)的結(jié)束條件,計算公式為 Sk (j) =YE(I)Pij+(I-y )mj 其中,0〈i,j≤N',當前迭代次數(shù)k=l,2…,N'表示共現(xiàn)網(wǎng)中節(jié)點集中節(jié)點總數(shù),
3.如權(quán)利要求I所述基于隨機游走的服務(wù)及標簽推薦方法,其特征在于步驟A4給標簽t對應(yīng)的所有Mashup服務(wù)進行排序時,若存在具有相同相關(guān)性分數(shù)的Mashup服務(wù),采用互熵進行降序排序。
4.如權(quán)利要求I所述基于隨機游走的服務(wù)及標簽推薦方法,其特征在于步驟A3中,若輸入的待查詢的詞不是元信息數(shù)據(jù)中的標簽,采用wordNet進行同義詞的擴充,直到找到和這個詞相關(guān)的系統(tǒng)中的標簽,作為待查詢的標簽t。
5.如權(quán)利要求I所述基于隨機游走的服務(wù)及標簽推薦方法,其特征在于預(yù)設(shè)給定閾值k,若在關(guān)聯(lián)網(wǎng)TMAN上查找所得標簽t對應(yīng)的所有Mashup服務(wù)的總數(shù)小于給定閾值k,根據(jù)基于Mashup服務(wù)之間的共現(xiàn)網(wǎng)MMN,采用TopKDijkastra算法查找擴充標簽t對應(yīng)的Mashup服務(wù),然后執(zhí)行步驟A4,否則直接執(zhí)行步驟A4 ; 所述共現(xiàn)網(wǎng)MMN,是根據(jù)元信息數(shù)據(jù)構(gòu)建的Mashup服務(wù)之間的共現(xiàn)網(wǎng),當兩個Mashup服務(wù)之間的語義相關(guān)度大于0時相應(yīng)節(jié)點之間有一條邊, Mashup服務(wù)之間的語義相關(guān)度由三部分的加權(quán)和構(gòu)成,三個部分分別為描述文本的距離函數(shù)、由共用API服務(wù)產(chǎn)生的相似度和由共用標簽產(chǎn)生的相似度,第一部分為描述文本夾角余弦值,后兩個部分的相似度通過Jacard相似度系數(shù)計算; 所述TopKDijkastra算法包括以下子步驟, 步驟A3. 1,在共現(xiàn)網(wǎng)TTNl上查找所得標簽t關(guān)聯(lián)的所有Mashup服務(wù),作為初始的集合S,將集合S中Mashup服務(wù)的標記currentDistance都標記為0,其余標記為無窮大; 步驟A3. 2,如果集合S中的Mashup服務(wù)數(shù)目小于給定閾值k,計算集合S中的所有Mashup服務(wù)在共現(xiàn)網(wǎng)MMN的鄰居節(jié)點到集合S的最短距離,并將此距離賦值給標記currentDistance,進入步驟A3. 3,否則算法結(jié)束,返回集合S ; 步驟A3. 3,將大于0且最小的標記currentDistance對應(yīng)的Mashup服務(wù)加入到集合S中,并將該Mashup服務(wù)的標記currentDistance設(shè)置為0,返回步驟A3. 2,直到算法結(jié)束。
6.如權(quán)利要求I或2或3或4或5所述基于隨機游走的服務(wù)及標簽推薦方法,其特征在于共現(xiàn)網(wǎng)TTN1、TTN2的邊上權(quán)值通過Jacard相似度系數(shù)計算.。
全文摘要
本發(fā)明屬于服務(wù)計算技術(shù)領(lǐng)域,涉及一種基于隨機游走的服務(wù)及標簽推薦方法,包括服務(wù)推薦步驟以及標簽推薦步驟,服務(wù)推薦步驟包括搜集Mashup服務(wù)和API服務(wù)的信息,用關(guān)聯(lián)網(wǎng)抽象它們之間的關(guān)系,在標簽之間的共現(xiàn)網(wǎng)上進行隨機游走之后給每個標簽列表排序,再利用標簽和Mashup服務(wù)之間的關(guān)聯(lián)關(guān)系以及Mashup語義擴充的方法對Mashup服務(wù)進行推薦。標簽推薦步驟包括利用API服務(wù)描述文本的相似性找最近鄰,再隨機游走標簽排序的方法進行API服務(wù)的標簽推薦。本發(fā)明提高了服務(wù)查找結(jié)果的精確性,解決了標簽隨意性問題。
文檔編號G06F17/30GK102750375SQ201210206198
公開日2012年10月24日 申請日期2012年6月21日 優(yōu)先權(quán)日2012年6月21日
發(fā)明者李兵, 沈水晶, 黃媛 申請人:武漢大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
鹿邑县| 藁城市| 温州市| 沙洋县| 平乡县| 湟中县| 盐边县| 通山县| 临湘市| 蒙自县| 兴和县| 湘乡市| 浦江县| 海晏县| 鄯善县| 中西区| 龙海市| 大关县| 通辽市| 瑞丽市| 安岳县| 萨嘎县| 原平市| 营口市| 吴桥县| 凭祥市| 克拉玛依市| 团风县| 资源县| 青铜峡市| 开化县| 西乌珠穆沁旗| 普陀区| 元阳县| 天水市| 南和县| 榕江县| 谷城县| 宝应县| 拉萨市| 宁国市|