欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法

文檔序號(hào):6626437閱讀:2680來(lái)源:國(guó)知局
一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法
【專利摘要】本發(fā)明提出一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法,為了提高聚類有效性,定義標(biāo)注矩陣、共同標(biāo)注矩陣、標(biāo)簽重要度矩陣、相似度矩陣,用于通過(guò)對(duì)標(biāo)簽共現(xiàn)信息的提取,確定標(biāo)簽的特征向量;通過(guò)特征向量的提取計(jì)算相似度,將傳統(tǒng)聚類算法中用幾何距離計(jì)算對(duì)象與中心對(duì)象的距離改為用皮爾森相關(guān)系數(shù)計(jì)算;提出結(jié)合K-means聚類算法對(duì)標(biāo)簽進(jìn)行聚類的標(biāo)簽共現(xiàn)聚類方法。本發(fā)明所提供聚類方法效果要好于其它的聚類方法,具有良好的有效性和可行性。
【專利說(shuō)明】一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及網(wǎng)絡(luò)標(biāo)簽聚類【技術(shù)領(lǐng)域】,具體涉及一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法。

【背景技術(shù)】
[0002] 標(biāo)簽是用戶對(duì)信息的主觀理解,是聯(lián)系客觀信息和主觀認(rèn)識(shí)的中介。在社會(huì)網(wǎng)絡(luò) 中信息通過(guò)相同的標(biāo)簽聯(lián)系在一起,用戶也通過(guò)使用標(biāo)簽與其他資源及用戶聯(lián)系在一起, 這樣人與人之間就可以通過(guò)標(biāo)簽進(jìn)行聯(lián)系、交友等操作。標(biāo)簽作為在線社會(huì)化網(wǎng)絡(luò)的一部 分,已得到了廣泛的研究,F(xiàn)lickr、del. icio. us、豆瓣網(wǎng)和Youtobe等網(wǎng)站都采用了標(biāo)簽的 協(xié)同標(biāo)注及聚類研究,但目前針對(duì)標(biāo)簽之間相關(guān)聯(lián)系的研究比較少。現(xiàn)階段對(duì)標(biāo)簽系統(tǒng)進(jìn) 行優(yōu)化的研究主要集中于標(biāo)簽云,標(biāo)簽的有序化組織。標(biāo)簽之間關(guān)聯(lián)度的研究有助于對(duì)信 息進(jìn)行分類檢索與瀏覽,同時(shí)也可以挖掘出用戶之間的相似性,從而可以對(duì)用戶進(jìn)行個(gè)性 化推薦。標(biāo)簽的聚類就可以形成一個(gè)個(gè)的社區(qū)網(wǎng)絡(luò),隨著標(biāo)簽的不斷增多網(wǎng)絡(luò)也會(huì)隨之?dāng)U 大。
[0003] 參考文獻(xiàn):Golder S A, Huberman B A. Usage patterns of collaborative tagging systems[J].Journal of information science,2006,32 (2):198 ?208 ; Kaser 0, Lemire D.Tag-cloud drawing:Algorithms for cloud visualization[J]. ArXiv preprint cs/0703109, 2007. 3?5;易明,毛進(jìn),鄧衛(wèi)華·基于社會(huì)化標(biāo) 簽網(wǎng)絡(luò)的細(xì)粒度用戶興趣建模[J].現(xiàn)代圖書情報(bào)技術(shù),2011,4:008 ;Lin Y R,Chi Y,Zhu S,Sundaram H, Tseng B.Analyzing communities and their evolutions in dynamic social network[J]. ACM Transactions on Knowledge Discovery from Data(TKDD),2009,3(2):l?31 ;孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學(xué) 報(bào),2008, 19(1) : 48 ?61.
[0004] 大眾分類(folksonomy)是典型的Web2. 0系統(tǒng),允許所有互聯(lián)網(wǎng)用戶為網(wǎng)絡(luò)資源 添加標(biāo)簽。folksonomy是VanderWal和Smith于2004年首先提出,其含義是由大眾的一致 意見(jiàn)而產(chǎn)生的基于用戶的分類體系。此分類法根據(jù)用戶個(gè)人的使用習(xí)慣,以自定義的詞對(duì) 網(wǎng)絡(luò)資源進(jìn)行標(biāo)注和分類。這些自定義的詞稱為標(biāo)簽(tag),也就是指描述信息資源的字、 詞或者短語(yǔ)。
[0005] Folksonomy使得傳統(tǒng)的分類法擺脫了固化的現(xiàn)象,并且跟大眾的認(rèn)知程度密切的 結(jié)合起來(lái),同時(shí)這種分類方法也為群體用戶和信息之間建立了一個(gè)聯(lián)系的橋梁。然而正是 因?yàn)橛脩魠⑴c的廣泛性,標(biāo)注的隨意性,使得大眾標(biāo)注過(guò)于自由,個(gè)性化。因此會(huì)導(dǎo)致一系 列的問(wèn)題,標(biāo)簽的意義可能混淆,系統(tǒng)的推薦很不合理,用戶標(biāo)簽時(shí)存在錯(cuò)誤等。
[0006] 目前,國(guó)外對(duì)于大眾分類中的標(biāo)簽聚類問(wèn)題的研究已從理論研究向?qū)嶋H應(yīng)用過(guò) 渡,且更加注重在潛在語(yǔ)義層面上的聚類研究。Heymann等提出將大量的標(biāo)簽轉(zhuǎn)化為可導(dǎo)航 的層次結(jié)構(gòu)分類目,將標(biāo)簽所標(biāo)注的資源次數(shù)表示成向量形式,計(jì)算標(biāo)簽的相似度,最后得 到潛在層級(jí)分類法。Begelman等人提出采用聚類技術(shù)對(duì)大量標(biāo)簽進(jìn)行自動(dòng)聚類的方法來(lái)改 善自由分類法的檢索和瀏覽。
[0007] 參考文獻(xiàn):Sinclair J, Cardew-Hall M. The folksonomy tag cloud:when is it useful ? [J]. Journal of Information Science,2008,34 (1):15 ?29 ;Gruber T.Ontology of folksonomy:A mash-up of apples and oranges[J]. International Journal on Semantic Web and Information Systems(IJSWIS), 2007,3(1):1 ?11; Heymann P, Garcia-Molina H. Collaborative creation of communal hierarchical taxonomies in social tagging systems[J]· 2006. 1 ?5;Begelman G,Keller P,Smadja F. Automated tag clustering:Improving search and exploration in the tag space[C] Collaborative Web Tagging Workshop at WWW2006,Edinburgh, Scotland. 2006:15?33.
[0008] 國(guó)內(nèi)也有專家提出了一些有關(guān)標(biāo)簽聚類的算法。武漢大學(xué)的曹高輝等人利用凝聚 式層次聚類算法對(duì)標(biāo)簽聚類進(jìn)行研究,利用相關(guān)標(biāo)簽的權(quán)重計(jì)算標(biāo)簽之間的相關(guān)度,從而 實(shí)現(xiàn)標(biāo)簽的聚類。江南大學(xué)的吳志媛等人,引入PLSI模型來(lái)挖掘頁(yè)面資源與標(biāo)簽間的潛在 語(yǔ)義關(guān)系,并結(jié)合提出的HAK-mesiods聚類算法對(duì)潛在語(yǔ)義下的標(biāo)簽進(jìn)行相似度聚類,最 后得到潛在語(yǔ)義下的聚合標(biāo)簽集。
[0009] 現(xiàn)有的研究成果表明,對(duì)標(biāo)簽進(jìn)行合理的聚類有助于實(shí)現(xiàn)標(biāo)簽的有序化組織。
[0010] 參考文獻(xiàn):曹高輝,焦玉英,成全.基于凝聚式層次聚類算法的標(biāo)簽聚類研究
[J] ·現(xiàn)代圖書情報(bào)技術(shù),2008, 51 (4) : 23?27 ;吳志媛,錢雪忠.基于PLSI的標(biāo)簽聚類研 究[J] ·計(jì)算機(jī)應(yīng)用研究,2013, 30 (5) : 1316?1319.


【發(fā)明內(nèi)容】

[0011] 本發(fā)明在以上研究的基礎(chǔ)上,基于對(duì)以往的標(biāo)簽聚類方法進(jìn)行改進(jìn),解決了標(biāo)簽 描述資源準(zhǔn)確度低,組織混亂,存在語(yǔ)義模糊等問(wèn)題。
[0012] 為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案提供一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法,包 括首先進(jìn)行以下定義,
[0013] 一、定義一個(gè)標(biāo)注矩陣,該矩陣Unxm是nXm型矩陣,η為標(biāo)簽個(gè)數(shù),m為資源個(gè)數(shù), 矩陣中的元素 uiq表示標(biāo)簽&標(biāo)注資源r,的頻度,此處的i取值為1,2,…,n,q取值為 1,2, ...,m ;
[0014] 二、定義一個(gè)共同標(biāo)注矩陣,該矩陣CnXn是ηΧη型矩陣,η為標(biāo)簽個(gè)數(shù),矩陣中的 元素表示標(biāo)簽h和標(biāo)簽\共現(xiàn)頻度,如下式,
[0015]

【權(quán)利要求】
1. 一種標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法,其特征在于:包括首先進(jìn)行以下定義, 一、 定義一個(gè)標(biāo)注矩陣,該矩陣unxm是nXm型矩陣,η為標(biāo)簽個(gè)數(shù),m為資源個(gè)數(shù),矩陣中 的元素uiq表示標(biāo)簽&標(biāo)注資源r,的頻度,此處的i取值為1,2,…,n,q取值為1,2,…,m ; 二、 定義一個(gè)共同標(biāo)注矩陣,該矩陣CnXn是ηΧη型矩陣,η為標(biāo)簽個(gè)數(shù),矩陣中的元素 cij表示標(biāo)簽h和標(biāo)簽\共現(xiàn)頻度,如下式,
(1) 此處的i取值為1,2, "·,η,j取值為1,2, "·,η ;其中,表示標(biāo)簽&和標(biāo)簽tj 共同出現(xiàn)的次數(shù),當(dāng)i = j時(shí),w(ti,tp為標(biāo)簽&標(biāo)注過(guò)的資源數(shù); 三、 定義一個(gè)標(biāo)簽重要度矩陣,該矩陣AnXn是ηΧη型矩陣,η為標(biāo)簽個(gè)數(shù),矩陣中的元 素%表示標(biāo)簽&在所有m個(gè)資源內(nèi)的重要度,即
此處的i取值為1,2, ···,!!,」取值為1,2, "'η;其中,Γ (心)表示在m個(gè)資源中,與標(biāo) 簽h共同出現(xiàn)過(guò)的標(biāo)簽的個(gè)數(shù); 四、 定義一個(gè)相似度矩陣,該矩陣SnXn是η X η型矩陣,η為標(biāo)簽個(gè)數(shù),矩陣中的元素 表示標(biāo)簽&和標(biāo)簽\的特征向量相似度,即
(3) 其中,表示標(biāo)簽重要度矩陣中的第i、j個(gè)行向量; 然后基于定義執(zhí)行以下流程, 步驟1,輸入聚類的類別數(shù)目K,標(biāo)簽個(gè)數(shù)n,標(biāo)簽集合T = {ti,t2···. tn},資源集合R,和 標(biāo)簽標(biāo)注資源的關(guān)系集合A ;初始化當(dāng)前處理標(biāo)簽序號(hào)i取值為1 ;轉(zhuǎn)到步驟2 ; 步驟2,計(jì)算標(biāo)注矩陣的元素uiq,得到標(biāo)簽與資源之間的關(guān)聯(lián),進(jìn)一步得到標(biāo)簽&和標(biāo) 簽h共同出現(xiàn)的次數(shù)W(ti,tp,轉(zhuǎn)到步驟3 ; 步驟3,根據(jù)式(1),計(jì)算表示共現(xiàn)頻度的元素轉(zhuǎn)到步驟4 ; 步驟4,根據(jù)式(2),計(jì)算表示重要度的元素au,轉(zhuǎn)到步驟5 ; 步驟5,得到標(biāo)簽心的特征向量Ai(an, ai2….ain),轉(zhuǎn)到步驟6 ; 步驟6,令i = i+Ι,判斷&是否屬于標(biāo)簽集合T,如果屬于則返回步驟2,否則轉(zhuǎn)到步 驟7 ; 步驟7,選擇K個(gè)標(biāo)簽作為初始的聚類中心,轉(zhuǎn)到步驟8 ; 步驟8,初始定義變量newj = 0, oldj = -1,轉(zhuǎn)到步驟9 ; 步驟9,計(jì)算newj-oldj的絕對(duì)值,如果結(jié)果大于等于0. 00001,.轉(zhuǎn)到步驟10,否則轉(zhuǎn) 到步驟14 ; 步驟10,根據(jù)式(3),計(jì)算每個(gè)標(biāo)簽與K個(gè)聚類中心分別的相似度\_,轉(zhuǎn)到步驟11 ; 步驟11,根據(jù)計(jì)算出來(lái)的相似度,對(duì)每個(gè)標(biāo)簽分別判斷與哪個(gè)聚類中心的相似度最大 并將該標(biāo)簽劃分到相應(yīng)的類別中,轉(zhuǎn)到步驟12 ; 步驟12,計(jì)算每個(gè)類別中所有標(biāo)簽特征向量的平均值,作為該類別新的聚類中心,轉(zhuǎn)到 步驟13 ; 步驟13,令oldj = newj,計(jì)算新的準(zhǔn)則函數(shù)值賦值給newj,轉(zhuǎn)到步驟9 ; 步驟14,輸出η個(gè)標(biāo)簽的聚類結(jié)果,結(jié)束。
2.根據(jù)權(quán)利要求1所述標(biāo)簽共現(xiàn)的標(biāo)簽聚類方法,其特征在于:步驟13中,準(zhǔn)則函數(shù) 的計(jì)算式為
代表相應(yīng)的類別中標(biāo)簽個(gè)數(shù),
表示兩個(gè)特征向量之 間的偏差的平方,Α」為相應(yīng)類別中的標(biāo)簽特征向量,Zk為相應(yīng)類的聚類中心。
【文檔編號(hào)】G06F17/30GK104216993SQ201410457010
【公開日】2014年12月17日 申請(qǐng)日期:2014年9月10日 優(yōu)先權(quán)日:2014年9月10日
【發(fā)明者】李鵬, 王妞丹, 金瑜, 劉宇, 何亨 申請(qǐng)人:武漢科技大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
旺苍县| 潼关县| 中卫市| 台湾省| 元谋县| 奇台县| 锦屏县| 曲水县| 榆中县| 团风县| 龙陵县| 娱乐| 津南区| 赤壁市| 延吉市| 四川省| 儋州市| 定南县| 土默特右旗| 呼和浩特市| 班戈县| 青铜峡市| 中宁县| 社旗县| 出国| 沅陵县| 松阳县| 汕头市| 安陆市| 花莲市| 丰城市| 宜丰县| 育儿| 闻喜县| 通化市| 桐乡市| 肇东市| 北碚区| 咸丰县| 阜城县| 印江|