欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種多標(biāo)簽分類方法及其裝置的制造方法

文檔序號(hào):8922961閱讀:428來源:國知局
一種多標(biāo)簽分類方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器學(xué)習(xí)、模式識(shí)別和數(shù)據(jù)挖掘,特別涉及一種多標(biāo)簽分類方法及其 相應(yīng)裝置。
【背景技術(shù)】
[0002] 多標(biāo)簽最先應(yīng)用在自動(dòng)文檔分類。隨著最近一些年海量數(shù)字信息的出現(xiàn),人們迫 切需要開發(fā)出自動(dòng)方法來對(duì)這些內(nèi)容進(jìn)行自動(dòng)注釋。比如,Irieetal.提出了用于電影情 感場景(movieaffectivescene)多標(biāo)簽分類方法,Suetal.給出一種方法叫圖像-概 念分布模型注釋方法(annotationbyImage-to-ConceptDistributionModel,AICDM)用 于圖像注釋,而Loetal.記錄標(biāo)簽次數(shù)作為代價(jià),將聲音標(biāo)記問題轉(zhuǎn)變成代價(jià)敏感分類問 題(cost-sensitiveclassificationproblem)。如今,除了自動(dòng)內(nèi)容注釋,多標(biāo)簽學(xué)習(xí)應(yīng) 用到許多其他領(lǐng)域,包括生物信息,網(wǎng)絡(luò)挖掘,圖像等。
[0003] 解剖治療化學(xué)(AnatomicalTherapeuticChemical,ATC)分類系統(tǒng)是著名的,被 世界健康組織(theWorldHealth0rganization,WH0)推薦的藥物分類系統(tǒng)。識(shí)別藥物的 ATC分類是一個(gè)重要的課題,它有助于對(duì)藥物的開發(fā)和利用。現(xiàn)有的藥物ATC分類系統(tǒng)僅僅 是用于藥物的單標(biāo)簽(single-label,單標(biāo)記)分類。單標(biāo)簽分類學(xué)習(xí)是從一個(gè)只屬于一個(gè) 標(biāo)簽I的樣本集合中學(xué)習(xí),其中每一個(gè)標(biāo)簽屬于一個(gè)互斥的標(biāo)簽集合L(|L| >1)。在多標(biāo) 簽(多標(biāo)記,multi-label)分類中,每個(gè)樣本屬于一個(gè)L樣本集合的一個(gè)子集。
[0004] 多標(biāo)簽(multi-label)分類器給一個(gè)新的實(shí)例指定多個(gè)類別。這個(gè)分類模型有很 廣泛的實(shí)際應(yīng)用,如:一個(gè)新聞文檔可能同時(shí)涉及多個(gè)主題,如音樂、運(yùn)動(dòng)和奧林匹克競賽; 一個(gè)蛋白質(zhì)可能具有多個(gè)功能,如Geminin是一種定位于核內(nèi)的蛋白質(zhì),它通過調(diào)節(jié)細(xì)胞 周期時(shí)相中的重要事件作用于細(xì)胞增殖:經(jīng)多種途徑參與DNA復(fù)制的調(diào)節(jié);抑制中心體重 復(fù)復(fù)制;推進(jìn)G2/M期和維持正常胞質(zhì)分裂等。
[0005] 定義1假設(shè)多標(biāo)簽分類任務(wù),指定一個(gè)數(shù)據(jù)集
[0006]D= {(xl,yl), . . . , (xn,yn)}XXY(1)
[0007] 輸入xieX和輸出標(biāo)簽子集yieY。依附于每個(gè)輸入的標(biāo)簽通常是指與輸入項(xiàng) 相關(guān)的標(biāo)簽。有時(shí),當(dāng)輸入空間是P維歐式空間(Euclideanspace)時(shí),我們將學(xué)習(xí)任務(wù)表 示為一對(duì)矩陣的形式:
[0008]D= (X,Y) (2)
[0009] 公式中X= (xl,? ? ?,xn),Y= (yl,? ? ?,yn)。當(dāng)標(biāo)簽j與實(shí)例i相關(guān)時(shí),其中Y 中的元素yij為1,否則為〇。多標(biāo)簽分類任務(wù)的目的就是要誘導(dǎo)以下假設(shè)。
[0010] 定義2多標(biāo)簽假設(shè)是一個(gè)從輸入空間到輸出空間(即標(biāo)簽的冪集P(L))的映射函 數(shù),表示如下:
[0011] h:x-y=P(L) = {0,1}L (3)
[0012] 所以,h(x)指對(duì)象x通過h關(guān)聯(lián)的標(biāo)簽集。有時(shí),我們用h(X) =Y表示為對(duì)輸入 集(用矩陣X表示)的h預(yù)測是矩陣Y所表示的標(biāo)簽集。
[0013] 過去幾年,多標(biāo)簽學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)領(lǐng)域一個(gè)熱門話題,并且取得了相當(dāng) 大的進(jìn)步。Madjarovetal.將多標(biāo)簽學(xué)習(xí)歸成三個(gè)類:(1)算法適應(yīng)方法(Algorithm adaptationmethods),(II)問題車專換方法(Problemtransformationmethods)和(III) 集成方法(Ensemblemethods)。算法適應(yīng)方法將一個(gè)已經(jīng)存在的機(jī)器學(xué)習(xí)算法進(jìn)行改進(jìn), 從而應(yīng)用于多標(biāo)簽學(xué)習(xí)。ML-KNN,BPMLL和ML-C4. 5都是算法適應(yīng)方法。問題變換方法將 多標(biāo)簽問題轉(zhuǎn)換成一個(gè)或者多個(gè)單標(biāo)簽問題。最為人所熟知的問題轉(zhuǎn)換方法是BR方法,分 類器鏈方法(ClassifierChainmethod,CC)和標(biāo)簽?zāi)患椒ǎ╨abelpower-setmethod, LP)等。集成方法包括分類器鏈的集成(ensemblesofclassifierchains,ECC),隨機(jī)K標(biāo) 簽集(randomk_labelsets,RAKEL),修剪集(prunedsets,EPS),等。
[0014] 傳統(tǒng)的多標(biāo)簽分類方法計(jì)算效率低,不適合高維特征數(shù)據(jù)或者大數(shù)據(jù),或者準(zhǔn)確 性(Accuracy)比較低,限制了多標(biāo)簽分類方法在實(shí)際工作和生活中的應(yīng)用。隨著Internet技術(shù)和生物基因工程技術(shù)的發(fā)展,數(shù)字信息量如爆炸性地增長,大數(shù)據(jù)處理得到越來越多 的科研人員的關(guān)注。如何快速、準(zhǔn)確地進(jìn)行預(yù)測成為急需解決的問題,傳統(tǒng)的多標(biāo)簽分類方 法計(jì)算效率低,不適合于大數(shù)據(jù)和高維特征數(shù)據(jù),或者準(zhǔn)確性(Accuracy)比較低,限制了 多標(biāo)簽分類方法在實(shí)際工作和生活中的應(yīng)用,大部分多標(biāo)簽分類方法在學(xué)習(xí)效率和精確度 方面都不能同時(shí)滿足這兩個(gè)要求,而藥物的ATC分類是典型的多標(biāo)簽分類問題。

【發(fā)明內(nèi)容】

[0015] 本發(fā)明提供一種新的多標(biāo)簽分類方法ML-GKR(Multi-labelGaussianKernel Regression),以解決傳統(tǒng)多標(biāo)簽分類方法中計(jì)算效率低,不適合于大數(shù)據(jù)和高維特征數(shù) 據(jù),或者準(zhǔn)確性(Accuracy)比較低的問題。
[0016] 為實(shí)現(xiàn)上述目的,本發(fā)明是通過以下技術(shù)方案來實(shí)現(xiàn)的:
[0017] 本發(fā)明提供一種多標(biāo)簽分類方法,包括:
[0018] 步驟1,利用問題轉(zhuǎn)換算法將多標(biāo)簽分類問題轉(zhuǎn)換成多個(gè)單標(biāo)簽分類問題;
[0019] 步驟2,對(duì)于每個(gè)待預(yù)測的未標(biāo)簽實(shí)例X*,計(jì)算第j個(gè)預(yù)測實(shí)數(shù)值g>j= 1,…, q,q為標(biāo)簽向量的維數(shù);
[0020] 步驟3,判斷每個(gè)待預(yù)測標(biāo)簽實(shí)例X*的第j個(gè)預(yù)測實(shí)數(shù)值7所屬類別;
[0021] 步驟4,綜合所有單標(biāo)簽完成多標(biāo)簽分類。
[0022] 進(jìn)一步,步驟2中所述第j個(gè)預(yù)測實(shí)數(shù)值 其中
9 |x*-XilI為兩個(gè)向量X*和Xi之間的距離,已知一組訓(xùn)練 9 數(shù)據(jù)(Xi,yi),i= 1,…,N,Xi是第i個(gè)訓(xùn)練數(shù)據(jù)輸入,yi是第i個(gè)訓(xùn)練數(shù)據(jù)的標(biāo)簽,b是 輸入空間的長度尺度。
[0023] 進(jìn)一步,所述兩個(gè)向量X,Xi之間的距離可以是歐氏距離、曼哈頓距離 (ManhattanDistance)或馬氏距離(Mahalanobisdistances) 〇
[0024] 進(jìn)一步,對(duì)于每個(gè)待預(yù)測標(biāo)簽實(shí)例X*,第j個(gè)標(biāo)簽乂預(yù)測為:
[0026] 進(jìn)一步,如果
X*屬于類j,j= 1,…,q,否則,如果
X*不屬于 類j。
[0027] 進(jìn)一步,所述問題轉(zhuǎn)換算法是BR(二元關(guān)聯(lián),Binaryrelevance)算法。
[0028] 進(jìn)一步,所述步驟1具體為:利用問題轉(zhuǎn)換算法將藥物的ATC分類問題轉(zhuǎn)換成多個(gè) ATC組別的單標(biāo)簽分類問題;
[0029] 所述步驟2具體為:根據(jù)待分類藥物的藥物分子間交互特征、藥物分子間相似特 征和藥物分子指紋特征,計(jì)算第j個(gè)預(yù)測實(shí)數(shù)值gj= 1,…,q,q為ATC組別個(gè)數(shù); 9
[0030] 所述步驟3具體為,判斷第j個(gè)預(yù)測實(shí)數(shù)值7所屬類別;
[0031] 所述步驟4具體為,綜合所有組別的單標(biāo)簽完成藥物的ATC分類。
[0032] 進(jìn)一步,所述步驟1具體為:利用問題轉(zhuǎn)換算法將音樂的情感分類問題轉(zhuǎn)換為多 個(gè)情感類別分類的單標(biāo)簽問題;
[0033] 所述步驟2具體為:根據(jù)待分類的音樂的節(jié)奏特征和音色特征,計(jì)算第j個(gè)預(yù)測實(shí) 數(shù)值乃>j= 1,…,q,q為音樂情感的類別數(shù);
[0034] 所述步驟3具體為,判斷第j個(gè)預(yù)測實(shí)數(shù)值$所屬類別;
[0035] 所述步驟4具體為,綜合所有單標(biāo)簽完成音樂的情感分類。
[0036] 本發(fā)明還提供一種多標(biāo)簽分類裝置,包括:第一模塊,用于利用問題轉(zhuǎn)換算法將多 標(biāo)簽分類問題轉(zhuǎn)換成多個(gè)單標(biāo)簽分類問題;
[0037] 第二模塊,用于對(duì)于每個(gè)待預(yù)測的未標(biāo)簽實(shí)例X*,計(jì)算第j個(gè)預(yù)測實(shí)數(shù)值gj , =1,…,q,q為標(biāo)簽向量的維數(shù);
[0038] 第三模塊,用于判斷每個(gè)待預(yù)測標(biāo)簽實(shí)例X*的第j個(gè)預(yù)測實(shí)數(shù)值$所屬類別;
[0039] 第四模塊,用于綜合所有單標(biāo)簽問題完成多標(biāo)簽分類。
[0040] 本發(fā)明的有益效果在于:
[0041] 本發(fā)明提出的ML-GKR方法通過特定的技術(shù)手段,將待預(yù)測樣本標(biāo)簽進(jìn)行標(biāo)記,結(jié) 果為與已知訓(xùn)練樣本的距離最接近的標(biāo)簽,而無需計(jì)算每個(gè)樣本之間的距離。
[0042] 在運(yùn)算效率方面,ML-GKR時(shí)間復(fù)雜度為0 (Cnm)(設(shè)樣本維數(shù)n,訓(xùn)練樣本個(gè)數(shù)m, C為常數(shù)),而ML-KNN的時(shí)間復(fù)雜度為0 (Cm2n2)。因此,運(yùn)算效率高于ML-KNN,可以應(yīng)用于 大數(shù)據(jù)處理。
[0043] 此外ML-GKR可以用Matlab、Java和python等多種語言實(shí)現(xiàn),應(yīng)用于生物信息、文 本分類和音樂分類等多標(biāo)簽學(xué)習(xí)中。
【附圖說明】
[0044] 圖1高斯核回歸算法
[0045] 圖2本發(fā)明ML-GKR多標(biāo)簽分類方法流程圖
[0046] 圖3利用本發(fā)明的ML-GKR多標(biāo)簽方法實(shí)現(xiàn)藥物ATC分類的流程圖
[0047] 圖4利用本發(fā)明的ML-GKR多標(biāo)簽分類方法實(shí)現(xiàn)音樂情感分類的流程圖
【具體實(shí)施方式】
[0048] 本發(fā)明的主要思想在于,使用問題轉(zhuǎn)換算法將多標(biāo)簽學(xué)習(xí)問題轉(zhuǎn)化為"二類分類 (binary classification)"問題求解。在已知訓(xùn)練樣本及其標(biāo)簽的情況下,通過高斯核回 歸方法預(yù)測未知樣本的二
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
太仆寺旗| 南开区| 凭祥市| 银川市| 莱芜市| 南岸区| 赞皇县| 出国| 岫岩| 子洲县| 安西县| 佛山市| 乌兰浩特市| 武宁县| 久治县| 乌兰察布市| 昌图县| 通化市| 平乐县| 二连浩特市| 裕民县| 宁波市| 惠来县| 荔波县| 丹棱县| 城口县| 同心县| 桃江县| 南皮县| 云安县| 高碑店市| 荣昌县| 沙田区| 清丰县| 伊宁县| 石景山区| 浮山县| 洛隆县| 舒城县| 诸暨市| 吉木萨尔县|