獲取多標(biāo)簽的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種獲取多標(biāo)簽的方法及裝置,方法包括:獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合;從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合;分別獲取各標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù);分別計(jì)算所述待評(píng)測樣本在帶有或不帶有各標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在各標(biāo)簽上的多項(xiàng)分布概率;根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在各標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。本發(fā)明能準(zhǔn)確獲取待評(píng)測樣本的一個(gè)或一個(gè)以上的標(biāo)簽。
【專利說明】獲取多標(biāo)簽的方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,尤其涉及一種獲取多標(biāo)簽的方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)中龐大數(shù)據(jù)和網(wǎng)站種類的日益增加,針對(duì)互聯(lián)網(wǎng)的分析并在復(fù)雜龐大的網(wǎng)絡(luò)中尋找有針對(duì)性的內(nèi)容是目前急需解決的問題,需要更深入的研究。目前,通過對(duì)網(wǎng)站數(shù)據(jù)進(jìn)行多標(biāo)簽分類是一種比較直觀有效的辦法,有助于從多個(gè)角度加深對(duì)整個(gè)網(wǎng)絡(luò)的理解與認(rèn)識(shí),能為用戶呈現(xiàn)更加清晰的互聯(lián)網(wǎng)絡(luò),具有重要的意義。
[0003]對(duì)數(shù)據(jù)的多標(biāo)簽分類本質(zhì)上是對(duì)事物的屬性X到多標(biāo)簽Y的二值分類/回歸映射,從而給標(biāo)簽未知的海量數(shù)據(jù)樣本打上多標(biāo)簽,實(shí)現(xiàn)多個(gè)方面的關(guān)聯(lián)分析。其中,Y是多維的,每個(gè)維度均是二值的多標(biāo)簽。因此,實(shí)現(xiàn)X->Y的映射這個(gè)問題,可以被看成一個(gè)多目標(biāo)的分類或回歸問題。
[0004]現(xiàn)有技術(shù)中有多種方法可以實(shí)現(xiàn)對(duì)數(shù)據(jù)的多標(biāo)簽分類,但是均具有各種各樣的缺點(diǎn):非線性支持向量機(jī)由于需要估計(jì)和維護(hù)樣本量平方大小的核矩陣,因此很難在大量數(shù)據(jù)上實(shí)現(xiàn);邏輯回歸和神經(jīng)網(wǎng)絡(luò)可以實(shí)現(xiàn)大量數(shù)據(jù)的非線性多目標(biāo)分類/回歸,但主要有三方面問題:一是收斂速度慢、訓(xùn)練代價(jià)大;二是需要適當(dāng)處理正則化和模型選擇,來保證在未知樣本上的泛化能力,但找到有效的處理方式是很難的;三是對(duì)屬性X上的相似度或概率的定義是隱性的,一般需要先對(duì)X做出恰當(dāng)?shù)臍w一化預(yù)處理。
【發(fā)明內(nèi)容】
[0005]有鑒于此,本發(fā)明實(shí)施例提供一種獲取多標(biāo)簽的方法及裝置,以準(zhǔn)確獲取待評(píng)測樣本的標(biāo)簽。
[0006]本發(fā)明實(shí)施例采用以下技術(shù)方案:
[0007]第一方面,本發(fā)明實(shí)施例提供了一種獲取多標(biāo)簽的方法,包括:
[0008]獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合;
[0009]從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合;
[0010]分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù);
[0011]分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率;
[0012]根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。
[0013]第二方面,本發(fā)明實(shí)施例還提供了一種獲取多標(biāo)簽的裝置,包括:
[0014]練樣本集合獲取單元,用于獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合;
[0015]鄰近樣本集合篩選單元,用于從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合;
[0016]標(biāo)簽出現(xiàn)次數(shù)獲取單元,用于分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù);
[0017]多項(xiàng)分布概率計(jì)算單元,用于分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率;
[0018]多標(biāo)簽獲取單元,用于根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。
[0019]本發(fā)明實(shí)施例提出的技術(shù)方案的有益技術(shù)效果是:
[0020]本發(fā)明實(shí)施例從所獲取的訓(xùn)練樣本集合中篩選出待評(píng)測樣本的鄰近樣本集合,計(jì)算鄰近樣本集合所包括的樣本分別在帶有或不帶有某個(gè)標(biāo)簽的條件下,它的鄰近樣本在標(biāo)簽上的多項(xiàng)分布概率,以及分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù),根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽,以準(zhǔn)確獲取待評(píng)測樣本的標(biāo)簽。
【專利附圖】
【附圖說明】
[0021]為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例描述中所需要使用的附圖作簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)本發(fā)明實(shí)施例的內(nèi)容和這些附圖獲得其他的附圖。
[0022]圖1是本發(fā)明具體實(shí)施例一所述的獲取多標(biāo)簽的方法流程圖;
[0023]圖2是本發(fā)明具體實(shí)施例三所述的獲取多標(biāo)簽的方法流程圖;
[0024]圖3是本發(fā)明具體實(shí)施例四所述的獲取多標(biāo)簽的裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0025]為使本發(fā)明解決的技術(shù)問題、采用的技術(shù)方案和達(dá)到的技術(shù)效果更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施例的技術(shù)方案作進(jìn)一步的詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0026]下面結(jié)合附圖并通過【具體實(shí)施方式】來進(jìn)一步說明本發(fā)明的技術(shù)方案。
[0027]實(shí)施例一
[0028]圖1是本發(fā)明具體實(shí)施例一所述的獲取多標(biāo)簽的方法流程圖,本實(shí)施例可適用于對(duì)樣本(例如作為銷費(fèi)類型分析對(duì)象的網(wǎng)站用戶、作為旅游類型分析對(duì)象的旅行社的目標(biāo)消費(fèi)對(duì)象等)進(jìn)行分析,判斷其具有既定的至少兩個(gè)標(biāo)簽中各標(biāo)簽的概率,從而為所述樣本打上一個(gè)或一個(gè)以上標(biāo)簽的情況,該方法可以由計(jì)算機(jī)程序來實(shí)現(xiàn),如圖1所示,本實(shí)施例所述的獲取多標(biāo)簽的方法包括:
[0029]S101、獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合。
[0030]本實(shí)施例僅以標(biāo)簽既定的訓(xùn)練樣本作為參考,獲取這些標(biāo)簽既定的訓(xùn)練樣本作為訓(xùn)練樣本集合,其中各標(biāo)簽均包括至少一個(gè)屬性。
[0031]S102、從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合。 [0032]上述操作具體方法包括但不限于,根據(jù)樣本的屬性的關(guān)聯(lián)程度,將待評(píng)測樣本與所述訓(xùn)練樣本集合中所包含的各樣本進(jìn)行相關(guān)度分析,按相關(guān)度從高到低從所述訓(xùn)練樣本集合中選擇出預(yù)設(shè)數(shù)目的樣本作為該待評(píng)測樣本的鄰近樣本集合,其包括的樣本稱為所述待評(píng)測樣本的鄰近樣本。
[0033]S103、分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù)。
[0034]S104、分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率。
[0035]S105、根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。
[0036]其中,所述預(yù)設(shè)概率閾值可根據(jù)具體應(yīng)用需求來設(shè)定,為大于O小于I的數(shù),各待評(píng)測樣本的標(biāo)簽數(shù)目不一定相同。
[0037]本實(shí)施例通過從所獲取的訓(xùn)練樣本集合中篩選出待評(píng)測樣本的鄰近樣本集合,計(jì)算鄰近樣本集合所包括的各樣本分別在帶有或不帶有某個(gè)標(biāo)簽的條件下,它的鄰近樣本在各標(biāo)簽上的多項(xiàng)分布概率,以及分別獲取各標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù),根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在各標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽,以準(zhǔn)確獲取待評(píng)測樣本的一個(gè)或一個(gè)以上的標(biāo)簽。
[0038]實(shí)施例二
[0039]本實(shí)施例在實(shí)施例一的基礎(chǔ)上,優(yōu)選地將實(shí)施例一的操作S105,根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在各標(biāo)簽的概率的操作可具體化為按照如下公式進(jìn)行計(jì)算:
【權(quán)利要求】
1.一種獲取多標(biāo)簽的方法,其特征在于,包括: 獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合; 從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合; 分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù); 分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率; 根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。
2.如權(quán)利要求1所述的獲取多標(biāo)簽的方法,其特征在于,所述分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率包括: 所述待評(píng)測樣本在帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPl [j, i]; 所述待評(píng)測樣本在不帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPO[j, i]; multPl [j, i]和multPO[j, i]按照下述公式計(jì)算:
3.如權(quán)利要求1所述的獲取多標(biāo)簽的方法,其特征在于,所述分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率包括: 所述待評(píng)測樣本在帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPl [j, i];所述待評(píng)測樣本在不帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPO[j, i]; multPl [j, i]和multPO[j, i]按照下述公式計(jì)算:
4.如權(quán)利要求2或3所述的獲取多標(biāo)簽的方法,其特征在于,所述根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率包括: 根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照下述公式計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率:
5.如權(quán)利要求2或3所述的獲取多標(biāo)簽的方法,其特征在于,所述根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率包括: 根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照下述公式計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率:
6.一種獲取多標(biāo)簽的裝置,其特征在于,包括: 練樣本集合獲取單元,用于獲取至少兩個(gè)包括屬性和標(biāo)簽的樣本,形成訓(xùn)練樣本集合; 鄰近樣本集合篩選單元,用于從所述訓(xùn)練樣本集合中篩選出與待評(píng)測樣本的屬性相關(guān)的預(yù)設(shè)數(shù)目的樣本,形成所述待評(píng)測樣本的鄰近樣本集合; 標(biāo)簽出現(xiàn)次數(shù)獲取單元,用于分別獲取標(biāo)簽在所述鄰近樣本集合所包括的樣本中的出現(xiàn)次數(shù); 多項(xiàng)分布概率計(jì)算單元,用于分別計(jì)算所述待評(píng)測樣本在帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率,分別計(jì)算所述待評(píng)測樣本在不帶有標(biāo)簽的條件下,所述鄰近樣本集合所包括的樣本在標(biāo)簽上的多項(xiàng)分布概率; 多標(biāo)簽獲取單元,用于根據(jù)所述多項(xiàng)分布概率和所述出現(xiàn)次數(shù),按照預(yù)設(shè)算法計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率,將概率大于預(yù)設(shè)概率閾值的標(biāo)簽作為所述待評(píng)測樣本的標(biāo)簽。
7.如權(quán)利要求6所述的獲取多標(biāo)簽的裝置,其特征在于,所述待評(píng)測樣本在帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPl [j, i],所述待評(píng)測樣本在不帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multP0[j,i],所述多項(xiàng)分布概率計(jì)算單元具體用于按照下述公式計(jì)算multPl [j, i]和multP0[j,i]:
8.如權(quán)利要求6所述的獲取多標(biāo)簽的裝置,其特征在于,所述待評(píng)測樣本在帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multPl [j, i],所述待評(píng)測樣本在不帶有第i標(biāo)簽的條件下,所述鄰近樣本集合所包含的樣本在第j標(biāo)簽上的多項(xiàng)分布概率等于multP0[j,i],所述多項(xiàng)分布概率計(jì)算單元具體用于按照下述公式計(jì)算multPl [j, i]和multP0[j, i]:
9.如權(quán)利要求7或8所述的獲取多標(biāo)簽的裝置,其特征在于,所述多標(biāo)簽獲取單元具體用于按照下述公式計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率:
10.如權(quán)利要求7或8所述的獲取多標(biāo)簽的裝置,其特征在于,所述多標(biāo)簽獲取單元具體用于按照下述公式計(jì)算所述待評(píng)測樣本在標(biāo)簽的概率:
【文檔編號(hào)】G06F17/30GK103699628SQ201310712889
【公開日】2014年4月2日 申請(qǐng)日期:2013年12月20日 優(yōu)先權(quán)日:2013年12月20日
【發(fā)明者】石磊 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司