欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種屬性信息的獲取方法及裝置、推送方法及裝置制造方法

文檔序號(hào):6624799閱讀:143來源:國(guó)知局
一種屬性信息的獲取方法及裝置、推送方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種屬性信息的獲取方法,包括:依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于1的整數(shù);獲得M個(gè)候選詞,所述M個(gè)候選詞為N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于0且小于或者等于N的整數(shù);依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為1到M中的整數(shù),K為小于或者等于M且大于0的整數(shù);本發(fā)明實(shí)施例還提供一種屬性信息的獲取裝置、推送方法及裝置。本發(fā)明實(shí)施例提供的技術(shù)方案可以實(shí)現(xiàn)提高獲得對(duì)象的屬性信息的準(zhǔn)確性。
【專利說明】一種屬性信息的獲取方法及裝置、推送方法及裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù),尤其涉及一種屬性信息的獲取方法及裝置、推送方法及裝置。
【【背景技術(shù)】】
[0002]目前,獲得對(duì)象的屬性信息的方法是:對(duì)對(duì)象對(duì)應(yīng)的文本信息進(jìn)行切詞處理,獲得若干分詞;對(duì)于每個(gè)分詞,依據(jù)該分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值;將所有分詞中權(quán)重值最高的若干分詞作為該對(duì)象的關(guān)鍵詞,并進(jìn)行存儲(chǔ)。這樣,當(dāng)需要依據(jù)檢索詞進(jìn)行檢索時(shí),可以依據(jù)檢索詞和存儲(chǔ)的對(duì)象的關(guān)鍵詞,獲得與檢索詞相匹配的對(duì)象,然后將與檢索詞相匹配的對(duì)象推送給用戶。
[0003]然而,由于依據(jù)分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值,因此分詞的出現(xiàn)次數(shù)越高,該分詞的權(quán)重值越低,使得該分詞不會(huì)作為對(duì)象的關(guān)鍵詞,而出現(xiàn)次數(shù)較少的分詞將作為對(duì)象的關(guān)鍵詞,往往出現(xiàn)次數(shù)較高的分詞是對(duì)象的主要關(guān)鍵詞,因此,目前獲得對(duì)象的屬性信息的準(zhǔn)確性比較低。

【發(fā)明內(nèi)容】

[0004]有鑒于此,本發(fā)明實(shí)施例提供了一種屬性信息的獲取方法及裝置、推送方法及裝置,可以實(shí)現(xiàn)提高獲得對(duì)象的屬性信息的準(zhǔn)確性。
[0005]本發(fā)明實(shí)施例提供了一種屬性信息的獲取方法,包括:
[0006]依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù);
[0007]獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù);
[0008]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
[0009]上述方法中,所述依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,包括:
[0010]獲得所述語料庫中的文本信息;
[0011]對(duì)所述文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
[0012]上述方法中,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,包括:
[0013]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值;
[0014]依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
[0015]上述方法中,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值,包括:
[0016]獲得所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率;
[0017]獲得所述共現(xiàn)概率的累加和;
[0018]依據(jù)所述第i個(gè)候選詞的先驗(yàn)概率和所述累加和,獲得所述第i個(gè)候選詞的權(quán)重值;其中,所述第i個(gè)候選詞的先驗(yàn)概率為依據(jù)所述第i個(gè)候選詞的搜索次數(shù)獲得的。
[0019]上述方法中,所述依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,包括:
[0020]按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞;或者,
[0021]依據(jù)所述M個(gè)候選詞的權(quán)重值和預(yù)設(shè)的權(quán)重閾值,獲得所述M個(gè)候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個(gè)候選詞。
[0022]上述方法中,所述文本信息為所述對(duì)象的標(biāo)題信息;
[0023]所述對(duì)象包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè);
[0024]所述屬性信息包括所述對(duì)象的關(guān)鍵詞和/或所述對(duì)象的標(biāo)簽。
[0025]本發(fā)明實(shí)施例還提供了一種推送方法,包括:
[0026]依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
[0027]依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象;
[0028]向所述客戶端推送所述對(duì)象。
[0029]上述方法中,所述方法還包括:
[0030]依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞;
[0031]獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽;
[0032]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信肩、O
[0033]本發(fā)明實(shí)施例還提供了一種屬性信息的獲取裝置,包括:
[0034]關(guān)鍵詞獲取單元,用于依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù);
[0035]候選詞獲取單元,用于獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù);
[0036]屬性獲取單元,用于依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
[0037]上述裝置中,所述關(guān)鍵詞獲取單元具體用于:
[0038]獲得所述語料庫中的文本信息;
[0039]對(duì)所述文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
[0040]上述裝置中,所述屬性獲取單元具體用于:
[0041]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值;
[0042]依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
[0043]上述裝置中,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值,具體為:
[0044]獲得所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率;
[0045]獲得所述共現(xiàn)概率的累加和;
[0046]依據(jù)所述第i個(gè)候選詞的先驗(yàn)概率和所述累加和,獲得所述第i個(gè)候選詞的權(quán)重值;其中,所述第i個(gè)候選詞的先驗(yàn)概率為依據(jù)所述第i個(gè)候選詞的搜索次數(shù)獲得的。
[0047]上述裝置中,所述依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,具體為:
[0048]按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞;或者,
[0049]依據(jù)所述M個(gè)候選詞的權(quán)重值和預(yù)設(shè)的權(quán)重閾值,獲得所述M個(gè)候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個(gè)候選詞。
[0050]上述裝置中,所述文本信息為所述對(duì)象的標(biāo)題信息;
[0051]所述對(duì)象包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè);
[0052]所述屬性信息包括所述對(duì)象的關(guān)鍵詞和/或所述對(duì)象的標(biāo)簽。
[0053]本發(fā)明實(shí)施例還提供了一種推送裝置,包括:
[0054]匹配處理單元,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的小為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
[0055]屬性處理單元,用于依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象;
[0056]對(duì)象推送單元,用于向所述客戶端推送所述對(duì)象。
[0057]上述裝置中,所述裝置還包括:
[0058]屬性信息獲取單元,用于依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞;獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽;依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
[0059]由以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下有益效果:
[0060]本發(fā)明實(shí)施例提供的技術(shù)方案中,依據(jù)候選詞與文本信息中關(guān)鍵詞之間的共現(xiàn)概率,來選擇候選詞作為文本信息對(duì)應(yīng)的對(duì)象的關(guān)鍵詞,這樣,就可以實(shí)現(xiàn)將共現(xiàn)概率較高的候選詞作為該文本信息對(duì)應(yīng)的對(duì)象的關(guān)鍵詞,而且往往共現(xiàn)概率較高的候選詞是該文本信息對(duì)應(yīng)的對(duì)象的主要候選詞,因此,與現(xiàn)有技術(shù)中獲得對(duì)象的屬性信息的方法相比,本發(fā)明實(shí)施例獲得的對(duì)象的屬性信息與對(duì)象的主題更加匹配,因此獲得對(duì)象的屬性信息的準(zhǔn)確性更高。
【【專利附圖】

【附圖說明】】
[0061]為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0062]圖1是本發(fā)明實(shí)施例所提供的技術(shù)方案使用的系統(tǒng);
[0063]圖2是本發(fā)明實(shí)施例所提供的屬性信息的獲取方法的流程示意圖;
[0064]圖3是本發(fā)明實(shí)施例所提供的推送方法的流程示意圖;
[0065]圖4是本發(fā)明實(shí)施例所提供的屬性信息的獲取裝置的功能方塊圖;
[0066]圖5是本發(fā)明實(shí)施例所提供的推送裝置的功能方塊圖。
【【具體實(shí)施方式】】
[0067]為了更好的理解本發(fā)明的技術(shù)方案,下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。
[0068]應(yīng)當(dāng)明確,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0069]在本發(fā)明實(shí)施例中使用的術(shù)語是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本發(fā)明。在本發(fā)明實(shí)施例和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。
[0070]應(yīng)當(dāng)理解,本文中使用的術(shù)語“和/或”僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。
[0071]取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在......時(shí)”或
“當(dāng)......時(shí)”或“響應(yīng)于確定”或“響應(yīng)于檢測(cè)”。類似地,取決于語境,短語“如果確定”
或“如果檢測(cè)(陳述的條件或事件)”可以被解釋成為“當(dāng)確定時(shí)”或“響應(yīng)于確定”或“當(dāng)檢測(cè)(陳述的條件或事件)時(shí)”或“響應(yīng)于檢測(cè)(陳述的條件或事件)”。
[0072]本發(fā)明實(shí)施例所提供的技術(shù)方案使用的系統(tǒng)如圖1所示,主要由客戶端和服務(wù)器組成,本發(fā)明實(shí)施例所提供的屬性信息的獲取方法及裝置、推送方法及裝置在服務(wù)器側(cè)實(shí)現(xiàn)。
[0073]可以理解的是,所述客戶端可以包括所有終端上的客戶端,所述終端可以包括個(gè)人計(jì)算機(jī)(Personal Computer, PC)、筆記本電腦、手機(jī)或平板電腦。
[0074]本發(fā)明實(shí)施例給出一種屬性信息的獲取方法,請(qǐng)參考圖2,其為本發(fā)明實(shí)施例所提供的屬性信息的獲取方法的流程示意圖,如圖所示,該方法包括以下步驟:
[0075]S201,依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù)。
[0076]具體的,服務(wù)器可以從預(yù)設(shè)的語料庫中獲得文本信息,即本發(fā)明實(shí)施例中服務(wù)器將語料庫中存儲(chǔ)的對(duì)象對(duì)應(yīng)的文本信息作為本發(fā)明實(shí)施例中待處理的文本信息,服務(wù)器需要對(duì)文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
[0077]優(yōu)選的,服務(wù)器可以利用普通詞典和/或熱門詞典,對(duì)獲得的文本信息進(jìn)行切詞處理,以獲得N個(gè)分詞,服務(wù)器將該N個(gè)分詞作為N個(gè)關(guān)鍵詞,如〈Wl、W2........wN)0
[0078]優(yōu)選的,所述文本信息可以包括對(duì)象的標(biāo)題信息。
[0079]優(yōu)選的,所述對(duì)象可以包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè)。
[0080]例如,文本信息可以是廣場(chǎng)舞視頻的標(biāo)題信息,如“廣場(chǎng)舞荷塘月色很贊”和“廣場(chǎng)舞荷塘月色愛奇藝”。
[0081]優(yōu)選的,所述屬性信息可以包括對(duì)象的關(guān)鍵詞和/或?qū)ο蟮臉?biāo)簽。其中,對(duì)象的標(biāo)簽用于表征該對(duì)象的特征,例如,對(duì)象的標(biāo)簽可以是該對(duì)象的類型。
[0082]例如,服務(wù)器對(duì)標(biāo)題信息“廣場(chǎng)舞荷塘月色很贊”進(jìn)行切詞處理,獲得候選詞“廣場(chǎng)舞”、“荷塘月色”和“很贊”。
[0083]S202,獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù)。
[0084]具體的,服務(wù)器獲得M個(gè)候選詞。
[0085]舉例說明,本發(fā)明實(shí)施例中,服務(wù)器獲得M個(gè)候選詞的方法可以包括以下兩種:
[0086]第一種:服務(wù)器獲得N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞,將該M個(gè)關(guān)鍵詞作為所述M個(gè)候選詞。
[0087]例如,服務(wù)器可以統(tǒng)計(jì)N個(gè)關(guān)鍵詞中每個(gè)關(guān)鍵詞的出現(xiàn)次數(shù),然后獲取其中出現(xiàn)次數(shù)最多的M個(gè)關(guān)鍵詞。再例如,服務(wù)器可以直接將N個(gè)關(guān)鍵詞作為所述M個(gè)候選詞。
[0088]第二種:服務(wù)器從標(biāo)簽庫中獲得M個(gè)標(biāo)簽,將M個(gè)標(biāo)簽作為M個(gè)候選詞。例如,服務(wù)器可以從標(biāo)簽庫中獲得出現(xiàn)次數(shù)最多的M個(gè)標(biāo)簽。再例如,服務(wù)器可以直接將標(biāo)簽庫中所有標(biāo)簽作為所述M個(gè)候選詞。
[0089]例如,服務(wù)器從標(biāo)簽庫中獲得標(biāo)簽“音樂”、“健身舞”和“短視頻”。
[0090]S203,依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
[0091]具體的,服務(wù)器依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞的方法可以包括:
[0092]首先,服務(wù)器依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值。然后,服務(wù)器依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信肩、O
[0093]舉例說明,服務(wù)器依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值的方法可以包括:
[0094]首先,服務(wù)器獲得M個(gè)候選詞中第i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,其中i的取值為I到M中的整數(shù),也就是說,第i個(gè)候選詞是M個(gè)候選詞中的每個(gè)候選詞,需要對(duì)M個(gè)候選詞中的每個(gè)候選詞,都獲得該候選詞的權(quán)重值。
[0095]然后,服務(wù)器將該第i個(gè)候選詞與每個(gè)關(guān)鍵詞的共現(xiàn)概率進(jìn)行累加,以獲得共現(xiàn)概率的累加和。
[0096]最后,服務(wù)器依據(jù)第i個(gè)候選詞的先驗(yàn)概率與所述累加和的乘積,獲得該第i個(gè)候選詞的權(quán)重值?;蛘撸?wù)器依據(jù)第i個(gè)候選詞的先驗(yàn)概率與所述累加和的和值,獲得該第i個(gè)候選詞的權(quán)重值。
[0097]可以理解的,對(duì)于M個(gè)候選詞中的每個(gè)候選詞都進(jìn)行上述操作,從而可以獲得M個(gè)候選詞中每個(gè)候選詞的權(quán)重值。
[0098]例如,下面以M個(gè)候選詞〈W1、W2........wM)中第i個(gè)候選詞Wi為例,說明獲得第
I個(gè)候選詞的權(quán)重值的方法。其中,W1?Wm可以是M個(gè)關(guān)鍵詞,也可以是M個(gè)標(biāo)簽。
[0099]可以利用如下兩個(gè)公式中任意一個(gè)獲得M個(gè)候選詞中第i個(gè)候選詞的權(quán)重值:
[0100]W(Wi) = P (Wi) Xp (Wi, title)
[0101]W(Wi) = p (Wi)+p (Wi, title)
[0102]其中,Wi表示第i個(gè)候選詞。
[0103]其中,W(Wi)表示第i個(gè)候選詞的權(quán)重值。
[0104]其中,P(Wi)表示第i個(gè)候選詞的先驗(yàn)概率。優(yōu)選的,可以統(tǒng)計(jì)第i個(gè)候選詞的搜索次數(shù),然后獲得該搜索次數(shù)的函數(shù)值,將該函數(shù)值作為第i個(gè)候選詞的先驗(yàn)概率。例如,可以獲得該搜索次數(shù)的sigmoid函數(shù)的函數(shù)值,將搜索次數(shù)的sigmoid函數(shù)的函數(shù)值作為該第i個(gè)候選詞的先驗(yàn)概率。
[0105]其中,p(Wi,title)表示第i個(gè)候選詞的聯(lián)合概率。
[0106]可以利用如下公式獲得第i個(gè)候選詞的聯(lián)合概率P (Wi, title):
[0107]P (wi; title) = Σ ρ (wi; wk)
[0108]其中,p (Wi, wk)表示M個(gè)候選詞中第i個(gè)候選詞與N個(gè)關(guān)鍵詞中第k個(gè)關(guān)鍵詞詞的共現(xiàn)概率,因此第i個(gè)候選詞的聯(lián)合概率P (Wi,title)就是第i個(gè)候選詞與每個(gè)關(guān)鍵詞的共現(xiàn)概率的累加和。k的取值為從I到N的整數(shù)。
[0109]可以利用如下公式獲得上述共現(xiàn)概率P Ov Wk):
[0110]P (Wi, Wk) = P (wk) X P (Wi I wk)
[0111]其中,P(Wk)表示N個(gè)關(guān)鍵詞中第k個(gè)關(guān)鍵詞的先驗(yàn)概率。優(yōu)選的,可以統(tǒng)計(jì)第k個(gè)關(guān)鍵詞的搜索次數(shù),然后獲得該搜索次數(shù)的函數(shù)值,將該函數(shù)值作為第k個(gè)關(guān)鍵詞的先驗(yàn)概率。例如,可以獲得該第k個(gè)關(guān)鍵詞的搜索次數(shù)的sigmoid函數(shù)的函數(shù)值,將該函數(shù)值作為第k個(gè)關(guān)鍵詞的先驗(yàn)概率。
[0112]其中,P(WiIwk)表示第k個(gè)關(guān)鍵詞Wk對(duì)第i個(gè)候選詞Wi的權(quán)重貢獻(xiàn)值。
[0113]其中,獲得p(Wi|Wk)的方法可以包括以下兩種:
[0114]第一種:可以預(yù)先設(shè)置好第k個(gè)關(guān)鍵詞Wk對(duì)第i個(gè)候選詞Wi的權(quán)重貢獻(xiàn)值P (Wi I wk),當(dāng)需要使用第k個(gè)關(guān)鍵詞Wk對(duì)第i個(gè)候選詞Wi的權(quán)重貢獻(xiàn)值時(shí),可以直接使用預(yù)先設(shè)置好的數(shù)值。
[0115]例如,預(yù)先設(shè)置好P(籃球I科比)=Up(林丹I謝杏芳)=I。
[0116]第二種:可以利用如下公式獲得第k個(gè)關(guān)鍵詞Wk對(duì)第i個(gè)候選詞&的權(quán)重貢獻(xiàn)值P(WiIwk):

CCwi, Wl,)
[0117]P (Wi I Wk) 二 ――~—

L(Wk)
[0118]其中,若M個(gè)候選詞是從N個(gè)關(guān)鍵詞中獲得的,則Wk和Wi同為關(guān)鍵詞,C (Wi, wk)表示第i個(gè)候選詞Wi與第k個(gè)關(guān)鍵詞Wk在語料庫存儲(chǔ)的文本信息中的共現(xiàn)次數(shù)。若M個(gè)候選詞是從標(biāo)簽庫中獲得的M個(gè)標(biāo)簽,則Wi為標(biāo)簽,C (wi; wk)表示第i個(gè)候選詞Wi與第k個(gè)關(guān)鍵詞Wk在語料庫中的共現(xiàn)次數(shù)。
[0119]相應(yīng)的,C(Wk)表示第k個(gè)關(guān)鍵詞Wk在語料庫存儲(chǔ)的文本信息中的共現(xiàn)次數(shù)。
[0120]舉例說明,服務(wù)器依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息可以包括以下兩種實(shí)現(xiàn)方法:
[0121 ] 第一種:服務(wù)器在獲得M個(gè)候選詞中每個(gè)候選詞的權(quán)重值之后,服務(wù)器可以按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果,然后服務(wù)器獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞,以實(shí)現(xiàn)從M個(gè)候選詞中選擇K個(gè)候選詞。
[0122]第二種:服務(wù)器將M個(gè)候選詞中每個(gè)候選詞的權(quán)重值與預(yù)設(shè)的權(quán)重閾值進(jìn)行比較,以獲得M個(gè)候選詞中權(quán)重值大于或者等于該權(quán)重閾值的K個(gè)候選詞,以實(shí)現(xiàn)從M個(gè)候選詞中選擇K個(gè)候選詞。
[0123]服務(wù)器在獲得K個(gè)候選詞后,將該K個(gè)候選詞作為文本信息對(duì)應(yīng)對(duì)象的屬性信息。
[0124]服務(wù)器可以將對(duì)象與屬性信息的對(duì)應(yīng)關(guān)系存儲(chǔ)在數(shù)據(jù)庫中,當(dāng)需要依據(jù)用戶輸入的檢索詞,推送對(duì)象時(shí),或者當(dāng)需要向用戶主動(dòng)推薦對(duì)象時(shí),可以依據(jù)該對(duì)應(yīng)關(guān)系完成推送。
[0125]本發(fā)明實(shí)施例給出一種推送方法,該推送方法是利用上述方法獲得的屬性信息實(shí)現(xiàn)的。請(qǐng)參考圖3,其為本發(fā)明實(shí)施例所提供的推送方法的流程示意圖,如圖所示,該方法包括以下步驟:
[0126]S301,依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù)。
[0127]具體的,服務(wù)器依據(jù)使用客戶端的用戶的歷史記錄,獲得使用該客戶端的用戶的興趣類型,然后服務(wù)器依據(jù)該興趣類型,獲得與該興趣類型相匹配的屬性信息。
[0128]或者,服務(wù)器接收客戶端發(fā)送的檢索詞,然后在屬性信息中進(jìn)行搜索,以獲得與該檢索詞相匹配的屬性信息。其中,客戶端發(fā)送給服務(wù)器的檢索詞為用戶在客戶端中輸入的檢索詞。
[0129]S302,依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象。
[0130]具體的,服務(wù)器依據(jù)獲得的屬性信息,以及預(yù)先利用上述方法獲得的對(duì)象與屬性信息的對(duì)應(yīng)關(guān)系,獲得該屬性信息所對(duì)應(yīng)的對(duì)象。
[0131]S303,向所述客戶端推送所述對(duì)象。
[0132]具體的,服務(wù)器在獲得屬性信息所對(duì)應(yīng)的對(duì)象后,將該對(duì)象推送給客戶端,以實(shí)現(xiàn)對(duì)象的檢索或者對(duì)象的推薦。
[0133]可選的,S301之前,所述方法還可以包括:
[0134]依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞;
[0135]獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽;
[0136]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信肩、O
[0137]也就是說,所述屬性信息為利用上述屬性信息的獲取方法獲得的。
[0138]可以理解的,由于不同類型的對(duì)象的數(shù)目分布不均勻,如娛樂類、搞笑類的視頻的數(shù)目比較大,而科技類的視頻的數(shù)目比較少,因此,對(duì)于一些比較冷門的標(biāo)簽,由于標(biāo)簽在標(biāo)簽庫中的出現(xiàn)次數(shù)比較少,導(dǎo)致其先驗(yàn)概率比較低,如果利用現(xiàn)有技術(shù)中樸素貝葉斯算法計(jì)算標(biāo)簽的權(quán)重值時(shí),將會(huì)給數(shù)目比較少的視頻的標(biāo)注上錯(cuò)誤的標(biāo)簽。如果利用本發(fā)明實(shí)施例提供的技術(shù)方案,可以通過預(yù)先設(shè)置好比較冷門的標(biāo)簽的先驗(yàn)概率,來避免該問題的發(fā)生,從而提高屬性信息的準(zhǔn)確度。例如,可以預(yù)先設(shè)置P(穿越火線Icf視頻)=1、P (穿越火線I夏佐解說)=1、p (籃球I科比)=1、p (籃球I林書豪)=1、p (林丹I謝杏芳)=1等。在樸素貝葉斯算法中,由于沒有使用其他關(guān)鍵詞或者標(biāo)簽的先驗(yàn)概率,如果預(yù)先設(shè)置好關(guān)鍵詞或者標(biāo)簽的先驗(yàn)概率,也會(huì)給視頻的標(biāo)題標(biāo)注上錯(cuò)誤的標(biāo)簽。本發(fā)明實(shí)施例提供的方法中,由于會(huì)使用其他關(guān)鍵詞或者其他標(biāo)簽的先驗(yàn)概率,會(huì)提高屬性信息的準(zhǔn)確度。
[0139]下面分別舉例說明本發(fā)明實(shí)施例在獲得關(guān)鍵詞的權(quán)重值和標(biāo)簽的權(quán)重值時(shí)的有益效果。
[0140]1、獲得關(guān)鍵詞的權(quán)重值時(shí)的有益效果:
[0141]以某視頻的標(biāo)題信息為“廣場(chǎng)舞荷塘月色很贊”為例,對(duì)該標(biāo)題信息進(jìn)行切詞,獲得關(guān)鍵詞“廣場(chǎng)舞”、“荷塘月色”、“很贊”,按照分詞在語料庫的文本信息的出現(xiàn)次數(shù)由大到小的順序,對(duì)這些分詞進(jìn)行排序,獲得排序結(jié)果“廣場(chǎng)舞”、“荷塘月色”、“很贊”。
[0142]如果現(xiàn)有技術(shù)中依據(jù)分詞在語料庫中文本信息的出現(xiàn)次數(shù)的倒數(shù),獲得該分詞的權(quán)重值,排序結(jié)果是“很贊”、“荷塘月色”、“廣場(chǎng)舞”,也就是“很贊”由于權(quán)重值最高,將被作為該視頻的關(guān)鍵詞,但是很明顯,關(guān)鍵詞“很贊”與視頻的主題不匹配。
[0143]如果利用本發(fā)明實(shí)施例提供的技術(shù)方案,將參考每個(gè)關(guān)鍵詞與其他關(guān)鍵詞的共現(xiàn)概率,還會(huì)考慮每個(gè)關(guān)鍵詞的搜索次數(shù),該搜索次數(shù)反映了用戶的搜索需求,共現(xiàn)概率反映了關(guān)鍵詞之間的貢獻(xiàn)。由于“廣場(chǎng)舞”的搜索次數(shù)高于其他關(guān)鍵詞,“荷塘月色”與“廣場(chǎng)舞”的共現(xiàn)概率較高,而“很贊”和其他關(guān)鍵詞的共現(xiàn)概率比較低,因此,可以得到的關(guān)鍵詞依據(jù)權(quán)重值由大到小的排序結(jié)果“廣場(chǎng)舞”、“荷塘月色”、“很贊”,并且關(guān)鍵詞“很贊”與其他兩個(gè)關(guān)鍵詞詞的權(quán)重值有較大的差距。如果取權(quán)重值最高的兩個(gè)關(guān)鍵詞,就可以得到這個(gè)視頻的關(guān)鍵詞為“廣場(chǎng)舞”和“荷塘月色”,很明顯,關(guān)鍵詞“廣場(chǎng)舞”和“荷塘月色”與視頻的主題相匹配。
[0144]因此,由于使用了關(guān)鍵詞之間的共現(xiàn)次數(shù),本發(fā)明實(shí)施例提供的技術(shù)方案獲得的關(guān)鍵詞更加符合對(duì)象的主題,因此可以提高獲取的關(guān)鍵詞的準(zhǔn)確性,具有很強(qiáng)的魯棒性。
[0145]2、獲得標(biāo)簽的權(quán)重值時(shí)的有益效果:
[0146]以某視頻的標(biāo)題信息為“廣場(chǎng)舞荷塘月色很贊”為例,其候選標(biāo)簽可以為“健身舞”和“音樂”。
[0147]如果利用現(xiàn)有技術(shù)中的樸素貝葉斯算法,可以得到如下的先驗(yàn)概率:
[0148]P (健身舞)=P (音樂)=0.3
[0149]P (廣場(chǎng)舞I健身舞)=0.07
[0150]P (荷塘月色I(xiàn)健身舞)=0.002
[0151]P (很贊 I 健身舞)=0.001
[0152]P (廣場(chǎng)舞 I 音樂)=0.002
[0153]P (荷塘月色I(xiàn)音樂)=0.04
[0154]P (很贊 I 音樂)=0.002
[0155]標(biāo)簽庫中存在不合理的先驗(yàn)概率,使得p(廣場(chǎng)舞I音樂)=0.002大于P(很贊I健身舞)=0.001,受該噪聲影響,獲得的標(biāo)簽“健身舞”的權(quán)重值為0.3X0.07X0.002X0.001 = 4.2e_8,標(biāo)簽“音樂”的權(quán)重值為 0.3X0.002X0.04X0.002=4.8e-8。因此,視頻的標(biāo)簽取其中權(quán)重值較大的標(biāo)簽,即“音樂”。
[0156]如果利用本發(fā)明實(shí)施例提供的技術(shù)方案,可以獲得如下先驗(yàn)概率和聯(lián)合概率:
[0157]P (健身舞)=P (音樂)=0.3
[0158]P (廣場(chǎng)舞)=0.5
[0159]P (荷塘月色)=0.4
[0160]P (很贊)=0.1
[0161]P (健身舞I廣場(chǎng)舞)=0.8
[0162]P (健身舞I荷塘月色)=0.2
[0163]p(健身舞I很贊)=0.1
[0164]P (音樂I廣場(chǎng)舞)=O
[0165]P (音樂I荷塘月色)=0.8
[0166]P (音樂 I 很贊)=0.2
[0167]獲得標(biāo)簽“健身舞”的權(quán)重值為為0.3X (0.5X0.8+0.4X0.2+0.1X0.1)=
0.147 ;標(biāo)簽“音樂”的權(quán)重值為 0.3X (0.5X0+0.4X0.8+0.1X0.2) = 0.102。
[0168]利用本發(fā)明實(shí)施例提供的技術(shù)方案,確定該是視頻的標(biāo)簽是“健身舞”,很明顯,與標(biāo)簽“音樂”相比,標(biāo)簽“健身舞”與該視頻更加匹配。
[0169]本發(fā)明實(shí)施例進(jìn)一步給出實(shí)現(xiàn)上述方法實(shí)施例中各步驟及方法的裝置實(shí)施例。
[0170]請(qǐng)參考圖4,其為本發(fā)明實(shí)施例所提供的屬性信息的獲取裝置的功能方塊圖。如圖所示,該裝置包括:
[0171]關(guān)鍵詞獲取單元401,用于依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù);
[0172]候選詞獲取單元402,用于獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù);
[0173]屬性獲取單元403,用于依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,I的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
[0174]優(yōu)選的,所述關(guān)鍵詞獲取單元401具體用于:
[0175]獲得所述語料庫中的文本信息;
[0176]對(duì)所述文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
[0177]優(yōu)選的,所述屬性獲取單元403具體用于:
[0178]依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值;
[0179]依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
[0180]優(yōu)選的,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值,具體為:
[0181]獲得所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞每個(gè)所述關(guān)鍵詞的共現(xiàn)概率;
[0182]獲得所述共現(xiàn)概率的累加和;
[0183]依據(jù)所述第i個(gè)候選詞的先驗(yàn)概率和所述累加和,獲得所述第i個(gè)候選詞的權(quán)重值;其中,所述第i個(gè)候選詞的先驗(yàn)概率為依據(jù)所述第i個(gè)候選詞的搜索次數(shù)獲得的。
[0184]優(yōu)選的,所述依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,具體為:
[0185]按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞;或者,
[0186]依據(jù)所述M個(gè)候選詞的權(quán)重值和預(yù)設(shè)的權(quán)重閾值,獲得所述M個(gè)候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個(gè)候選詞。
[0187]優(yōu)選的,所述文本信息為所述對(duì)象的標(biāo)題信息;
[0188]所述對(duì)象包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè);
[0189]所述屬性信息包括所述對(duì)象的關(guān)鍵詞和/或所述對(duì)象的標(biāo)簽。
[0190]由于本實(shí)施例中的各單元能夠執(zhí)行圖2所示的方法,本實(shí)施例未詳細(xì)描述的部分,可參考對(duì)圖2的相關(guān)說明。
[0191]請(qǐng)參考圖5,其為本發(fā)明實(shí)施例所提供的推送裝置的功能方塊圖。如圖所示,該裝置包括:
[0192]匹配處理單元501,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的#為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù);
[0193]屬性處理單元502,用于依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象;
[0194]對(duì)象推送單元503,用于向所述客戶端推送所述對(duì)象。
[0195]可選的,所述裝置還包括:
[0196]屬性信息獲取單元504,用于依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞;獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽;依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信肩、O
[0197]由于本實(shí)施例中的各單元能夠執(zhí)行圖3所示的方法,本實(shí)施例未詳細(xì)描述的部分,可參考對(duì)圖3的相關(guān)說明。
[0198]本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
[0199]1、本發(fā)明實(shí)施例提供的技術(shù)方案中,依據(jù)候選詞與文本信息中關(guān)鍵詞之間的共現(xiàn)概率,來選擇候選詞作為文本信息對(duì)應(yīng)的對(duì)象的關(guān)鍵詞,這樣,就可以實(shí)現(xiàn)將共現(xiàn)概率較高的候選詞作為文本信息對(duì)應(yīng)對(duì)象的關(guān)鍵詞,往往共現(xiàn)概率較高的候選詞是文本信息對(duì)應(yīng)的對(duì)象的主要候選詞,因此,與現(xiàn)有技術(shù)中獲得對(duì)象的屬性信息的方法相比,本發(fā)明實(shí)施例獲得的對(duì)象的屬性信息與對(duì)象的主題更加匹配,因此獲得對(duì)象的屬性信息的準(zhǔn)確性更高。
[0200]2、由于本發(fā)明實(shí)施例獲得對(duì)象的屬性信息的準(zhǔn)確性更高,如果利用對(duì)象的屬性信息進(jìn)行對(duì)象檢索和對(duì)象推薦,能夠提高對(duì)象檢索的檢索結(jié)果的質(zhì)量和對(duì)象推薦的準(zhǔn)確度。
[0201]3、本發(fā)明實(shí)施例中,在獲得候選詞的權(quán)重值時(shí),利用共現(xiàn)概率求和的方式進(jìn)行計(jì)算,使得共現(xiàn)概率較大的概率項(xiàng)起到最大的主導(dǎo)作用;與現(xiàn)有技術(shù)中利用樸素貝葉斯算法中采用乘積的方式相比,該方式由概率最小的概率項(xiàng)起主導(dǎo)作用,這樣很容易受到錯(cuò)誤候選詞的干擾,為對(duì)象標(biāo)注上錯(cuò)誤的屬性信息。尤其對(duì)標(biāo)題信息較短、主題相對(duì)集中的對(duì)象而言,干擾更大。而且,在獲得候選詞的權(quán)重值時(shí),同時(shí)參考了候選詞的搜索次數(shù),從而可以通過參考搜索次數(shù),將搜索次數(shù)較少的冷門候選詞排除掉,能夠更加有益于抑制冷門候選詞的干擾。
[0202]4、現(xiàn)有技術(shù)中利用樸素貝葉斯算法中采用乘積的方式,如果其中存在為O的項(xiàng),還需要進(jìn)行平滑處理,否則會(huì)導(dǎo)致候選詞的權(quán)重值為0,然而,不同的平滑處理方法對(duì)權(quán)重值的計(jì)算結(jié)果影響差異較大,容易導(dǎo)致為對(duì)象標(biāo)注不相匹配的候選詞。而本發(fā)明中在獲得候選詞的權(quán)重值時(shí),利用共現(xiàn)概率求和的方式進(jìn)行計(jì)算,概率為O的項(xiàng)不會(huì)導(dǎo)致權(quán)重值為0,因此本發(fā)明實(shí)施例不需要進(jìn)行平滑處理,因此,能夠?yàn)閷?duì)象選出更加匹配的候選詞。
[0203]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。
[0204]在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如,多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
[0205]所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
[0206]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。
[0207]上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(Processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
[0208]以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
【權(quán)利要求】
1.一種屬性信息的獲取方法,其特征在于,所述方法包括: 依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù); 獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù); 依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,包括: 獲得所述語料庫中的文本信息; 對(duì)所述文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,包括: 依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值; 依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值,包括: 獲得所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率; 獲得所述共現(xiàn)概率的累加和; 依據(jù)所述第i個(gè)候選詞的先驗(yàn)概率和所述累加和,獲得所述第i個(gè)候選詞的權(quán)重值;其中,所述第i個(gè)候選詞的先驗(yàn)概率為依據(jù)所述第i個(gè)候選詞的搜索次數(shù)獲得的。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,所述依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,包括: 按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞;或者, 依據(jù)所述M個(gè)候選詞的權(quán)重值和預(yù)設(shè)的權(quán)重閾值,獲得所述M個(gè)候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個(gè)候選詞。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于, 所述文本信息為所述對(duì)象的標(biāo)題信息; 所述對(duì)象包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè); 所述屬性信息包括所述對(duì)象的關(guān)鍵詞和/或所述對(duì)象的標(biāo)簽。
7.—種推送方法,其特征在于,所述方法包括: 依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù); 依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象; 向所述客戶端推送所述對(duì)象。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括: 依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞; 獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽; 依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信肩、O
9.一種屬性信息的獲取裝置,其特征在于,所述裝置包括: 關(guān)鍵詞獲取單元,用于依據(jù)語料庫中的文本信息,獲得N個(gè)關(guān)鍵詞,N為大于或者等于I的整數(shù); 候選詞獲取單元,用于獲得M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽,M為大于O且小于或者等于N的整數(shù); 屬性獲取單元,用于依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息,i的取值為I到M中的整數(shù),K為小于或者等于M且大于O的整數(shù)。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述關(guān)鍵詞獲取單元具體用于: 獲得所述語料庫中的文本信息; 對(duì)所述文本信息進(jìn)行切詞處理,以獲得所述N個(gè)關(guān)鍵詞。
11.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述屬性獲取單元具體用于: 依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值; 依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,獲得所述第i個(gè)候選詞的權(quán)重值,具體為: 獲得所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率; 獲得所述共現(xiàn)概率的累加和; 依據(jù)所述第i個(gè)候選詞的先驗(yàn)概率和所述累加和,獲得所述第i個(gè)候選詞的權(quán)重值;其中,所述第i個(gè)候選詞的先驗(yàn)概率為依據(jù)所述第i個(gè)候選詞的搜索次數(shù)獲得的。
13.根據(jù)權(quán)利要求9或12所述的裝置,其特征在于,所述依據(jù)所述M個(gè)候選詞的權(quán)重值,從所述M個(gè)候選詞中選擇K個(gè)候選詞,具體為: 按照權(quán)重值由大到小的順序,對(duì)所述M個(gè)候選詞進(jìn)行排序,以獲得排序結(jié)果;獲得所述排序結(jié)果中排名靠前的K個(gè)候選詞;或者, 依據(jù)所述M個(gè)候選詞的權(quán)重值和預(yù)設(shè)的權(quán)重閾值,獲得所述M個(gè)候選詞中權(quán)重值大于或者等于所述權(quán)重閾值的K個(gè)候選詞。
14.根據(jù)權(quán)利要求9所述的裝置,其特征在于, 所述文本信息為所述對(duì)象的標(biāo)題信息; 所述對(duì)象包括視頻、圖片、應(yīng)用和網(wǎng)頁中至少一個(gè); 所述屬性信息包括所述對(duì)象的關(guān)鍵詞和/或所述對(duì)象的標(biāo)簽。
15.一種推送裝置,其特征在于,所述裝置包括: 匹配處理單元,用于依據(jù)使用客戶端的用戶的歷史記錄,獲得與所述客戶端相匹配的屬性信息;或者,接收所述客戶端發(fā)送的檢索詞,搜索與所述檢索詞相匹配的屬性信息;其中,所述屬性信息包括K個(gè)候選詞,所述K個(gè)候選詞為依據(jù)M個(gè)候選詞中每i個(gè)候選詞與N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中獲得的,N個(gè)關(guān)鍵詞為依據(jù)語料庫中的文本信息獲得的;N為大于或者等于I的整數(shù),M為大于O且小于或者等于N的整數(shù),K為小于或者等于M且大于O的整數(shù),i的取值為I到M中的整數(shù); 屬性處理單元,用于依據(jù)所述屬性信息,獲得所述屬性信息所對(duì)應(yīng)的對(duì)象; 對(duì)象推送單元,用于向所述客戶端推送所述對(duì)象。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括: 屬性信息獲取單元,用于依據(jù)語料庫中的文本信息,獲得所述N個(gè)關(guān)鍵詞;獲得所述M個(gè)候選詞,所述M個(gè)候選詞為所述N個(gè)關(guān)鍵詞中的M個(gè)關(guān)鍵詞或者標(biāo)簽庫中的M個(gè)標(biāo)簽;依據(jù)所述M個(gè)候選詞中第i個(gè)候選詞與所述N個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的共現(xiàn)概率,從所述M個(gè)候選詞中選擇所述K個(gè)候選詞,以作為所述文本信息對(duì)應(yīng)的對(duì)象的屬性信息。
【文檔編號(hào)】G06F17/30GK104199898SQ201410425516
【公開日】2014年12月10日 申請(qǐng)日期:2014年8月26日 優(yōu)先權(quán)日:2014年8月26日
【發(fā)明者】馬小龍 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
湘潭市| 新沂市| 汕头市| 西乌| 福州市| 景谷| 芜湖市| 滁州市| 西藏| 陵川县| 毕节市| 和顺县| 萨迦县| 伊金霍洛旗| 长宁区| 湖州市| 登封市| 珠海市| 南昌市| 乌兰察布市| 凤庆县| 明溪县| 故城县| 田林县| 苏尼特右旗| 黑龙江省| 巴里| 扶沟县| 区。| 通许县| 茂名市| 北京市| 威海市| 乡城县| 德令哈市| 自治县| 安乡县| 库伦旗| 南充市| 万荣县| 靖安县|