欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

識(shí)別品牌詞的方法和裝置與流程

文檔序號(hào):12887955閱讀:799來源:國知局
識(shí)別品牌詞的方法和裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別地涉及一種識(shí)別品牌詞的方法和裝置。



背景技術(shù):

隨著時(shí)代的發(fā)展,網(wǎng)上購物已經(jīng)變成人們?nèi)粘I钪胁豢苫蛉钡囊徊糠?。用戶在網(wǎng)購過程中,往往會(huì)檢索某個(gè)品牌下的商品或者型號(hào)。然而,用戶搜索“小米5斤”的時(shí)候,并不是搜索小米品牌,而是搜索吃的小米;搜索“華為手機(jī)殼”的時(shí)候,也不是搜索華為品牌,而是搜索適用于華為手機(jī)的手機(jī)殼。商家在使用各種手段,提升自己的搜索排名(seo)時(shí),也會(huì)填寫多個(gè)品牌詞來提升自己的排名。所以,一種準(zhǔn)確識(shí)別品牌詞的方法,對(duì)于識(shí)別用戶搜索意圖,提升用戶體驗(yàn);自動(dòng)規(guī)范商家的商品編寫規(guī)范,智能化平臺(tái)服務(wù);都具有重大意義。

用戶輸入的搜索詞往往不止一個(gè)詞,在習(xí)慣上,把用戶搜索時(shí)輸入的所有內(nèi)容一并稱作“搜索詞”。

現(xiàn)有技術(shù)中,針對(duì)用戶提供的搜索詞進(jìn)行品牌識(shí)別時(shí),一般采用詞表匹配法,使用品牌詞典中的詞與搜索詞中的詞進(jìn)行匹配,如果匹配成功,則認(rèn)為搜索詞中的該詞是一個(gè)品牌詞。具體步驟如下:

a.獲取搜索詞;

b.對(duì)搜索詞分詞,得到分詞列表;

c.獲取品牌詞典;

d.遍歷分詞列表,查找各分詞是否存在于品牌詞典中,若是則當(dāng)前分詞為品牌詞。

上述方法的不足之處主要在于,如果某個(gè)詞既可以作為品牌,又有其他含義可用于搜索,在采用其他含義作為搜索詞時(shí)會(huì)匹配到該品牌,從而產(chǎn)生錯(cuò)誤,例如用戶輸入“小米5斤”,則會(huì)匹配到小米這個(gè)品牌詞,這顯然是錯(cuò)誤的。

因此在現(xiàn)有技術(shù)中,品牌詞的識(shí)別仍然不夠準(zhǔn)確。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明實(shí)施例提供一種識(shí)別品牌詞的方法和裝置,有助于更準(zhǔn)確地從商品信息中識(shí)別品牌詞,并具有較快的處理效率。

為實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明實(shí)施例的一個(gè)方面,提供了一種識(shí)別品牌詞的方法。

本發(fā)明實(shí)施例的識(shí)別品牌詞的方法包括:根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合;每個(gè)特征集合對(duì)應(yīng)一個(gè)品牌詞,該品牌詞出現(xiàn)在商品信息中并且包含在品牌詞典中;特征集合中的每個(gè)特征包含所述品牌詞以及該品牌詞所在的商品信息中的另一個(gè)或多個(gè)詞;若所述品牌詞在其所在商品信息中是作為該商品的品牌,則該品牌詞對(duì)應(yīng)的特征的標(biāo)簽為正標(biāo)簽,否則為負(fù)標(biāo)簽;對(duì)所述多個(gè)特征集合使用預(yù)設(shè)的映射方式進(jìn)行映射以得到訓(xùn)練數(shù)據(jù),然后使用二分類器對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練以得到模型,該模型中包含特征集合中各特征的權(quán)重;根據(jù)指定的一條商品信息構(gòu)造待處理數(shù)據(jù);構(gòu)造的待處理數(shù)據(jù)中,每個(gè)屬于所述品牌詞典的詞作為待識(shí)別詞,每個(gè)待識(shí)別詞對(duì)應(yīng)一個(gè)特征集合,該特征集合中的每個(gè)特征包含該待識(shí)別詞以及該指定的商品信息中的另一個(gè)詞;使用所述模型確定所述待處理數(shù)據(jù)中的各個(gè)特征的權(quán)重,再根據(jù)該權(quán)重確定各個(gè)待識(shí)別詞在指定的商品信息中是品牌詞的概率。

可選地,所述商品信息是由電子商務(wù)的商家在展示商品的頁面上提供;并且根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合的步驟包括對(duì)獲取的多條商品信息中的每條商品標(biāo)題執(zhí)行如下步驟a至步驟d:步驟a:讀取對(duì)商品標(biāo)題進(jìn)行分詞后得到的多個(gè)詞;步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽;步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞與所述商品信息中的品牌相一致,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽;步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從商品標(biāo)題中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。

可選地,所述商品信息是由電子商務(wù)的用戶在電子商務(wù)上進(jìn)行商品搜索時(shí)形成的瀏覽日志中的搜索詞和搜索后的品牌選擇記錄;并且根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合的步驟包括針對(duì)所述瀏覽日志中的每條搜索詞執(zhí)行如下的步驟:步驟a:讀取對(duì)搜索詞進(jìn)行分詞后得到的多個(gè)詞;步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽;步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞是該搜索詞對(duì)應(yīng)的品牌,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽;步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從搜索詞中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。

可選地,所述步驟c之前,還包括:根據(jù)所述瀏覽日志中的搜索詞和搜索后的品牌選擇記錄,統(tǒng)計(jì)各搜索詞在被搜索后對(duì)應(yīng)的被選擇品牌的分布;將分布概率達(dá)到設(shè)定值的品牌作為該搜索詞對(duì)應(yīng)的品牌。

可選地,所述使用二分類器對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的步驟包括:先選擇l1正則函數(shù)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)訓(xùn)練后數(shù)據(jù)再選擇l2正則函數(shù)進(jìn)行訓(xùn)練。

根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種識(shí)別品牌詞的裝置。

本發(fā)明實(shí)施例的識(shí)別品牌詞的裝置包括:特征模塊,用于根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合;每個(gè)特征集合對(duì)應(yīng)一個(gè)品牌詞,該品牌詞出現(xiàn)在商品信息中并且包含在品牌詞典中;特征集合中的每個(gè)特征包含所述品牌詞以及該品牌詞所在的商品信息中的另一個(gè)或多個(gè)詞;若所述品牌詞在其所在商品信息中是作為該商品的品牌,則該品牌詞對(duì)應(yīng)的特征的標(biāo)簽為正標(biāo)簽,否則為負(fù)標(biāo)簽;訓(xùn)練模塊,用于對(duì)所述多個(gè)特征集合使用預(yù)設(shè)的映射方式進(jìn)行映射以得到訓(xùn)練數(shù)據(jù),然后使用二分類器對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練以得到模型,該模型中包含特征集合中各特征的權(quán)重;預(yù)測模塊,用于根據(jù)指定的一條商品信息構(gòu)造待處理數(shù)據(jù);構(gòu)造的待處理數(shù)據(jù)中,每個(gè)屬于所述品牌詞典的詞作為待識(shí)別詞,每個(gè)待識(shí)別詞對(duì)應(yīng)一個(gè)特征集合,該特征集合中的每個(gè)特征包含該待識(shí)別詞以及該指定的商品信息中的另一個(gè)詞;使用所述模型確定所述待處理數(shù)據(jù)中的各個(gè)特征的權(quán)重,再根據(jù)該權(quán)重確定各個(gè)待識(shí)別詞在指定的商品信息中是品牌詞的概率。

可選地,所述商品信息是由電子商務(wù)的商家在展示商品的頁面上提供;并且所述特征模塊還用于對(duì)獲取的多條商品信息中的每條商品標(biāo)題執(zhí)行如下步驟a至步驟d:步驟a:讀取對(duì)商品標(biāo)題進(jìn)行分詞后得到的多個(gè)詞;步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽;步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞與所述商品信息中的品牌相一致,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽;步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從商品標(biāo)題中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。

可選地,所述商品信息是由電子商務(wù)的用戶在電子商務(wù)上進(jìn)行商品搜索時(shí)形成的瀏覽日志中的搜索詞和搜索后的品牌選擇記錄;并且所述特征模塊還用于針對(duì)所述瀏覽日志中的每條搜索詞執(zhí)行如下的步驟:步驟a:讀取對(duì)搜索詞進(jìn)行分詞后得到的多個(gè)詞;步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽;步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞是該搜索詞對(duì)應(yīng)的品牌,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽;步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從搜索詞中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。

可選地,本發(fā)明的識(shí)別品牌詞的裝置還包括點(diǎn)擊分布識(shí)別模塊,用于:根據(jù)所述瀏覽日志中的搜索詞和搜索后的品牌選擇記錄,統(tǒng)計(jì)各搜索詞在被搜索后對(duì)應(yīng)的被選擇品牌的分布;將分布概率達(dá)到設(shè)定值的品牌作為該搜索詞對(duì)應(yīng)的品牌。

可選地,所述訓(xùn)練模塊還用于:先選擇l1正則函數(shù)對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)訓(xùn)練后數(shù)據(jù)再選擇l2正則函數(shù)進(jìn)行訓(xùn)練。

根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種電子設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如本發(fā)明實(shí)施例所述的方法。

根據(jù)本發(fā)明實(shí)施例的另一方面,提供了一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明實(shí)施例所述的方法。

根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,通過構(gòu)造特征并進(jìn)行訓(xùn)練得到模型,實(shí)現(xiàn)了對(duì)疑似品牌詞進(jìn)行二分類,并且在構(gòu)造特征的過程中實(shí)現(xiàn)了語義特征的加入,從而能夠?qū)崿F(xiàn)對(duì)一般文本中的品牌詞的識(shí)別,不限于上述的商品標(biāo)題或者搜索詞,并且識(shí)別更準(zhǔn)確。其中的二分類方法相比于多分類,更有區(qū)分度,因?yàn)槎喾诸惖奶卣骺臻g比較稀疏,不容易區(qū)分正確。并且二分類的訓(xùn)練速度更快。因此采用本發(fā)明的技術(shù)方案有助于更準(zhǔn)確地識(shí)別品牌詞,并具有較快的處理效率。

附圖說明

附圖用于更好地理解本發(fā)明,不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。其中:

圖1是根據(jù)本發(fā)明實(shí)施方式的識(shí)別品牌詞的方法的主要步驟的示意圖;

圖2是根據(jù)本發(fā)明實(shí)施方式的識(shí)別品牌詞的裝置的主要模塊的示意圖;

圖3a示出了可以應(yīng)用本發(fā)明實(shí)施例的識(shí)別品牌詞的方法或識(shí)別品牌詞的裝置的示例性系統(tǒng)架構(gòu);

圖3b是適于用來實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備的計(jì)算機(jī)系統(tǒng)30的結(jié)構(gòu)示意圖。

具體實(shí)施方式

以下結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施方式做出說明,其中包括本發(fā)明實(shí)施方式的各種細(xì)節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識(shí)到,可以對(duì)這里描述的實(shí)施方式做出各種改變和修改,而不會(huì)背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對(duì)公知功能和結(jié)構(gòu)的描述。

在本發(fā)明實(shí)施方式中,基于機(jī)器學(xué)習(xí)的方式來識(shí)別品牌詞,其中根據(jù)歷史數(shù)據(jù)構(gòu)造特征,然后利用特征數(shù)據(jù)訓(xùn)練得到模型,再用模型來識(shí)別待處理文本中的品牌詞。該處理文本是包含商品信息的文本,既可以是用戶的搜索詞,也可以是商家填寫的商品標(biāo)題,或者是其他場合中的句子或短語。商家填寫的商品標(biāo)題存在可能的不規(guī)范性,對(duì)其中的品牌詞進(jìn)行識(shí)別有助于幫助商家進(jìn)行規(guī)范的填寫。以下結(jié)合附圖對(duì)本發(fā)明實(shí)施方式中的識(shí)別品牌詞的技術(shù)方案加以說明。

作為示例,本實(shí)施方式中的數(shù)據(jù)來源采用商家給每個(gè)商品填寫的標(biāo)題和品牌,數(shù)據(jù)來源還包括用戶搜索詞和搜索后的品牌選擇記錄。在電子商務(wù)的商家頁面上,商家需要填寫商品標(biāo)題,例如“山西特產(chǎn)沁州五谷雜糧黃小米沁州黃小米袋裝2.5kg”。另外,商品的品牌需要商家在商品參數(shù)的表格的“品牌”一欄專門進(jìn)行填寫。用戶在輸入搜索詞之后,網(wǎng)頁會(huì)給出一個(gè)或多個(gè)品牌,用戶從中點(diǎn)選品牌,從而構(gòu)成品牌選擇記錄。本實(shí)施方式的技術(shù)方案中,還需用到品牌詞典、商品標(biāo)題庫、以及搜索詞庫,以下對(duì)它們分別加以說明。

在構(gòu)造品牌詞典時(shí),從眾多的商家填寫的品牌中獲取盡可能全的品牌,這些品牌的集合構(gòu)成品牌詞典,并且品牌詞典可以不斷地?cái)U(kuò)充。商品標(biāo)題庫中是眾商家填寫的商品標(biāo)題的集合。搜索詞庫中包含了從大量用戶的瀏覽日志中獲取的搜索詞。

對(duì)于搜索詞來說,還需確定其對(duì)應(yīng)的品牌詞。具體方法是,根據(jù)上述瀏覽日志中的搜索詞和搜索后的品牌選擇記錄,統(tǒng)計(jì)各搜索詞在被搜索后對(duì)應(yīng)的被選擇品牌的分布;再將分布概率達(dá)到設(shè)定值的品牌作為該搜索詞對(duì)應(yīng)的品牌。這種方式因?yàn)榭疾炝吮贿x擇品牌的分布,所以可稱作“點(diǎn)擊分布法”??梢钥闯觯绻脩魶]有搜索一個(gè)品牌,則搜索后在選擇品牌時(shí),選擇的品牌必然比較分散;如果搜某品牌,或某品牌某型號(hào),搜索后必然選擇一個(gè)確定的品牌。

由于用戶填寫的搜索詞的不規(guī)范性,需要采用上述方式來確定搜索詞中的品牌詞。這里雖然也實(shí)現(xiàn)了品牌詞的識(shí)別,但是僅適用于有一定量的搜索日志的搜索詞,并且不適用于其他商品信息例如商家填寫的商品標(biāo)題的識(shí)別。

商品標(biāo)題庫和搜索詞庫是用來構(gòu)造特征以便訓(xùn)練得到模型??梢韵葘?duì)它們進(jìn)行數(shù)據(jù)清洗,具體可以包括:大寫字母轉(zhuǎn)小寫字母;分詞后的品牌若前后有多余空格則去除;分詞后將非品牌的數(shù)字替換為指定字符串(可用品牌詞典來判斷數(shù)字是否為品牌);去除分詞后的空白與標(biāo)點(diǎn)符號(hào);去除分詞后未包含品牌詞的商品標(biāo)題(商品標(biāo)題中必須包含品牌)。

在進(jìn)行了上述的數(shù)據(jù)準(zhǔn)備工作之后,即可以進(jìn)行模型的生成和使用。具體步驟如圖1所示,圖1是根據(jù)本發(fā)明實(shí)施方式的識(shí)別品牌詞的方法的主要步驟的示意圖。

步驟s11:根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合。這里的商品信息包括商品標(biāo)題庫和搜索詞庫中的內(nèi)容。在本步驟中,每個(gè)特征集合對(duì)應(yīng)一個(gè)品牌詞,該品牌詞出現(xiàn)在商品信息中并且包含在品牌詞典中;每個(gè)特征集合具有多個(gè)特征,各特征包含所述品牌詞以及該品牌詞所在的商品信息中的另一個(gè)或多個(gè)詞;若所述品牌詞在其所在商品信息中是作為該商品的品牌,則該品牌詞對(duì)應(yīng)的特征的標(biāo)簽為正標(biāo)簽,否則為負(fù)標(biāo)簽。

在采用商品標(biāo)題庫進(jìn)行特征構(gòu)造時(shí),可以對(duì)各條商品標(biāo)題按如下步驟進(jìn)行處理:

步驟a:讀取對(duì)商品標(biāo)題進(jìn)行分詞后得到的多個(gè)詞。

步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽。商品標(biāo)題中的某詞屬于品牌詞典,并不意味著它必然是該商品標(biāo)題中也作為品牌,例如前文中的“山西特產(chǎn)沁州五谷雜糧黃小米沁州黃小米袋裝2.5kg”,其中的“小米”顯然不是品牌。所以,添加了第一類標(biāo)簽的詞,只能算作“疑似品牌詞”。但添加了第二類標(biāo)簽的詞,在采用當(dāng)前品牌詞典的情況下,必然不作為品牌詞??梢钥闯鲞@里應(yīng)當(dāng)對(duì)“小米”添加了第二類標(biāo)簽。這有助于使后續(xù)步驟中得到的模型能夠更準(zhǔn)確地識(shí)別“小米”是否為品牌詞。

步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞與所述商品信息中的品牌相一致,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽。商品信息中的品牌是商家在品牌一欄專門填寫的內(nèi)容,因此可以利用它來確定具有第一類標(biāo)簽的“疑似品牌詞”在商品標(biāo)題中是作為品牌詞出現(xiàn)。這樣,具有第三類標(biāo)簽的詞,在其所在商品信息中是作為該商品的品牌,具有第四類標(biāo)簽的詞,在其所在商品信息中沒有作為該商品的品牌。

添加了上述標(biāo)簽后,得到的商品標(biāo)題庫中的條目內(nèi)容例如(以下是一個(gè)條目中的內(nèi)容,其中第一至第四類標(biāo)簽分別以b、o、1、0表示):

商品標(biāo)題:莫伊兒2015春裝新款韓版小西裝女修身顯瘦短款小香風(fēng)外套蕾絲長袖西服

品牌名稱:莫伊兒

分詞標(biāo)簽:莫伊兒-b-1,numberdigital-o-0,春裝新款-o-0,韓版-o-0,小西裝-o-0,女-o-0,修身-o-0,顯瘦-o-0,短款-o-0,小香風(fēng)-o-0,外套-o-0,蕾絲長袖-o-0,西服-o-0

步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從商品標(biāo)題中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。因此每個(gè)具有第一類標(biāo)簽的詞對(duì)應(yīng)一條特征。本實(shí)施方式中采用二分法的分類器進(jìn)行訓(xùn)練,而具有第一類標(biāo)簽的詞進(jìn)一步具有第三類和第四類這兩種標(biāo)簽,所以可選擇第三類標(biāo)簽為正標(biāo)簽,第四類標(biāo)簽為負(fù)標(biāo)簽。

在采用搜索詞庫進(jìn)行特征構(gòu)造時(shí),步驟與上述類似,不同之處主要在步驟c中。各步驟如下:

步驟a:讀取對(duì)搜索詞進(jìn)行分詞后得到的多個(gè)詞。

步驟b:對(duì)所述多個(gè)詞中的各個(gè)詞分別進(jìn)行判斷,若詞屬于品牌詞典則對(duì)該詞添加第一類標(biāo)簽,否則對(duì)該詞添加第二類標(biāo)簽。

步驟c:對(duì)具有第一類標(biāo)簽的各個(gè)詞分別進(jìn)行判斷,若詞是該搜索詞對(duì)應(yīng)的品牌,則對(duì)該詞添加第三類標(biāo)簽,否則對(duì)該詞添加第四類標(biāo)簽。在本步驟中判斷搜索詞中的一個(gè)詞是否為搜索詞對(duì)應(yīng)的品牌時(shí),可采用上文中介紹的“點(diǎn)擊分布法”。

添加了上述標(biāo)簽后,得到的搜索詞庫中的條目內(nèi)容例如(以下是一個(gè)條目中的內(nèi)容):

搜索詞:1more活塞耳機(jī)

品牌名稱:加一聯(lián)創(chuàng)

分詞標(biāo)簽:1more-b-1,活塞-o-0,耳機(jī)-o-0

步驟d:對(duì)于具有第一類標(biāo)簽的一個(gè)或多個(gè)詞中的各個(gè)詞,分別執(zhí)行如下步驟:將具有第一類標(biāo)簽的一個(gè)詞與從搜索詞中選擇的其他多個(gè)詞中的各個(gè)詞分別進(jìn)行組合以得到多個(gè)所述特征。與上文中類似,此處構(gòu)造的特征的標(biāo)簽可選擇第三類標(biāo)簽為正標(biāo)簽,第四類標(biāo)簽為負(fù)標(biāo)簽??梢钥闯鲈跇?gòu)造特征時(shí),進(jìn)行上述的組合實(shí)現(xiàn)了語義特征的加入,這有助于更準(zhǔn)確地識(shí)別品牌詞。

對(duì)于上文中的兩處步驟d,以下再舉例做進(jìn)一步說明。在步驟d中,進(jìn)行了詞的組合。假設(shè)一條商品信息為:

a1-o-0,a2-o-0,a3-o-0,d-b-1,a4-o-0,a5-o-0,a6-o-0

其中a1至a6表示分詞之后不屬于品牌詞典的詞,因此被添加第二類標(biāo)簽“o”,在本實(shí)施方式中,為了標(biāo)簽長度一致,也可對(duì)具有第二類標(biāo)簽的詞添加第四類標(biāo)簽“0”。該商品信息中的d是出現(xiàn)在品牌詞典中的詞,因此被添加第一類標(biāo)簽“b”,并假設(shè)該詞在該商品信息中也作為品牌詞,從而被添加第三類標(biāo)簽“1”。這里的各個(gè)標(biāo)簽所用的字符可以自由選取。

在進(jìn)行步驟d中的組合時(shí),一般來說可以考慮如下方式:

方式一:詞窗口為7,即選擇7個(gè)詞,用下劃線的數(shù)量表示文本中詞之間的距離。把詞d與a1至a6進(jìn)行組合后,可得到特征集合如下:

a1___d,a2__d,a3_d,d_a4,d__a5,d___a6

方式一存在的問題是,對(duì)于商品標(biāo)題庫和搜索詞庫,前者的條目中,分詞標(biāo)簽一項(xiàng)較長,后者的條目中,分詞標(biāo)簽一項(xiàng)較短,所以二者距離信息無法對(duì)等。

方式二:詞窗口為5,舍棄a1和a6,剩下的詞就近兩兩組合,并且對(duì)具有第一類標(biāo)簽的詞與較遠(yuǎn)的詞也作組合,得到特征集合如下:

a2_a3,a2__d,a3_d,a3__a4,d_a4,d__a5,a4_a5

方式二存在的問題是,縮小詞窗口之后,對(duì)于較長的商品標(biāo)題,必須舍棄一些詞,導(dǎo)致有可能有用的詞沒進(jìn)入特征。此外,兩兩組合的方式,會(huì)使組合結(jié)果失去區(qū)分度。例如,搜索詞為“沁州小米”,分詞并添加標(biāo)簽之后是:沁州-b-1,小米-b-0。但是對(duì)這兩個(gè)詞構(gòu)造特征,均是“沁州_小米”,特征完全相同,失去區(qū)分度。

方式三:整個(gè)商品標(biāo)題或搜索詞作為詞窗口,即選擇分詞后的所有詞,并且特征集合的每個(gè)特征中,把具有b標(biāo)簽的詞即疑似品牌詞放前面。如上例,得到特征集合如下:

b_a1,b_a2,b_a3,b_a4,b_a5,b_a6

根據(jù)上面的分析,可以看出方式三既包含了分詞后的所有詞,從而使距離疑似品牌詞較遠(yuǎn)的詞也納入考慮范圍,又突出了疑似品牌詞從而具備區(qū)分度,因此應(yīng)當(dāng)采用方式三。采用方式三,構(gòu)造特征的具體例子如:

分詞并添加標(biāo)簽的結(jié)果為:

沁州-b-1,山西-o-0,沁州黃-o-0,集團(tuán)-o-0,小米-b-0

其中對(duì)于包含兩個(gè)b標(biāo)簽的詞,分別對(duì)二者構(gòu)造特征。

沁州-b的特征集合如下:沁州_山西沁州_沁州黃沁州_集團(tuán)沁州_小米。即該特征集合包含4個(gè)特征。該特征集合的標(biāo)簽以與“沁州-b-1”中的“1”相一致的方式來設(shè)置,即設(shè)為1。

類似地,小米-b的特征集合為:小米_沁州小米_山西小米_沁州黃小米_集團(tuán)。由4個(gè)特征構(gòu)成,特征集合標(biāo)簽按“小米-b-0”中的“0”來設(shè)置,即設(shè)為0。

以上是對(duì)特征構(gòu)造的步驟的說明。在構(gòu)造得到特征之后,即進(jìn)入步驟s12。

步驟s12:將步驟s11中得到的特征進(jìn)行映射以得到訓(xùn)練數(shù)據(jù)。映射方式有很多,例如hash映射、doubletree映射、map映射等,能夠?qū)⑻卣饔成涞?位整數(shù)上。這樣,一個(gè)特征集合即映射到一個(gè)數(shù)字集合上,該數(shù)字集合具有該特征集合的標(biāo)簽。映射后的結(jié)果與特征的標(biāo)簽構(gòu)成訓(xùn)練數(shù)據(jù),可以用來進(jìn)行訓(xùn)練。

步驟s13:采用二分類器對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練以得到模型。在具體訓(xùn)練時(shí),可以先選擇l1正則函數(shù)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,以將訓(xùn)練后權(quán)重為0的特征去掉,再對(duì)訓(xùn)練后數(shù)據(jù)再選擇l2正則函數(shù)進(jìn)行訓(xùn)練,可以去除很多無用的特征,以降低特征維度。如前文所述,特征集合中包含多個(gè)特征。在訓(xùn)練得到的模型中,包含有各個(gè)特征的權(quán)重,權(quán)重可能是正數(shù),也可能是負(fù)數(shù)。

在得到模型的情況下,就可以利用模型對(duì)包含了商品信息的文本進(jìn)行識(shí)別以確定其中是否包含品牌詞,即在步驟s13之后,進(jìn)入步驟s14。

步驟s14:根據(jù)指定的一條商品信息構(gòu)造待處理數(shù)據(jù)。這里的步驟與上述步驟類似,同樣是構(gòu)造特征,這樣,構(gòu)造的待處理數(shù)據(jù)中,每個(gè)屬于品牌詞典的詞作為待識(shí)別詞,每個(gè)待識(shí)別詞對(duì)應(yīng)一個(gè)特征集合,在每個(gè)特征集合中,包含有多個(gè)特征,各特征包含該待識(shí)別詞以及該指定的商品信息中的另一個(gè)詞。這樣有幾個(gè)待識(shí)別詞,就會(huì)構(gòu)造得到幾個(gè)特征集合,也就是說特征集合的數(shù)目視該商品信息中的“疑似品牌詞”即待識(shí)別詞的數(shù)目而定。

步驟s15:使用上述模型確定待處理數(shù)據(jù)中的各個(gè)特征的權(quán)重。

步驟s16:根據(jù)步驟s15中得到的權(quán)重確定各個(gè)待識(shí)別詞在指定的商品信息中是品牌詞的概率。本步驟中可采用各種二分類的分類方法來確定該概率,但應(yīng)當(dāng)與訓(xùn)練時(shí)采用的分類方法相一致。概率越大,待識(shí)別詞在指定的商品信息中越可能是一個(gè)品牌詞。

以下再對(duì)本發(fā)明實(shí)施方式中的識(shí)別品牌詞的裝置的基本結(jié)構(gòu)加以說明。圖2是根據(jù)本發(fā)明實(shí)施方式的識(shí)別品牌詞的裝置的主要模塊的示意圖。如圖2所示,識(shí)別品牌詞的裝置20主要包括特征模塊、訓(xùn)練模塊、以及預(yù)測模塊。

特征模塊用于根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合;每個(gè)特征集合對(duì)應(yīng)一個(gè)品牌詞,該品牌詞出現(xiàn)在商品信息中并且包含在品牌詞典中;特征集合中的每個(gè)特征包含所述品牌詞以及該品牌詞所在的商品信息中的另一個(gè)或多個(gè)詞;若所述品牌詞在其所在商品信息中是作為該商品的品牌,則該品牌詞對(duì)應(yīng)的特征的標(biāo)簽為正標(biāo)簽,否則為負(fù)標(biāo)簽。

訓(xùn)練模塊用于對(duì)所述多個(gè)特征集合使用預(yù)設(shè)的映射方式進(jìn)行映射以得到訓(xùn)練數(shù)據(jù),然后使用二分類器對(duì)所述訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練以得到模型,該模型中包含特征集合中各特征的權(quán)重。

預(yù)測模塊用于根據(jù)指定的一條商品信息構(gòu)造待處理數(shù)據(jù);構(gòu)造的待處理數(shù)據(jù)中,每個(gè)屬于所述品牌詞典的詞作為待識(shí)別詞,每個(gè)待識(shí)別詞對(duì)應(yīng)一個(gè)特征集合,該特征集合中的每個(gè)特征包含該待識(shí)別詞以及該指定的商品信息中的另一個(gè)詞;使用所述模型確定所述待處理數(shù)據(jù)中的各個(gè)特征的權(quán)重,再根據(jù)該權(quán)重確定各個(gè)待識(shí)別詞在指定的商品信息中是品牌詞的概率。

圖3a示出了可以應(yīng)用本發(fā)明實(shí)施例的識(shí)別品牌詞的方法或識(shí)別品牌詞的裝置的示例性系統(tǒng)架構(gòu)300。

如圖3a所示,系統(tǒng)架構(gòu)300可以包括終端設(shè)備301、302、303,網(wǎng)絡(luò)304和服務(wù)器305。網(wǎng)絡(luò)304用以在終端設(shè)備301、302、303和服務(wù)器305之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)304可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。

用戶可以使用終端設(shè)備301、302、303通過網(wǎng)絡(luò)304與服務(wù)器305交互,以接收或發(fā)送消息等。終端設(shè)備301、302、303上可以安裝有各種通訊客戶端應(yīng)用,例如購物類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用、即時(shí)通信工具、郵箱客戶端、社交平臺(tái)軟件等。

終端設(shè)備301、302、303可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。

服務(wù)器305可以是提供各種服務(wù)的服務(wù)器,例如對(duì)用戶利用終端設(shè)備301、302、303所瀏覽的購物類網(wǎng)站提供支持的后臺(tái)管理服務(wù)器。后臺(tái)管理服務(wù)器可以對(duì)接收到的產(chǎn)品信息查詢請(qǐng)求等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果反饋給終端設(shè)備。

需要說明的是,本發(fā)明實(shí)施例所提供的識(shí)別品牌詞的方法可由服務(wù)器305或終端設(shè)備301、302、303中的一臺(tái)或幾臺(tái)執(zhí)行,相應(yīng)地,識(shí)別品牌詞的裝置可設(shè)置于服務(wù)器305以及終端設(shè)備301、302、303中的一臺(tái)或幾臺(tái)中。

應(yīng)該理解,圖3a中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實(shí)現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。

下面參考圖3b,圖3b是適于用來實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備的計(jì)算機(jī)系統(tǒng)30的結(jié)構(gòu)示意圖。圖3b示出的終端設(shè)備僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來任何限制。

如圖3b所示,計(jì)算機(jī)系統(tǒng)30包括中央處理單元(cpu),其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)中的程序或者從存儲(chǔ)部分加載到隨機(jī)訪問存儲(chǔ)器(ram)中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram中,還存儲(chǔ)有計(jì)算機(jī)系統(tǒng)30操作所需的各種程序和數(shù)據(jù)。cpu、rom以及ram通過總線彼此相連。輸入/輸出接口(i/o接口)也連接至總線。

以下部件連接至i/o接口:輸入部分,例如包括鍵盤、鼠標(biāo)等;輸出部分,例如包括諸如陰極射線管(crt)、液晶顯示器(lcd)等;存儲(chǔ)部分,例如包括硬盤等;通信部分,例如及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡等。通信部分經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器也根據(jù)需要連接至i/o接口。可拆卸介質(zhì),諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分。

特別地,根據(jù)本發(fā)明公開的實(shí)施例,上文描述的過程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本發(fā)明公開的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行本發(fā)明公開的實(shí)施例所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過通信部分從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)執(zhí)行時(shí),執(zhí)行本申請(qǐng)的系統(tǒng)中限定的上述功能。

需要說明的是,本申請(qǐng)所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。

附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個(gè)方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。

描述于本申請(qǐng)實(shí)施例中所涉及到的模塊可以通過軟件的方式實(shí)現(xiàn),也可以通過硬件的方式來實(shí)現(xiàn)。所描述的模塊也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括特征模塊、訓(xùn)練模塊、以及預(yù)測模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對(duì)該模塊本身的限定,例如,特征模塊還可以被描述為“用于根據(jù)已獲取的多條商品信息構(gòu)造多個(gè)特征集合的模塊”。

作為另一方面,本申請(qǐng)還提供了一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以是上述實(shí)施例中描述的設(shè)備中所包含的;也可以是單獨(dú)存在,而未裝配入該設(shè)備中。上述計(jì)算機(jī)可讀介質(zhì)承載有一個(gè)或者多個(gè)程序,當(dāng)上述一個(gè)或者多個(gè)程序被一個(gè)該設(shè)備執(zhí)行時(shí),使得該設(shè)備能夠?qū)崿F(xiàn)上文所述的各方法。

根據(jù)本發(fā)明實(shí)施方式,通過構(gòu)造特征并進(jìn)行訓(xùn)練得到模型,實(shí)現(xiàn)了對(duì)疑似品牌詞進(jìn)行二分類,并且在構(gòu)造特征的過程中實(shí)現(xiàn)了語義特征的加入,從而能夠?qū)崿F(xiàn)對(duì)一般文本中的品牌詞的識(shí)別,不限于上述的商品標(biāo)題或者搜索詞,并且識(shí)別更準(zhǔn)確。其中的二分類方法相比于多分類,更有區(qū)分度,因?yàn)槎喾诸惖奶卣骺臻g比較稀疏,不容易區(qū)分正確。并且二分類的訓(xùn)練速度更快。因此采用本發(fā)明實(shí)施方式的技術(shù)方案有助于更準(zhǔn)確地識(shí)別品牌詞,并具有較快的處理效率。

上述具體實(shí)施方式,并不構(gòu)成對(duì)本發(fā)明保護(hù)范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計(jì)要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
重庆市| 墨脱县| 平顺县| 崇明县| 华蓥市| 遂宁市| 绍兴县| 贵州省| 文安县| 芜湖市| 宝丰县| 衡南县| 金昌市| 平远县| 富民县| 屏山县| 绥化市| 体育| 雅江县| 伊春市| 全南县| 昌吉市| 安徽省| 房产| 辰溪县| 神池县| 德州市| 武乡县| 彩票| 辛集市| 英吉沙县| 桐乡市| 化德县| 故城县| 凤冈县| 临西县| 赣榆县| 安顺市| 库车县| 邳州市| 巢湖市|