一種基于互信息的商品分類方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出了一種基于互信息的商品分類方法,其包括以下步驟:從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,所述相關(guān)數(shù)據(jù)包括某一電子商務(wù)網(wǎng)站中所有的商品標(biāo)題及相應(yīng)的商品類別;對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞;將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。通過本發(fā)明避免了對(duì)商品分類時(shí)各個(gè)特征詞之間的相互依賴;解決各個(gè)分類中數(shù)據(jù)存在交集的情況,并且降低了計(jì)算量。
【專利說明】一種基于互信息的商品分類方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,具體地說,是涉及一種基于互信息的商品分類方法和系統(tǒng)。
【背景技術(shù)】
[0002]隨著電子信息技術(shù)的飛速發(fā)展,數(shù)據(jù)挖掘已經(jīng)深入到各個(gè)領(lǐng)域,尤其對(duì)于電子商務(wù)領(lǐng)域,高效的商品自動(dòng)分類方法對(duì)管理電子商務(wù)中海量的商品信息至關(guān)重要。
[0003]但是,現(xiàn)有技術(shù)中對(duì)于描述詞過于相近的商品往往會(huì)給出錯(cuò)誤分類,這是因?yàn)樗鼈兊奶卣飨嗷ヒ蕾嚕蛘哒f有些特征由其他特征決定,因此會(huì)產(chǎn)生這種錯(cuò)誤分類,比如,“聯(lián)想筆記本電腦”、“筆記本(電腦圖案)”,則會(huì)被認(rèn)為屬于同一類商品。
[0004]另外,由于商品分類中,很多分類數(shù)據(jù)有交集的現(xiàn)象,比如服裝中,分為女裝與男裝,而其中與戶外運(yùn)動(dòng)相關(guān)的服裝鞋帽又都被劃分為戶外運(yùn)動(dòng)類,與運(yùn)動(dòng)器械等又被劃分到一類,因此這種交疊分類的現(xiàn)象給產(chǎn)品的分類造成極大的困難,傳統(tǒng)的分類方法不能簡單、高效的解決其分類問題。
【發(fā)明內(nèi)容】
[0005]為了解決上述問題,本發(fā)明結(jié)合商品信息的特征,提供簡單高效的解決方案,避免了由于特征組合對(duì)分類帶來的干擾,同時(shí)可以保證以較高的效率完成在線分類任務(wù)。
[0006]依據(jù)本發(fā)明的一個(gè)方面,一種基于互信息的商品分類方法,其包括以下步驟:
[0007]從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,所述相關(guān)數(shù)據(jù)為一網(wǎng)站中所有的商品標(biāo)題及與所述商品標(biāo)題相對(duì)應(yīng)的商品類別;
[0008]對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞;
[0009]將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。
[0010]可選地,所述構(gòu)建訓(xùn)練集合的步驟還包括:
[0011]在提取相關(guān)數(shù)據(jù)之后,對(duì)提取出的所有商品標(biāo)題分別進(jìn)行分詞處理,獲取所有商品標(biāo)題的所有特征詞;
[0012]分別計(jì)算一個(gè)商品類別中的所有特征詞與其他商品類別的相關(guān)度值。
[0013]可選地,在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫。
[0014]可選地,在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞構(gòu)造特征詞庫。
[0015]可選地,在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞,之后對(duì)過濾出的特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫。[0016]可選地,在對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞之后,對(duì)所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞。
[0017]可選地,計(jì)算相關(guān)度值的公式為:
[0018]I (X,y) =1ga (P (X |y))-1oga (P (X));
[0019]其中,I (x, y)代表相關(guān)度值,P(X)代表特征詞X在所有商品類別中出現(xiàn)的概率;P (x I y)代表特征詞X在商品類別I中出現(xiàn)的條件概率;底數(shù)a可以是自然對(duì)數(shù)e,或10,或2,或?yàn)槿我鈹?shù)。
[0020]依據(jù)本發(fā)明的另一方面,提供一種基于互信息的商品分類系統(tǒng),其包括:
[0021]構(gòu)建模塊,用于從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,所述相關(guān)數(shù)據(jù)為一網(wǎng)站中所有的商品標(biāo)題及與所述商品標(biāo)題相對(duì)應(yīng)的商品類別;
[0022]分詞模塊,用于對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞;
[0023]分類模塊,將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。
[0024]可選地,所述分詞模塊還用于在提取相關(guān)數(shù)據(jù)之后,對(duì)提取出的所有商品標(biāo)題分別進(jìn)行分詞處理,獲取所有商品標(biāo)題的所有特征詞。
[0025]可選地,所述商品分類系統(tǒng)還包括挑選模塊,用于在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫。
[0026]可選地,所述商品分類系統(tǒng)還包括過濾模塊,用于對(duì)在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞構(gòu)造特征詞庫。
[0027]可選地,所述過濾模塊還用于對(duì)一個(gè)新商品進(jìn)行分詞處理后的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞。
[0028]可選地,所述商品分類系統(tǒng)還包括計(jì)算模塊,用于分別計(jì)算一個(gè)商品類別中的所有特征詞與其他商品類別的相關(guān)度值。
[0029]可選地,計(jì)算相關(guān)度值的公式為:
[0030]I (X,y) =1ga (P (X |y))-1oga (P (X));
[0031]其中,I (x, y)代表相關(guān)度值,P(X)代表特征詞X在所有商品類別中出現(xiàn)的概率;P (x I y)代表特征詞X在商品類別I中出現(xiàn)的條件概率;底數(shù)a可以是自然對(duì)數(shù)e,或10,或2,或?yàn)槿我鈹?shù)。
[0032]根據(jù)本發(fā)明的實(shí)施例可以看出,本發(fā)明對(duì)于一件新商品,只使用特征詞與商品類別的相關(guān)度值作為預(yù)測(cè)分類的基本值,這樣避免了對(duì)商品分類時(shí)各個(gè)特征詞之間的相互依賴。同時(shí),本發(fā)明能夠解決各個(gè)分類中數(shù)據(jù)存在交集的情況,因?yàn)槭菃为?dú)使用商品的特征詞在分類中的相關(guān)度,不同的分類中同樣的特征詞相關(guān)度是不一樣的,同時(shí)結(jié)合描述商品的多個(gè)特征詞便能夠準(zhǔn)確的計(jì)算該商品的分類。另外,由于待預(yù)測(cè)的分類有限,則對(duì)一個(gè)商品進(jìn)行分類時(shí)計(jì)算量比較小,該方法可以作為在線程序提供服務(wù)。[0033]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0034]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0035]圖1示出了本發(fā)明一種實(shí)施例的基于互信息的商品分類方法流程圖。
[0036]圖2示出了本發(fā)明實(shí)施例的一種基于互信息的商品分類系統(tǒng)原理圖。
【具體實(shí)施方式】
[0037]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,其所述描述乃以說明本發(fā)明的一般原則為目的,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制,本發(fā)明的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0038]另外,在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會(huì)用不同名詞來稱呼同一個(gè)組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包括”或“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”?!按笾隆笔侵冈诳山邮艿恼`差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。
[0039]為了說清楚本發(fā)明的實(shí)施例,首先先提及與本發(fā)明有關(guān)的相關(guān)技術(shù):
[0040]1.數(shù)據(jù)挖掘(Data mining)與分類
[0041]數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中自動(dòng)搜索隱藏于其中的有著特殊關(guān)系性的信息的過程。分類,則是數(shù)據(jù)挖掘中的一個(gè)重要環(huán)節(jié)。分類算法是解決分類問題的方法,是數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和模式識(shí)別中一個(gè)重要的研究領(lǐng)域。分類算法通過對(duì)已知類別訓(xùn)練集的分析,從中發(fā)現(xiàn)分類規(guī)則,以此預(yù)測(cè)新數(shù)據(jù)的類別。分類算法的應(yīng)用非常廣泛,銀行中風(fēng)險(xiǎn)評(píng)估、客戶類別分類、文本檢索和搜索引擎分類、安全領(lǐng)域中的入侵檢測(cè)以及軟件項(xiàng)目中的應(yīng)用等等。
[0042]2.文本分類技術(shù)描述
[0043]文本分類的任務(wù)是:在給定的類別體系下,根據(jù)文本的內(nèi)容,將其自動(dòng)映射到指定的類別中去。類別體系一般由人工按照應(yīng)用需求構(gòu)造。基于內(nèi)容的文本分類需要指導(dǎo),即一定數(shù)量的已分類好的訓(xùn)練文本或者實(shí)例,分類系統(tǒng)從訓(xùn)練文本中獲取必要的信息,構(gòu)造分類器。
[0044]在文本處理領(lǐng)域,通常采用向量空間模型(Vector Space Model, VSM)表示文本,一篇文本可以表示為一個(gè)η維向量(W1, w2, , wn),其中WiQ = 1,2,..., η)表示第i個(gè)特征項(xiàng)(Feature)的權(quán)重,η是特征項(xiàng)的個(gè)數(shù),特征項(xiàng)可以是字、詞、短語或者某種概念,本發(fā)明實(shí)施例中采用詞作為特征項(xiàng),故稱為特征詞或特征值。
[0045]權(quán)重有多種計(jì)算方法,最簡單的是布爾權(quán)重,即權(quán)重為I (該特征詞在文本中出現(xiàn))或者O (該特征詞沒有在文本中出現(xiàn))。在本發(fā)明中,VSM中的權(quán)重計(jì)算采用詞頻來表示,即用該特征詞在文本中出現(xiàn)的次數(shù)來表示權(quán)重。
[0046]文本分類抽象為一般的描述:設(shè)類別總數(shù)為|C|,Cj表示第j(j = l,2,...,C|)類提供給分類器的訓(xùn)練集(訓(xùn)練集中的文本都已經(jīng)過人工分類)包含|d|篇文本,特征空間(fp f2,..., fn), η 為特征數(shù)量,每篇文本表示為(Ii = (wn, wi2,..., win) ,1 = 1,2,...,
D| ο 一篇待分類文本泛化表示為dx = (wxl, wx2,..., wxn),任務(wù)是將dx分到相應(yīng)的類別中去。
[0047]3.中文分詞技術(shù)
[0048]中文自動(dòng)分詞是中文信息處理技術(shù)中最關(guān)鍵的一個(gè)環(huán)節(jié)。所謂分詞,就是把一個(gè)句子中的詞匯按照使用時(shí)的意義切分出來。在英語中單詞與單詞之間有顯式的分割符,而在中文里,只有段與段之間、句子與句子間有明顯分割,而單詞之間不存在這種分界符,因此中文詞匯的分割要復(fù)雜困難得多。隨著漢語自動(dòng)分詞系統(tǒng)的關(guān)注度不斷提高,各種分詞系統(tǒng)也不斷建立,分詞系統(tǒng)在運(yùn)行速度、準(zhǔn)確度等方面都已經(jīng)具有了研究應(yīng)用的價(jià)值,其中最有代表性為中科院的分詞工具ICTCLAS。ICTCLAS分詞工具基于PDAT大規(guī)模知識(shí)庫管理技術(shù),分詞速度單機(jī)996KB/S,分詞精度98.45 %,本發(fā)明實(shí)施例中采用了 ICTCLAS3.0對(duì)網(wǎng)頁文本進(jìn)行分詞處理。
[0049]4.特征選擇方法
[0050]訓(xùn)練集合中包含了大量的詞匯,如果把這些詞都作為特征詞,將帶來一系列問題。首先是向量的維數(shù)太大,給計(jì)算帶來了非常大的壓力,存儲(chǔ)空間大、處理速度慢;其次是這些詞中實(shí)際上有很大一部分是與類別無關(guān)的,對(duì)分類作用不大。因此要降低向量的維數(shù),選擇那些有代表意義的詞作為特征詞。先對(duì)文本進(jìn)行預(yù)處理,去掉那些常用的對(duì)分類用處不大的詞,比如去掉那些不能反應(yīng)商品特征的詞,如停用詞(也叫停止詞,Stop word),然后采用某種特征選擇方法對(duì)所有的詞排序,選出排在前面的一定數(shù)量的詞作為特征詞。常用的特征選擇方法有:文檔頻次(DF),互信息(MI),信息增益(IG),X 2統(tǒng)計(jì)量、相對(duì)熵(CE)。
[0051]以下結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明,但不作為對(duì)本發(fā)明的限定。
[0052]如圖1所示,一種基于互信息的商品分類方法,包括如下步驟:
[0053]步驟S110,從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,相關(guān)數(shù)據(jù)為某一電子商務(wù)網(wǎng)站中所有的商品標(biāo)題及與商品標(biāo)題相對(duì)應(yīng)的商品類別。訓(xùn)練集合也可以稱為商品標(biāo)題集合,構(gòu)建的訓(xùn)練集合中包含了某一電子商務(wù)網(wǎng)站中所有的商品標(biāo)題及與商品標(biāo)題相對(duì)應(yīng)的商品類別。
[0054]步驟S120,對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞。具體的,使用分詞技術(shù)對(duì)商品標(biāo)題進(jìn)行分詞處理,使用分詞結(jié)果作為商品的特征詞,用相應(yīng)特征詞來描述該商品。
[0055]步驟S130,將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。
[0056]基于圖1的原理,更詳細(xì)的分類方法如下所述:[0057]步驟S110,從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取某一電子商務(wù)網(wǎng)站中所有的商品標(biāo)題及對(duì)應(yīng)的商品類別,構(gòu)建訓(xùn)練集合。訓(xùn)練集合可以是簡單的僅由所有的商品標(biāo)題和商品類別組成的數(shù)據(jù)集合,也可以是一種復(fù)雜的數(shù)據(jù)集合,復(fù)雜的訓(xùn)練集合可以為后續(xù)新商品的分類提供更高的計(jì)算效率,具體的,構(gòu)建復(fù)雜的訓(xùn)練集合的步驟如下:
[0058]第一步,從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取某一電子商務(wù)網(wǎng)站中所有的商品標(biāo)題及對(duì)應(yīng)的商品類別。
[0059]第二步,對(duì)提取出的所有商品標(biāo)題使用分詞技術(shù)分別進(jìn)行分詞處理,使用分詞處理后的結(jié)果作為商品的特征詞。由于并不是所有特征詞都是用來描述商品本身特征的,為了提高后續(xù)對(duì)新商品進(jìn)行分類時(shí)的計(jì)算效率的,還可以對(duì)所有商品標(biāo)題的所有特征詞做進(jìn)一步處理,構(gòu)造特征詞庫,特征詞庫也可以稱作特性信息庫,其內(nèi)包含有經(jīng)過分詞處理后所得到的反映商品信息的特征詞,這樣,某一商品可以用特征詞庫中的相應(yīng)特征詞來描述。
[0060]構(gòu)造特征詞庫的方法有多種,比如,一種構(gòu)造方法為對(duì)獲取的所有特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫,其中,預(yù)設(shè)值是可以根據(jù)先驗(yàn)概率得到的經(jīng)驗(yàn)值,也可以是人為設(shè)定的值。具體的:
[0061]在此假設(shè)商品標(biāo)題為L,其具體格式由C1C2Cf ClriCk構(gòu)成,其中Ci (i=l, 2,…,k)為一個(gè)漢字或英文單詞,k為標(biāo)題字符長度;
[0062]之后,對(duì)標(biāo)題L進(jìn)行分詞,得到詞語集合IC1C2, C2C3, CV1CJ,在該詞語集合中,將CiCw視為一個(gè)詞,并用W表不;
[0063]之后,遍歷訓(xùn)練集中所有的商品標(biāo)題,統(tǒng)計(jì)每個(gè)詞W出現(xiàn)的次數(shù)Count(W);
[0064]然后,設(shè)定一個(gè)閾值CT,如果Count(W)≤CT (即,詞W出現(xiàn)的次數(shù)大于設(shè)定的閥值CT),則W—定為特征詞;
[0065]從而,得到的所有特征詞W構(gòu)成的特征詞庫(WpW2,…,Wn}。
[0066]特征詞庫的另一種構(gòu)造方法是對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,比如過濾掉那些對(duì)于分類沒有意義的停用詞(比如助詞、副詞、介詞、連接詞等等)、廣告詞、含義相同或描述重復(fù)的詞等等,僅保留描述了商品特征的特征詞構(gòu)造特征詞庫。這些對(duì)商品特征描述沒有意義的詞可以根據(jù)設(shè)定的程序自動(dòng)去除,只需定期更新需要被去除的詞庫即可,這樣不僅能節(jié)省大量的存儲(chǔ)空間,還能有效提高運(yùn)算速度,因?yàn)楫吘挂恍┥唐窐?biāo)題上的很多信息,比如廣告或宣傳信息“降價(jià)促銷”、“僅限三天”等等對(duì)新商品的分類毫無疑義。
[0067]特征詞庫的第三種構(gòu)造方法是基于上述兩種方法的結(jié)合,具體為:對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,僅保留描述了商品特征的特征詞,之后對(duì)過濾出來的特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的詞構(gòu)造特征詞庫。第三種方法與前兩種方法相比,又能進(jìn)一步的提高后續(xù)新商品分類的計(jì)算效率。
[0068]第三步,利用互信息分別計(jì)算一個(gè)商品類別中的所有特征詞與其他商品類別的相關(guān)度值,得到相關(guān)度值的集合,至此,訓(xùn)練集合構(gòu)建完畢。相關(guān)度值的集合在后續(xù)新商品分類時(shí),所需的相關(guān)度值可以直接從相關(guān)度值集合中調(diào)用,使新商品分類時(shí)的計(jì)算效率大大提聞。
[0069]互信息衡量的是某個(gè)詞和類別之間的統(tǒng)計(jì)獨(dú)立關(guān)系,某個(gè)詞和某個(gè)類別傳統(tǒng)的互信息定義如下:[0070]互信息是計(jì)算語言學(xué)模型分析的常用方法,它度量兩個(gè)對(duì)象之間的相互性。在過濾問題中用于度量特征對(duì)于主題的區(qū)分度?;バ畔⒈緛硎切畔⒄撝械囊粋€(gè)概念,用于表示信息之間的關(guān)系,是兩個(gè)隨機(jī)變量統(tǒng)計(jì)相關(guān)性的測(cè)度,使用互信息理論進(jìn)行特征抽取是基于如下假設(shè):在某個(gè)特定類別出現(xiàn)頻率高,但在其他類別出現(xiàn)頻率比較低的詞條與該類的互信息比較大。通常用互信息作為特征詞和類別之問的測(cè)度,如果特征詞屬于該類的話,它們的互信息量最大。由于該方法不需要對(duì)特征詞和類別之間關(guān)系的性質(zhì)作任何假設(shè),因此非常適合于文本分類的特征和類別的配準(zhǔn)工作。
[0071]特征詞和類別的互信息體現(xiàn)了特征詞與類別的相關(guān)程度,是一種廣泛用于建立詞關(guān)聯(lián)統(tǒng)計(jì)模型的標(biāo)準(zhǔn)?;バ畔]有考慮特征出現(xiàn)的頻率,這樣導(dǎo)致互信息評(píng)估函數(shù)不選擇高頻的有用詞而有可能選擇稀有詞作為文本的最佳特征。因?yàn)閷?duì)于每一主題來講,某一特征的互信息越大,說明它與該主題的貢獻(xiàn)概率越大,因此,以互信息作為提取特征的評(píng)價(jià)時(shí)應(yīng)選互信息最大的若干個(gè)特征。
[0072]為了說清楚本發(fā)明如何利用互信息計(jì)算相關(guān)度值,得到相關(guān)度值集合進(jìn)而完成訓(xùn)練集合的構(gòu)建,現(xiàn)假設(shè)有A、B、C三個(gè)商品類別,其中包括的商品特征詞分別為:al、a2、a3, bl、b2、b3, cl、c2、c3,表格更直觀的表達(dá)為:
[0073]
【權(quán)利要求】
1.一種基于互信息的商品分類方法,其包括以下步驟: 從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,所述相關(guān)數(shù)據(jù)為一網(wǎng)站中所有的商品標(biāo)題及與所述商品標(biāo)題相對(duì)應(yīng)的商品類別; 對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞; 將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。
2.根據(jù)權(quán)利要求1所述基于互信息的商品分類方法,其特征在于,所述構(gòu)建訓(xùn)練集合的步驟還包括: 在提取相關(guān)數(shù)據(jù)之后,對(duì)提取出的所有商品標(biāo)題分別進(jìn)行分詞處理,獲取所有商品標(biāo)題的所有特征詞。
3.根據(jù)權(quán)利要求2所述基于互信息的商品分類方法,其特征在于:在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫。
4.根據(jù)權(quán)利要求2所述基于互信息的商品分類方法,其特征在于:在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞構(gòu)造特征詞庫。
5.根據(jù)權(quán)利要求2所述基于互信息的商品分類方法,其特征在于:在獲取所有商品標(biāo)題的所有特征詞之后,對(duì)獲取的所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞,之后對(duì)過濾出的特征詞進(jìn)行詞頻統(tǒng)計(jì),挑選詞頻高于預(yù)設(shè)值的特征詞構(gòu)造特征詞庫。
6.根據(jù)權(quán)利要求2所述基于互信`息的商品分類方法,其特征在于:在獲取所有商品標(biāo)題的所有特征詞之后,分別計(jì)算一個(gè)商品類別中的所有特征詞與其他商品類別的相關(guān)度值。
7.根據(jù)權(quán)利要求1所述基于互信息的商品分類方法,其特征在于:在對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞之后,對(duì)所有特征詞進(jìn)行過濾處理,過濾掉沒有描述商品特征的特征詞,保留描述了商品特征的特征詞。
8.根據(jù)權(quán)利要求1或6所述基于互信息的商品分類方法,其特征在于: 計(jì)算相關(guān)度值的公式為:
I (X,y) =1ga (P (X |y))-1oga (P (X)); 其中,I(X,y)代表相關(guān)度值,P(X)代表特征詞X在所有商品類別中出現(xiàn)的概率;p(x|y)代表特征詞X在商品類別y中出現(xiàn)的條件概率;底數(shù)a可以是自然對(duì)數(shù)e,或10,或2,或?yàn)槿我鈹?shù)。
9.一種基于互信息的商品分類系統(tǒng),其包括: 構(gòu)建模塊,用于從網(wǎng)站服務(wù)器數(shù)據(jù)庫中提取相關(guān)數(shù)據(jù)構(gòu)建訓(xùn)練集合,其中,所述相關(guān)數(shù)據(jù)為一網(wǎng)站中所有的商品標(biāo)題及與所述商品標(biāo)題相對(duì)應(yīng)的商品類別; 分詞模塊,用于對(duì)一個(gè)新商品的商品名稱進(jìn)行分詞處理,獲取該商品名稱的所有特征詞; 分類模塊,將該商品的所有特征詞在一個(gè)商品類別中的相關(guān)度值的和,作為該商品在該商品類別中的得分,分別計(jì)算該商品的所有特征詞在每個(gè)商品類別中的相關(guān)度值的和,將得分最高的商品類別作為該商品的類別。
10.根據(jù)權(quán)利要求9所述基于互信息的商品分類系統(tǒng),其特征在于: 所述分詞模塊還用于在提取相關(guān)數(shù)據(jù)之后,對(duì)提取出的所有商品標(biāo)題分別進(jìn)行分詞處理,獲取所有商 品標(biāo)題的所有特征詞。
【文檔編號(hào)】G06Q30/00GK103778205SQ201410015607
【公開日】2014年5月7日 申請(qǐng)日期:2014年1月13日 優(yōu)先權(quán)日:2014年1月13日
【發(fā)明者】金學(xué)禹 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司