欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng)的制作方法

文檔序號:6487420閱讀:108來源:國知局
一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng)的制作方法【專利摘要】本申請公開了一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng),該方法包括:當(dāng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽取;根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞,并根據(jù)所確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。通過本申請,實現(xiàn)了對產(chǎn)品檔案信息的自動分類,提高了信息分類的效率。【專利說明】一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng)【
技術(shù)領(lǐng)域
】[0001]本申請涉及通信領(lǐng)域,特別是涉及一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng)。【
背景技術(shù)
】[0002]電子商務(wù)網(wǎng)站中,賣家發(fā)布的產(chǎn)品檔案信息往往包含各種信息,如產(chǎn)品名稱、產(chǎn)品屬性、賣家信息以及廣告詞等,系統(tǒng)很難自動識別賣家發(fā)布的是什么產(chǎn)品,進而無法準(zhǔn)確地對相應(yīng)產(chǎn)品檔案信息進行自動分類。[0003]現(xiàn)有產(chǎn)品識別技術(shù)中,系統(tǒng)通常將賣家發(fā)布的產(chǎn)品檔案信息中包含的標(biāo)題作為一個普通句子,并將該句子中最核心的一個單詞(即中心詞)提取出來,作為標(biāo)題的核心,以及整個產(chǎn)品信息的核心,并根據(jù)該中心詞對相應(yīng)產(chǎn)品檔案信息進行識別。[0004]在實現(xiàn)本申請的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下問題:[0005]現(xiàn)有技術(shù)中,僅僅根據(jù)產(chǎn)品檔案信息中的標(biāo)題信息對產(chǎn)品檔案信息進行識別,而標(biāo)題通常只包含十幾個單詞,信息量有限,且標(biāo)題的描述方法多種多樣,導(dǎo)致利用標(biāo)題的中心詞進行產(chǎn)品識別的可靠性較低。此外,由于標(biāo)題的中心詞往往只有一個單詞,因此,僅僅利用中心詞往往很難準(zhǔn)確地識別產(chǎn)品。如標(biāo)題中包含“tabletennisbat”(乒乓球拍),其中“table”是桌子、“tennis”是網(wǎng)球,而“bat”則是一個意義比較泛泛的詞,顯然,無論用哪一個單詞作為中心詞都無法準(zhǔn)確地表達(dá)該產(chǎn)品,因此,無法準(zhǔn)確地對相應(yīng)產(chǎn)品檔案信息進行自動分類?!?br/>發(fā)明內(nèi)容】·[0006]本申請的目的在于提供一種基于產(chǎn)品識別的信息分類方法及信息分類系統(tǒng),以實現(xiàn)對產(chǎn)品檔案信息的自動分類,提高信息分類的效率,為此,本申請[0007]采用如下技術(shù)方案:[0008]一種基于產(chǎn)品識別的信息分類方法,產(chǎn)品識別系統(tǒng)中存儲有用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型,該方法包括以下步驟:[0009]當(dāng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;[0010]分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽??;[0011]根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞,并根據(jù)所確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。[0012]—種信息分類系統(tǒng),包括:[0013]存儲模塊,用于存儲有用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;[0014]第一確定模塊,用于當(dāng)所述產(chǎn)品識別系統(tǒng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;[0015]特征抽取模塊,用于分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽?。籟0016]第二確定模塊,用于根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;[0017]分類模塊,用于根據(jù)所述第二確定模塊確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。[0018]本申請的實施例包括以下優(yōu)點,當(dāng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽取;根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞,并根據(jù)所確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類,實現(xiàn)了對產(chǎn)品檔案信息的自動分類,提高了信息分類的效率?!緦@綀D】【附圖說明】[0019]圖1為本申請實施例提供的一種基于產(chǎn)品識別的信息分類方法的流程示意圖;[0020]圖2為本申請實施例提供的一種信息分類系統(tǒng)的結(jié)構(gòu)示意圖。【具體實施方式】[0021]針對上述現(xiàn)有技術(shù)中出現(xiàn)的問題,本申請實施例提供了一種基于產(chǎn)品識別的信息分類的技術(shù)方案。在該技術(shù)方案中,其主要流程可以分為三個階段,即學(xué)習(xí)階段、產(chǎn)品識別階段以及信息分類階段。其中,學(xué)習(xí)階段主要為了為后續(xù)產(chǎn)品識別階段提供學(xué)習(xí)模型,其具體流程可以包括:獲取用于學(xué)習(xí)的產(chǎn)品檔案信息,并對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽?。桓鶕?jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽??;根據(jù)所述特征和產(chǎn)品檔案信息確定學(xué)習(xí)子模型,并根據(jù)所述學(xué)習(xí)子模塊確定學(xué)習(xí)模型。產(chǎn)品識別階段則主要是根據(jù)學(xué)習(xí)階段確定的學(xué)習(xí)模型對待識別的產(chǎn)品檔案信息進行識別,其主要流程可以包括:接收到產(chǎn)品識別請求時,根據(jù)所述學(xué)習(xí)模型及所述產(chǎn)品識別請求中攜帶的待識別的產(chǎn)品檔案信息確定該待識別的產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。信息分類階段則主要是根據(jù)所確定的產(chǎn)品詞對待識別產(chǎn)品檔案信息進行分類,其主要流程可以包括:根據(jù)預(yù)設(shè)的分類關(guān)鍵詞對所確定的產(chǎn)品詞進行匹配,并根據(jù)匹配結(jié)果確定待識別的產(chǎn)品檔案信息的類別。[0022]下面將結(jié)合本申請中的附圖,對本申請中的技術(shù)方案進行清楚、完整的描述,顯然,所描述的實施例是本申請的一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。[0023]如圖1所示,為本申請實施例提供的一種基于產(chǎn)品識別的信息分類方法的流程示意圖,可以包括以下步驟:[0024]步驟101、獲取用于學(xué)習(xí)的產(chǎn)品檔案信息,并對該產(chǎn)品檔案信息進行產(chǎn)品詞抽取。[0025]具體的,在本申請實施例中,可以從系統(tǒng)的輸入數(shù)據(jù)中抽取部分產(chǎn)品檔案信息作為學(xué)習(xí)樣本(即用于學(xué)習(xí)的產(chǎn)品檔案信息),并利用預(yù)設(shè)的規(guī)則對這些產(chǎn)品檔案信息進行產(chǎn)品詞抽取。[0026]其中,利用預(yù)設(shè)的規(guī)則對產(chǎn)品檔案信息進行產(chǎn)品詞抽取可以具體通過以下方式實現(xiàn):[0027]根據(jù)產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段以及下述字段中的一個或多個字段:[0028]產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段或產(chǎn)品檔案的關(guān)鍵字字段。[0029]獲取到上述字段后,可以對各字段進行處理,并確定各字段中包含的詞組,并將滿足預(yù)設(shè)條件的詞組確定為該產(chǎn)品檔案信息的產(chǎn)品詞。[0030]其中,該預(yù)設(shè)條件至少可以包括:[0031]該詞組在產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且至少在其余一個字段中出現(xiàn);或,[0032]該詞組在產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且在所有字段中出現(xiàn)的次數(shù)不低于閾值;該閾值可以預(yù)先設(shè)定,如4次。[0033]優(yōu)選地,可以選擇滿足預(yù)設(shè)條件的最長詞組作為對應(yīng)產(chǎn)品檔案信息的產(chǎn)品詞,以提聞所確定的廣品詞的準(zhǔn)確性。[0034]例如,“MP3Player”、“MP3”、“Player”均滿足預(yù)設(shè)條件,顯然將“MP3Player”作為產(chǎn)品詞的準(zhǔn)確性更高。[0035]步驟102、根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽取。[0036]具體的,在本申請實施例中,在對產(chǎn)品檔案信息進行了產(chǎn)品詞抽取后,還可以根據(jù)產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段以及產(chǎn)品檔案的關(guān)鍵字字段。[0037]—方面,分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征(subject_candidate_feature),將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征(provide_products_feature),將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征(attr_desc_feature),將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征(keywords_feature)。[0038]另一方面,根據(jù)產(chǎn)品詞抽取成功的產(chǎn)品檔案信息以及對應(yīng)的產(chǎn)品詞確定相應(yīng)產(chǎn)品檔案的正標(biāo)簽特征(positive_label_feature)和負(fù)標(biāo)簽特征(negative_label_feature)。[0039]其具體實現(xiàn)可以如下:[0040]1、provide_products_feature[0041]把產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段預(yù)處理(分割,換為小寫,提取詞干),對每個詞組計算一個hash值作為特征。[0042]2>keywords_feature[0043]把產(chǎn)品檔案的關(guān)鍵字字段預(yù)處理(分割,換為小寫,提取詞干),對每個詞組計算一個hash值作為特征。[0044]3>attr_desc_feature[0045]把產(chǎn)品檔案的屬性字段預(yù)處理(分割,換為小寫,提取詞干),對每個詞組計算一個hash值作為特征。[0046]4、subjec_candidate_feature[0047]把產(chǎn)品檔案的標(biāo)題字段預(yù)處理后(分割,提取chunk的所有子串,換為小寫,提取詞干),對每個詞組計算一個hashID作為候選詞特征。其中,可以通過對標(biāo)題字段進行詞性識別,將被連詞、介詞或標(biāo)點符號分割開的短語稱為chunk。[0048]5>positive_label_feature[0049]對于成功抽取產(chǎn)品詞的產(chǎn)品檔案信息進行以下特征提取:[0050]I)類型特征,可以至少包括以下一種或幾種:[0051]產(chǎn)品詞是否全大寫(單詞全大寫一般是縮寫特指);其中,若產(chǎn)品詞是全大寫,則對應(yīng)的特征值可以為I;否則,對應(yīng)的特征值為0,下同;[0052]產(chǎn)品詞是否包含數(shù)字;[0053]產(chǎn)品詞是否包含標(biāo)點符號(標(biāo)點符號在候選產(chǎn)品詞產(chǎn)生中作為分割符,但某些特殊的標(biāo)點符號可能不會被認(rèn)為分割符,這和切詞工具有關(guān));[0054]產(chǎn)品詞的詞性是否都相同;[0055]產(chǎn)品詞的詞性(多數(shù)詞的詞性);其中,可以設(shè)置動詞對應(yīng)的特征值為10,名詞對應(yīng)的特征值為11,形容詞對應(yīng)的特征詞為12等,下同。[0056]2)全局特征,可以至少包括以下一種或幾種:[0057]產(chǎn)品詞是否有某個單詞在標(biāo)題中出現(xiàn)多次;[0058]3)Chunk內(nèi)部的上下文特征;可以至少包括以下一種或幾種:[0059]產(chǎn)品詞是否在chunk的最前;[0060]產(chǎn)品詞是否在chunk的最后;[0061]產(chǎn)品詞前面單詞的詞性;[0062]產(chǎn)品詞前面單詞是否全大寫;[0063]產(chǎn)品詞前面單詞是否包含數(shù)字;[0064]產(chǎn)品詞后面單詞的詞性;[0065]產(chǎn)品詞后面單詞是否全大寫;[0066]產(chǎn)品詞后面單詞是否包含數(shù)字。[0067]4)Chunk外部的上下文特征,可以至少包括以下一種或幾種:[0068]產(chǎn)品詞所在chunk是否在標(biāo)題的最后;[0069]產(chǎn)品詞所在chunk是否在標(biāo)題的最前;[0070]產(chǎn)品詞所在chunk的前分割符的詞性;[0071]產(chǎn)品詞所在chunk的后分割符的詞性。[0072]6>negative_label_feature[0073]對于成功抽取產(chǎn)品詞的產(chǎn)品檔案信息進行這一類特征提取,選擇預(yù)設(shè)數(shù)量(兩個)的不同于正樣本產(chǎn)品詞的詞組作為負(fù)樣本,然后抽取特征,做法和positive_label_feature的特征抽取方法相同,在此不再贅述。其中,對于產(chǎn)品檔案信息,在步驟101中抽取的產(chǎn)品詞默認(rèn)為正樣本產(chǎn)品詞,而標(biāo)題中與正樣本產(chǎn)品詞不相同的詞組即可以作為負(fù)樣本。以標(biāo)題為“4GBMP3Player”為例,正樣本產(chǎn)品詞(即產(chǎn)品詞)為“MP3Player”,則負(fù)樣本可以為“MP3”、“Player”或“4GB”等。[0074]步驟103、根據(jù)所抽取的特征和產(chǎn)品檔案信息確定學(xué)習(xí)子模型,并根據(jù)所述學(xué)習(xí)子模塊確定綜合學(xué)習(xí)模型。[0075]其中,在本申請實施例中,學(xué)習(xí)子模型可以包括但不限于先驗概率模型P(Y)、關(guān)鍵字條件概率模型P(KIY)、屬性條件概率模型P(AIY)、類目條件概率模型P(CaIY)、公司條件概率模型P(CoIY)以及標(biāo)題條件概率模型P(TIY)。下面分別對各自學(xué)習(xí)模型的確定進行說明:[0076]在完成特征抽取操作之后,可以將產(chǎn)品詞抽取成功的產(chǎn)品檔案信息切分為兩部分,一部分作為用于標(biāo)題條件概率模型P(TlY)的學(xué)習(xí)樣本(即可以根據(jù)該部分產(chǎn)品檔案信息確定P(TlY)),另一部分作為子學(xué)習(xí)模型及綜合學(xué)習(xí)模型的測試樣本(用于測試各子學(xué)習(xí)模型和綜合學(xué)習(xí)模型的準(zhǔn)確性)。其中,兩部分產(chǎn)品檔案信息的數(shù)量通常不會相差太大。[0077]I)先驗概率模型P(Y)[0078]可以根據(jù)步驟102中得到的特征provide_products_feature統(tǒng)計各詞組對應(yīng)的特征的頻率(即出現(xiàn)次數(shù)),并對頻率超過閾值的特征的頻率取對數(shù),進而進行歸一化處理得到先驗概率模型P(Y)。其中,對頻率取對數(shù)時底數(shù)并不進行限定,即可以取以2為底、以10為底或自然對數(shù)等。[0079]2)關(guān)鍵字條件概率模型P(KIY)[0080]可以利用步驟102中得到的特征subject_candidate_feature和keyword_feature構(gòu)成二分圖的兩個頂點集,如果某個關(guān)鍵字字段中的詞組和某個標(biāo)題字段中的詞組在同一個產(chǎn)品檔案中出現(xiàn),則在這兩個頂點間建立一條邊,邊的權(quán)值為該兩個頂點在同一個產(chǎn)品檔案中出現(xiàn)的次數(shù)。遍歷所有產(chǎn)品詞抽取成功的產(chǎn)品檔案信息,得到帶權(quán)值的二分圖,并在該帶權(quán)值的二分圖上進行randomwalk(隨機游走)確定關(guān)鍵字條件概率模型P(K|Y)。[0081]3)屬性條件概率模型P(AIY)[0082]可以利用步驟102中得到的特征subject_candidate_feature和attr_desc_feature構(gòu)成二分圖的兩個頂點集,如果某個屬性字段中的詞組和某個標(biāo)題字段中的詞組在同一個產(chǎn)品檔案中出現(xiàn),則在這兩個頂點間建立一條邊,邊的權(quán)值為該兩個頂點在同一個產(chǎn)品檔案中出現(xiàn)的次數(shù)。遍歷所有產(chǎn)品詞抽取成功的產(chǎn)品檔案信息,得到帶權(quán)值的二分圖,并通過在該帶權(quán)值的二分圖上進行randomwalk確定屬性條件概率模型P(A|Y)。[0083]4)類目條件概率模型P(Ca|Y)[0084]可以將步驟102中得到的特征subject_candidate_feature作為候選產(chǎn)品詞,并通過統(tǒng)計候選產(chǎn)品詞的類目分布確定類目條件概率模型P(CaIY)。[0085]5)公司條件概率模型P(CoIY)[0086]可以將步驟102中得到的特征subject_candidate_feature作為候選產(chǎn)品詞,并通過統(tǒng)計候選產(chǎn)品詞的公司分布確定公司條件概率模型P(CoIY)。[0087]6)標(biāo)題條件概率模型P(TIY)[0088]標(biāo)題模型表示從標(biāo)題判斷,抽取的詞組是產(chǎn)品詞的可能性,可建模為二分類問題,模型可選擇常見二分類模型,特征數(shù)據(jù)為步驟102抽取的positive_label_feature和negative_label_feature。[0089]確定上述子學(xué)習(xí)模型后,可以根據(jù)上述各子學(xué)習(xí)模型確定對應(yīng)的綜合學(xué)習(xí)模型P(YIO),其具體實現(xiàn)可以通過以下公式實現(xiàn):[0090]P(YIO)=P(TIY)P(KIY)P(AIY)P(SIY)P(CaIY)P(CoIY)P(Y)[0091]得到上述綜合學(xué)習(xí)模型后,可以利用上述確定的測試樣本對各模型進行測試,利用綜合學(xué)習(xí)模型對測試樣本中的產(chǎn)品檔案信息進行識別,并統(tǒng)計準(zhǔn)確率,從而可以根據(jù)該統(tǒng)計結(jié)果對各模型進行調(diào)試和改進。[0092]步驟104、當(dāng)接收到產(chǎn)品識別請求時,根據(jù)綜合學(xué)習(xí)模型及產(chǎn)品識別請求中攜帶的待識別產(chǎn)品檔案信息確定該待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。[0093]具體的,在本申請實施例中,當(dāng)接收到產(chǎn)品識別請求后,可以根據(jù)該產(chǎn)品識別請求中攜帶的待識別產(chǎn)品檔案信息確定候選產(chǎn)品詞,并根據(jù)該待識別產(chǎn)品檔案信息、候選產(chǎn)品詞以及綜合學(xué)習(xí)模型確定所述候選產(chǎn)品詞的概率,并將概率最大的候選產(chǎn)品詞確定為該待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。其具體實現(xiàn)流程可以如下:[0094]1、確定候選產(chǎn)品詞[0095]具體的,可以對待識別產(chǎn)品檔案信息中包含的標(biāo)題做詞性識別,將待識別的產(chǎn)品檔案信息的標(biāo)題中被連詞或介詞或標(biāo)點符號隔開的字符串中所包含的詞組作為候選產(chǎn)品ο[0096]2、抽取特征[0097]其具體實現(xiàn)流程與學(xué)習(xí)階段的特征抽取流程相同,在此不再贅述。[0098]3、廣品識別[0099]對于待識別產(chǎn)品檔案信息,經(jīng)過步驟I和2,獲得候選產(chǎn)品此和各種特征,將其輸入概率模型,分別確定各候選產(chǎn)品詞作為產(chǎn)品詞的概率,并將概率最大的候選產(chǎn)品詞作為該產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。優(yōu)選地,還可以記錄該候選產(chǎn)品詞作為該產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞的概率。[0100]步驟105、根據(jù)所確定的產(chǎn)品詞對待識別的產(chǎn)品檔案信息進行分類。[0101]具體的,在本申請實施例中,可以預(yù)先設(shè)定用于對產(chǎn)品檔案信息進行分類的分類關(guān)鍵詞,當(dāng)確定了待識別的產(chǎn)品檔案信息的產(chǎn)品詞后,根據(jù)預(yù)設(shè)的分類關(guān)鍵詞對所確定的產(chǎn)品詞進行匹配,并根據(jù)匹配結(jié)果確定待識別的產(chǎn)品檔案信息的類別。[0102]基于上述方法實施例相同的技術(shù)構(gòu)思,本申請實施例還提供了一種產(chǎn)品識別系統(tǒng),可以應(yīng)用于上述方法實施例。[0103]如圖2所示,為本申請實施例提供的一種信息分類系統(tǒng)的結(jié)構(gòu)示意圖,可以包括:[0104]存儲模塊21,用于存儲有用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;[0105]第一確定模塊22,用于當(dāng)所述產(chǎn)品識別系統(tǒng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;[0106]特征抽取模塊23,用于分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽??;[0107]第二確定模塊24,用于根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;[0108]分類模塊25,用于根據(jù)所述第二確定模塊24確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。[0109]其中,所述第一確定模塊22可以具體用于,對待識別的產(chǎn)品檔案信息的標(biāo)題做詞性識別,將所述待識別的產(chǎn)品檔案信息的標(biāo)題中被連詞或介詞或標(biāo)點符號隔開的字符串中所包含的詞組作為候選產(chǎn)品詞。[0110]其中,所述特征抽取模塊23可以具體用于,[0111]根據(jù)所述待識別的產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、待識別的產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、待識別的產(chǎn)品檔案的屬性字段以及待識別的產(chǎn)品檔案的關(guān)鍵字字段;[0112]分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;[0113]分別根據(jù)各候選產(chǎn)品詞確定所述待識別的產(chǎn)品檔案信息的正標(biāo)簽特征和負(fù)標(biāo)簽特征。[0114]其中,所述第二確定模塊24可以具體用于,根據(jù)所述候選產(chǎn)品詞以及對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定各候選產(chǎn)品詞作為產(chǎn)品詞的概率;將所述概率最大的候選產(chǎn)品詞確定為所述待識別的產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。[0115]其中,所述分類模塊25具體用于,根據(jù)預(yù)設(shè)的分類關(guān)鍵詞對所確定的關(guān)鍵詞進行匹配,并根據(jù)匹配結(jié)果確定所述待識別的產(chǎn)品檔案信息的類別。[0116]其中,本申請實施例提供的產(chǎn)品識別系統(tǒng)還可以包括:[0117]生成模塊26,用于生成用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;[0118]所述生成模塊26可以具體用于,獲取用于學(xué)習(xí)的產(chǎn)品檔案信息,并對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽?。桓鶕?jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽?。桓鶕?jù)所述特征和產(chǎn)品檔案信息確定學(xué)習(xí)子模型,并根據(jù)所述學(xué)習(xí)子模型確定綜合學(xué)習(xí)模型。[0119]其中,所述生成模塊26可以具體用于通過以下方式對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽取:[0120]根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、以及下述字段中的一個或多個字段:[0121]產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段、或產(chǎn)品檔案的關(guān)鍵字字段;[0122]將滿足預(yù)設(shè)條件的詞組確定為所述產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;[0123]其中,所述預(yù)設(shè)條件包括:[0124]所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且至少在其余一個字段中出現(xiàn);或,[0125]所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且在所有字段中出現(xiàn)的次數(shù)不低于閾值。[0126]其中,所述生成模塊26可以具體用于通過以下方式實現(xiàn)根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽取:[0127]根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段以及產(chǎn)品檔案的關(guān)鍵字字段;[0128]分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;[0129]根據(jù)產(chǎn)品詞抽取成功的產(chǎn)品檔案信息以及對應(yīng)的產(chǎn)品詞確定相應(yīng)產(chǎn)品檔案的正標(biāo)簽特征和負(fù)標(biāo)簽特征。[0130]本領(lǐng)域技術(shù)人員可以理解實施例中的裝置中的模塊可以按照實施例描述進行分布于實施例的裝置中,也可以進行相應(yīng)變化位于不同于本實施例的一個或多個裝置中。上述實施例的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。[0131]通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式。基于這樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例所述的方法。[0132]以上所述僅是本申請的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本【
技術(shù)領(lǐng)域
】的普通技術(shù)人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視本申請的保護范圍?!緳?quán)利要求】1.一種基于產(chǎn)品識別的信息分類方法,其特征在于,信息分類系統(tǒng)中存儲有用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型,該方法包括以下步驟:當(dāng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽?。桓鶕?jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞,并根據(jù)所確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。2.如權(quán)利要求1所述的方法,其特征在于,所述確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞,具體為:對待識別的產(chǎn)品檔案信息的標(biāo)題做詞性識別,將所述待識別的產(chǎn)品檔案信息的標(biāo)題中被連詞或介詞或標(biāo)點符號隔開的字符串中所包含的詞組作為候選產(chǎn)品詞。3.如權(quán)利要求1所述的方法,其特征在于,所述分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽取,具體為:根據(jù)所述待識別的產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、待識別的產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、待識別的產(chǎn)品檔案的屬性字段以及待識別的產(chǎn)品檔案的關(guān)鍵字字段;分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;分別根據(jù)各候選產(chǎn)品詞確定所述待識別的產(chǎn)品檔案信息的正標(biāo)簽特征和負(fù)標(biāo)簽特征。4.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞,具體為:根據(jù)所述候選產(chǎn)品詞以及對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定各候選產(chǎn)品詞作為產(chǎn)品詞的概率;將所述概率最大的候選產(chǎn)品詞確定為所述待識別的產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。5.如權(quán)利要求1所述的方法,其特征在于,還包括:所述根據(jù)所確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類,具體為:根據(jù)預(yù)設(shè)的分類關(guān)鍵詞對所確定的產(chǎn)品詞進行匹配,并根據(jù)匹配結(jié)果確定所述待識別的產(chǎn)品檔案信息的類別。6.如權(quán)利要求1所述的方法,其特征在于,還包括:生成用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;所述生成用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型,具體為:獲取用于學(xué)習(xí)的產(chǎn)品檔案信息,并對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽??;根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽取;根據(jù)所述特征和產(chǎn)品檔案信息確定學(xué)習(xí)子模型,并根據(jù)所述學(xué)習(xí)子模型確定綜合學(xué)習(xí)模型。7.如權(quán)利要求6所述的方法,其特征在于,所述對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽取,具體為:根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、以及下述字段中的一個或多個字段:產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段、或產(chǎn)品檔案的關(guān)鍵字字段;將滿足預(yù)設(shè)條件的詞組確定為所述產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;其中,所述預(yù)設(shè)條件包括:所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且至少在其余一個字段中出現(xiàn);或,所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且在所有字段中出現(xiàn)的次數(shù)不低于閾值。8.如權(quán)利要求6所述的方法,其特征在于,所述根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽取,具體為:根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段以及產(chǎn)品檔案的關(guān)鍵字字段;分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;根據(jù)產(chǎn)品詞抽取成功的產(chǎn)品檔案信息以及對應(yīng)的產(chǎn)品詞確定相應(yīng)產(chǎn)品檔案的正標(biāo)簽特征和負(fù)標(biāo)簽特征。9.一種信息分類系統(tǒng),其特征在于,包括:存儲模塊,用于存儲有用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;第一確定模塊,用于當(dāng)所述產(chǎn)品識別系統(tǒng)接收到產(chǎn)品識別請求時,確定待識別的產(chǎn)品檔案信息的候選產(chǎn)品詞;特征抽取模塊,用于分別根據(jù)所確定的候選產(chǎn)品詞對所述待識別產(chǎn)品檔案信息進行特征抽??;第二確定模塊,用于根據(jù)所述候選產(chǎn)品詞及其對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定所述待識別產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;分類模塊,用于根據(jù)所述第二確定模塊確定的產(chǎn)品詞對所述待識別的產(chǎn)品檔案信息進行分類。10.如權(quán)利要求9所述的信息分類系統(tǒng),其特征在于,所述第一確定模塊具體用于,對待識別的產(chǎn)品檔案信息的標(biāo)題做詞性識別,將所述待識別的產(chǎn)品檔案信息的標(biāo)題中被連詞或介詞或標(biāo)點符號隔開的字符串中所包含的詞組作為候選產(chǎn)品詞。11.如權(quán)利要求9所述的信息分類系統(tǒng),其特征在于,所述特征抽取模塊具體用于,根據(jù)所述待識別的產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、待識別的產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、待識別的產(chǎn)品檔案的屬性字段以及待識別的產(chǎn)品檔案的關(guān)鍵字字段;分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;分別根據(jù)各候選產(chǎn)品詞確定所述待識別的產(chǎn)品檔案信息的正標(biāo)簽特征和負(fù)標(biāo)簽特征。12.如權(quán)利要求9所述的信息分類系統(tǒng),其特征在于,所述第二確定模塊具體用于,根據(jù)所述候選產(chǎn)品詞以及對應(yīng)的特征、所述學(xué)習(xí)子模型以及所述綜合學(xué)習(xí)模型確定各候選產(chǎn)品詞作為產(chǎn)品詞的概率;將所述概率最大的候選產(chǎn)品詞確定為所述待識別的產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞。13.如權(quán)利要求9所述的信息分類系統(tǒng),其特征在于,所述分類模塊具體用于,根據(jù)預(yù)設(shè)的分類關(guān)鍵詞對所確定的關(guān)鍵詞進行匹配,并根據(jù)匹配結(jié)果確定所述待識別的產(chǎn)品檔案信息的類別。14.如權(quán)利要求9所述的信息分類系統(tǒng),其特征在于,還包括:生成模塊,用于生成用于產(chǎn)品識別的學(xué)習(xí)子模型以及由所述學(xué)習(xí)子模型組成的綜合學(xué)習(xí)模型;所述生成模塊具體用于,獲取用于學(xué)習(xí)的產(chǎn)品檔案信息,并對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽??;根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽??;根據(jù)所述特征和產(chǎn)品檔案信息確定學(xué)習(xí)子模型,并根據(jù)所述學(xué)習(xí)子模型確定綜合學(xué)習(xí)模型。15.如權(quán)利要求14所述的信息分類系統(tǒng),其特征在于,所述生成模塊具體用于通過以下方式對所述產(chǎn)品檔案信息進行產(chǎn)品詞抽取:根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、以及下述字段中的一個或多個字段:產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段、或產(chǎn)品檔案的關(guān)鍵字字段;將滿足預(yù)設(shè)條件的詞組確定為所述產(chǎn)品檔案信息對應(yīng)的產(chǎn)品詞;其中,所述預(yù)設(shè)條件包括:所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且至少在其余一個字段中出現(xiàn);或,所述詞組在所述產(chǎn)品檔案的標(biāo)題字段中出現(xiàn),且在所有字段中出現(xiàn)的次數(shù)不低于閾值。16.如權(quán)利要求14所述的信息分類系統(tǒng),其特征在于,所述生成模塊具體用于通過以下方式實現(xiàn)根據(jù)產(chǎn)品詞抽取結(jié)果對所述產(chǎn)品檔案信息進行特征抽取:根據(jù)所述產(chǎn)品檔案信息獲取產(chǎn)品檔案的標(biāo)題字段、產(chǎn)品檔案關(guān)聯(lián)的賣家檔案中的供應(yīng)產(chǎn)品字段、產(chǎn)品檔案的屬性字段以及產(chǎn)品檔案的關(guān)鍵字字段;分別獲取各字段中包含的詞組,確定各詞組的hash值,并將標(biāo)題字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的標(biāo)題特征,將供應(yīng)產(chǎn)品字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的供應(yīng)產(chǎn)品特征,將屬性字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的屬性特征,將關(guān)鍵字字段中詞組的hash值作為相應(yīng)產(chǎn)品檔案的關(guān)鍵詞特征;根據(jù)產(chǎn)品詞抽取成功的產(chǎn)品檔案信息以及對應(yīng)的產(chǎn)品詞確定相應(yīng)產(chǎn)品檔案的正標(biāo)簽特征和負(fù)標(biāo)簽特征?!疚臋n編號】G06Q30/00GK103577989SQ201210266047【公開日】2014年2月12日申請日期:2012年7月30日優(yōu)先權(quán)日:2012年7月30日【發(fā)明者】金華興,陳鏡,林鋒申請人:阿里巴巴集團控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
准格尔旗| 白城市| 民权县| 丰城市| 八宿县| 措勤县| 隆昌县| 泰和县| 兴和县| 安国市| 丹江口市| 盘锦市| 西华县| 民勤县| 卢龙县| 马边| 八宿县| 涟源市| 文登市| 宜黄县| 新龙县| 普格县| 岳普湖县| 久治县| 凤翔县| 正安县| 江川县| 兴化市| 舞钢市| 昆山市| 永泰县| 鄂尔多斯市| 威海市| 甘泉县| 澄迈县| 西乌珠穆沁旗| 名山县| 巫溪县| 绥宁县| 察哈| 福鼎市|