專利名稱:一種電子商務(wù)字典自動生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種電子商務(wù)字典自動生成方法。主要面向電子商務(wù)領(lǐng)域,電子商務(wù)字典是電子商務(wù)網(wǎng)站應(yīng)用的基礎(chǔ),譬如在搜索、推薦、語義分詞、排序權(quán)重計算等多方面都需要用到。
背景技術(shù):
目前面向電子商務(wù)的字典很少見,目前主流應(yīng)用如淘寶大多采用手工生成或簡單統(tǒng)計生成,也有部分采用機器學(xué)習(xí)的方法去搜集詞條形成字典。但傳統(tǒng)方法的缺點主要包括一是手工處理工作量大二是由于電子商務(wù)領(lǐng)域應(yīng)用新商品層出不窮變化非??欤瑐鹘y(tǒng)方式更新速度慢三是自動生成方法的精確度低,結(jié)果比較粗糙。·
發(fā)明內(nèi)容
本發(fā)明針對電子商務(wù)領(lǐng)域特點,提出一套電子商務(wù)字典的自動生成方法,可從HTML網(wǎng)頁等商品描述數(shù)據(jù)源中提取商品相關(guān)原始信息,通過遞進窮舉方法對文本進行切分,然后結(jié)合相應(yīng)的糾偏和補償算法對字典數(shù)據(jù)進行提純,最終得到高質(zhì)量的電子商務(wù)領(lǐng)域字典。該字典可廣泛使用于搜索、語義分詞、推薦、權(quán)重計算等電子商務(wù)應(yīng)用中。本發(fā)明的技術(shù)方案如下步驟I :數(shù)據(jù)爬取從電子商務(wù)網(wǎng)站、搜索引擎爬取原始商品數(shù)據(jù);步驟2 :預(yù)處理對采集的原始商品數(shù)據(jù)進行預(yù)處理,過濾其中垃圾信息并做結(jié)構(gòu)化處理;步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合,同時累計各種組合出現(xiàn)的頻率,形成完整的包含所有可能組合的粗糙字典;步驟4 :詞頻統(tǒng)計對字典中各個詞條的出現(xiàn)次數(shù)進行統(tǒng)計,對每遇到一次把相應(yīng)詞條的count加I ;步驟5 :歸并處理按規(guī)則五進行合并處理,一組潛在詞如果字?jǐn)?shù)相同、出現(xiàn)次數(shù)相同,同時有公共子串,并且公共子串出現(xiàn)頻率與潛在詞次數(shù)相同,則合并兩個潛在詞為一個字符串;步驟6 :冗余過濾對粗糙字典計算出現(xiàn)頻率,按照規(guī)則一至規(guī)則三過濾掉因窮舉所帶來的冗余詞條;步驟7 :正則式過濾結(jié)合規(guī)則四對開頭和結(jié)尾為特定詞匯的詞條剔除;步驟8 :潛在詞補償對步驟5的結(jié)果依據(jù)規(guī)則六進行處理;步驟9 :低頻詞剔除基于某一個出現(xiàn)頻率的閥值過濾詞典,對于出現(xiàn)次數(shù)小于閥值的直接刪除;步驟10 :特征詞補償對一些電子商務(wù)領(lǐng)域中的特征詞做補償處理,如長度過長的品牌名稱等領(lǐng)域特征詞做補償處理。電子商務(wù)領(lǐng)域新名詞更新頻率高,采用傳統(tǒng)的手工方式去處理工作量大且更新速度慢。本發(fā)明的主要優(yōu)點包括一是生成字典的速度快,采用機器學(xué)習(xí)、智能過濾、糾偏、補償?shù)人惴ㄗ詣由勺值?、可大大提高生成效率。二是生成字典收錄率高,由于采用了遞進窮舉方法對文本進行分詞,因此在分詞過程中很少會漏掉詞條;采用補償?shù)姆椒?,補充了一部分長度較長,同時在電子商務(wù)領(lǐng)域中很有意義的詞條,所以收錄率高。三是生成的字典更加精煉,結(jié)合糾偏、冗余過濾、正則過濾等處理算法,,消除字典中的冗余和錯誤,最終生成的電子商務(wù)字典更加精煉。
具體實施例方式以下結(jié)合具體實施例,對本發(fā)明進行詳細(xì)說明。本方法的詳細(xì)實現(xiàn)步驟包括步驟I :數(shù)據(jù)爬取從電子商務(wù)網(wǎng)站、搜索引擎等原始數(shù)據(jù)源爬取原始數(shù)據(jù),原始數(shù) 據(jù)一般為HTML網(wǎng)頁,HTML網(wǎng)頁中包含商品名稱、型號、描述等商品信息;通過文本抽取和分類后保存為包含商品信息的粗糙文本;步驟2 :預(yù)處理分析文本中的HTML標(biāo)簽,過濾步驟I中商品信息的垃圾數(shù)據(jù),如圖像鏈接、網(wǎng)址、HTML標(biāo)簽;然后對商品信息做結(jié)構(gòu)化處理,獲得不含標(biāo)點符號和HTML標(biāo)簽的商品描述純文本信息;步驟3 :遞進窮舉對采集的信息文本做全切分,初始位置為文本字符串的第一個字符,按合理長度(可調(diào)整)向后切分字符串,采用遞進窮舉方法每次遞進一個字符在一個合理的范圍內(nèi)(默認(rèn)為6)窮舉各種分詞組合,形成包含較多冗余數(shù)據(jù)的粗糙字典Z ;步驟4 :詞頻統(tǒng)計對字典Z中各個詞條的出現(xiàn)次數(shù)進行統(tǒng)計,對每遇到一次把相應(yīng)詞條的count加I :步驟5 :歸并處理按規(guī)則5進行合并處理,一組潛在詞如果字?jǐn)?shù)相同、出現(xiàn)次數(shù)相同,同時有公共子串,并且公共子串出現(xiàn)頻率與潛在詞次數(shù)相同,則合并兩個潛在詞為一個字符串;步驟6 :冗余過濾對粗糙字典計算出現(xiàn)頻率,按照規(guī)則1-3過濾掉因窮舉所帶來的冗余詞條;步驟7 :正則式過濾結(jié)合規(guī)則4對開頭和結(jié)尾為特定詞匯的詞條剔除;步驟8 :潛在詞補償對步驟5的結(jié)果依據(jù)規(guī)則6進行處理;步驟9 :低頻詞剔除基于某一個出現(xiàn)頻率的閥值過濾詞典,對于出現(xiàn)次數(shù)小于閥值的直接刪除步驟10 ;特征詞補償對一些電子商務(wù)領(lǐng)域中的特征詞做補償處理,比如品牌、屬性名等直接作為有效詞加入字典中(如長度過長的品牌名稱等領(lǐng)域特征詞做補償處理)I、規(guī)則一基于公共前綴或公共后綴過濾重復(fù)提取的無效子串經(jīng)過遞進窮舉處理后,會產(chǎn)生大量重復(fù)提取的無效子串,對有公共前綴或公共后綴且長度相同的潛在詞過濾掉重復(fù)提取的公共前綴或公共后綴,比如如下情況
Wordcount器類型775
傳感器類型 627 溫控器類型 99 取景器類型 48 顯示器類型 I775 = 627+99+48+1
片拍攝532
短片拍攝 338 照片拍攝 180 影片拍攝 11 相片拍攝3532 = 338+180+11+3以上第一個例子是包含潛在詞“器類型”的最短潛在詞(字?jǐn)?shù)為5)有共同的后綴(如果是共同前綴也可)“器類型”,并且count之和與“器類型”的count —致,說明“器類型”沒有單獨作為一個詞出現(xiàn)過,這種情況下將“器類型”從潛在詞表中刪除。第二個例子是包含潛在詞“片拍攝”的最短潛在詞(字?jǐn)?shù)為4)有共同的后綴(如果是共同的前綴也可)“片拍攝”,并且count之和與“片拍攝”的count —致,說明“片拍
攝”沒有單獨作為一個詞出現(xiàn)過,這種情況下將“器類型”從潛在詞表中刪除。
Wordcount
控器387
溫控器342
遙控器38
搖控器6387-342-38-6 = I這個例子含潛在詞“控器”的最短潛在詞(字?jǐn)?shù)為3)有共同的后綴(如果是共同的前綴也可)“控器”,并且count之和與“控器”的count非常接近(這個可以通過一個閥值界定),說明“片拍攝”單獨作為一個詞出現(xiàn)的最大次數(shù)為他們的差值,這種情況下將“控器”的count減掉其余所有count的和。2、規(guī)則二 基于統(tǒng)計次數(shù)的等頻重復(fù)子串過濾(I)把所有出現(xiàn)次數(shù)相同的潛在詞,用最長的一個去跟其它的比較,其它所有是最長潛在詞的子串的潛在詞,從潛在詞詞典中刪除。這種情況說明其它最長潛在詞的子串只能出現(xiàn)在最長潛在詞中,其它情況下不會出現(xiàn),所以把最長的留下就可以了,其余的都是垃圾。舉例如下
wordcount
禮品箱包340
禮品箱340
品箱包340
品箱340 工作340盡管個數(shù)相同,但是因為不是禮品箱包的子串,所以依然保留;這樣做有兩個好處1)減少了很多垃圾;2)留下的最長潛在詞對我們做最長匹配
很有意義。(2)另一個例子
wordcount
非質(zhì)量問題108
非質(zhì)量問108
非質(zhì)量108
非質(zhì)108
針織108
針對108
英國108
美麗108是一種108
攜帶108
揚聲器108
成的108
感器108
強大108
布擦108·尚男108
聲器108
售出108
品味108
傳感器108
人性108
下的108這種情況下我之前說的用最長潛在詞去匹配的做法會對數(shù)據(jù)處理不徹底,比如本例中只有“非質(zhì)量問題”的垃圾子串能處理掉;“時尚男”,“傳感器”,“揚聲器”的垃圾子串處理不掉。所以我想我們的處理策略變一下,依次用長度遞增的潛在詞去匹配其它更長的潛在詞,比如本例中首先用每一個長度為2的潛在詞去匹配所有長度大于2的潛在詞,去除長度為2的垃圾;然后用長度為3的潛在詞去匹配長度大于3的潛在詞,去除長度為3的垃圾,...直到所有都處理完。這個問題需要盡快處理,潛在詞庫中這種情況特別多,隨著產(chǎn)品數(shù)量的增加還會更多。我們在審核之前需要去除盡可能多的垃圾,以便我們做進一步的優(yōu)化。3、規(guī)則三基于統(tǒng)計次數(shù)的相近頻率重復(fù)子串過濾譬如有以下切分結(jié)果,word代表已切分出的詞條,count代表統(tǒng)計的出現(xiàn)頻率
wordcount
傳感1754傳感器1750
數(shù)碼相1078
數(shù)碼相機1025
定電1200
額定電1184
額定電壓1061
不銹1175 銹鋼1168
不銹鋼1167
國大1266
大陸1258 (盡管是一個有意義的詞,但是在電商里
面單獨出現(xiàn)就是沒有多大意義)
中國大1255
中國大陸1246如果把這些情況下的垃圾數(shù)據(jù)處理掉,估計potentiai phrase中垃圾已不多。因此做法是如果某個潛在詞(比如數(shù)碼相)是另外一個詞的子串(數(shù)碼相機),并且出現(xiàn)的頻率非常接近,可以設(shè)定一個閥值(比如長詞出現(xiàn)頻率>短詞出現(xiàn)頻率的90%,閥值根據(jù)情況調(diào)整),則將較短潛在詞的count減掉與它次數(shù)最接近的較長詞的count。這樣做的依據(jù)是較短詞除了作為較長詞字串出現(xiàn)以外,單獨出現(xiàn)的幾率很低,所以這樣的詞可能作為一個有意義的詞單獨出現(xiàn)的最大次數(shù)也就是如上的差值。實際上在其它情況下出現(xiàn)也是作為其它可能更有意義詞的子串。其實這種情況下可以直接把較短詞刪掉的,防止萬一出現(xiàn)誤刪,暫時減少統(tǒng)計次數(shù)就行,我們將來對于出現(xiàn)頻率較低的詞可能根本不做處理,跟刪掉差不多。對于一個有意義的詞會跟任何包含它的更長詞次數(shù)如此接近。有意義的詞單獨出現(xiàn)的概率很高。即便作為其它更長詞的子串出現(xiàn),在各個更長詞中出現(xiàn)次數(shù)也是很分散的,一般不會如此集中。4、規(guī)則4 :基于無效前綴/后綴集合的潛在詞過濾如下是一些例子Word萬像素倍光學(xué)變焦張照片含電池
個配件人評價的頻率前綴出現(xiàn)在某個集合中,去掉前綴之后剩下的部分在已經(jīng)做過部分優(yōu)化的潛在詞字典中出現(xiàn)頻率大于某個閥值,則將這些潛在詞從潛在詞詞典中刪除。使用時拍攝時采用了 模式下相機的后綴出現(xiàn)在某個集合中,去掉后綴之后剩下的部分在已經(jīng)做過部分優(yōu)化的潛在詞字典中出現(xiàn)頻率大于某個閥值,則將這些潛在詞從潛在詞詞典中刪除。5、規(guī)則5 :基于切分邊界錯誤識別的切分糾錯合并規(guī)則只應(yīng)用于最大切分長度的潛在詞,過濾規(guī)則應(yīng)用于所有潛在詞
WordCount
您在購物過404
您在購物過404
您在購物過程404
在購物過程404
在購物過程中404
購物過程中404
購物過程中遇404
物過程中遇404
物過程中遇到404
過程中遇到404
過程中遇到配404
程中遇到配404
程中遇到配送404合并的條件一組潛在詞如果字?jǐn)?shù)相同、出現(xiàn)次數(shù)相同,同時有公共子串,并且公共子串出現(xiàn)頻率與潛在詞次數(shù)相同,則合并兩個潛在詞為一個字符串(所以合并的原因是兩個詞的公共子串出現(xiàn)的次數(shù)與兩個詞相同,則這兩個詞一定出現(xiàn)且只出現(xiàn)在同一個更長的字符串中),同時刪除被合并的潛在詞(潛在詞沒有獨立出現(xiàn),或者是切分錯誤,比如計算機操作系,或者是一個常規(guī)詞的子串,比如“操作系”,因此不會作為一個有意義的詞獨立出現(xiàn),所以刪除)。如“如您在購物過”和“您在購物過程”出現(xiàn)頻率都為404次,且有公共子串“您在購物過”次數(shù)也為404,則合并兩個子串為“如您在購物過程”,頻率計為404,依次掃描其它長度相同的潛在詞,進行合并或者過濾。直到所有滿足條件的潛在詞都處理完,得到“如您在購物過程中遇到配送”,同時刪除如上潛在詞。公共子串的長度要求不小于兩個字,比如“如您在購物過”和“物過程中遇到”公共子串為“物過”,如果“物過”出現(xiàn)次數(shù)為404,可以直接合并兩個子串為“如您在購物過程中遇到”,同時過濾掉所有長度為6的“如您在購物過程中遇到”的子串,繼續(xù)與剩余滿足條件的潛在詞合并。與詞典中其它潛在詞進行比較,刪除所有與得到的長字符串出現(xiàn)頻率相同的子串,比如“如您在購物過程中遇到”出現(xiàn)頻率為404,則刪除所有出現(xiàn)頻率為404的“如您在 購物過程中遇到”的子串“物過”、“在購物過程”等等。6、規(guī)則6 :基于分詞匹配的有效詞補償I)、基于步驟6處理之后的潛在詞詞典做最長匹配分詞處理,如果切分的組合已經(jīng)作為一個潛在詞出現(xiàn)在字典中,則繼續(xù)向后掃描字符串,對于沒有出現(xiàn)在潛在詞字典中的長度不小于2的最長切分組合(在步驟4過濾子串時已經(jīng)過濾掉的)加入到潛在詞詞典中,頻率與字符串的頻率相同。假入字符串為“享受國家三包政策”,進行切分得到“享受”、“國家”、“政策”在字典中已經(jīng)出現(xiàn),則將“三包”加入潛在詞詞典。2)、或者直到掃描到字符串結(jié)尾,都沒有匹配的潛在詞,則將整個字符串作為一個潛在詞加入字典,比如“粉紅色大布娃娃”,假如所有子串都沒有在其它情況下出現(xiàn),則“粉紅色大布娃娃”整體作為一個潛在詞。應(yīng)當(dāng)理解的是,對本領(lǐng)域普通技術(shù)人員來說,可以根據(jù)上述說明加以改進或變換,而所有這些改進和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護范圍。
權(quán)利要求
1..一種電子商務(wù)字典自動生成方法,其特征在于,包括以下步驟 步驟I:數(shù)據(jù)爬取從電子商務(wù)網(wǎng)站、搜索引擎爬取原始商品數(shù)據(jù); 步驟2 :預(yù)處理對采集的原始商品數(shù)據(jù)進行預(yù)處理,過濾其中垃圾信息并做結(jié)構(gòu)化處理; 步驟3 :遞進窮舉采用遞進窮舉方法按合理長度窮舉各種分詞組合,同時累計各種組合出現(xiàn)的頻率,形成完整的包含所有可能組合的粗糙字典; 步驟4 :詞頻統(tǒng)計對字典中各個詞條的出現(xiàn)次數(shù)進行統(tǒng)計,對每遇到一次把相應(yīng)詞條的 count 加 I ; 步驟5 :歸并處理按規(guī)則五進行合并處理,一組潛在詞如果字?jǐn)?shù)相同、出現(xiàn)次數(shù)相同,同時有公共子串,并且公共子串出現(xiàn)頻率與潛在詞次數(shù)相同,則合并兩個潛在詞為一個字符串; 步驟6 :冗余過濾對粗糙字典計算出現(xiàn)頻率,按照規(guī)則一至規(guī)則三過濾掉因窮舉所帶來的冗余詞條; 步驟7 :正則式過濾結(jié)合規(guī)則四對開頭和結(jié)尾為特定詞匯的詞條剔除; 步驟8 :潛在詞補償對步驟5的結(jié)果依據(jù)規(guī)則六進行處理; 步驟9 :低頻詞剔除基于某一個出現(xiàn)頻率的閥值過濾詞典,對于出現(xiàn)次數(shù)小于閥值的直接刪除; 步驟10 :特征詞補償對一些電子商務(wù)領(lǐng)域中的特征詞做補償處理,如長度過長的品牌名稱等領(lǐng)域特征詞做補償處理。
全文摘要
本發(fā)明公開了一種電子商務(wù)字典自動生成方法,包括以下步驟步驟1數(shù)據(jù)爬取從電子商務(wù)網(wǎng)站、搜索引擎爬取原始商品數(shù)據(jù);步驟2預(yù)處理;步驟3遞進窮舉;步驟4詞頻統(tǒng)計;步驟5歸并處理;步驟6冗余過濾;步驟7正則式過濾;步驟8;步驟9低頻詞剔除;步驟10特征詞補償。主要優(yōu)點包括一是生成字典的速度快,采用機器學(xué)習(xí)、智能過濾、糾偏、補償?shù)人惴ㄗ詣由勺值洹⒖纱蟠筇岣呱尚?。二是生成字典收錄率高,由于采用了遞進窮舉方法對文本進行分詞,因此在分詞過程中很少會漏掉詞條。三是生成的字典更加精煉,結(jié)合糾偏、冗余過濾、正則過濾等處理算法,消除字典中的冗余和錯誤,最終生成的電子商務(wù)字典更加精煉。
文檔編號G06F17/27GK102902757SQ201210359050
公開日2013年1月30日 申請日期2012年9月25日 優(yōu)先權(quán)日2012年9月25日
發(fā)明者姚明東, 范英磊, 陳浩 申請人:姚明東