本發(fā)明涉及信息處理領域,特別是一種基于搜索埋點的新詞挖掘方法。
背景技術:
在自然語言處理或計算機語言中,新詞是指以前從來沒有出現(xiàn)過的詞匯,或者在詞典中沒有收錄的詞匯。隨著計算機網絡技術的快速發(fā)展和推廣,網絡數(shù)據(jù)急劇膨脹,這些數(shù)據(jù)具有更新速度快,數(shù)據(jù)量龐大、數(shù)據(jù)組織形式不規(guī)范等特點,但卻蘊藏著極多的有價值信息。另外由于人們相互交流需求的增加,網絡成為信息發(fā)布、傳播的平臺。由此產生的一些網絡用語、熱門詞匯,被廣泛的運用到了實際生活中,影響著人們的生活,一些新詞逐漸被人們所接受,擴充了漢語詞匯。這些新出現(xiàn)的詞匯呈現(xiàn)出產生速度快、覆蓋領域廣的特點,往往散落在海量的網絡文本中,靠人工去查看和檢索是不可想象的。
新詞常常是對新事物或新事件的概述,在構成方面沒有普遍同一的規(guī)律,常常不符合漢子的構詞規(guī)則,并且新詞產生速度快,覆蓋范圍廣,語料收集工作較難同步。因此傳統(tǒng)的基于統(tǒng)計和基于規(guī)則進行新詞識別的方法已無法滿足快速、準確地發(fā)現(xiàn)新詞的需求。
技術實現(xiàn)要素:
針對所提到的問題,本發(fā)明提供了一種基于搜索埋點的新詞挖掘方法,步驟包括:
1)埋點系統(tǒng)搜集用戶輸入的搜索行為,并將搜集到的行為數(shù)據(jù)存儲到存儲系統(tǒng);
2)新詞挖掘系統(tǒng)從所述存儲系統(tǒng)取出行為數(shù)據(jù),并解析出所述行為數(shù)據(jù)中所攜帶的搜索關鍵字,如果所述關鍵字不存在詞庫中,則進行以下操作;
3)數(shù)據(jù)分析
所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};
4)行為統(tǒng)計分析
當行為數(shù)據(jù)的字段“行為”與預設的行為一致,則所述字段“行為”對應的字段“關鍵字”的行為頻率累加一次;
5)獨立詞頻統(tǒng)計
計算字段“關鍵字”對應的不同的“用戶ID”數(shù)目,所述數(shù)目為該“關鍵字”的詞頻;
6)數(shù)據(jù)合并
根據(jù)步驟4和步驟5,計算出相同關鍵字的所述行為頻率和詞頻,合并以后的結果為{關鍵字,行為頻率,詞頻};
7)過濾
將步驟6計算出的所述行為頻率和詞頻與預設值進行對比,當滿足條件時,判斷所述關鍵字為新詞;
8)更新新詞到詞庫。
優(yōu)選方案是:所述定期從所述存儲系統(tǒng)取出行為數(shù)據(jù)包括上次獲取結束到當前時間段的時間內的所有數(shù)據(jù)。
優(yōu)選方案是:通過會話ID將所述行為數(shù)據(jù)聯(lián)系起來。
優(yōu)選方案是:所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,如果所述關鍵字的字符長度低于最低長度閾值或高于最長長度閾值,則判斷所述關鍵字不是新詞。
優(yōu)選方案是:所述行為頻率大于所述預設值時,所述行為頻率對應的關鍵字判斷不是新詞。
優(yōu)選方案是:所述詞頻大于所述預設值時,所述詞頻對應的關鍵字判斷是新詞。
本發(fā)明適用于覆蓋范圍廣、更新速度快的網頁文本數(shù)據(jù)集,能夠實現(xiàn)快速、準確的從網頁文本中發(fā)現(xiàn)新詞,適用于熱詞挖掘等方面的應用。
附圖說明
圖1為本發(fā)明的流程示意圖。
具體實施方式
下面結合附圖對本發(fā)明做進一步的詳細說明,以令本領域技術人員參照說明書文字能夠據(jù)以實施。
應當理解,本文所使用的諸如“具有”、“包含”以及“包括”術語并不配出一個或多個其它元件或其組合的存在或添加。
本發(fā)明提供了一種基于搜索埋點的新詞挖掘方法,步驟包括:
1)埋點系統(tǒng)搜集用戶輸入的搜索行為,并將搜集到的行為數(shù)據(jù)存儲到存儲系統(tǒng);
2)新詞挖掘系統(tǒng)從所述存儲系統(tǒng)取出行為數(shù)據(jù),并解析出所述行為數(shù)據(jù)中所攜帶的搜索關鍵字,如果所述關鍵字不存在詞庫中,則進行以下操作;
3)數(shù)據(jù)分析
所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};
4)行為統(tǒng)計分析
當行為數(shù)據(jù)的字段“行為”與預設的行為一致,則所述字段“行為”對應的字段“關鍵字”的行為頻率累加一次;
5)獨立詞頻統(tǒng)計
計算字段“關鍵字”對應的不同的“用戶ID”數(shù)目,所述數(shù)目為該“關鍵字”的詞頻;
6)數(shù)據(jù)合并
根據(jù)步驟4和步驟5,計算出相同關鍵字的所述行為頻率和詞頻,合并以后的結果為{關鍵字,行為頻率,詞頻};
7)過濾
將步驟6計算出的所述行為頻率和詞頻與預設值進行對比,當滿足條件時,判斷所述關鍵字為新詞;
8)更新新詞到詞庫。
所述行為數(shù)據(jù)包括用戶搜索的關鍵字。
所述定期從所述存儲系統(tǒng)取出行為數(shù)據(jù)包括上次獲取結束到當前時間段的時間內的所有數(shù)據(jù)。
通過會話ID將所述行為數(shù)據(jù)聯(lián)系起來。
所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,如果所述關鍵字的字符長度低于最低長度閾值或高于最長長度閾值,則判斷所述關鍵字不是新詞。
所述行為頻率大于所述預設值時,所述行為頻率對應的關鍵字判斷不是新詞。
所述詞頻大于所述預設值時,所述詞頻對應的關鍵字判斷是新詞。
實施例
1)在購物某網站,用戶輸入想要購買的商品名稱“AAA”,所述“AAA”即為關鍵字;
2)埋點系統(tǒng)將用戶的搜索行為數(shù)據(jù)存儲到存儲系統(tǒng);
3)新詞挖掘系統(tǒng)判斷所述商品名稱“AAA”是否存在詞庫中,如果所述商品名稱“AAA”存在所述詞庫中,則直接丟棄,如果所述商品名稱“AAA”不存在詞庫,則進行以下操作;
4)所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};
5)當用戶將商品名稱“AAA”的產品放入購物車中,則關鍵字為“AAA”的行為頻率累加一次,本實施例關鍵字為“AAA”的行為頻率為8;
6)本實施中共有9個用戶在定期時間內搜索關鍵字“AAA”則關鍵字為“AAA”的詞頻為9;
7)將計算出的關鍵字“AAA”的行為頻率和詞頻合并,合并結果為{AAA,8,9};
8)本實施例中行為頻率的預設值為10,詞頻為7,則關鍵字為“AAA”的行為頻率8<預設值10,關鍵字為“AAA”的詞頻9>預設值7,則判斷關鍵字為“AAA”為新詞;
9)將關鍵字為“AAA”更新到詞庫中。
盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領域,對于熟悉本領域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細節(jié)和這里示出與描述的圖例。