欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于搜索埋點的新詞挖掘方法與流程

文檔序號:12364214閱讀:1141來源:國知局

本發(fā)明涉及信息處理領域,特別是一種基于搜索埋點的新詞挖掘方法。



背景技術:

在自然語言處理或計算機語言中,新詞是指以前從來沒有出現(xiàn)過的詞匯,或者在詞典中沒有收錄的詞匯。隨著計算機網絡技術的快速發(fā)展和推廣,網絡數(shù)據(jù)急劇膨脹,這些數(shù)據(jù)具有更新速度快,數(shù)據(jù)量龐大、數(shù)據(jù)組織形式不規(guī)范等特點,但卻蘊藏著極多的有價值信息。另外由于人們相互交流需求的增加,網絡成為信息發(fā)布、傳播的平臺。由此產生的一些網絡用語、熱門詞匯,被廣泛的運用到了實際生活中,影響著人們的生活,一些新詞逐漸被人們所接受,擴充了漢語詞匯。這些新出現(xiàn)的詞匯呈現(xiàn)出產生速度快、覆蓋領域廣的特點,往往散落在海量的網絡文本中,靠人工去查看和檢索是不可想象的。

新詞常常是對新事物或新事件的概述,在構成方面沒有普遍同一的規(guī)律,常常不符合漢子的構詞規(guī)則,并且新詞產生速度快,覆蓋范圍廣,語料收集工作較難同步。因此傳統(tǒng)的基于統(tǒng)計和基于規(guī)則進行新詞識別的方法已無法滿足快速、準確地發(fā)現(xiàn)新詞的需求。



技術實現(xiàn)要素:

針對所提到的問題,本發(fā)明提供了一種基于搜索埋點的新詞挖掘方法,步驟包括:

1)埋點系統(tǒng)搜集用戶輸入的搜索行為,并將搜集到的行為數(shù)據(jù)存儲到存儲系統(tǒng);

2)新詞挖掘系統(tǒng)從所述存儲系統(tǒng)取出行為數(shù)據(jù),并解析出所述行為數(shù)據(jù)中所攜帶的搜索關鍵字,如果所述關鍵字不存在詞庫中,則進行以下操作;

3)數(shù)據(jù)分析

所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};

4)行為統(tǒng)計分析

當行為數(shù)據(jù)的字段“行為”與預設的行為一致,則所述字段“行為”對應的字段“關鍵字”的行為頻率累加一次;

5)獨立詞頻統(tǒng)計

計算字段“關鍵字”對應的不同的“用戶ID”數(shù)目,所述數(shù)目為該“關鍵字”的詞頻;

6)數(shù)據(jù)合并

根據(jù)步驟4和步驟5,計算出相同關鍵字的所述行為頻率和詞頻,合并以后的結果為{關鍵字,行為頻率,詞頻};

7)過濾

將步驟6計算出的所述行為頻率和詞頻與預設值進行對比,當滿足條件時,判斷所述關鍵字為新詞;

8)更新新詞到詞庫。

優(yōu)選方案是:所述定期從所述存儲系統(tǒng)取出行為數(shù)據(jù)包括上次獲取結束到當前時間段的時間內的所有數(shù)據(jù)。

優(yōu)選方案是:通過會話ID將所述行為數(shù)據(jù)聯(lián)系起來。

優(yōu)選方案是:所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,如果所述關鍵字的字符長度低于最低長度閾值或高于最長長度閾值,則判斷所述關鍵字不是新詞。

優(yōu)選方案是:所述行為頻率大于所述預設值時,所述行為頻率對應的關鍵字判斷不是新詞。

優(yōu)選方案是:所述詞頻大于所述預設值時,所述詞頻對應的關鍵字判斷是新詞。

本發(fā)明適用于覆蓋范圍廣、更新速度快的網頁文本數(shù)據(jù)集,能夠實現(xiàn)快速、準確的從網頁文本中發(fā)現(xiàn)新詞,適用于熱詞挖掘等方面的應用。

附圖說明

圖1為本發(fā)明的流程示意圖。

具體實施方式

下面結合附圖對本發(fā)明做進一步的詳細說明,以令本領域技術人員參照說明書文字能夠據(jù)以實施。

應當理解,本文所使用的諸如“具有”、“包含”以及“包括”術語并不配出一個或多個其它元件或其組合的存在或添加。

本發(fā)明提供了一種基于搜索埋點的新詞挖掘方法,步驟包括:

1)埋點系統(tǒng)搜集用戶輸入的搜索行為,并將搜集到的行為數(shù)據(jù)存儲到存儲系統(tǒng);

2)新詞挖掘系統(tǒng)從所述存儲系統(tǒng)取出行為數(shù)據(jù),并解析出所述行為數(shù)據(jù)中所攜帶的搜索關鍵字,如果所述關鍵字不存在詞庫中,則進行以下操作;

3)數(shù)據(jù)分析

所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};

4)行為統(tǒng)計分析

當行為數(shù)據(jù)的字段“行為”與預設的行為一致,則所述字段“行為”對應的字段“關鍵字”的行為頻率累加一次;

5)獨立詞頻統(tǒng)計

計算字段“關鍵字”對應的不同的“用戶ID”數(shù)目,所述數(shù)目為該“關鍵字”的詞頻;

6)數(shù)據(jù)合并

根據(jù)步驟4和步驟5,計算出相同關鍵字的所述行為頻率和詞頻,合并以后的結果為{關鍵字,行為頻率,詞頻};

7)過濾

將步驟6計算出的所述行為頻率和詞頻與預設值進行對比,當滿足條件時,判斷所述關鍵字為新詞;

8)更新新詞到詞庫。

所述行為數(shù)據(jù)包括用戶搜索的關鍵字。

所述定期從所述存儲系統(tǒng)取出行為數(shù)據(jù)包括上次獲取結束到當前時間段的時間內的所有數(shù)據(jù)。

通過會話ID將所述行為數(shù)據(jù)聯(lián)系起來。

所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,所述過濾規(guī)則還包括關鍵字字符長度限制規(guī)則,如果所述關鍵字的字符長度低于最低長度閾值或高于最長長度閾值,則判斷所述關鍵字不是新詞。

所述行為頻率大于所述預設值時,所述行為頻率對應的關鍵字判斷不是新詞。

所述詞頻大于所述預設值時,所述詞頻對應的關鍵字判斷是新詞。

實施例

1)在購物某網站,用戶輸入想要購買的商品名稱“AAA”,所述“AAA”即為關鍵字;

2)埋點系統(tǒng)將用戶的搜索行為數(shù)據(jù)存儲到存儲系統(tǒng);

3)新詞挖掘系統(tǒng)判斷所述商品名稱“AAA”是否存在詞庫中,如果所述商品名稱“AAA”存在所述詞庫中,則直接丟棄,如果所述商品名稱“AAA”不存在詞庫,則進行以下操作;

4)所述新詞挖掘系統(tǒng)定期從所述存儲系統(tǒng)取出行為數(shù)據(jù),并將所述行為數(shù)據(jù)解析成至少包括以下字段的格式數(shù)據(jù):{關鍵字,用戶ID,會話ID,行為};

5)當用戶將商品名稱“AAA”的產品放入購物車中,則關鍵字為“AAA”的行為頻率累加一次,本實施例關鍵字為“AAA”的行為頻率為8;

6)本實施中共有9個用戶在定期時間內搜索關鍵字“AAA”則關鍵字為“AAA”的詞頻為9;

7)將計算出的關鍵字“AAA”的行為頻率和詞頻合并,合并結果為{AAA,8,9};

8)本實施例中行為頻率的預設值為10,詞頻為7,則關鍵字為“AAA”的行為頻率8<預設值10,關鍵字為“AAA”的詞頻9>預設值7,則判斷關鍵字為“AAA”為新詞;

9)將關鍵字為“AAA”更新到詞庫中。

盡管本發(fā)明的實施方案已公開如上,但其并不僅僅限于說明書和實施方式中所列運用,它完全可以被適用于各種適合本發(fā)明的領域,對于熟悉本領域的人員而言,可容易地實現(xiàn)另外的修改,因此在不背離權利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細節(jié)和這里示出與描述的圖例。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
清丰县| 宝丰县| 石河子市| 松桃| 霍州市| 白朗县| 章丘市| 衡东县| 高州市| 贺州市| 鹤峰县| 江阴市| 夹江县| 安塞县| 原平市| 托里县| 辽宁省| 威远县| 永福县| 温泉县| 辽阳县| 禄劝| 文安县| 平邑县| 修文县| 祁阳县| 佛坪县| 常德市| 全椒县| 繁昌县| 江安县| 铁岭市| 辉南县| 丽水市| 晋宁县| 清新县| 军事| 寿阳县| 开原市| 延安市| 平阳县|