中文分詞場景庫更新方法和系統(tǒng)與流程

文檔序號：11950239閱讀：來源：國知局

技術特征：

1.一種中文分詞場景庫更新方法，所述場景庫包括至少一個主題詞典，其特征在于，所述中文分詞場景庫更新方法包括：

在語句的正確分詞結果中，選擇一個分詞；

基于所述正確分詞結果，構造所述分詞的特征；

針對所述場景庫的每個主題詞典，計算所述特征的最大熵模型得分；

比較所述最大熵模型得分中的最大值與第一預定閾值，如果所述最大值大于所述第一預定閾值，將所述分詞添加到所述最大值對應的主題詞典中。

2.根據(jù)權利要求1所述的中文分詞場景庫更新方法，其特征在于，通過以下方式基于所述正確分詞結果構造所述分詞的特征：

所述正確分詞結果包括L個分詞，依次為z₁至z_L，其中第i個分詞z_i的特征包括：

z_i-2，z_i-1，z_i+1，z_i+2，z_iz_i+1,z_i+1z_i+2，z_i-1z_i，z_i-2z_i-1，z_i-1z_i+1。

3.根據(jù)權利要求1所述的中文分詞場景庫更新方法，其特征在于，還包括：

在所述場景庫中建立熱點詞庫；

選擇與所述場景庫的應用場景相關聯(lián)的至少一個語料，將所述至少一個語料中出現(xiàn)次數(shù)大于第二預定閾值的分詞作為熱點分詞；

判斷所述熱點分詞是否存在于所述場景庫中；

將不存在于所述場景庫中的熱點分詞添加到所述熱點詞庫中。

4.根據(jù)權利要求1所述的中文分詞場景庫更新方法，其特征在于，所述場景庫為二進制格式的文件。

5.根據(jù)權利要求4所述的中文分詞場景庫更新方法，其特征在于，還包括：

建立備用文本文件；

通過手動方式將與所述場景庫的主題詞典相關聯(lián)的分詞添加到所述備用文本文件中。

6.一種中文分詞場景庫更新系統(tǒng)，所述場景庫包括至少一個主題詞典，其特征在于，所述中文分詞場景庫更新系統(tǒng)包括：

分詞選擇模塊，用于在語句的正確分詞結果中，選擇一個分詞；

分詞特征構造模塊，用于基于所述正確分詞結果，構造所述分詞的特征；

計算模塊，用于針對所述場景庫的每個主題詞典，計算所述特征的最大熵模型得分；

主題詞典更新模塊，比較所述最大熵模型得分中的最大值與第一預定閾值，如果所述最大值大于所述第一預定閾值，將所述分詞添加到所述最大值對應的主題詞典中。

7.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng)，其特征在于，所述分詞特征構造模塊通過以下方式基于所述正確分詞結果構造所述分詞的特征：

所述正確分詞結果包括L個分詞，依次為z₁至z_L，其中第i個分詞z_i的特征包括：

z_i-2，z_i-1，z_i+1，z_i+2，z_iz_i+1,z_i+1z_i+2，z_i-1z_i，z_i-2z_i-1，z_i-1z_i+1。

8.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng)，其特征在于，還包括：

熱點詞庫建立模塊，用于在所述場景庫中建立熱點詞庫；

熱點分詞選擇模塊，用于選擇與所述場景庫的應用場景相關聯(lián)的至少一個語料，將所述至少一個語料中出現(xiàn)次數(shù)大于第二預定閾值的分詞作為熱點分詞；

判斷模塊，用于判斷所述熱點分詞是否存在于所述場景庫中；

熱點分詞添加模塊，用于將不存在于所述場景庫中的熱點分詞添加到所述熱點詞庫中。

9.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng)，其特征在于，所述場景庫為二進制格式的文件。

10.根據(jù)權利要求9所述的中文分詞場景庫更新系統(tǒng)，其特征在于，還包括：

備用文本文件建立模塊，用于建立備用文本文件；

手動添加模塊，用于通過手動方式將與所述場景庫的主題詞典相關聯(lián)的分詞添加到所述備用文本文件中。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術

網(wǎng)友詢問留言已有0條留言

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频