1.一種中文分詞場景庫更新方法,所述場景庫包括至少一個主題詞典,其特征在于,所述中文分詞場景庫更新方法包括:
在語句的正確分詞結果中,選擇一個分詞;
基于所述正確分詞結果,構造所述分詞的特征;
針對所述場景庫的每個主題詞典,計算所述特征的最大熵模型得分;
比較所述最大熵模型得分中的最大值與第一預定閾值,如果所述最大值大于所述第一預定閾值,將所述分詞添加到所述最大值對應的主題詞典中。
2.根據(jù)權利要求1所述的中文分詞場景庫更新方法,其特征在于,通過以下方式基于所述正確分詞結果構造所述分詞的特征:
所述正確分詞結果包括L個分詞,依次為z1至zL,其中第i個分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
3.根據(jù)權利要求1所述的中文分詞場景庫更新方法,其特征在于,還包括:
在所述場景庫中建立熱點詞庫;
選擇與所述場景庫的應用場景相關聯(lián)的至少一個語料,將所述至少一個語料中出現(xiàn)次數(shù)大于第二預定閾值的分詞作為熱點分詞;
判斷所述熱點分詞是否存在于所述場景庫中;
將不存在于所述場景庫中的熱點分詞添加到所述熱點詞庫中。
4.根據(jù)權利要求1所述的中文分詞場景庫更新方法,其特征在于,所述場景庫為二進制格式的文件。
5.根據(jù)權利要求4所述的中文分詞場景庫更新方法,其特征在于,還包括:
建立備用文本文件;
通過手動方式將與所述場景庫的主題詞典相關聯(lián)的分詞添加到所述備用文本文件中。
6.一種中文分詞場景庫更新系統(tǒng),所述場景庫包括至少一個主題詞典,其特征在于,所述中文分詞場景庫更新系統(tǒng)包括:
分詞選擇模塊,用于在語句的正確分詞結果中,選擇一個分詞;
分詞特征構造模塊,用于基于所述正確分詞結果,構造所述分詞的特征;
計算模塊,用于針對所述場景庫的每個主題詞典,計算所述特征的最大熵模型得分;
主題詞典更新模塊,比較所述最大熵模型得分中的最大值與第一預定閾值,如果所述最大值大于所述第一預定閾值,將所述分詞添加到所述最大值對應的主題詞典中。
7.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng),其特征在于,所述分詞特征構造模塊通過以下方式基于所述正確分詞結果構造所述分詞的特征:
所述正確分詞結果包括L個分詞,依次為z1至zL,其中第i個分詞zi的特征包括:
zi-2,zi-1,zi+1,zi+2,zizi+1,zi+1zi+2,zi-1zi,zi-2zi-1,zi-1zi+1。
8.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng),其特征在于,還包括:
熱點詞庫建立模塊,用于在所述場景庫中建立熱點詞庫;
熱點分詞選擇模塊,用于選擇與所述場景庫的應用場景相關聯(lián)的至少一個語料,將所述至少一個語料中出現(xiàn)次數(shù)大于第二預定閾值的分詞作為熱點分詞;
判斷模塊,用于判斷所述熱點分詞是否存在于所述場景庫中;
熱點分詞添加模塊,用于將不存在于所述場景庫中的熱點分詞添加到所述熱點詞庫中。
9.根據(jù)權利要求6所述的中文分詞場景庫更新系統(tǒng),其特征在于,所述場景庫為二進制格式的文件。
10.根據(jù)權利要求9所述的中文分詞場景庫更新系統(tǒng),其特征在于,還包括:
備用文本文件建立模塊,用于建立備用文本文件;
手動添加模塊,用于通過手動方式將與所述場景庫的主題詞典相關聯(lián)的分詞添加到所述備用文本文件中。