語言文本的分詞方法和系統(tǒng)與流程

文檔序號：12034573閱讀：382來源：國知局

本發(fā)明實施例涉及自然語言處理領域，并且更為具體地，涉及一種語言文本的分詞方法和系統(tǒng)。

背景技術：

分詞是自然語言處理的基本問題之一。所有無詞邊界標記的語言(如：漢語、日語、阿拉伯語等)都面臨分詞問題。分詞系統(tǒng)在信息檢索、機器翻譯、問答系統(tǒng)等領域都有著廣泛的應用。

不同的應用對于分詞系統(tǒng)的輸出有著不同的要求。例如，信息檢索系統(tǒng)對分詞的速度和一致性要求較高。但信息檢索系統(tǒng)對分詞的正確性要求相對較低，如對未登錄詞(未被分詞系統(tǒng)收錄的詞)識別率要求較低。而在機器翻譯系統(tǒng)中，對分詞的正確性要求較高，而對分詞的一致性的要求則相對較低。例如，字串“姜文遠”是一個未登錄詞，在信息檢索應用中，如果分詞系統(tǒng)沒有將“姜文遠”切成一個詞，而是將其切分為“姜”和“文遠”兩個詞，只要分詞系統(tǒng)保證文檔中的所有的“姜文遠”的切分方式保持一致，信息檢索系統(tǒng)就能夠檢索出相關文檔。相比而言，在機器翻譯系統(tǒng)中，如果字串“姜文遠”被切分為“姜”和“文遠”，那么“姜”字就有可能被錯誤的翻譯成英文單詞ginger，導致機器翻譯系統(tǒng)的翻譯結果不準確。

目前的分詞系統(tǒng)都只能滿足某一種特定應用的需要，難以在不用的應用場景下復用?？紤]到行業(yè)內(nèi)有一些公司和機構需要在幾種不同的應用場景下使用分詞系統(tǒng)，它們通常的解決方案是為不同的應用訂制不同的分詞系統(tǒng)。這種方式會導致資源的浪費和系統(tǒng)維護的困難。

技術實現(xiàn)要素：

本申請?zhí)峁┮环N語言文本的分詞方法和系統(tǒng)，能夠適應多種應用場景對分詞系統(tǒng)的不同需求。

第一方面，提供一種語言文本的分詞方法，包括：獲取待處理的第一語言文本和可信度閾值，所述可信度閾值用于指示所述第一語言文本所需的分詞精度；采用第一分詞方式，對所述第一語言文本進行分詞，得到第一詞邊界集合；根據(jù)所述可信度閾值，將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合；根據(jù)所述第三詞邊界集合，從所述第一語言文本中選取第二語言文本，所述第二語言文本包括所述第三詞邊界集合中的每個詞邊界對應的詞；采用第二分詞方式，對所述第二語言文本進行分詞，得到第四詞邊界集合，其中，所述第二分詞方式的分詞精度高于所述第一分詞方式的分詞精度；將所述第二詞邊界集合和所述第四詞邊界集合確定為所述第一語言文本的分詞結果。

通過調(diào)整可信度閾值的大小，能夠靈活調(diào)整第一語言文本所需的分詞精度，從而能夠適應對分詞精度有不同要求的多種應用場景。例如，針對分詞精度要求較高的場景，用戶可以輸入較低的可信度閾值；針對分詞精度要求較低的場景，用戶可以輸入較高的可信度閾值。

結合第一方面，在第一方面的第一種實現(xiàn)方式中，所述根據(jù)所述可信度閾值，將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合，包括：從所述第一詞邊界集合中的每個詞邊界的上下文中選取所述每個詞邊界對應的至少一個詞；提取所述每個詞邊界對應的至少一個詞的特征；根據(jù)所述每個詞邊界對應的至少一個詞的特征，通過預先訓練得到的分類器，確定所述每個詞邊界在所述上下文中的可信度；將所述第一詞邊界集合中的可信度大于所述可信度閾值的詞邊界添加至所述第二詞邊界集合；將所述第一詞邊界集合中的可信度小于或等于所述可信度閾值的詞邊界添加至所述第三詞邊界集合。

通過預先訓練得到的分類器，能夠?qū)崿F(xiàn)第一詞邊界集合的快速分類。

結合第一方面的第一種實現(xiàn)方式，在第一方面的第二種實現(xiàn)方式中，所述根據(jù)所述每個詞邊界對應的至少一個詞的特征，通過預先訓練得到的分類器，確定所述每個詞邊界在所述上下文中的可信度，包括：根據(jù)確定所述每個詞邊界在所述上下文中的可信度，其中，p(true|bi,c)表示所述第一詞邊界集合中的第i個詞邊界bi在所述上下文c中的可信度，s(t,bi,c)表示所述第i個詞邊界bi在所述上下文c中的得分，表示所述至少一個詞的特征中的第j個特征，βj表示所述分類器的參數(shù)，t表示所述分類器對應的類，且t∈{true,false}。

線性分類器能夠加快詞邊界的分類速度。

結合第一方面的第一至第二種實現(xiàn)方式中的任一種，在第一方面的第三種實現(xiàn)方式中，所述從所述第一詞邊界集合中的每個詞邊界的上下文中選取所述每個詞邊界對應的至少一個詞，包括：從所述每個詞邊界的上下文中選取所述每個詞邊界對應的詞、所述每個詞邊界對應的詞的前一詞，以及所述每個詞邊界對應的詞的后一詞。

結合第一方面的第一至第三種實現(xiàn)方式中的任一種，在第一方面的第四種實現(xiàn)方式中，所述分類器的參數(shù)是基于目標語言文本訓練得到的參數(shù)，所述目標語言文本是采用第一分詞方式對詞邊界已知的語言文本進行分詞后得到的語言文本。

采用第一分詞方式對詞邊界已知的語言文本進行分詞，得到目標語言文本，基于目標語言文本訓練分類器參數(shù)，這樣與實際情況更加符合(實際中待分詞的每個語言文本均會先采用第一分詞方式進行分詞)，訓練出的分類器會更加準確。

結合第一方面的第一至第四種實現(xiàn)方式中的任一種，在第一方面的第五種實現(xiàn)方式中，所述從所述第一詞邊界集合中的每個詞邊界的上下文中選取至少一個詞，包括：根據(jù)所述每個詞邊界在所述第一語言文本中的位置，確定所述詞邊界的上下文；從所述上下文中選取所述至少一個詞。

第二方面，提供一種語言文本的分詞系統(tǒng)，包括能夠執(zhí)行第一方面中的方法的模塊。

第三方面，提供一種語言文本的分詞系統(tǒng)，包括存儲器，用于存儲程序；處理器，用于執(zhí)行所述程序，當所述程序被執(zhí)行時，所述處理器執(zhí)行第一方面中的方法。

第四方面，提供一種計算機可讀介質(zhì)，所述計算機可讀介質(zhì)存儲用于分詞系統(tǒng)執(zhí)行的程序代碼，所述程序代碼包括用于執(zhí)行第一方面中的方法的指令。

在某些實現(xiàn)方式中，所述至少一個詞中的每個詞對應的特征包括：所述每個詞的詞長、所述每個詞對應的開銷、所述每個詞在詞典中的類型、所述每個詞的音韻、所述每個詞是否包含詞綴、所述每個詞是否含有格標記，其中，所述每個詞對應的開銷所述每個詞在詞路徑中所占的開銷，所述詞路徑為采用所述第一分詞方式進行分詞后的分詞結果形成的詞路徑。

在某些實現(xiàn)方式中，所述分類器可以是線性分類器。在一個例子中，線性分類器的參數(shù)為所述至少一個詞的特征中的每個特征的權值。線性分類器可以降低計算復雜度。

在某些實現(xiàn)方式中，可信度閾值可用于指示第一語言文本所需的分詞速度。

在某些實現(xiàn)方式中，第一分詞方式的分詞速度可以高于第二分詞方式的分詞速度。

在某些實現(xiàn)方式中，詞邊界對應的詞可以指該詞邊界劃分出的詞。例如，可以指分詞結果中的位于該詞邊界前面的一個詞。

在某些實現(xiàn)方式中，所述分類器的參數(shù)是基于目標語言文本訓練得到的參數(shù)，所述目標語言文本是采用第一分詞方式對詞邊界已知的語言文本進行分詞后得到的詞邊界集合與人工標注的詞邊界集合比較而得到的語言文本。

在某些實現(xiàn)方式中，所述分類器的參數(shù)的訓練數(shù)據(jù)包括用于訓練的語言文本，所述語言文本的已知的詞邊界集合，采用第一分詞方式對所述語言文本進行分詞后得到的詞邊界集合。

在某些實現(xiàn)方式中，所述每個詞邊界的上下文可以指所述每個詞在第一語言文本中的上下文，例如，可以包括第一語言文本中的位于第一詞邊界左邊的詞和/或右邊的詞。

附圖說明

為了更清楚地說明本發(fā)明實施例的技術方案，下面將對本發(fā)明實施例中所需要使用的附圖作簡單地介紹，顯而易見地，下面所描述的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明實施例的分詞系統(tǒng)的結構示例圖。

圖2是本發(fā)明實施例的分詞流程的示意圖。

圖3是本發(fā)明實施例的對語言文本進行簡單分詞的示意性流程圖。

圖4是詞圖的示例圖。

圖5是本發(fā)明實施例的對語言文本進行復雜分詞的示意性流程圖。

圖6是本發(fā)明實施例的分類器的訓練過程的示意性流程圖。

圖7是本發(fā)明實施例的目標語言文本的示例圖。

圖8是本發(fā)明實施例的復雜分詞模塊的示意性結構圖。

圖9是本發(fā)明實施例的基于標記的分詞方式的示例圖。

圖10是本發(fā)明實施例的可信度閾值對分詞結果的曲線圖。

圖11是本發(fā)明實施例的語言文本的分詞系統(tǒng)的示意性結構圖。

圖12是本發(fā)明實施例的語言文本的分詞系統(tǒng)的示意性結構圖。

具體實施方式

為了便于理解，后文將第一分詞方式稱為簡單分詞方式，簡單分詞方式對應的模塊稱為簡單分詞模塊。簡單分詞方式可以使用分詞速度快、分詞一致性高的分詞算法，包括但不限于最短路徑分詞算法；后文將第二分詞方式稱為復雜分詞方式，復雜分詞方式對應的模塊稱為復雜分詞模塊。復雜分詞方式可以使用準確性高、算法復雜度高的分詞算法，包括但不限于基于字標注方法的分詞算法。

圖1是本發(fā)明實施例的分詞系統(tǒng)的結構示例圖。參見圖1，從整體來看，分詞系統(tǒng)的輸入不但包括輸入的第一語言文本，而且包括可信度閾值101，而分詞系統(tǒng)的輸出是基于可信度閾值101對第一語言文本進行切分的分詞結果。下面對各個模塊的功能進行詳細描述。

可信度閾值101：一個用戶輸入的參數(shù)，作為可信度判斷模塊判斷當前簡單分詞模塊的切分是否可信的閾值。可信度閾值例如可以是一個取值范圍在0和1之間的實數(shù)，對于不同應用場景，分詞系統(tǒng)的可信度閾值的取值可以有所不同，如：信息檢索系統(tǒng)對分詞速度和分詞一致性要求較高，所以可信度閾值可以設置得較低(如小于0.5)，而機器翻譯系統(tǒng)對分詞的正確性要求比較高，可信度閾值可以設置的比較高(如大于0.7)。

在一些實施例中，可信度判斷模塊202可以判斷簡單分詞模塊201輸出的分詞結果是否可信?？尚哦扰袛嗄K202可以是預先訓練得到的分類器，該分類器可以是線性分類器，也可以是非線性分類器。

在一些實施例中，合并輸出模塊301可以是將簡單分詞模塊201和復雜分詞模塊203的分詞結果進行合并輸出的模塊。

從圖1可以看出，核心分詞模塊包括3個模塊：簡單分詞模塊201、可信度判斷模塊202以及復雜分詞模塊203。下文以圖2為例，介紹基于上述3個模塊的分詞流程。

具體而言，用戶輸入的第一語言文本首先會經(jīng)過簡單分詞模塊的切分，得到第一詞邊界集合。然后，簡單分詞模塊201的分詞結果可以與用戶輸入的可信度閾值101一起傳給可信度判斷模塊202?？尚哦扰袛嗄K202可以判斷第一詞邊界集合中的每個詞邊界的可信度，將第一詞邊界集合劃分為可信詞邊界集合和不可信詞邊界集合。對于可信詞邊界集合，可以直接傳給合并輸出模塊301，作為最終的分詞輸出；對于不可信詞邊界集合，可以傳給復雜分詞模塊203，進行進一步的切分，然后再輸出到合并輸出模塊301，與可信詞邊界集合合并，作為第一語言文本的最終結果輸出。

在一些實施例中，簡單分詞模塊201的一種可行的技術方案是：采用基于詞典的分詞方式，并利用語言模型和最少分詞原則進行歧義消解。

在一些實施例中，簡單分詞模塊201可以采用圖3所示的流程對第一語言文本進行分詞：

s310、建立詞圖。

具體地，可以利用詞典對第一語言文本進行分詞，并建立分詞結果對應的詞圖。以第一語言文本為“市場中國有企業(yè)”為例，可以建立圖4所示的詞圖。從圖4可以看出，在“中國有”這段文本上存在這兩條交叉的邊，這種情況稱為分詞歧義，將在下面的步驟中進行歧義消除。

s320、第一次歧義消除。

在一些實施例中，可以采用最短路經(jīng)搜索法在詞圖中找到最短的路徑，即從最左邊的節(jié)點到左右邊的節(jié)點邊最少的路徑。若存在唯一的最短路徑，則將這條路徑所表示的分詞結果作為簡單分詞模塊201的分詞結果。

s330、第二次歧義消除。

在一些實施例中，如果通過s320的最短路徑搜索發(fā)現(xiàn)：該詞圖中有多條最短路徑，則可以通過計算各條路徑的開銷來尋找開銷最小的路徑，并將開銷最小的路徑作為簡單分詞模塊201。

在一些實施例中，可以利用一元語言模型計算路徑開銷。一元語言模型可以通過如下公式表示：

c(w)＝-log(p(w))(2)

其中，句子s的開銷c(s)可以等于該句子中所有詞w的開銷的和，對于一個詞w而言，其開銷c(w)則是利用其在一元語言模型中的概率p(w)計算得到。

在一些實施例中，詞典和一元語言模型都可以從一份分詞訓練語料中得到。應理解，簡單分詞模塊201的實現(xiàn)方式包括但不僅限于上述技術方案，凡是計算復雜度低、速度快、切分一致性比較高的分詞方式均可以作為簡單分詞模塊201的實現(xiàn)方式。

在一些實施例中，可信度判斷模塊202的一種可行的技術方案為：線性分類器。對第一詞邊界集合中的詞邊界，線性分類器利用從其上下文中提取的特征對其進行分類，計算第一詞邊界集合中的詞邊界的可信度，并將第一次邊界集合中的詞邊界的可信度與可信度閾值101進行比較，以確定這些詞邊界是否可信。

在一些實施例中，可信度判斷模塊202可以采用圖5所示的算法將第一詞邊界集合中的詞邊界劃分成可信詞邊界集合和不可信詞邊界集合。

s510、提取第一詞邊界集合中的詞邊界對應的特征。

假設第一詞邊界集合中的第i詞邊界為bi，bi對應詞wi，可信度判斷模塊202可以從bi的上下文中提取以下特征：

當前詞wi的詞長、前一詞wi-1的詞長、后一詞wi+1的詞長；

wi的開銷、wi-1的開銷、wi+1的開銷；

wi、wi-1、wi+1在詞典中的類型(人名，地名，機構名,等)；

wi、wi-1、wi+1的其他特征(比如音韻，是否包含詞綴，是否包含格標記)；

上述特征的各種組合。

s520、可信度計算。

在一些實施例中，可以利用線性分類器計算詞邊界bi的可信度：

其中，j可表示線性分類器所使用的特征的下標，fj(t,bi,c)可表示詞邊界bi對應的特征中的第j個特征，βj可表示分類器的參數(shù)，s(t,bi,c)可表示線性分類器對于詞邊界bi的得分，t可表示所述分類器對應的類。按照公式(3)對這個計分進行歸一化，即可得到分詞邊界bi的可信度p(true|bi,c)(在本發(fā)明實施例中，可信度通過可信概率p表示)。

s530、可信度判別。

假設可信度閾值101為h，若p(true|bi,c)>h，則bi可信，傳遞給合并輸出模塊301；若p(true|bi,c)≤h，則bi不可信，傳送給復雜分詞模塊203。

在一些實施例中，在使用線性分類器之前，需要對分類器的參數(shù)βj進行訓練(即對每個特征對應的權值進行訓練)。例如，可以基于訓練數(shù)據(jù)集，通過機器學習的方式訓練得到分類器參數(shù)βj。

在一些實施例中，用于訓練分類器參數(shù)的目標語言文本可以是對詞邊界已知的語言文本(下稱分詞訓練語料)進行簡單分詞后得到的。目標語言文本的制作過程參見圖6。

s610、利用簡單分詞模塊201切分分詞訓練語料。

在一些實施例中，首先可以將分詞訓練語料中的詞邊界標記去掉，得到無標記的語言文本；然后可以用簡單分詞模塊201對該文本進行切分，得到簡單分詞模塊201的分詞結果。

s620、將上述分詞結果中的詞邊界與分詞訓練語料的正確的詞邊界進行一一比較。

通過s620，可以得到一份簡單分詞模塊201輸出的詞邊界集合，其中每個詞邊界都帶有是否正確的標注，這樣就得到了訓練分類器所需的目標語言文本。圖7目標語言文本制作的示例。

進一步地，得到上述訓練數(shù)據(jù)后，可以采用標準的訓練方法來進行分類器的訓練，得到分類器參數(shù)。

在一些實施例中，復雜分詞模塊203可以由兩部分組成，參見圖8。

在一些實施例中，不可信詞邊界收集器可以負責收集連續(xù)的不可信詞邊界，以“斯諾/登/”為例，可以將這些不可信詞邊界所切分的語言文本片段合并為“斯諾登”，作為復雜分詞器的輸入。

在一些實施例中，復雜分詞器可以采用基于字標注的分詞方式。該分詞方式的大致原理是將語言文本的分詞問題轉(zhuǎn)換成給語言文本中的每個字分配一個標記的問題。參見圖9，圖9中的beo可以分別表示字在詞中的位置，o可以表示單字成詞，b可以表示一個多字詞的詞頭，即詞的第一個字，e可以表示多字詞除詞頭外的其他位置。

在一些實施例中，復雜分詞器可以采用如下訓練方式：

首先，可以將有分詞標記的訓練語料轉(zhuǎn)換成漢字和詞位置標記，如圖9所示。

其次，可以利用機器學習模型(最大熵模型，條件隨機場模型，結構化感知機等)學習各個字在一定的上下文中分配何種標記。

在一些實施例中，復雜分詞器可以采用如下分詞方式：

首先，可以利用訓練方式訓練的復雜分詞器的參數(shù)，給輸入的句子的每個字分配一個標記。

然后，根據(jù)字的標記確定如何分詞。

應理解，本發(fā)明實施例對實現(xiàn)復雜分詞模塊203的方式不作具體限定，只要是具有高準確性、高未登錄詞識別能力的分詞方式或算法都可以作為復雜分詞模塊203的實現(xiàn)方案。

在一些實施例中，可信度閾值101可以是一個連續(xù)的變量，例如，可以由分詞系統(tǒng)的用戶提供，與第一語言文本一起傳遞給分詞系統(tǒng)。該變量可以代表應用場景對于分詞結果的要求，比如：信息檢索場景下要求分詞結果速度快、一致性高，機器翻譯或自動問答場景要求分詞結果準確性高。在一個例子中，可以將可信度閾值設置成取值范圍在0和1之間的實數(shù)。

圖10示出了可信度閾值對分詞結果的影響。從圖10可以看出可信度閾值越高，未登錄詞識別能力越高，歧義消解能力越強，分詞結果的正確性就越高，同時分詞的速度和一致性就下降?？尚哦乳撝翟降?，分詞的速度越快，一致性越強，未登錄詞識別能力以及歧義消解能力則減弱，分詞的正確性也會下降。

下面結合具體例子，更加詳細地描述本發(fā)明實施例。應注意，后文的例子僅僅是為了幫助本領域技術人員理解本發(fā)明實施例，而非要將本發(fā)明實施例限于所例示的具體數(shù)值或具體場景。本領域技術人員根據(jù)所給出的例子，顯然可以進行各種等價的修改或變化，這樣的修改或變化也落入本發(fā)明實施例的范圍內(nèi)。

假設待處理的第一語言文本為：范登高便和王小聚約定年底之前一定要小聚一次。針對一致性要求較高的應用場景，可以將可信度閾值h設定為0.2。

首先，經(jīng)過簡單分詞模塊201之后，得到如下分詞結果(“\”表示詞邊界)：范\登高\便\和\王\小聚\約定\年底\之前\一定\要\小聚\一\次\。\

然后，可信度判斷模塊202可以對這一分詞結果中的每個詞邊界“\”的可信度進行判斷。

例如，如果用bi表示上述分詞結果中的第i個詞邊界，可信度判斷模塊202可以計算該詞邊界在一定的上下文c中可信(true)的概率p(true|bi,c)。當p(true|bi,c)>h時，則可以將bi作為可信詞邊界傳送給合并輸出模塊301。當p(true|bi,c)≤h時，可以將bi作為不可信詞邊界傳送給復雜分詞模塊203處理。如果經(jīng)過可信度判斷模塊202的判斷，上述分詞結果中的詞邊界都是可信的詞邊界，則可以將分詞結果均輸出到合并輸出模塊203。

然后，合并輸出模塊301將分詞結果整理輸出。

合并輸出模塊301輸出的分詞結果可以是：范\登高\便\和\王\小聚\約定\年底\之前\一定\要\小聚\一\次\。\

在本實施例中，由于對分詞結果有較高一致性要求，所以設置了較低的可信度閾值(h＝0.2)。最終的分詞結果反映是：1)沒有識別出“范登高”和“王小聚”兩個未登錄詞；2)“王小聚”和“小聚一次”兩個片段中的“小聚”切分一致。

下面以第一語言文本為：范登高便和王小聚約定年底之前一定要小聚一次，可信度閾值為h＝0.9進行舉例說明。

經(jīng)過可信度判斷模塊202后，得到如下分詞結果(“/”表示不可信的詞邊界)：范/登高/便\和\王/小聚/約定\年底\之前\一定\要\小聚\一\次\。\

其次，不可信邊界收集器從上述結果中收集連續(xù)的不可信邊界，形成不可信區(qū)間(在下面例句中下劃線標出的部分):

范/登高/便\和\王/小聚/約定\年底\之前\一定\要\小聚\一\次\。\

然后，復雜分詞模塊203對每一個不可信區(qū)間進行分詞。

經(jīng)過復雜分詞模塊203，以上兩個不可信區(qū)域均會被識別成人名。

然后，合并輸出模塊301將分詞結果整理輸出。

合并輸出模塊301輸出的分詞結果可以是：

范登高\便\和\王小聚\約定\年底\之前\一定\要\小聚\一\次\。\

在本實施例中，需要分詞結果據(jù)有較高的正確性，所以設置可信度閾值較高(h＝0.9)，分詞結果中的反映是“范登高”和“王小聚”兩個未登錄詞都識別了出來，但“王小聚”和“小聚一次”兩個片段中的“小聚”切分不一致。

應理解，本發(fā)明實施例中的復雜分詞模塊可以是一個，也可以是多個。在復雜分詞模塊為多個時，前一復雜分詞模塊的輸出可以作為后一復雜分詞模塊的輸入，同時，在每一復雜分詞模塊進行復雜分詞之前，可以接收新的可信度閾值。

上文結合圖1至圖10，詳細描述了根據(jù)本發(fā)明實施例的語言文本的分詞方法。下文結合圖11和圖12，詳細描述根據(jù)本發(fā)明實施例的語言文本的分詞系統(tǒng)。應理解，圖11或圖12的分詞系統(tǒng)能夠執(zhí)行上文描述的方法的各個步驟，為避免重復，此處不再詳述。

圖11是本發(fā)明實施例的語言文本的分詞系統(tǒng)的示意性結構圖。圖11的分詞系統(tǒng)1100包括：

輸入模塊1110，用于獲取待處理的第一語言文本和可信度閾值，所述可信度閾值用于指示所述第一語言文本所需的分詞精度、分詞速度或分詞一致性；

第一分詞模塊1120，用于采用第一分詞方式，對所述第一語言文本進行分詞，得到第一詞邊界集合；

可信度判斷模塊1130，用于根據(jù)所述可信度閾值，將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合；

選取模塊1140，用于根據(jù)所述第三詞邊界集合，從所述第一語言文本中選取第二語言文本，所述第二語言文本包括所述第三詞邊界集合中的每個詞邊界對應的詞；

第二分詞模塊1150，用于采用第二分詞方式，對所述第二語言文本進行分詞，得到第四詞邊界集合，其中，所述第二分詞方式的分詞精度高于所述第一分詞方式的分詞精度；

輸出模塊1160，用于將所述第二詞邊界集合和所述第四詞邊界集合確定為所述第一語言文本的分詞結果。

可選地，作為一個實施例，所述可信度判斷模塊1130具體用于從所述第一詞邊界集合中的每個詞邊界的上下文中選取所述每個詞邊界對應的至少一個詞；提取所述每個詞邊界對應的至少一個詞的特征；根據(jù)所述每個詞邊界對應的至少一個詞的特征，通過預先訓練得到的分類器，確定所述每個詞邊界在所述上下文中的可信度；將所述第一詞邊界集合中的可信度大于所述可信度閾值的詞邊界添加至所述第二詞邊界集合；將所述第一詞邊界集合中的可信度小于或等于所述可信度閾值的詞邊界添加至所述第三詞邊界集合。

可選地，作為一個實施例，所述可信度判斷模塊1130具體用于根據(jù)確定所述每個詞邊界在所述上下文中的可信度，其中，p(true|bi,c)表示所述第一詞邊界集合中的第i個詞邊界bi在所述上下文c中的可信度，s(t,bi,c)表示所述第i個詞邊界bi在所述上下文c中的得分，表示所述至少一個詞的特征中的第j個特征，βj表示所述分類器的參數(shù)，t表示所述分類器對應的類，且t∈{true,false}。

可選地，作為一個實施例，所述可信度判斷模塊1130具體用于從所述每個詞邊界的上下文中選取所述每個詞邊界對應的詞、所述每個詞邊界對應的詞的前一詞，以及所述每個詞邊界對應的詞的后一詞。

可選地，作為一個實施例，所述分類器的參數(shù)是基于目標語言文本訓練得到的參數(shù)，所述目標語言文本是采用第一分詞方式對詞邊界已知的語言文本進行分詞后得到的語言文本。

圖12是本發(fā)明實施例的語言文本的分詞系統(tǒng)的示意性結構圖。圖12的分詞系統(tǒng)1200包括：

存儲器1210，用于存儲程序；

處理器1220，用于執(zhí)行存儲器1210中的程序，當所述程序被執(zhí)行時，所述處理器1220獲取待處理的第一語言文本和可信度閾值，所述可信度閾值用于指示所述第一語言文本所需的分詞精度、分詞速度或分詞一致性；采用第一分詞方式，對所述第一語言文本進行分詞，得到第一詞邊界集合；根據(jù)所述可信度閾值，將所述第一詞邊界集合劃分成可信的第二詞邊界集合和不可信的第三詞邊界集合；根據(jù)所述第三詞邊界集合，從所述第一語言文本中選取第二語言文本，所述第二語言文本包括所述第三詞邊界集合中的每個詞邊界對應的詞；采用第二分詞方式，對所述第二語言文本進行分詞，得到第四詞邊界集合，其中，所述第二分詞方式的分詞精度高于所述第一分詞方式的分詞精度；將所述第二詞邊界集合和所述第四詞邊界集合確定為所述第一語言文本的分詞結果。

可選地，作為一個實施例，所述處理器1220具體用于從所述第一詞邊界集合中的每個詞邊界的上下文中選取所述每個詞邊界對應的至少一個詞；提取所述每個詞邊界對應的至少一個詞的特征；根據(jù)所述每個詞邊界對應的至少一個詞的特征，通過預先訓練得到的分類器，確定所述每個詞邊界在所述上下文中的可信度；將所述第一詞邊界集合中的可信度大于所述可信度閾值的詞邊界添加至所述第二詞邊界集合；將所述第一詞邊界集合中的可信度小于或等于所述可信度閾值的詞邊界添加至所述第三詞邊界集合。

可選地，作為一個實施例，所述處理器1220具體用于根據(jù)確定所述每個詞邊界在所述上下文中的可信度，其中，p(true|bi,c)表示所述第一詞邊界集合中的第i個詞邊界bi在所述上下文c中的可信度，s(t,bi,c)表示所述第i個詞邊界bi在所述上下文c中的得分，表示所述至少一個詞的特征中的第j個特征，βj表示所述分類器的參數(shù)，t表示所述分類器對應的類，且t∈{true,false}。

可選地，作為一個實施例，所述處理器1220具體用于從所述每個詞邊界的上下文中選取所述每個詞邊界對應的詞、所述每個詞邊界對應的詞的前一詞，以及所述每個詞邊界對應的詞的后一詞。

本領域普通技術人員可以意識到，結合本文中所公開的實施例描述的各示例的單元及算法步驟，能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行，取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能，但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。

所屬領域的技術人員可以清楚地了解到，為描述的方便和簡潔，上述描述的系統(tǒng)、裝置和單元的具體工作過程，可以參考前述方法實施例中的對應過程，在此不再贅述。

在本申請所提供的幾個實施例中，應該理解到，所揭露的系統(tǒng)、裝置和方法，可以通過其它的方式實現(xiàn)。例如，以上所描述的裝置實施例僅僅是示意性的，例如，所述單元的劃分，僅僅為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，裝置或單元的間接耦合或通信連接，可以是電性，機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個網(wǎng)絡單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外，在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。

所述功能如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時，可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解，本發(fā)明的技術方案本質(zhì)上或者說對現(xiàn)有技術做出貢獻的部分或者該技術方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中，包括若干指令用以使得一臺計算機設備(可以是個人計算機，服務器，或者網(wǎng)絡設備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括：u盤、移動硬盤、只讀存儲器(rom，read-onlymemory)、隨機存取存儲器(ram，randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述，僅為本發(fā)明的具體實施方式，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi)，可輕易想到變化或替換，都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此，本發(fā)明的保護范圍應所述以權利要求的保護范圍為準。

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：陳曉;李航
技術所有人：華為技術有限公司
我是此專利的發(fā)明人

上一篇：語義識別方法和語義識別系統(tǒng)與流程
上一篇：一種拼寫檢查方法及裝置與流程

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

文本分詞相關技術

中文文本分詞相關技術

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

語言文本的分詞方法和系統(tǒng)與流程