本發(fā)明實施例涉及機器翻譯技術領域,尤其涉及一種建立分詞模型的方法及裝置。
背景技術:
當今自然語言處理界普遍認為,由于中文的詞與詞之間沒有空格區(qū)分邊界,一個更高質量的分詞是中文語言處理中的關鍵所在。多項實驗證明,中文分詞的精準性將直接影響統(tǒng)計機器翻譯的效果。而主流的統(tǒng)計機器模型也基于分詞后的平行語料,這表明,任何訓練語句都將會被分詞。對于中文,最大的障礙在于,使用的訓練語料都來自被標記好的語法樹。而顯然,這些分詞標準僅僅考慮到了單語種的特征,并不符合統(tǒng)計機器學習基于平行雙語語料的特點。
近年來,很多研究人員意識到了這個問題,大量的分詞工作將重心轉到了研究一個適用于統(tǒng)計機器翻譯的分詞系統(tǒng),而非只針對單一的語種。不同于傳統(tǒng)的分詞方法,如:最大匹配法或是監(jiān)督機器學習分類方法,基于統(tǒng)計機器翻譯的分詞都依賴于對齊方法,一個英文單詞對齊一個或多個中文單詞,將英文的詞邊界直接映射到中文端。然而這些方法通常都忽略了中文分詞本身的準確性,并且還要承受錯誤的對齊給分詞帶來的負面效果。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種建立分詞模型的方法及裝置,用以建立一種分詞準確性較高的分詞模型。
本發(fā)明實施例第一方面提供一種建立分詞模型的方法,該方法包括:
將第一語料中的每個字符與第二語料中的單詞進行對齊,獲得第一語料和所述第二語料之間的對齊關系,其中所述第一語料為詞與詞之間沒有空格劃分邊界的語料;
根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中詞的邊界信息;
根據所述第一語料中詞的邊界信息,訓練生成分詞模型。
本發(fā)明實施例第二方面提供一種建立分詞模型的裝置,該裝置包括:
對齊模塊,用于將第一語料中的每個字符與第二語料中的單詞進行對齊,獲得第一語料和所述第二語料之間的對齊關系,其中所述第一語料為詞與詞之間沒有空格劃分邊界的語料;
確定模塊,用于根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中詞的邊界信息;
訓練模塊,用于根據所述第一語料中詞的邊界信息,訓練生成分詞模型。
本發(fā)明實施例,通過將無空格劃分詞邊界的第一語料中的每個字符與有空格劃分詞邊界的第二語料中的每個單詞進行對齊,獲得單詞與字符之間的對齊關系,并根據第一語料和第二語料之間,單詞與字符的對齊關系,確定第一語料中詞的邊界信息,從而根據該邊界信息訓練生成分詞模型。本發(fā)明實施例區(qū)別于現(xiàn)有技術的是,該分詞模型在分詞處理過程中,綜合了對齊語料對分詞的影響,因此,能夠達到提高分詞準確率的效果。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例一提供的建立分詞模型的方法的流程示意圖;
圖2為本發(fā)明實施例二提供的建立分詞模型的方法的流程示意圖;
圖3本發(fā)明實施例三提供的建立分詞模型的裝置的結構示意圖;
圖4本發(fā)明實施例四提供的建立分詞模型的裝置的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權利要求書的術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟的過程或結構的裝置不必限于清楚地列出的那些結構或步驟而是可包括沒有清楚地列出的或對于這些過程或裝置固有的其它步驟或結構。
圖1為本發(fā)明實施例一提供的建立分詞模型的方法的流程示意圖,該方法可以由一分詞模型的建立裝置(以下簡稱建立裝置)來執(zhí)行。如圖1所示,該方法包括如下步驟:
步驟S101、將第一語料中的每個字符與第二語料中的單詞進行對齊,獲得第一語料和所述第二語料之間的對齊關系,其中所述第一語料為詞與詞之間沒有空格劃分邊界的語料。
本實施例中,第一語料可以被具體為語法樹資源匱乏的語言的語料,例如,中文語料、韓文語料、日文語料等。第二語料可以被具體為語法樹資源豐富的語言的語料。例如英文語料,德文語料等。
以第一語料為中文語料,第二語料為英文語料為例。實際應用中,首先將中文語料中的每個中文字符用空格符或其他符號進行分詞,并將分詞后的每個中文字符作為一個詞語單位。在此之后,采用諸如GIZA++等詞語對齊方法,將中文語料中的每個中文字符與英文語料中的單詞進行對齊,確定中文語料與英文語料之間的對齊關系。
這里需要說明的是,本實施例中,中文語料與英文語料之間是按照N到1的原則進行對齊的,即一個英文單詞對齊一個或多個中文字符,例如英文單詞“Olympus”可以分別對應中文字符“奧”、“運”、“會”。
步驟S102、根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中詞的邊界信息。
具體的,本實施例中基于字符的三元詞組(即通過三種標識標記字符在詞組中位置,例如用B標記詞組起始字符,用E標記詞組最后一個字符,用M標記詞組中間位置的字符,當然此處僅為示例說明,并不是對其的唯一限定。),確定第一語料庫中詞的邊界信息,其中,上述詞的邊界信息包括詞中各字符的邊界位置以及詞的邊界概率。其中,基于字符的三元詞組確定第一語料庫中詞的邊界信息的方法,與現(xiàn)有技術類似在這里不再贅述。
步驟S103、根據所述第一語料中詞的邊界信息,訓練生成分詞模型。
實際應用中,在確定的第一語料中詞的邊界信息后,優(yōu)選的,本實施例采用圖傳導的方法將該邊界信息在第一語料和第二語料之間進行傳遞。并根據圖傳播的限制條件,訓練形成分詞模型,優(yōu)選的,本實施例中訓練形成的分詞模型為隨機條件場模型。具體的,本實施例中采用的圖傳導的方法和隨機條件場訓練方法,分別與現(xiàn)有技術中的圖傳導的方法和隨機條件場的訓練方法類似,在這里不再贅述。
本實施例,通過將無空格劃分邊界的第一語料中的每個字符與有空格劃分邊界的第二語料中的每個單詞進行對齊,獲得第一語料和第二語料間單詞與字符之間的對齊關系,并根據第一語料和第二語料之間的對齊關系,確定第一語料中詞的邊界信息,從而根據該邊界信息訓練生成分詞模型。區(qū)別于現(xiàn)有技術的是,該分詞模型在分詞處理過程中,綜合了對齊語料對分詞的影響,因此,能夠達到提高分詞準確率的效果。
圖2為本發(fā)明實施例二提供的建立分詞模型的方法的流程示意圖,如圖2所示,在圖1所示實施例的基礎上,本實施例提供的方法包括:
步驟S201、將第一語料中的每個字符與第二語料中的單詞進行對齊,獲得第一語料和所述第二語料之間的對齊關系,其中所述第一語料為詞與詞之間沒有空格劃分邊界的語料。
步驟S202、根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中詞的邊界信息。
本實例中,步驟S201-步驟S202的執(zhí)行方式和有益效果分別與圖1實施例中的步驟S101和步驟S102類似,在這里不再贅述。
步驟S203、通過相似圖的傳導方法,將所述第一語料中詞的邊界信息在所述第一語料和第二語料之間進行傳導,并訓練生成分詞模型。
與直接將邊界信息作為分詞邊界的傳統(tǒng)做法相比不同的是,本實施例在獲得第一語料中詞的邊界信息后,通過圖傳導的方法來傳遞邊界信息,并根據圖傳導的約束條件來訓練形成分詞模型。
實際應用中,首先根據包括語法樹,以及第一語料和第二語料在內的資源,構建一個相似圖G=(V,E)。相似圖中的每一個頂點V都具有一個|T|維度的估量v來代表第一語料中每個詞的邊界概率。而經過推導的詞的概率r,則是相應M圖頂點的經驗值,其中,|T|為正整數(shù)。相似圖中的邊的集合E∈Vi*Vj連接了圖中的所有頂點,其中Vi和Vj表示相似圖中互相連接的兩個頂點對。圖中頂點對之間的權重wij指兩個頂點之間的語法相似程度。具體來說,就是將每個頂點具化為一個稀疏向量,并通過余弦函數(shù)計算兩個向量之間的相似程度來獲得兩個頂點之間的語法相似程度??偟膩碚f,相似圖的目的在于使得在不同文本中抽取出的頂點根據其邊權重wij的高低進行連接。算法中,高權重的頂點之間才能互聯(lián),導致圖中相鄰的頂點都具有相似的詞邊界概率。
相似圖的質量(平滑程度)可被用一個標準的傳播算法估算出來,公式如下所示。
在公式等號的右邊中,左起第一個“+”前邊的部分主要用于計算預測量vi和實證概率ri之間的距離。左起第一個“+”和左起第二個“+”之間的部分表示的是相似圖中邊的平滑算法,用來衡量頂點Vi相對于圖的平滑程度。而兩個頂點之間通過高權重的邊進行連接,并且頂點之間被賦予相似的詞邊界概率。左起第二個“+”之后的部分是一個范式,用來估算每個頂點的概率分布稀疏度。通常情況下,圖傳導過程相當于一個優(yōu)化過程,在此過程中,上述公式中的參數(shù)vi被最小化。這個傳播函數(shù)被用來反映圖平滑,獲得的p(v)值越高,則平滑度越低。
本實施例中,相似圖的構建方法與現(xiàn)有技術類似,在這里不再詳述。
進一步的,在建立相似圖之后,根據相似圖的傳播限制條件進行模型訓練,生成分詞模型,其中,本實施例中,優(yōu)選訓練生成隨機條件場模型。隨機條件場模型的訓練生成方法與現(xiàn)有技術類似,在這里不再贅述。
本實施例,通過將無空格劃分邊界的第一語料中的每個字符與有空格劃分邊界的第二語料中的每個單詞進行對齊,獲得第一語料和第二語料間單詞與字符之間的對齊關系,并根據第一語料和第二語料之間的對齊關系,確定第一語料中詞的邊界信息,從而根據該邊界信息訓練生成分詞模型。區(qū)別于現(xiàn)有技術的是,該分詞模型在分詞處理過程中,綜合了對齊語料對分詞的影響,因此,能夠達到提高分詞準確率的效果。
圖3本發(fā)明實施例三提供的建立分詞模型的裝置的結構示意圖。如圖3所示,本實施例提供的裝置包括:
對齊模塊11,用于將第一語料中的每個字符與第二語料中的單詞進行對齊,獲得第一語料和所述第二語料之間的對齊關系,其中所述第一語料為詞與詞之間沒有空格劃分邊界的語料;
確定模塊12,用于根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中詞的邊界信息;
訓練模塊13,用于根據所述第一語料中詞的邊界信息,訓練生成分詞模型。
其中,所述第一語料包括如下語料中的任意一種:
中文語料,韓文語料,日文語料;
所述第二語料包括如下語料中的任意一種:
英文語料,德文語料。
所述確定模塊12,具體用于:
根據所述第一語料和所述第二語料之間的對齊關系,確定所述第一語料中每個三元詞組的邊界位置和邊界概率。
本實施例提供的裝置能夠用于執(zhí)行圖1所示實施例的方法,其執(zhí)行方式和有益效果類似,在這里不再贅述。
圖4本發(fā)明實施例四提供的建立分詞模型的裝置的結構示意圖。如圖4所示,本實施例提供的裝置在圖3所示結構的基礎上,所述訓練模塊13,包括:
第一訓練子模塊131,用于通過相似圖的傳導方法,將所述第一語料中詞的邊界信息在所述第一語料和第二語料之間進行傳導,并訓練生成分詞模型。
本實施例提供的裝置能夠用于執(zhí)行圖2所示實施例的方法,其執(zhí)行方式和有益效果類似,在這里不再贅述。
最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的范圍。