專利名稱:中文斷詞法的制作方法
技術領域:
本發(fā)明是一種斷詞法,尤指一種中文斷詞法。
英文的字匯是由多個單一的字母所組成而有其特定的含意,字匯的前后再加上任何一個或多個字母往往就代表不同的意思,甚至不成字匯而為繆誤。在英文文件中每一個英文字匯與英文字匯之間都留有空白,即前一個英文字匯的最后一個字母與后一個英文字匯的最前一個字母間是留有空白,借著這些空白的分隔,可以輕易地在由大長串字母所組成的文句中,將一群字母一群字母做分割,成為表達文義所需的字匯,而不會錯把其他在該正確字匯前后的字母歸在一起,而形成其他或錯誤字匯,進而影響文句的判讀。因此,一般的英文文件沒有分割字匯的問題。然而,在中文文件中,因為前一個中文詞匯的最后一個字元與后一個中文詞匯的最前一個字元之間并沒有任何分隔符號可資辨認,因此無法正確地將文句中的字元切割,形成文義所指的詞匯,造成文句判讀上的錯誤。
中文斷詞是指將由成串字元所組成的中文文句進行一組組的切割,使文句被初割成許多有意義的詞匯。在許多中文語言處理的應用上,例如中文文字校正、中文文件翻譯等,都必須要先經(jīng)過中文斷詞后,取得正確的中文詞匯,才能夠做進一步處理。
然而,中文斷詞問題的困難處在于中文詞匯的歧義性問題,其乃因為將中文文句以不同的方式進行切割,所產(chǎn)生的詞匯都是有意義的,但不見得是文句所指的正確詞匯。例如一中文文句「我國代表現(xiàn)在正面臨時間上的壓力」,經(jīng)過中文斷詞后,產(chǎn)生的斷詞方式可能為「我|國代|表現(xiàn)|在|正面|臨時|間|上|的|壓力」、「我|國|代表|現(xiàn)在|正面|臨時|間|上|的|壓力」、「我|國代|表現(xiàn)|在|正|面臨|時間|上|的|壓力」、「我|國|代表|現(xiàn)在|正|面臨|時間|上|的|壓力」等數(shù)種。若是單看每一個斷詞方式中的各個詞匯,每個詞匯均是有意義的;但是若以整個中文文句的意思來看,只有最后一個斷詞方式,也就是「我|國|代表|現(xiàn)在|正|面臨|時間|上|的|壓力」,是會符合文義的正確斷詞方式。由于這種歧義性的問題,因此在中文斷詞中,如何在這么多種的斷詞方式中,挑選出符合文義的正確斷詞方式,遂成為一個中文斷詞法的關鍵。
以往所常用的中文斷詞法為長詞優(yōu)先斷詞法,其是將中文文句由前往后進行切割,優(yōu)先找出符合主辭典中最長的詞匯。請參閱
圖1所示,其是為現(xiàn)有長詞優(yōu)先斷詞法的流程圖?,F(xiàn)有的長詞優(yōu)先斷詞法,其是先輸入一由許多連續(xù)字元2’所組成的待斷詞文句1’,將待斷詞文句1’由前開始與主辭典3’中的所有詞匯4’依詞匯長度由大至小進行對比,尋找主辭典3’中與待斷詞文句1’前部分完全相同的詞匯長度最大者;再將該詞匯4’記為斷詞方式的一部分,并移至該詞匯4’的下一個字元2’,進行下一步的對比,直到待斷詞文句1’的最末一個字元,結束文句的斷詞。
上述的長詞優(yōu)先斷詞法主要有兩大缺點一為搶詞問題,另一為缺詞問題。首先說明搶詞問題,搶詞問題源自于中文斷詞的歧義性問題,因為長詞優(yōu)先斷詞法是將中文文句由前往后依符合主辭典中最長的詞匯進行斷詞工作,所以極有可能發(fā)生槍詞問題,也就是前面錯誤的詞匯搶了后面正確詞匯的前面字元,錯把后一個詞匯的前面字元歸在前一個詞匯中。例如待斷詞的中文文句為「我正面向臺北市民大道」,其中「正」、「面」、「向」這三個字元的正確斷詞方式應該為「正」、「面向」。然而使用長詞優(yōu)先斷詞法,是將該文句由前往后依符合主辭典中最長的詞匯進行斷詞工作時,其首先會找到「正面」這個詞匯,而把「正」及「面」二個字元視為一個詞匯進行切割,而留下「向」這個字元,其切割結果為「正面」、「向」,與文義不符,即「正面」一詞搶了「面向」一詞的形成,所以產(chǎn)生謬誤。同理,「臺北市民大道」這幾個字元如果利用長詞優(yōu)先斷詞法,則將被分割成「臺北市」、「民大道」,而非「臺北」、「市民大道」,詞匯「臺北市」將搶了詞匯「市民大道」的前一個字元。以上就是長詞優(yōu)先斷詞法的搶詞問題。
再來說明缺詞問題,缺詞問題是因為利用長詞優(yōu)先斷詞法將中文文句由前往后依符合主辭典中最長的詞匯進行斷詞工作時,其主辭典的詞匯有限。然而,中文會隨著時間而產(chǎn)生新的詞匯,例如人名、地名、專有名詞、外國譯名等,所以長詞優(yōu)先斷詞法的主辭典不可能包含所有中文的辭匯,如果主辭典的詞匯來不及更新或遇到有主辭典中所無的專有名詞或特殊詞匯出現(xiàn)在中文文句中時,就會發(fā)生缺詞問題,并造成錯誤的斷詞方式。例如待斷詞的中文文句為「李遠哲學問很好」,正確的斷詞方式應該為「李遠哲|學問|很|好」。然而使用「長詞優(yōu)先斷詞法」,其所產(chǎn)生的斷詞方式為「李|遠|哲學|問|很|好」,原因是「李遠哲」一詞是為人名,不會包含于「長詞優(yōu)先斷詞法」的主辭典內,所以因為缺「李遠哲」一詞,而造成「哲學」一詞的形成。這就是長詞優(yōu)先斷詞法的缺詞問題。
綜上所述,長詞優(yōu)先斷詞法會有搶詞問題以及缺詞問題。該現(xiàn)有的長詞優(yōu)先斷詞法因搶詞問題與缺詞問題,常會產(chǎn)生錯誤的斷詞方式,造成文義判讀上的繆誤,因此常用的長詞優(yōu)先斷詞法并不是很好的中文斷詞法,而有待改進。
本發(fā)明的目的在于提出一種中文斷詞法,為了改進上述的現(xiàn)有長詞優(yōu)先斷詞法的缺點,本發(fā)明的發(fā)明人經(jīng)過不斷的研發(fā),提出一種前所未見的中文斷詞法,可有效地解決改善上述的長詞優(yōu)先斷詞法的缺點,進行正確的中文文句斷詞,不會因斷詞錯誤而影響文義判讀。
本發(fā)明的目的可以通過以下措施來達到一種中文斷詞法,其包含有下列步驟(1)輸入一文句,其是由多個字元接續(xù)而成;(2)將該文句依所有可能的斷詞方式進行字元與字元間的切割,以便文句被分解成數(shù)詞匯;(3)將每一種斷詞方式分別進行權值評估步驟處理,得到該斷詞方式的權值;(4)將各斷詞方式依其權值的大小進行排序,并取權值最大的斷詞方式為文句的最佳斷詞方式;(5)將文句依最佳斷詞方式進行字元與字元間的切割,借此將文句分解成最正確的數(shù)詞匯。
其中該權值評估步驟是先將文句依每一種斷詞方式所分解得的各詞匯分別進行計算處理,包括(1)將詞匯對應詞匯機率表,得到該詞匯的詞匯組成機率;(2)計算詞匯中的字元個數(shù),得到該詞匯的詞匯長;(3)將詞匯中的每一字元分別對應前候選字元接續(xù)機率表與后候選字元接續(xù)機率表,得到該字元的前候選字元接續(xù)機率與后候選字元接續(xù)機率;再將詞匯的各字元的前候選字元接續(xù)機率與后候選字元接續(xù)機率進行加權平均,以得該詞匯的接續(xù)強度;再將各詞匯的詞匯組成機率、詞匯長以及接續(xù)強度相乘積得到該詞匯的權值項;最后將各詞匯的權值項相加,即為該種斷詞方式的權值。
本發(fā)明相比現(xiàn)有技術具有如下優(yōu)點本發(fā)明中文斷詞法的特點在于本發(fā)明中文斷詞法會將輸入的待斷詞中文文句依所有可能的方式進行切割,然后將每個斷詞方式進行權值評估步驟處理,求得各斷詞方式的權值,取其權值最大的斷詞方式為最佳斷詞方式。在本發(fā)明中文斷詞法的權值評估步驟處理是利用詞匯組成機率、詞匯長以及詞匯的接續(xù)強度,來做為中文斷詞處理的標準。分別說明如下本發(fā)明在進行中文斷詞處理時會利用詞匯組成機率來解決以往現(xiàn)有長詞優(yōu)先斷詞法的搶詞問題。例如待斷詞的中文文句為「臺北市民大道」,使用長詞優(yōu)先斷詞法其所產(chǎn)主的斷詞方式為「臺北市|民|大道」,會發(fā)生搶詞現(xiàn)象,所得的詞匯與文義并不符。利用本發(fā)明所設計的詞匯組成機率來進行斷詞時,則「臺北市民大道」切割成詞匯「臺北」與詞匯「市民大道」兩詞匯所得的詞匯組成機率的乘積,會比切割成詞匯「臺北市」、「民」與詞匯「大道」中的「臺北市」與「大道」二詞匯的詞匯組成機率的乘積大。所以,使用本發(fā)明可以產(chǎn)生「我|正|面向|臺北|市民大道」的正確的斷詞方式,充分有效地解決現(xiàn)有長詞優(yōu)先斷詞法的搶詞問題。
在詞匯組成機率的乘積相近時,本發(fā)明會利用詞匯長來取得正確的斷詞方式。例如「臺北市民大道」,若「臺北」、「市民」與「大道」三詞匯的詞匯組成機率的乘積,和「臺北」、「市民大道」兩詞匯的詞匯組成機率的乘積相近時,因為中文詞匯中愈長的詞匯具有愈高的意義,所以本發(fā)明會取所得的詞匯長度較長的斷詞方式,也就是「臺北|市民大道」,而非「臺北|市民|大道」,為文句所需的正確斷詞方式。
再者,本發(fā)明在進行中文斷詞處理時再利用前候選字元接續(xù)機率與后候選字元接續(xù)機率來解決現(xiàn)有長詞優(yōu)先斷詞法的缺詞問題。例如待斷詞的中文文句為「李遠哲學問很好」,使用長詞優(yōu)先斷詞法其所產(chǎn)生的斷詞方式為「李|遠|哲學|問|很|好」,會發(fā)生一個搶詞現(xiàn)象與一個缺詞現(xiàn)象「哲學」一詞搶了「學問」一詞的形成;以及「李遠哲」此一人名無法被正確地斷成單一詞匯,使得該斷詞方式并不正確。本發(fā)明在進行中文斷詞處理時,會先利用前述的詞匯組成機率,因為「哲學」與「問」兩詞匯的詞匯組成機率的乘積,會比「哲」與「學問」兩詞匯的詞匯組成機率的乘積為小,所以會將斷詞方式暫先修正為「李|遠|哲|學問|很|好」。接著,本發(fā)明再利用前候選字元接續(xù)機率與后候選字元接續(xù)機率,判斷在大量文件中「李」的后候選字元為「遠」的接續(xù)機率;「遠」的前候選字元為「李」的接續(xù)機率;「遠」的后候選字元為「哲」的接續(xù)機率,以及且「哲」的前候選字元為「遠」的接續(xù)機率,以了解字元「李」、字元「遠」以及字元「哲」三個字元間的接續(xù)性。經(jīng)過大量文件的判讀,字元「李」、字元「遠」以及字元「哲」三個字元間的接續(xù)很高,故判斷「李」「遠」「哲」三個字元的連續(xù)出現(xiàn)并非巧合,而是單一詞匯的形成。本發(fā)明利用前候選字元接續(xù)機率與后候選字元接續(xù)機率的運用,可以有效解決現(xiàn)有長詞優(yōu)先斷詞法的缺詞問題,而產(chǎn)生正確的斷詞方式,如上所與的文句例子,以本發(fā)明進行斷詞所得的結果即為「李遠哲|學問|很|好」,與文義完全相符。
為更能對本發(fā)明有更進一步的了解,茲將本發(fā)明配合圖示詳細說明于后圖1是為現(xiàn)有長詞優(yōu)先斷詞法的流程圖。
圖2A、圖2B是為本發(fā)明中文斷詞法的流程圖。
本發(fā)明是為一種中文斷詞法,請參閱圖2A所示,其包含有下列步驟首先輸入一個由許多連續(xù)字元2所組成的文句1,將該文句1依所有可能的斷詞方式進行字元2與字元2間的切割,使文句1被分解成數(shù)詞匯3。再將每一種斷詞方式依其所分解而得的詞匯3進行權值評估步驟處理,得到該斷詞方式的權值4。將各斷詞方式依其權值4的大小進行排序,并取權值4最大的斷詞方式為文句1的最佳斷詞方式。將文句1依最佳斷詞方式進行字元2與字元2間的切割,借此,即可將一成串的中文文句以最正確的斷詞方式將其分解成最正確的詞匯組合。
再參閱圖2B,上述的中文斷詞法,其中該權值評估步驟是先將文句1依每一種斷詞方式所分解得的各詞匯3分別進行計算處理,這些運算處理有1).將詞匯對應詞匯機率表5,得到該詞匯的詞匯組成機率31。2).計算詞匯3中的字元2個數(shù),得到該詞匯3的詞匯長32。3).將詞匯3中的每一個字元分別對應前候選字元接續(xù)機率表6與后候選字元接續(xù)機率表7,得到該字元的前候選字元接續(xù)機率61與后候選字元接續(xù)機率71;再將詞匯3的各字元的前候選字元接續(xù)機率61與后候選字元接續(xù)機率71進行加權平均,以得該詞匯3的接續(xù)強度33。再將各詞匯3的詞匯組成機率31、詞匯長32以及接續(xù)強度33相乘積得到該詞匯3的權值項34,最后將依特定一種斷詞方式所分解得的各詞匯3的權值項34相加,即為該種斷詞方式的權值4。將各斷詞方式依權值4大小進行排序,其中權值4最大的斷詞方式即為文句1的最佳斷詞方式。
本發(fā)明中文斷詞法利用將文句依所有可能的方式進行切割,再對每個斷詞方式利用詞匯組成機率、詞匯長以及詞匯的接續(xù)強度,進行權值評估步驟處理,來做為中文斷詞處理的標準,確實可以有效避免現(xiàn)有長詞優(yōu)先斷詞法的搶詞問題以及缺詞問題,進行正確的中文文句斷詞,找出符合文義判讀的正確詞匯。
權利要求
1.一種中文斷詞法,其特征是其包含有下列步驟(1)輸入一文句,其是由多個字元接續(xù)而成;(2)將該文句依所有可能的斷詞方式進行字元與字元間的切割,以便文句被分解成數(shù)詞匯;(3)將每一種斷詞方式分別進行權值評估步驟處理,得到該斷詞方式的權值;(4)將各斷詞方式依其權值的大小進行排序,并取權值最大的斷詞方式為文句的最佳斷詞方式;(5)將文句依最佳斷詞方式進行字元與字元間的切割,借此將文句分解成最正確的數(shù)詞匯。
2.如權利要求1所述的中文斷詞法,其特征是其中該權值評估步驟是先將文句依每一種斷詞方式所分解得的各詞匯分別進行計算處理,包括(1)將詞匯對應詞匯機率表,得到該詞匯的詞匯組成機率;(2)計算詞匯中的字元個數(shù),得到該詞匯的詞匯長;(3)將詞匯中的每一字元分別對應前候選字元接續(xù)機率表與后候選字元接續(xù)機率表,得到該字元的前候選字元接續(xù)機率與后候選字元接續(xù)機率;再將詞匯的各字元的前候選字元接續(xù)機率與后候選字元接續(xù)機率進行加權平均,以得該詞匯的接續(xù)強度;再將各詞匯的詞匯組成機率、詞匯長以及接續(xù)強度相乘積得到該詞匯的權值項;最后將各詞匯的權值項相加,即為該種斷詞方式的權值。
全文摘要
本發(fā)明是為一種中文斷詞法,其是將輸入的待斷詞中文文句依所有可能的方式進行切割,然后將每個斷詞方式利用詞匯組成機率、詞匯長、以及詞匯的接續(xù)強度進行權值評估步驟處理,求得各斷詞方式的權值,取其權值最大的斷詞方式為最佳斷詞方式,有效地解決長詞優(yōu)先斷詞法的缺點,進行正確的中文文句斷詞,以得到符合文義的詞匯切割結果。
文檔編號G10L17/00GK1360302SQ0013672
公開日2002年7月24日 申請日期2000年12月21日 優(yōu)先權日2000年12月21日
發(fā)明者楊立偉 申請人:意藍科技股份有限公司