欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分詞方法及裝置的制作方法

文檔序號:6379442閱讀:172來源:國知局
專利名稱:一種分詞方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及分詞領(lǐng)域,特別涉及一種分詞方法及裝置。
背景技術(shù)
隨著網(wǎng)絡(luò)的普及和電子技術(shù)的成熟,使電視機逐步趨向于“高清化”、“網(wǎng)絡(luò)化”、“智能化”。通過互聯(lián)網(wǎng)進行視頻點播搜索成為智能電視中主要的需求和應用。而要從互聯(lián)網(wǎng)海量視頻中準確地搜索出用戶想要看的視頻內(nèi)容,就需要有效地提取文本信息,因此,如何有效提取文本信息也就成為了信息檢索領(lǐng)域的重要問題。中文分詞作為信息處理及檢索的 一個主要技術(shù)而受到廣泛關(guān)注,特別是在不同領(lǐng)域的不同應用中對分詞要求越來越高,可以說分詞技術(shù)的好壞也直接影響到了信息處理和檢索的結(jié)果?,F(xiàn)有技術(shù)中有多種分詞方法,其中基于字符串的分詞方法因為較為簡單而比較通用?,F(xiàn)有的基于字符串的分詞方法大概可以包括正向最大匹配法和逆向最大匹配法。例如有一種基于字符串的分詞方法主要采用正向最大匹配法或逆向最大匹配法對需要分詞的字符串進行機械分詞處理,對未識別出的單字實現(xiàn)了地名和街道名的分詞識別,其目的在于識別地名、街道名稱等,擴充了地名詞庫。本申請發(fā)明人在實現(xiàn)本申請實施例技術(shù)方案的過程中,至少發(fā)現(xiàn)現(xiàn)有技術(shù)中存在如下技術(shù)問題I、現(xiàn)有的分詞系統(tǒng)只采用一種分詞方法(正向最大匹配法或逆向最大匹配法)來進行分詞,分詞過程較為粗糙,導致得到的分詞結(jié)果不夠準確,降低了分詞準確度;2、現(xiàn)有的分詞方法只涉及到地名領(lǐng)域的分詞,對于其他領(lǐng)域的字符串仍然無法進行有效識別。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種分詞方法及裝置,用于解決現(xiàn)有技術(shù)中分詞準確度不高的技術(shù)問題,實現(xiàn)了提高分詞準確度的技術(shù)效果。本發(fā)明的一方面,提供了一種分詞方法,包括以下步驟獲得待處理的字符串;根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明的另一方面,提供了一種分詞裝置,包括獲取模塊,用于獲得待處理的字符串;
匹配模塊,用于根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷模塊,用于判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;輸出模塊,用于在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明實施例中的分詞方法包括獲得待處理的字符串;根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。
本發(fā)明實施例中,采用正向最大匹配法及逆向最大匹配法分別對同一待處理的字符串進行匹配,待匹配完畢后,如果匹配結(jié)果相同,則可以直接輸出結(jié)果,這樣一來,首先是采用兩種匹配方法,之后比對匹配結(jié)果,如果相同再進行輸出,顯然提高了分詞的準確度。且本發(fā)明實施例中,如果匹配結(jié)果不同,還可以對匹配結(jié)果進行一定歧義消除,從而可以盡量保證得到的結(jié)果較為準確,從多方面保證了分詞的準確性。


圖I為本發(fā)明實施例中分詞方法的主要流程圖;圖2為本發(fā)明實施例中分詞裝置的詳細結(jié)構(gòu)圖。
具體實施例方式本發(fā)明實施例中的分詞方法包括獲得待處理的字符串;根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明實施例中,采用正向最大匹配法及逆向最大匹配法分別對同一待處理的字符串進行匹配,待匹配完畢后,如果匹配結(jié)果相同,則可以直接輸出結(jié)果,這樣一來,首先是采用兩種匹配方法,之后比對匹配結(jié)果,如果相同再進行輸出,顯然提高了分詞的準確度。且本發(fā)明實施例中,如果匹配結(jié)果不同,還可以對匹配結(jié)果進行一定歧義消除,從而可以盡量保證得到的結(jié)果較為準確,從多方面保證了分詞的準確性。參見圖1,本發(fā)明實施例中的分詞方法可以包括以下步驟步驟101 :獲得待處理的字符串。本發(fā)明實施例中,可以首先獲得一段文字,在獲得一段文字后,可以先加載詞典庫?,F(xiàn)有技術(shù)中,加載的詞典庫可以是普通的通用詞典庫,本發(fā)明實施例中,可以自行構(gòu)建一專用詞典庫,該專用詞典庫可以為任意領(lǐng)域的專用詞典庫,例如可以為影視領(lǐng)域的專用詞典庫,或者可以為建筑領(lǐng)域的專用詞典庫,或者可以為電氣領(lǐng)域的專用詞典庫,等等,本發(fā)明實施例中以所述專用詞典庫為影視領(lǐng)域的專用詞典庫為例進行說明。在該影視領(lǐng)域的專用詞典庫中可以包括有各演員姓名、導演姓名、影視名稱、影視類型、影視語言等不同的與影視相關(guān)的信息,通過在該影視領(lǐng)域的專用詞典庫中進行搜索及匹配,可以使分詞裝置在視頻搜索領(lǐng)域的應用效果更佳。本發(fā)明實施例中,還可以自行構(gòu)建一停用詞擴展詞典庫,在所述停用詞擴展詞典庫中包括有多種詞匯,例如可以有語氣助詞、連詞等,在所述停用詞擴展詞典庫中包括的詞匯都是對理解整個句子無幫助的詞匯。例如,有一句話“我和你一起去吃飯。”主語是“我、你”,謂語是“去”,賓語是“吃飯”,而其中的 “和”就是連詞,對理解整個句子來說就是無意義的詞組,則這個“和”字就可以包括在所述停用詞擴展詞典庫中。本發(fā)明實施例中,構(gòu)建的所述專用詞典庫和所述停用詞擴展詞典庫都可以包括在一通用詞典庫中。但本發(fā)明實施例中所述的通用詞典庫不同于現(xiàn)有技術(shù)中的通用詞典庫,本發(fā)明實施例中的通用詞典庫是包含了所述專用詞典庫和所述停用詞擴展詞典庫的通用詞典庫。例如本發(fā)明實施例中是以所述專用詞典庫為影視領(lǐng)域的專用詞典庫為例進行說明,則本發(fā)明實施例中的所述通用詞典庫可以是包含了所述影視領(lǐng)域的專用詞典庫和所述停用詞擴展詞典庫的通用詞典庫。在加載包含了所述專用詞典庫和所述停用詞擴展詞典庫的所述通用詞典庫后,可以先根據(jù)標點等信息對獲得的一段文字進行粗切分,可以將其切分為多個句子。其中,每一個句子都可以是所述待處理的字符串。步驟102 :根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果。本發(fā)明實施例中,可以首先根據(jù)正向最大匹配法對所述待處理的字符串進行匹配,得到所述第一匹配結(jié)果,所述第一匹配結(jié)果可以對應于第一數(shù)值個的第一詞組。在根據(jù)正向最大匹配法對所述待處理的字符串進行匹配后,可以繼續(xù)根據(jù)逆向最大匹配法對所述待處理的字符串進行匹配,得到所述第二匹配結(jié)果,所述第二匹配結(jié)果可以對應于第二數(shù)值個的第二詞組。其中,所述第一數(shù)值為所述第一匹配結(jié)果中包含的所述第一詞組的數(shù)量,所述第二數(shù)值為所述第二匹配結(jié)果中包含的所述第二詞組的數(shù)量,即所述第一數(shù)值可以根據(jù)所述第一匹配結(jié)果確定,所述第二數(shù)值可以根據(jù)所述第二匹配結(jié)果確定。本發(fā)明實施例中的詞組可以包括多字詞組和單字。根據(jù)所述第一匹配結(jié)果即可獲得所述第一數(shù)值,根據(jù)所述第二匹配結(jié)果即可獲得所述第二數(shù)值?;蛘撸景l(fā)明實施例中,可以首先根據(jù)逆向最大匹配法對所述待處理的字符串進行匹配,得到所述第二匹配結(jié)果,所述第二匹配結(jié)果可以對應于所述第二數(shù)值個詞組。在根據(jù)逆向最大匹配法對所述待處理的字符串進行匹配后,可以繼續(xù)根據(jù)正向最大匹配法對所述待處理的字符串進行匹配,得到所述第一匹配結(jié)果,所述第一匹配結(jié)果可以對應于第一數(shù)值個的第一詞組?;蛘撸景l(fā)明實施例中,也可以同時根據(jù)正向最大匹配法和逆向最大匹配法分別對所述待處理的字符串進行匹配,分別得到所述第一匹配結(jié)果和所述第二匹配結(jié)果。即,本發(fā)明實施例中,采用正向最大匹配法和逆向最大匹配法對所述待處理的字符串進行匹配的先后順序可以任意。其中,正向最大匹配法(MM)的過程可以如下
首先設(shè)定一個最大詞長,該最大詞長的長度需要不大于所述待處理的字符串的長度,較佳的,該最大詞長的長度小于所述待處理的字符串的長度。一般來說,該最大詞長的長度可以根據(jù)經(jīng)驗來設(shè)定。例如設(shè)定的所述最大詞長為Π,則可以對所述待處理的字符串自左向右取η個字符,與所述通用詞典庫進行匹配,如果所述通用詞典庫中存在該詞條,則匹配成功,將該η個字符從所述待處理的字符串中切分出去,繼續(xù)從剩余的所述待處理的字符串中自左至右取η個字符進行匹配,直到將所述待處理的字符串處理完畢為止;如果其中一次詞條匹配未成功,則從該η個字符中去掉最后一個字符,再與所述通用詞典庫中的詞條進行匹配,如果匹配還是不成功,則再從該η-I個字符中去掉最后一個字符,再與所述通用詞典庫中的詞條進行匹配,如此重復處理。其中,假設(shè)所述待處理的字符串的長度為m,則η應為大于I且不大于m的自然數(shù)。逆向最大匹配法(RMM)的基本原理與正向最大匹配法相同,不同的是分詞切分的方向與正向最大匹配法相反,可以從所述待處理的字符串的末端開始匹配掃描,每次取最末端的最大詞長個字符作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續(xù) 匹配。下面舉例說明正向匹配法。例如,一個待處理的字符串為“我一個人吃飯”。第一步,首先設(shè)定最大詞長為5。則首先切分出的字符為“我一個人吃”,將這5個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該5個字符的最后一個字符去掉,變?yōu)椤拔乙粋€人”,將這4個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該4個字符的最后一個字符去掉,變?yōu)椤拔乙粋€”,將這3個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該3個字符的最后一個字符去掉,變?yōu)椤拔乙弧?,將這2個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該2個字符的最后一個字符去掉,變?yōu)椤拔摇保瑢⑦@I個字符與所述通用詞典庫進行匹配,匹配成功。第二步,將剩余的所述待處理的字符串進行切分,得到“一個人吃飯”。將這5個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該5個字符的最后一個字符去掉,變?yōu)椤耙粋€人吃”,將這4個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該4個字符的最后一個字符去掉,變?yōu)椤耙粋€人”,將這3個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該3個字符的最后一個字符去掉,變?yōu)椤耙粋€”,將這2個字符與所述通用詞典庫進行匹配,匹配成功。第三步,將剩余的所述待處理的字符串進行切分,得到“人吃飯”。將這3個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該3個字符的最后一個字符去掉,變?yōu)椤叭顺浴保瑢⑦@2個字符與所述通用詞典庫進行匹配,發(fā)現(xiàn)無法匹配,則將該2個字符的最后一個字符去掉,變?yōu)椤叭恕?,將這I個字符與所述通用詞典庫進行匹配,匹配成功。第四步,將剩余的所述待處理的字符串進行切分,得到“吃飯”。將這2個字符與所述通用詞典庫進行匹配,匹配成功。則,采用正向最大匹配法對“我一個人吃飯”這句話進行分詞后得到的分詞結(jié)果為我/ 一個/人/吃飯,即得到了四個詞組,其中包括兩個單字。再采用逆向最大匹配法對“我一個人吃飯”這句話進行分詞,得到的分詞結(jié)果為我/ 一 /個人/吃飯。
在根據(jù)正向最大匹配法對所述待處理的字符串進行匹配后,可以得到所述第一匹配結(jié)果,所述第一匹配結(jié)果可以對應于所述第一數(shù)值個的第一詞組,例如在上述實施例中,所述第一數(shù)值為4,在根據(jù)逆向最大匹配法對所述待處理的字符串進行匹配后,可以得到所述第二匹配結(jié)果,所述第二匹配結(jié)果可以對應于所述第二數(shù)值個的第二詞組,例如在上述實施例中,所述第二數(shù)值為4。步驟103 :判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致。本發(fā)明實施例中,在得到所述第一匹配結(jié)果和所述第二匹配結(jié)果后,可以判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致。此處的一致指的不僅是詞組數(shù)量一致,并且得到的詞組內(nèi)容也要完全一致。例如,對于“我一個人吃飯”這句話,采用正向最大匹配法得到的所述第一匹配結(jié)果為我/ 一個/人/吃飯,而如果采用逆向最大匹配法,則得到的所述第二匹配結(jié)果可以是我/ 一 /個人/吃飯,所述第一數(shù)值為4,所述第二數(shù)值也為4,雖然所述第一匹配結(jié)果對應的所述第一數(shù)值與所述第二匹配結(jié)果對應的所述第二數(shù)值相等,但得到的詞組并不完全相同,因此依然判斷確定所述第一匹配結(jié)果與所述第二匹配結(jié)果不·一致。例如,判斷所述第一匹配結(jié)果和所述第二匹配結(jié)果是否一致,具體可以是判斷所述第一數(shù)值是否與所述第二數(shù)值相等。當所述第一數(shù)值與所述第二數(shù)值不相等時,可以表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義。當所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組是否完全相同。其中,此處的相同指的是所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組的內(nèi)容是否完全一致。例如,所述第一數(shù)值為4,所述第一詞組分別為我/ 一個/人/吃飯,所述第二數(shù)值為4,所述第二詞組分別為我/ 一 /個人/吃飯,雖然所述第一數(shù)值與所述第二數(shù)值相等,但所述第一詞組與所述第二詞組的內(nèi)容不完全一致,因此所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組不完全相同。而,如果,所述第一數(shù)值為4,所述第一詞組分別為我/ 一個/人/吃飯,所述第二數(shù)值為4,所述第二詞組分別為我/ 一個/人/吃飯,則可以確定所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組完全相同。當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間沒有歧義,當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組不完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義。較佳的,本發(fā)明實施例中,在步驟101之前,可以首先加載包含所述專用詞典庫的所述通用詞典庫,其中,在加載所述通用詞典庫之前,可以首先對所述專用詞典庫進行分類。這樣,在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之后,可以將所述第一匹配結(jié)果或所述第二匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。因在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之后已經(jīng)可以確定待輸出的匹配結(jié)果,例如,如果所述待輸出的匹配結(jié)果為所述第一匹配結(jié)果,則可以將所述第一匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配,如果所述待輸出的匹配結(jié)果為所述第二匹配結(jié)果,則可以將所述第二匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。步驟104 :在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。如果判斷確定所述第一匹配結(jié)果和所述第二匹配結(jié)果一致,S卩,所述第一數(shù)值與所述第二數(shù)值相等,且所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組的內(nèi)容完全相同,則可以輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果以作為分詞結(jié)果。本發(fā)明實施例中,如果判斷確定所述第一匹配結(jié)果與所述第二匹配結(jié)果不一致,則可以對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明實施例中,歧義消除的過程可以如下首先可以判斷所述第一數(shù)值與所述第二數(shù)值是否不相等,如果判斷確定所述第一數(shù)值與所述第二數(shù)值不相等,則可以繼續(xù)判斷所述第一數(shù)值是否大于所述第二數(shù)值,如 果判斷確定所述第一數(shù)值大于所述第二數(shù)值,則可以確定需要輸出的是所述第二數(shù)值個詞組,即根據(jù)逆向最大匹配法得到的詞組,而如果判斷確定所述第一數(shù)值小于所述第二數(shù)值,則可以確定需要輸出的是所述第一數(shù)值個詞組,即根據(jù)正向最大匹配法得到的詞組。而如果判斷確定所述第一數(shù)值與所述第二數(shù)值相等,則可以繼續(xù)其它判斷步驟。例如,可以確定所述第一數(shù)值個詞組中可以包括第三數(shù)值個單字,所述第二數(shù)值個詞組中可以包括第四數(shù)值個單字,可以繼續(xù)判斷所述第三數(shù)值是否與所述第四數(shù)值不相等。如果判斷確定所述第三數(shù)值與所述第四數(shù)值不相等,則可以判斷所述第三數(shù)值是否大于所述第四數(shù)值,如果判斷確定所述第三數(shù)值大于所述第四數(shù)值,則可以確定需要輸出的是所述第二數(shù)值個詞組,即輸出根據(jù)逆向最大匹配法得到的詞組,而如果判斷確定所述第三數(shù)值小于所述第四數(shù)值,則可以確定需要輸出的是所述第一數(shù)值個詞組,即輸出根據(jù)正向最大匹配法得到的詞組。其中,所述第三數(shù)值為所述第一匹配結(jié)果中包含的單字的數(shù)量,所述第四數(shù)值為所述第二匹配結(jié)果中包含的單字的數(shù)量,即所述第三數(shù)值可以根據(jù)所述第一匹配結(jié)果確定,所述第四數(shù)值可以根據(jù)所述第二匹配結(jié)果確定。根據(jù)所述第一匹配結(jié)果即可獲得所述第三數(shù)值,根據(jù)所述第二匹配結(jié)果即可獲得所述第四數(shù)值。如果判斷確定所述第一數(shù)值與所述第二數(shù)值相等,所述第三數(shù)值與所述第四數(shù)值也相等,則可以確定需要輸出的是所述第一數(shù)值個詞組,即輸出根據(jù)正向最大匹配法得到的詞組。S卩,本發(fā)明實施例中,如果所述第一匹配結(jié)果對應的所述第一數(shù)值與所述第二匹配結(jié)果對應的所述第二數(shù)值不同,則可以確定需要輸出的是詞組數(shù)量較少的結(jié)果,如果所述第一匹配結(jié)果對應的所述第一數(shù)值與所述第二匹配結(jié)果對應的所述第二數(shù)值相同,而所述第三數(shù)值與所述第四數(shù)值不同,則可以確定需要輸出的是單字數(shù)量較少的結(jié)果。本發(fā)明實施例中采用這種處理方法,主要是為了提高歧義消除的準確度。本發(fā)明實施例中,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。較佳的,本發(fā)明實施例中,在步驟101之前,可以首先加載包含所述專用詞典庫的所述通用詞典庫,其中,在加載所述通用詞典庫之前,可以首先對所述專用詞典庫進行分類。這樣,在對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除之后,可以將歧義消除后的分詞結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。因在進行歧義消除之后已經(jīng)可以確定待輸出的匹配結(jié)果,例如,如果所述待輸出的匹配結(jié)果為經(jīng)歧義消除后的所述第一匹配結(jié)果,則可以將經(jīng)歧義消除后的所述第一匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配,如果所述待輸出的匹配結(jié)果為經(jīng)歧義消除后的所述第二匹配結(jié)果,則可以將經(jīng)歧義消除后的所述第二匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。例如,如果將所述影視領(lǐng)域的專用詞典庫分為了 5個類別,分別為演員姓名、導演姓名、影視名稱、影視類型和影視語言,則在匹配時可以分別將每個詞組與每個類別依次匹配。具體先與哪個類別進行匹配,后與哪個類別進行匹配,順序可以自行設(shè)定,或者順序可以任意。例如,如果將所述影視領(lǐng)域的專用詞典庫分為了 5個類別,分別為演員姓名、導演姓名、影視名稱、影視類型和影視語言,設(shè)定的匹配順序為演員姓名-影視名稱-導演姓名-影視類型-影視語言。而歧義消除后的分詞結(jié)果中包含的一個詞組為“潛伏”,則可以將該詞組首先與演員姓名這一類別進行匹配,發(fā)現(xiàn)沒有詞條與之匹配,則繼續(xù)將該詞組與影視名稱這一類別進行匹配,匹配成功,則可以輸出匹配后的分詞結(jié)果,且在輸出時可以明·確,該詞組為影視名稱。本發(fā)明實施例中,在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之前,還可以根據(jù)所述停用詞擴展詞典庫將所述第一匹配結(jié)果和所述第二匹配結(jié)果中第一類型的詞組均進行刪除。因為在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之前無法確定需要輸出的是所述第一匹配結(jié)果還是所述第二匹配結(jié)果,因此可以根據(jù)所述停用詞擴展詞典庫將所述第一匹配結(jié)果和所述第二匹配結(jié)果中第一類型的詞組均進行刪除。本發(fā)明實施例中,在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之后,還可以根據(jù)所述停用詞擴展詞典庫將待輸出的匹配結(jié)果中所述第一類型的詞組進行刪除,其中,所述待輸出的匹配結(jié)果為所述第一匹配結(jié)果或所述第二匹配結(jié)果。因為在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之后,已經(jīng)可以確定需要輸出的是所述第一匹配結(jié)果或所述第二匹配結(jié)果,則如果確定所述待輸出的匹配結(jié)果是所述第一匹配結(jié)果,可以根據(jù)所述停用詞擴展詞典庫將所述第一匹配結(jié)果中所述第一類型的詞組進行刪除,無需對所述第二匹配結(jié)果進行處理,如果確定所述待輸出的匹配結(jié)果是所述第二匹配結(jié)果,可以根據(jù)所述停用詞擴展詞典庫將所述第二匹配結(jié)果中所述第一類型的詞組進行刪除,無需對所述第一匹配結(jié)果進行處理,這樣也可以節(jié)約步驟。本發(fā)明實施例中,所述第一類型的詞組可以是指對理解所述待處理的字符串的含義無意義的詞組。例如,有一分詞結(jié)果為“哎呀/我/不知道”,則其中的“哎呀”為語氣助詞,顯然對理解所述待處理的字符串沒有意義,在將其與所述停用詞擴展詞典庫進行匹配時匹配成功,可以將其刪除。具體的,本發(fā)明實施例中,所述第一類型的詞組可以是虛詞詞組,例如,所述第一類型的詞組可以是助詞詞組、連詞詞組、副詞詞組、介詞詞組、嘆詞詞組、擬聲詞詞組,等等。較佳的,所述停用詞擴展詞典庫中所包含的詞組的種類可以根據(jù)所述待處理的字符串所屬領(lǐng)域的不同而有所變化,具體所述停用詞擴展詞典庫中包含哪些種類的詞組可根據(jù)具體需求而確定,本發(fā)明對此不做限制。S卩,本發(fā)明實施例中,可以將所述第一匹配結(jié)果得到的所述第一數(shù)值個的第一詞組分別與所述停用詞擴展詞典庫進行匹配,如果有詞組匹配成功,則將該詞組刪除,也可以將所述第二匹配結(jié)果得到的所述第二數(shù)值個的第二詞組分別與所述停用詞擴展詞典庫進行匹配,如果有詞組匹配成功,則將該詞組刪除。參見圖2,本發(fā)明還提供一種分詞裝置,所述裝置可以包括獲取模塊201、匹配模塊202、判斷模塊203和輸出模塊204。所述裝置還可以包括歧義消除模塊205、加載模塊206、分類模塊207和處理模塊208。獲取模塊201可以用于獲得待處理的字符串。匹配模塊202可以用于根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果。匹配模塊202還可以用于將所述第一匹配結(jié)果或所述第二匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。匹配模塊202還可以用于將進行歧義消除后的第一匹配結(jié)果或所述第二匹配結(jié)果中包括的詞組分別按照類別與分類后的所述專用詞典庫中的詞組進行匹配。判斷模塊203可以用于判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致?!?br> 所述第一匹配結(jié)果中包含有第一數(shù)值個的第一詞組,所述第二匹配結(jié)果中包含有第二數(shù)值個的第二詞組,所述第一數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的所述第一詞組的數(shù)量,所述第二數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的所述第二詞組的數(shù)量。判斷模塊203具體可以用于判斷所述第一數(shù)值是否與所述第二數(shù)值相等;當所述第一數(shù)值與所述第二數(shù)值不相等時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義;當所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組是否完全相同;當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間沒有歧義,當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組不完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義。輸出模塊204可以用于在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。輸出模塊204還可以用于輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。輸出模塊204具體可以用于當所述第一數(shù)值大于所述第二數(shù)值時,輸出所述第二數(shù)值個詞組;當所述第一數(shù)值小于所述第二數(shù)值時,輸出所述第一數(shù)值個詞組。輸出模塊204具體可以用于當所述第三數(shù)值大于所述第四數(shù)值時,輸出所述第二數(shù)值個詞組;當所述第三數(shù)值小于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組;當所述第三數(shù)值等于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組。歧義消除模塊205可以用于在不一致時,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。歧義消除模塊205具體可以用于在述第一數(shù)值與所述第二數(shù)值不相等時,判斷所述第一數(shù)值是否大于所述第二數(shù)值。所述第一匹配結(jié)果中包含有第三數(shù)值個的單字,所述第二匹配結(jié)果中包含有第四數(shù)值個的單字,所述第三數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的單字的數(shù)量,所述第四數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的單字的數(shù)量。歧義消除模塊205具體可以用于在述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第三數(shù)值是否大于所述第四數(shù)值。加載模塊206可以用于加載所述通用詞典庫,所述通用詞典庫中包括專用詞典庫。加載模塊206可以用于加載所述通用詞典庫,所述通用詞典庫中包括停用詞擴展詞典庫。分類模塊207可以用于對所述專用詞典庫進行分類。處理模塊208可以用于根據(jù)所述停用詞擴展詞典庫,將所述第一匹配結(jié)果和所述第二匹配結(jié)果中第一類型的詞組均進行刪除。處理模塊208可以用于根據(jù)所述停用詞擴展詞典庫,將待輸出的匹配結(jié)果中第一類型的詞組進行刪除,所述待輸出的匹配結(jié)果為所述第一匹配結(jié)果或所述第二匹配結(jié)果。本發(fā)明實施例中,所述第一類型的詞組可以是虛詞詞組,例如,所述第一類型的詞組可以是助詞詞組、連詞詞組、副詞詞組、介詞詞組、嘆詞詞組、擬聲詞詞組,等等。較佳的,所述停用詞擴展詞典庫中所包含的詞組的種類可以根據(jù)所述待處理的字符串所屬領(lǐng)域的不同而有所變化,具體所述停用詞擴展詞典庫中包含哪些種類的詞組可根據(jù)具體需求而確定。本發(fā)明實施例中的分詞方法包括獲得待處理的字符串;根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明實施例中,采用正向最大匹配法及逆向最大匹配法分別對同一待處理的字符串進行匹配,待匹配完畢后,如果匹配結(jié)果相同,則可以直接輸出結(jié)果,這樣一來,首先是采用兩種匹配方法,之后比對匹配結(jié)果,如果相同再進行輸出,顯然提高了分詞的準確度。且本發(fā)明實施例中,如果匹配結(jié)果不同,還可以對匹配結(jié)果進行一定歧義消除,從而可以盡量保證得到的結(jié)果較為準確,從多方面保證了分詞的準確性。本發(fā)明實施例中,詳細描述了歧義消除的過程,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明實施例描述的內(nèi)容可以很容易實現(xiàn)本發(fā)明的技術(shù)方案,公開較為充分。且采用本發(fā)明實施例中的歧義消除方法,可以提高分詞的準確性。本發(fā)明實施例專門構(gòu)建了專用詞典庫,可以根據(jù)所述專用詞典庫對分詞結(jié)果進行匹配,使輸出的分詞結(jié)果更有針對性。所述專用詞典庫可以是各個領(lǐng)域的專用詞典庫,從而可以使本發(fā)明實施例中的分詞裝置能夠更好地對各領(lǐng)域中的所述待處理的字符串進行分詞。例如,如果所述專用詞典庫為所述影視領(lǐng)域的專用詞典庫,則可以使所述分詞裝置能夠`更好地應用到視頻搜索過程中。本發(fā)明實施例還專門構(gòu)建了停用詞擴展詞典庫,可以在輸出匹配結(jié)果之前首先刪除詞組中無意義的詞組,既不影響分詞輸出的結(jié)果,也減少了后續(xù)的操作過程,節(jié)省了步驟。
本領(lǐng)域內(nèi)的技術(shù)人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理 器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種分詞方法,其特征在于,包括以下步驟 獲得待處理的字符串; 根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果; 判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致; 在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。
2.如權(quán)利要求I所述的方法,其特征在于,在判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致之后還包括步驟 在不一致時,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。
3.如權(quán)利要求I或2所述的方法,其特征在于,所述第一匹配結(jié)果中包含有第一數(shù)值個的第一詞組,所述第二匹配結(jié)果中包含有第二數(shù)值個的第二詞組,所述第一數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的所述第一詞組的數(shù)量,所述第二數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的所述第二詞組的數(shù)量,所述判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致,具體為 判斷所述第一數(shù)值是否與所述第二數(shù)值相等; 當所述第一數(shù)值與所述第二數(shù)值不相等時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義; 當所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組是否完全相同; 當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間沒有歧義,當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組不完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義。
4.如權(quán)利要求3所述的方法,其特征在于,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果的步驟包括 在所述第一數(shù)值與所述第二數(shù)值不相等時,判斷所述第一數(shù)值是否大于所述第二數(shù)值; 當所述第一數(shù)值大于所述第二數(shù)值時,輸出所述第二數(shù)值個詞組; 當所述第一數(shù)值小于所述第二數(shù)值時,輸出所述第一數(shù)值個詞組。
5.如權(quán)利要求3所述的方法,其特征在于,所述第一匹配結(jié)果中包含有第三數(shù)值個的單字,所述第二匹配結(jié)果中包含有第四數(shù)值個的單字,所述第三數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的單字的數(shù)量,所述第四數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的單字的數(shù)量,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果的步驟包括 在所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第三數(shù)值是否大于所述第四數(shù)值; 當所述第三數(shù)值大于所述第四數(shù)值時,輸出所述第二數(shù)值個詞組;當所述第三數(shù)值小于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組; 當所述第三數(shù)值等于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組。
6.一種分詞裝置,其特征在于,包括 獲取模塊,用于獲得待處理的字符串; 匹配模塊,用于根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果; 判斷模塊,用于判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致; 輸出模塊,用于在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括歧義消除模塊,用于在不一致時,對所述第一匹配結(jié)果與所述第二匹配結(jié)果進行歧義消除,以輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果; 所述輸出模塊還用于輸出經(jīng)過歧義消除后的所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。
8.如權(quán)利要求6或7所述的裝置,其特征在于,所述第一匹配結(jié)果中包含有第一數(shù)值個的第一詞組,所述第二匹配結(jié)果中包含有第二數(shù)值個的第二詞組,所述第一數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的所述第一詞組的數(shù)量,所述第二數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的所述第二詞組的數(shù)量; 所述判斷模塊具體用于 判斷所述第一數(shù)值是否與所述第二數(shù)值相等; 當所述第一數(shù)值與所述第二數(shù)值不相等時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義; 當所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組是否完全相同; 當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間沒有歧義,當所述第一數(shù)值個的第一詞組與所述第二數(shù)值個的第二詞組不完全相同時,表明所述第一匹配結(jié)果與所述第二匹配結(jié)果間有歧義。
9.如權(quán)利要求8所述的裝置,其特征在于,所述歧義消除模塊具體用于 在所述第一數(shù)值與所述第二數(shù)值不相等時,判斷所述第一數(shù)值是否大于所述第二數(shù)值; 所述輸出模塊具體用于 當所述第一數(shù)值大于所述第二數(shù)值時,輸出所述第二數(shù)值個詞組; 當所述第一數(shù)值小于所述第二數(shù)值時,輸出所述第一數(shù)值個詞組。
10.如權(quán)利要求8所述的裝置,其特征在于,所述第一匹配結(jié)果中包含有第三數(shù)值個的單字,所述第二匹配結(jié)果中包含有第四數(shù)值個的單字,所述第三數(shù)值為根據(jù)所述第一匹配結(jié)果確定的所述第一匹配結(jié)果中所包含的單字的數(shù)量,所述第四數(shù)值為根據(jù)所述第二匹配結(jié)果確定的所述第二匹配結(jié)果中所包含的單字的數(shù)量,所述歧義消除模塊具體用于 在所述第一數(shù)值與所述第二數(shù)值相等時,判斷所述第三數(shù)值是否大于所述第四數(shù)值; 所述輸出模塊具體用于當所述第三數(shù)值大于所述第四數(shù)值時,輸出所述第二數(shù)值個詞組;當所述第三數(shù)值小于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組;當所述第三數(shù)值等于所述第四數(shù)值時,輸出所述第一數(shù)值個詞組?!?br> 全文摘要
本發(fā)明公開了一種分詞方法,用于提高分詞準確度。所述方法包括獲得待處理的字符串;根據(jù)正向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第一匹配結(jié)果,和根據(jù)逆向最大匹配法將所述待處理的字符串與通用詞典庫進行匹配,得到第二匹配結(jié)果;判斷所述第一匹配結(jié)果與所述第二匹配結(jié)果是否一致;在一致時,輸出所述第一匹配結(jié)果或所述第二匹配結(jié)果作為分詞結(jié)果。本發(fā)明還公開了用于實現(xiàn)所述方法的裝置。
文檔編號G06F17/27GK102915299SQ201210407529
公開日2013年2月6日 申請日期2012年10月23日 優(yōu)先權(quán)日2012年10月23日
發(fā)明者李成華, 王勇進, 王峰 申請人:海信集團有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
闻喜县| 铁岭县| 巩留县| 左贡县| 呈贡县| 韶关市| 汤阴县| 贵阳市| 潞城市| 浏阳市| 汉阴县| 尤溪县| 岳阳县| 平阴县| 方城县| 广河县| 开鲁县| 闻喜县| 平阴县| 颍上县| 阿克苏市| 沁源县| 佛坪县| 阿巴嘎旗| 德兴市| 富民县| 恩平市| 梅河口市| 紫金县| 康平县| 化德县| 承德县| 土默特左旗| 鹤庆县| 个旧市| 房山区| 鸡西市| 博湖县| 芜湖市| 大悟县| 安乡县|