一種基于逆向最大匹配的中文分詞算法的制作方法

文檔序號(hào)：6433472閱讀：172來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種基于逆向最大匹配的中文分詞算法的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及人工智能領(lǐng)域的文本分析技術(shù)，特別涉及應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品中的搜索引擎、數(shù)據(jù)挖掘等功能人工智能領(lǐng)域數(shù)據(jù)挖掘的分類技術(shù)。
背景技術(shù)：
在信息量猛增，逐漸呈現(xiàn)爆棚趨勢(shì)的今天，做為接收信息及傳播信息量最大的互聯(lián)網(wǎng)行業(yè)更是一直被一個(gè)問(wèn)題困擾著，那就是面對(duì)網(wǎng)站里那些繽紛繁多的信息，如何讓用戶快速準(zhǔn)確搜索定位到自己所需要的資源。目前廣泛應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品中的是中文分詞技術(shù)，它通過(guò)拆分、匹配詞典的方式將一段文本拆分成多個(gè)詞，幫助計(jì)算機(jī)“理解”文本的核心內(nèi)容。比如搜索引擎、數(shù)據(jù)挖掘等功能的實(shí)現(xiàn)都依托與強(qiáng)大的分詞技術(shù)。但是中文分詞技術(shù)的停滯不前便是一直阻礙中文搜索質(zhì)量提高的至關(guān)重要的因素。
對(duì)于中文來(lái)說(shuō)，詞是承載語(yǔ)義的最小單位，這就好像把英文單詞之間的空格都去掉，我們看到的是一片沒(méi)有意義的字母。因此，中文自動(dòng)分詞就成為中文知識(shí)管理系統(tǒng)必須解決的問(wèn)題。單個(gè)漢字一般很難單獨(dú)表達(dá)一定的含義，而中文的詞是沒(méi)有自然分隔符的，需要采取一定的技術(shù)手段將詞準(zhǔn)確的分離出來(lái)。中文分詞的主要困難在于切分歧義消解和未登錄詞語(yǔ)的識(shí)別。所以，如何提高分詞的準(zhǔn)確率、分詞速度，是目前中文的信息處理技術(shù)需要解決的技術(shù)問(wèn)題。發(fā)明內(nèi)容
本發(fā)明針對(duì)互聯(lián)網(wǎng)上的產(chǎn)品在搜索定位所需資源過(guò)程中存在分詞精確度較低、未登錄詞識(shí)別不準(zhǔn)確、性能較低等問(wèn)題，提供一種基于逆向最大匹配的中文分詞算法。
本發(fā)明的目的是提供一種基于詞典的快速分詞算法，在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。
為此，本發(fā)明公開(kāi)了一種基于逆向最大匹配的中文分詞算法。所述中文分詞算法步驟如下
步驟一、輸入需要進(jìn)行分詞操作的文本內(nèi)容；
步驟二、根據(jù)字符編碼類型將文本中的所有字符在字符編碼類型發(fā)生變換處截斷，以由此拆分成多個(gè)長(zhǎng)句段；
步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符，在停頓詞字符處，將上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段；
步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段，并且將不屬于中文字符類型的短句段分解后直接加入到分詞結(jié)果集中；
步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式，從短句段段尾開(kāi)始，先選取兩位字符的字符組，將這兩位字符作為分詞與分詞字典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配，若匹配成功，則將這兩位字符直接加入到分詞結(jié)果集中，并且在短句段段尾刪除已經(jīng)加入到分詞結(jié)果集中的字符，再?gòu)亩挝策x取新的兩位字符；若匹配不成功，則繼續(xù)向段首方向再增加一位字符，進(jìn)行匹配，直到匹配成功，若始終不能匹配成功，則增加一位字符的工作以增加了該短句段的句首字符為止；
步驟六、將所有相鄰的未得到匹配的字符一起作為分詞，加入到分詞結(jié)果集中；而將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞，加入到分詞結(jié)果集中。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，所述分詞詞典數(shù)據(jù)庫(kù)中包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WD，和存儲(chǔ)有所有分詞及分詞索引位置的數(shù) 據(jù)目錄詞典WL，其中所述分詞數(shù)據(jù)結(jié)構(gòu)與所述分詞索引位置相對(duì)應(yīng)。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，在數(shù)據(jù)結(jié)構(gòu)詞典的第一層存儲(chǔ)有單個(gè)漢字字符，作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄；在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度，其中，所述詞對(duì)象的索引位置與所述數(shù)據(jù)目錄詞典WL中的分詞索引位置相同。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，在數(shù)據(jù)結(jié)構(gòu)詞典還包括第三層，其中存儲(chǔ)有以第二層中存儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，短句段中的字符組在與分詞詞典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配時(shí)，首先用字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配，在該匹配的指引下，進(jìn)入第二層進(jìn)行匹配。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，在第二層中進(jìn)行匹配時(shí)，首先進(jìn)行詞的長(zhǎng)度的匹配。
優(yōu)選的是，所述的基于逆向最大匹配的中文分詞算法中，進(jìn)入第二層中進(jìn)行匹配后，在該匹配的指引下，進(jìn)入第三層進(jìn)行匹配。
本發(fā)明的有益效果是
本發(fā)明提供了一種基于詞典的快速分詞算法，在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。對(duì)于網(wǎng)絡(luò)搜索引擎來(lái)說(shuō)中，中文分詞的準(zhǔn)確與否，常常直接影響到對(duì)搜索結(jié)果的相關(guān)度排序，提高分詞的準(zhǔn)確率，也就提高了搜索引擎結(jié)果相關(guān) 性和準(zhǔn)確性。分詞的速度也對(duì)搜索引擎造成直接影響，因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁(yè)，如果分詞耗用的時(shí)間過(guò)長(zhǎng)，會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。提高分詞的速度，也就保證了檢索的結(jié)果。

附圖1為本發(fā)明所述的基于逆向最大匹配的中文分詞算法的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明，以使本領(lǐng)域普通技術(shù)人員參照本說(shuō)明書(shū)后能夠據(jù)以實(shí)施。
如圖1所示，本發(fā)明的一種基于逆向最大匹配的中文分詞算法，包括如下步驟
步驟一、在內(nèi)存中初始化分詞詞典數(shù)和停頓詞詞典StopWord，其中分詞詞典數(shù)據(jù) 庫(kù)中包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WordDictionary，和存儲(chǔ)有所有分詞及分詞索引位置的數(shù)據(jù)目錄詞典WordList。在數(shù)據(jù)結(jié)構(gòu)詞典的第一層存儲(chǔ)有單個(gè)漢字字符，作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄；在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度，在數(shù)據(jù)結(jié)構(gòu)詞典的第三層中存儲(chǔ)有以第二層中存儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。數(shù)據(jù)結(jié)構(gòu)詞典WordDictionary中所述詞對(duì)象和數(shù)據(jù)目錄詞典WordList中對(duì)應(yīng)的分詞具有相同的索引位置；
步驟二、輸入需要進(jìn)行分詞操作的文本內(nèi)容，根據(jù)字符編碼類型將文本中的所有字符在字符編碼類型發(fā)生變換處截?cái)?，以由此拆分成多個(gè)長(zhǎng)句段，例如將“新浪為抑制謠言傳播成立了專門的微博辟謠小組，24小時(shí)負(fù)責(zé)微博謠言的發(fā)現(xiàn)、甄別和處理”拆分成“新浪為抑制謠言傳播成立了專門的微博辟謠小組”，“24”和“小時(shí)負(fù)責(zé)微博謠言的發(fā)現(xiàn)、甄別和處理”；
步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符，在停頓詞字符處，將上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段，例如將“中國(guó)，偉大的國(guó)家”拆分成“中國(guó)”和 “偉大的國(guó)家”；
步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段，將不屬于中文字符類型的短句段分解后直接加入到分詞結(jié)果集中；
步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式，從短句段段尾開(kāi)始，先選取兩位字符的字符組，如“中國(guó)，偉大的國(guó)家”句子，將讀取出“國(guó)家”這兩個(gè)字符，將這兩位字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配，在該匹配的指引下，進(jìn)入第二層進(jìn)行匹配，在第二層中進(jìn)行匹配時(shí)，首先進(jìn)行詞的長(zhǎng)度的匹配，進(jìn)行完第二層的匹配后，在該匹配的指引下再進(jìn)入第三層進(jìn)行匹配，若匹配成功，則將這兩位字符直接加入到分詞結(jié)果集中，并且在短句段段尾刪除已經(jīng)加入到分詞結(jié)果集中的字符，再?gòu)亩挝策x取新的兩位字符；若匹配不成功，則繼續(xù)向段首方向再增加一位字符，進(jìn)行匹配，直到匹配成功，若始終不能匹配成功，則增加一位字符的工作以增加了該短句段的句首字符為止；
步驟六、將所有相鄰的未得到匹配的字符一起作為分詞，加入到分詞結(jié)果集中；而將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞，加入到分詞結(jié)果集中，完成分詞。
另一種實(shí)現(xiàn)形式是
步驟一、在內(nèi)存中初始化三個(gè)對(duì)象，分別是存儲(chǔ)了相關(guān)數(shù)據(jù)結(jié)構(gòu)的對(duì)象 WordDictionary,存儲(chǔ)了所有詞及詞索引位置的詞典對(duì)象WordList,以及包含了一些特殊字符的停頓詞詞典對(duì)象StopWord。
步驟二、獲取需要進(jìn)行分詞操作的文本內(nèi)容。
步驟三、循環(huán)文本中的每個(gè)字符，按照字符編碼區(qū)分出當(dāng)前字符所屬類型，根據(jù)字符編碼拆分中文、英文、數(shù)字、其他類型等
步驟四、根據(jù)停頓詞典將“長(zhǎng)句子”進(jìn)一步拆分成短句子，如“中國(guó)，偉大的國(guó)家”拆分成“中國(guó)”、“偉大的國(guó)家”。
步驟五、循環(huán)文本中的每個(gè)字符，按照字符編碼區(qū)分出當(dāng)前字符是否為中文字符。
步驟六、如果當(dāng)前字符類型不屬于中文字符，則直接加入到分詞結(jié)果中。
步驟七、從句子的最后一個(gè)字符開(kāi)始，從右向左，讀取兩個(gè)字符，組合成一個(gè)詞語(yǔ): 如“中國(guó)，偉大的國(guó)家”句子，將讀取出“國(guó)家”這個(gè)詞。
步驟八、查詢出上一步驟中獲取的詞是否在分詞字典中存在。
步驟九、從句子中“刪除”已經(jīng)匹配到的詞如果查詢到了匹配項(xiàng)，則將該詞存入分詞結(jié)果集中，并在源文本中“刪除”當(dāng)前詞，此處的“刪除”并非真的刪除，為了提高分詞效率，此處只是將索引位置向前移動(dòng)了若干位。
步驟十、查看當(dāng)前句子是否已經(jīng)完成了分詞。
步驟十一、如果上一個(gè)字符未匹配到分詞字典中的任意一項(xiàng)，則需要增加字符的長(zhǎng)度
步驟十二、查看是否已經(jīng)匹配了所有以某個(gè)字符為結(jié)尾的詞。
步驟十三、對(duì)于在字典中沒(méi)有找到匹配項(xiàng)的所有字符，都將視為未登錄詞，在分詞完成后，需要組合所有的未登錄詞。
步驟十四、根據(jù)記錄的未登錄詞在源文本中的位置，組合所有未登錄詞。
步驟十五、將所有的未登錄詞加入到分詞結(jié)果中，分詞完成。
盡管本發(fā)明的實(shí)施方案已公開(kāi)如上，但其并不僅僅限于說(shuō)明書(shū)和實(shí)施方式中所列運(yùn)用，它完全可以被適用于各種適合本發(fā)明的領(lǐng)域，對(duì)于熟悉本領(lǐng)域的人員而言，可容易地實(shí)現(xiàn)另外的修改，因此在不背離權(quán)利要求及等同范圍所限定的一般概念下，本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。
權(quán)利要求
1.一種基于逆向最大匹配的中文分詞算法，其特征在于，包括以下步驟步驟一、輸入需要進(jìn)行分詞操作的文本內(nèi)容；步驟二、根據(jù)字符編碼類型將文本中的所有字符在字符編碼類型發(fā)生變換處截?cái)?，以由此拆分成多個(gè)長(zhǎng)句段；步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符，在停頓詞字符處，將上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段；步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段，并且將不屬于中文字符類型的短句段分解后直接加入到分詞結(jié)果集中；步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式，從短句段段尾開(kāi)始，先選取兩位字符的字符組，將這兩位字符作為分詞與分詞字典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配，若匹配成功，則將這兩位字符直接加入到分詞結(jié)果集中，并且在短句段段尾刪除已經(jīng)加入到分詞結(jié)果集中的字符，再?gòu)亩挝策x取新的兩位字符；若匹配不成功，則繼續(xù)向段首方向再增加一位字符，進(jìn)行匹配，直到匹配成功，若始終不能匹配成功，則增加一位字符的工作以增加了該短句段的句首字符為止；步驟六、將所有相鄰的未得到匹配的字符一起作為分詞，加入到分詞結(jié)果集中；而將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞，加入到分詞結(jié)果集中。
2.如權(quán)利要求1所述的基于逆向最大匹配的中文分詞算法，其特征在于，所述分詞詞典數(shù)據(jù)庫(kù)中包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WD，和存儲(chǔ)有所有分詞及分詞索引位置的數(shù)據(jù)目錄詞典WL，其中所述分詞數(shù)據(jù)結(jié)構(gòu)與所述分詞索引位置相對(duì)應(yīng)。
3.如權(quán)利要求1所述的基于逆向最大匹配的中文分詞算法，其特征在于，在數(shù)據(jù)結(jié)構(gòu)詞典的第一層存儲(chǔ)有單個(gè)漢字字符，作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄；在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度，其中，所述詞對(duì)象的索引位置與所述數(shù)據(jù)目錄詞典WL中的分詞索引位置相同。
4.如權(quán)利要求3所述的基于逆向最大匹配的中文分詞算法，其特征在于，在數(shù)據(jù)結(jié)構(gòu)詞典還包括第三層，其中存儲(chǔ)有以第二層中存儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。
5.如權(quán)利要求3所述的基于逆向最大匹配的中文分詞算法，其特征在于，短句段中的字符組在與分詞詞典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配時(shí)，首先用字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配，在該匹配的指引下，進(jìn)入第二層進(jìn)行匹配。
6.如權(quán)利要求5所述的基于逆向最大匹配的中文分詞算法，其特征在于，在第二層中進(jìn)行匹配時(shí)，首先進(jìn)行詞的長(zhǎng)度的匹配。
7.如權(quán)利要求5所述的基于逆向最大匹配的中文分詞算法，其特征在于，進(jìn)入第二層中進(jìn)行匹配后，在該匹配的指引下，進(jìn)入第三層進(jìn)行匹配。
全文摘要
本發(fā)明公開(kāi)了一種基于逆向最大匹配的中文分詞算法。包括步驟先在內(nèi)存中初始化三個(gè)對(duì)象，然后輸入需要進(jìn)行分詞操作的文本內(nèi)容，根據(jù)字符編碼將文本中的字符拆分成不同類型。在將文本拆成短句后，按照字符編碼，將不屬于中文字符的直接加入到分詞結(jié)果中，然后根據(jù)字符串匹配決策機(jī)制，將句子進(jìn)行拆分字符組，根據(jù)逆向最大匹配算法將字符組與分詞字典中相匹配，將匹配的字符組存入分詞結(jié)果集中，最后組合相連的未匹配的字符，并加入到分詞結(jié)果中，完成分詞。本發(fā)明提供了一種基于詞典的快速分詞算法，在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。
文檔編號(hào)G06F17/30GK102999534SQ201110278240
公開(kāi)日2013年3月27日申請(qǐng)日期2011年9月19日優(yōu)先權(quán)日2011年9月19日
發(fā)明者代培, 楊愛(ài)民申請(qǐng)人:北京金和軟件股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：代培;楊愛(ài)民
技術(shù)所有人：北京金和軟件股份有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于逆向最大匹配的中文分詞算法的制作方法