專利名稱:一種基于逆向最大匹配的中文分詞算法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及人工智能領(lǐng)域的文本分析技術(shù),特別涉及應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品中的搜索 引擎、數(shù)據(jù)挖掘等功能人工智能領(lǐng)域數(shù)據(jù)挖掘的分類技術(shù)。
背景技術(shù):
在信息量猛增,逐漸呈現(xiàn)爆棚趨勢(shì)的今天,做為接收信息及傳播信息量最大的互 聯(lián)網(wǎng)行業(yè)更是一直被一個(gè)問(wèn)題困擾著,那就是面對(duì)網(wǎng)站里那些繽紛繁多的信息,如何讓用 戶快速準(zhǔn)確搜索定位到自己所需要的資源。目前廣泛應(yīng)用于互聯(lián)網(wǎng)產(chǎn)品中的是中文分詞技 術(shù),它通過(guò)拆分、匹配詞典的方式將一段文本拆分成多個(gè)詞,幫助計(jì)算機(jī)“理解”文本的核心 內(nèi)容。比如搜索引擎、數(shù)據(jù)挖掘等功能的實(shí)現(xiàn)都依托與強(qiáng)大的分詞技術(shù)。但是中文分詞技 術(shù)的停滯不前便是一直阻礙中文搜索質(zhì)量提高的至關(guān)重要的因素。
對(duì)于中文來(lái)說(shuō),詞是承載語(yǔ)義的最小單位,這就好像把英文單詞之間的空格都去 掉,我們看到的是一片沒(méi)有意義的字母。因此,中文自動(dòng)分詞就成為中文知識(shí)管理系統(tǒng)必須 解決的問(wèn)題。單個(gè)漢字一般很難單獨(dú)表達(dá)一定的含義,而中文的詞是沒(méi)有自然分隔符的,需 要采取一定的技術(shù)手段將詞準(zhǔn)確的分離出來(lái)。中文分詞的主要困難在于切分歧義消解和未 登錄詞語(yǔ)的識(shí)別。所以,如何提高分詞的準(zhǔn)確率、分詞速度,是目前中文的信息處理技術(shù)需 要解決的技術(shù)問(wèn)題。發(fā)明內(nèi)容
本發(fā)明針對(duì)互聯(lián)網(wǎng)上的產(chǎn)品在搜索定位所需資源過(guò)程中存在分詞精確度較低、未 登錄詞識(shí)別不準(zhǔn)確、性能較低等問(wèn)題,提供一種基于逆向最大匹配的中文分詞算法。
本發(fā)明的目的是提供一種基于詞典的快速分詞算法,在保證了分詞精確度的情況 下大幅度的提高了詞典加載和分詞的效率。
為此,本發(fā)明公開(kāi)了一種基于逆向最大匹配的中文分詞算法。所述中文分詞算法 步驟如下
步驟一、輸入需要進(jìn)行分詞操作的文本內(nèi)容;
步驟二、根據(jù)字符編碼類型將文本中的所有字符在字符編碼類型發(fā)生變換處截 斷,以由此拆分成多個(gè)長(zhǎng)句段;
步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符,在停頓詞字符處,將 上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段;
步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,并且將不屬于中 文字符類型的短句段分解后直接加入到分詞結(jié)果集中;
步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式,從短句段段尾開(kāi)始,先 選取兩位字符的字符組,將這兩位字符作為分詞與分詞字典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配,若 匹配成功,則將這兩位字符直接加入到分詞結(jié)果集中,并且在短句段段尾刪除已經(jīng)加入到 分詞結(jié)果集中的字符,再?gòu)亩挝策x取新的兩位字符;若匹配不成功,則繼續(xù)向段首方向再增加一位字符,進(jìn)行匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增 加了該短句段的句首字符為止;
步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結(jié)果集中;而 將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞,加入到分詞結(jié)果集中。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,所述分詞詞典數(shù)據(jù)庫(kù)中 包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WD,和存儲(chǔ)有所有分詞及分詞索引位置的數(shù) 據(jù)目錄詞典WL,其中所述分詞數(shù)據(jù)結(jié)構(gòu)與所述分詞索引位置相對(duì)應(yīng)。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,在數(shù)據(jù)結(jié)構(gòu)詞典的第一 層存儲(chǔ)有單個(gè)漢字字符,作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄;在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有 以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度,其中,所述詞對(duì)象的索 引位置與所述數(shù)據(jù)目錄詞典WL中的分詞索引位置相同。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,在數(shù)據(jù)結(jié)構(gòu)詞典還包括 第三層,其中存儲(chǔ)有以第二層中存儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,短句段中的字符組在與 分詞詞典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配時(shí),首先用字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第 一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配,在該匹配的指引下,進(jìn)入第二層進(jìn)行匹配。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,在第二層中進(jìn)行匹配時(shí), 首先進(jìn)行詞的長(zhǎng)度的匹配。
優(yōu)選的是,所述的基于逆向最大匹配的中文分詞算法中,進(jìn)入第二層中進(jìn)行匹配 后,在該匹配的指引下,進(jìn)入第三層進(jìn)行匹配。
本發(fā)明的有益效果是
本發(fā)明提供了一種基于詞典的快速分詞算法,在保證了分詞精確度的情況下大幅 度的提高了詞典加載和分詞的效率。對(duì)于網(wǎng)絡(luò)搜索引擎來(lái)說(shuō)中,中文分詞的準(zhǔn)確與否,常常 直接影響到對(duì)搜索結(jié)果的相關(guān)度排序,提高分詞的準(zhǔn)確率,也就提高了搜索引擎結(jié)果相關(guān) 性和準(zhǔn)確性。分詞的速度也對(duì)搜索引擎造成直接影響,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的 網(wǎng)頁(yè),如果分詞耗用的時(shí)間過(guò)長(zhǎng),會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。提高分詞的速度, 也就保證了檢索的結(jié)果。
附圖1為本發(fā)明所述的基于逆向最大匹配的中文分詞算法的流程示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步說(shuō)明,以使本領(lǐng)域普通技術(shù)人員參照本說(shuō)明書(shū)后 能夠據(jù)以實(shí)施。
如圖1所示,本發(fā)明的一種基于逆向最大匹配的中文分詞算法,包括如下步驟
步驟一、在內(nèi)存中初始化分詞詞典數(shù)和停頓詞詞典StopWord,其中分詞詞典數(shù)據(jù) 庫(kù)中包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WordDictionary,和存儲(chǔ)有所有分詞及 分詞索引位置的數(shù)據(jù)目錄詞典WordList。在數(shù)據(jù)結(jié)構(gòu)詞典的第一層存儲(chǔ)有單個(gè)漢字字符, 作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄;在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度,在數(shù)據(jù)結(jié)構(gòu)詞典的第三層中存儲(chǔ)有以第二層中存 儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。數(shù)據(jù)結(jié)構(gòu)詞典WordDictionary中所述詞對(duì)象 和數(shù)據(jù)目錄詞典WordList中對(duì)應(yīng)的分詞具有相同的索引位置;
步驟二、輸入需要進(jìn)行分詞操作的文本內(nèi)容,根據(jù)字符編碼類型將文本中的所有 字符在字符編碼類型發(fā)生變換處截?cái)?,以由此拆分成多個(gè)長(zhǎng)句段,例如將“新浪為抑制謠 言傳播成立了專門的微博辟謠小組,24小時(shí)負(fù)責(zé)微博謠言的發(fā)現(xiàn)、甄別和處理”拆分成“新 浪為抑制謠言傳播成立了專門的微博辟謠小組”,“24”和“小時(shí)負(fù)責(zé)微博謠言的發(fā)現(xiàn)、甄別 和處理”;
步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符,在停頓詞字符處,將 上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段,例如將“中國(guó),偉大的國(guó)家”拆分成“中國(guó)”和 “偉大的國(guó)家”;
步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,將不屬于中文字 符類型的短句段分解后直接加入到分詞結(jié)果集中;
步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式,從短句段段尾開(kāi)始,先 選取兩位字符的字符組,如“中國(guó),偉大的國(guó)家”句子,將讀取出“國(guó)家”這兩個(gè)字符,將這兩 位字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配,在該 匹配的指引下,進(jìn)入第二層進(jìn)行匹配,在第二層中進(jìn)行匹配時(shí),首先進(jìn)行詞的長(zhǎng)度的匹配, 進(jìn)行完第二層的匹配后,在該匹配的指引下再進(jìn)入第三層進(jìn)行匹配,若匹配成功,則將這兩 位字符直接加入到分詞結(jié)果集中,并且在短句段段尾刪除已經(jīng)加入到分詞結(jié)果集中的字 符,再?gòu)亩挝策x取新的兩位字符;若匹配不成功,則繼續(xù)向段首方向再增加一位字符,進(jìn)行 匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增加了該短句段的句 首字符為止;
步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結(jié)果集中;而 將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞,加入到分詞結(jié)果集中,完成分詞。
另一種實(shí)現(xiàn)形式是
步驟一、在內(nèi)存中初始化三個(gè)對(duì)象,分別是存儲(chǔ)了相關(guān)數(shù)據(jù)結(jié)構(gòu)的對(duì)象 WordDictionary,存儲(chǔ)了所有詞及詞索引位置的詞典對(duì)象WordList,以及包含了一些特殊 字符的停頓詞詞典對(duì)象StopWord。
步驟二、獲取需要進(jìn)行分詞操作的文本內(nèi)容。
步驟三、循環(huán)文本中的每個(gè)字符,按照字符編碼區(qū)分出當(dāng)前字符所屬類型,根據(jù)字 符編碼拆分中文、英文、數(shù)字、其他類型等
步驟四、根據(jù)停頓詞典將“長(zhǎng)句子”進(jìn)一步拆分成短句子,如“中國(guó),偉大的國(guó)家”拆 分成“中國(guó)”、“偉大的國(guó)家”。
步驟五、循環(huán)文本中的每個(gè)字符,按照字符編碼區(qū)分出當(dāng)前字符是否為中文字符。
步驟六、如果當(dāng)前字符類型不屬于中文字符,則直接加入到分詞結(jié)果中。
步驟七、從句子的最后一個(gè)字符開(kāi)始,從右向左,讀取兩個(gè)字符,組合成一個(gè)詞語(yǔ): 如“中國(guó),偉大的國(guó)家”句子,將讀取出“國(guó)家”這個(gè)詞。
步驟八、查詢出上一步驟中獲取的詞是否在分詞字典中存在。
步驟九、從句子中“刪除”已經(jīng)匹配到的詞如果查詢到了匹配項(xiàng),則將該詞存入分詞結(jié)果集中,并在源文本中“刪除”當(dāng)前詞,此處的“刪除”并非真的刪除,為了提高分詞效 率,此處只是將索引位置向前移動(dòng)了若干位。
步驟十、查看當(dāng)前句子是否已經(jīng)完成了分詞。
步驟十一、如果上一個(gè)字符未匹配到分詞字典中的任意一項(xiàng),則需要增加字符的 長(zhǎng)度
步驟十二、查看是否已經(jīng)匹配了所有以某個(gè)字符為結(jié)尾的詞。
步驟十三、對(duì)于在字典中沒(méi)有找到匹配項(xiàng)的所有字符,都將視為未登錄詞,在分詞 完成后,需要組合所有的未登錄詞。
步驟十四、根據(jù)記錄的未登錄詞在源文本中的位置,組合所有未登錄詞。
步驟十五、將所有的未登錄詞加入到分詞結(jié)果中,分詞完成。
盡管本發(fā)明的實(shí)施方案已公開(kāi)如上,但其并不僅僅限于說(shuō)明書(shū)和實(shí)施方式中所列 運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地 實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限 于特定的細(xì)節(jié)和這里示出與描述的圖例。
權(quán)利要求
1.一種基于逆向最大匹配的中文分詞算法,其特征在于,包括以下步驟步驟一、輸入需要進(jìn)行分詞操作的文本內(nèi)容;步驟二、根據(jù)字符編碼類型將文本中的所有字符在字符編碼類型發(fā)生變換處截?cái)?,以由此拆分成多個(gè)長(zhǎng)句段;步驟三、再根據(jù)停頓詞詞典檢索所有長(zhǎng)句段中的停頓詞字符,在停頓詞字符處,將上述拆分出的長(zhǎng)句段進(jìn)一步拆分成短句段;步驟四、按照字符編碼類型篩選出所有中文字符類型的短句段,并且將不屬于中文字符類型的短句段分解后直接加入到分詞結(jié)果集中;步驟五、將中文字符類型的短句段以逆于書(shū)寫(xiě)順序的方式,從短句段段尾開(kāi)始,先選取兩位字符的字符組,將這兩位字符作為分詞與分詞字典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配,若匹配成功,則將這兩位字符直接加入到分詞結(jié)果集中,并且在短句段段尾刪除已經(jīng)加入到分詞結(jié)果集中的字符,再?gòu)亩挝策x取新的兩位字符;若匹配不成功,則繼續(xù)向段首方向再增加一位字符,進(jìn)行匹配,直到匹配成功,若始終不能匹配成功,則增加一位字符的工作以增加了該短句段的句首字符為止;步驟六、將所有相鄰的未得到匹配的字符一起作為分詞,加入到分詞結(jié)果集中;而將獨(dú)立的未得到匹配的字符單獨(dú)作為分詞,加入到分詞結(jié)果集中。
2.如權(quán)利要求1所述的基于逆向最大匹配的中文分詞算法,其特征在于,所述分詞詞典數(shù)據(jù)庫(kù)中包括存儲(chǔ)有所有分詞數(shù)據(jù)結(jié)構(gòu)的數(shù)據(jù)結(jié)構(gòu)詞典WD,和存儲(chǔ)有所有分詞及分詞索引位置的數(shù)據(jù)目錄詞典WL,其中所述分詞數(shù)據(jù)結(jié)構(gòu)與所述分詞索引位置相對(duì)應(yīng)。
3.如權(quán)利要求1所述的基于逆向最大匹配的中文分詞算法,其特征在于,在數(shù)據(jù)結(jié)構(gòu)詞典的第一層存儲(chǔ)有單個(gè)漢字字符,作為數(shù)據(jù)結(jié)構(gòu)詞典的索引目錄;在數(shù)據(jù)結(jié)構(gòu)詞典的第二層存儲(chǔ)有以所述單個(gè)漢字字符為詞尾的所有詞對(duì)象的索引位置和詞的長(zhǎng)度,其中,所述詞對(duì)象的索引位置與所述數(shù)據(jù)目錄詞典WL中的分詞索引位置相同。
4.如權(quán)利要求3所述的基于逆向最大匹配的中文分詞算法,其特征在于,在數(shù)據(jù)結(jié)構(gòu)詞典還包括第三層,其中存儲(chǔ)有以第二層中存儲(chǔ)的所有詞為詞尾的所有詞對(duì)象及詞長(zhǎng)度。
5.如權(quán)利要求3所述的基于逆向最大匹配的中文分詞算法,其特征在于,短句段中的字符組在與分詞詞典數(shù)據(jù)庫(kù)中的分詞進(jìn)行匹配時(shí),首先用字符組的詞尾的字符與數(shù)據(jù)結(jié)構(gòu)詞典中的第一層中存儲(chǔ)的單個(gè)漢字字符進(jìn)行匹配,在該匹配的指引下,進(jìn)入第二層進(jìn)行匹配。
6.如權(quán)利要求5所述的基于逆向最大匹配的中文分詞算法,其特征在于,在第二層中進(jìn)行匹配時(shí),首先進(jìn)行詞的長(zhǎng)度的匹配。
7.如權(quán)利要求5所述的基于逆向最大匹配的中文分詞算法,其特征在于,進(jìn)入第二層中進(jìn)行匹配后,在該匹配的指引下,進(jìn)入第三層進(jìn)行匹配。
全文摘要
本發(fā)明公開(kāi)了一種基于逆向最大匹配的中文分詞算法。包括步驟先在內(nèi)存中初始化三個(gè)對(duì)象,然后輸入需要進(jìn)行分詞操作的文本內(nèi)容,根據(jù)字符編碼將文本中的字符拆分成不同類型。在將文本拆成短句后,按照字符編碼,將不屬于中文字符的直接加入到分詞結(jié)果中,然后根據(jù)字符串匹配決策機(jī)制,將句子進(jìn)行拆分字符組,根據(jù)逆向最大匹配算法將字符組與分詞字典中相匹配,將匹配的字符組存入分詞結(jié)果集中,最后組合相連的未匹配的字符,并加入到分詞結(jié)果中,完成分詞。本發(fā)明提供了一種基于詞典的快速分詞算法,在保證了分詞精確度的情況下大幅度的提高了詞典加載和分詞的效率。
文檔編號(hào)G06F17/30GK102999534SQ201110278240
公開(kāi)日2013年3月27日 申請(qǐng)日期2011年9月19日 優(yōu)先權(quán)日2011年9月19日
發(fā)明者代培, 楊愛(ài)民 申請(qǐng)人:北京金和軟件股份有限公司