欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于詞典與文法分析的多語種分詞方法與流程

文檔序號(hào):12121003閱讀:710來源:國知局
一種基于詞典與文法分析的多語種分詞方法與流程

本發(fā)明屬于自然語言處理領(lǐng)域,具體涉及一種通過unicode(統(tǒng)一碼、萬國碼、單一碼)編碼判別的基于詞典與文法分析的多語種分詞方法。



背景技術(shù):

隨著信息時(shí)代的到來,可供人查閱和檢索的信息越來越多,搜索市場(chǎng)價(jià)值的不斷增加,越來越多的企業(yè)正在尋找一種更強(qiáng)大的自然語言處理工具,諸如自動(dòng)摘要、自動(dòng)文本檢索、自動(dòng)文本分類等語言處理等工具,而自動(dòng)分詞技術(shù)就是這些工具的核心技術(shù)之一。分詞,顧名思義,就是借助計(jì)算機(jī)自動(dòng)給文本分詞,使其在不丟失信息的情況下能夠正確的表達(dá)所要表達(dá)的意思。只要是與語言理解相關(guān)的領(lǐng)域,都是需要用到分詞技術(shù)的。因此對(duì)于多語言分詞技術(shù)的研究,對(duì)于計(jì)算機(jī)的發(fā)展有著至關(guān)重要的作用。

各國語言語法、書寫習(xí)慣的不同,決定了它們不同的分詞方法,因此很難將各國語言用一種通用的分詞方法來完成分詞工作。對(duì)于現(xiàn)有的分詞器,大多數(shù)只能支持單一語言(中文、英文),極少數(shù)的分詞器能夠支持多語言分詞,但是也僅限于中、英、日、韓語種,而且分詞的準(zhǔn)確率也不是很高。對(duì)于西方屈折語的文本書寫習(xí)慣把單詞與單詞之間用一個(gè)空格分開,所以可以依靠空格或標(biāo)點(diǎn)符號(hào)來分解整篇文章,然而維文與英文卻是用不同空格來切分單詞,類似的,對(duì)于不同種語法,可能會(huì)有不同種標(biāo)點(diǎn)符號(hào)作為詞的分隔符,為此,本發(fā)明采用unicode編碼識(shí)別各分隔符的編碼,依此完成分解屈折語的功能;對(duì)于那些孤立語和黏著語(如漢語、日語、越南語、藏語等)的文本,詞與詞之間沒有任何空格之類的顯著標(biāo)志指示詞的邊界,如果以字為單位來切分文本,處理起來比較容易,但是帶來的空間消耗是非常大的,更重要的是一個(gè)字根本無法準(zhǔn)確的表述一個(gè)意思,這樣就會(huì)導(dǎo)致分詞結(jié)果與用戶原本意圖不相符的問題。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供了一個(gè)基于詞典與文法分析的多語種分詞方法和系統(tǒng),克服了只能對(duì)單一語種或個(gè)別語種進(jìn)行分詞的局限,采用基于詞典匹配與文法分析相結(jié)合的分詞技術(shù)實(shí)現(xiàn)對(duì)不同種語言進(jìn)行分詞的目的,確保能夠高效的將文本分解成具有代表意義的詞,對(duì)于一些用戶會(huì)有這樣的需求,就是要準(zhǔn)確的將文本內(nèi)容分解,即將一些存在歧義的詞能夠進(jìn)行消岐處理,為此,本發(fā)明采用文法分析的方法對(duì)詞典匹配出的那些具有歧義的詞進(jìn)行消岐意分析處理,另外待分詞文本中還可能會(huì)出現(xiàn)一些亂碼、或者是一些代表意義不大的停用詞,本發(fā)明會(huì)將其過濾,保證文本的可讀性、高效搜索性,同時(shí)還降低文本所需的存儲(chǔ)空間。

根據(jù)本發(fā)明的第一方面,采用了一種新的分詞框架體系。本發(fā)明提出的新的分詞體系通過內(nèi)嵌中日韓粵等語系子分詞器、中文量子分詞器和西方語系分詞器,可以實(shí)現(xiàn)每類語種文本判斷的準(zhǔn)確分詞;通過內(nèi)置的語言片段編碼識(shí)別機(jī)制字段對(duì)待分詞文本片段進(jìn)行切分,切分后的每種文本片段對(duì)應(yīng)于一種語系,并使用相應(yīng)的子分詞器進(jìn)行分詞;含有擴(kuò)展詞典配置管理單元,用于實(shí)現(xiàn)中、日、韓、粵語等擴(kuò)展詞典以及各語種的停用詞詞典的管理;還含有分詞器管理單元,主要包含字母處理、數(shù)字處理、中、日、韓語處理,通過識(shí)別個(gè)語種類型,然后分別進(jìn)入不同的子分詞器,對(duì)其進(jìn)行分詞處理;另外,還設(shè)有詞典配置管理模塊,該部分包含詞典的加載管理、詞典檢索算法單元以及詞典文件的處理,本發(fā)明中只含有一個(gè)詞典,詞典中設(shè)有主詞典、停用詞詞典,在詞典匹配的過程中通過單例實(shí)現(xiàn)詞典的配置。加載詞典過程中采用哈希算法,這樣避免的詞典中含有重復(fù)詞的問題??梢钥闯?,采用框架體系支持多語種分詞,能夠?qū)崿F(xiàn)同時(shí)對(duì)多種語種混合的文件進(jìn)行分詞,并具有高效性、可擴(kuò)展性。

根據(jù)本發(fā)明的第二方面,采用基于編碼來識(shí)別文本中標(biāo)點(diǎn)、空格等語言分隔符解決西方屈折語的分詞問題。對(duì)于西方屈折語的文本書寫習(xí)慣是以空格來把單詞一個(gè)一個(gè)的分開,因此采用unicode編碼來確定不同標(biāo)點(diǎn)符號(hào)及空格的編碼區(qū)間,構(gòu)造分隔符集合。為了更好的解釋屈折語的分詞過程,我們以“Hello word!”為例。首先,將待分詞文本以流的形式存入緩沖區(qū);然后,啟動(dòng)字符與阿拉伯?dāng)?shù)字處理的分詞器,使得該分詞器接收“Hello word!”字符流,用指針掃描字符,并記錄詞首“H”的指針位置begin,移動(dòng)指針,繼續(xù)掃描下一字符,直到遇到分隔符,記錄當(dāng)前指針的位置end,這樣就能夠能得到“Hello”這個(gè)詞的起始位置begin、以及詞的長度end-begin,依此繼續(xù)掃描,直至將緩存區(qū)中所有的詞的起始位置與詞長都識(shí)別出來即可;最后得到所有的詞元信息(詞的起始位置、詞長、詞所屬類型)。然后緩存下一批字符,來完成分詞功能,至此,完成了將屈折語文本分詞的過程,并將分詞結(jié)果存入詞段隊(duì)列??梢钥闯?,采用unicode編碼能夠準(zhǔn)確的識(shí)別不同語種詞之間分割標(biāo)點(diǎn),高效的完成屈折語單文本、屈折語混合文本的分詞功能。

根據(jù)本發(fā)明的第三方面,采用基于詞典的方法解決詞與詞之間沒有任何空格之類的顯著標(biāo)志指示詞的邊界的語言分詞問題。對(duì)于諸如中文、日文、韓文等語種的文本,只是字、句、段能通過明顯的分解符來簡單劃劃界,唯獨(dú)詞之間沒有一個(gè)形式上的分解符,因此分詞比西方屈折語要困難的多。本發(fā)明采用基于詞典匹配的方法對(duì)其進(jìn)行分詞,詞典包括內(nèi)部詞典以及外部擴(kuò)展詞典。詞典的存儲(chǔ)采用了前綴樹數(shù)據(jù)結(jié)構(gòu),對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)除了根節(jié)點(diǎn),任意一個(gè)子節(jié)點(diǎn)都包含兩個(gè)數(shù)據(jù)項(xiàng):nodeChar表示該節(jié)點(diǎn)對(duì)應(yīng)的字符,nodeState表示從根節(jié)點(diǎn)到本節(jié)點(diǎn)是否是一個(gè)完整的詞。為了能夠更好的描述分詞方法,以“這是一個(gè)多語種分詞工具”為例。首先,將待分詞文本以流的形式讀入緩沖區(qū);然后,啟動(dòng)處理中、日、韓語的分詞器,使得該分詞器接收“這是一個(gè)多語種分詞工具”字符流,將其與詞典中的詞進(jìn)行匹配,得到所有與詞典匹配的詞“這是”,“一個(gè)”,“多語種”,“多語”,“語種”,“分詞”,“工具”的詞元信息(字符起始位置、詞長、詞所屬類型)存儲(chǔ)到詞段隊(duì)列,對(duì)于未匹配的詞,則以單字詞的形式輸出。另外,本發(fā)明還可內(nèi)置及擴(kuò)展停用詞詞典,用來過濾掉一些保留意義不大的詞,如常用詞“的”,“是”,“了”??梢钥闯?,本發(fā)明的詞典擴(kuò)展性可以提高文本分詞的靈活性,采用詞典匹配方法能夠準(zhǔn)確的將文本中的詞分解出來。

根據(jù)本發(fā)明的第四方面,本發(fā)明有兩種分詞模式,一種為smart模式,一種為非smart模式。例如:“結(jié)婚的和尚未結(jié)婚”這個(gè)詞條,就會(huì)存在一個(gè)詞段隊(duì)列,分別為“結(jié)婚”,“的”,“和尚”,“尚未”,“未結(jié)”“結(jié)婚”,若采用非smart分詞,則輸出詞段隊(duì)列中的所有詞,若采用smart,則需要采用文法分析方法解決詞語歧義的問題,具體方法如下:

1、詞典匹配得到詞段隊(duì)列:

其中,begin是每一詞元的起始位置;end是start+詞段隊(duì)列的長度;詞段路徑是end-start。

2、找出歧義即詞元路徑有交叉的部分:

3、選出詞段隊(duì)列的候選集,即所有可能的組合:

4、根據(jù)詞法分析,進(jìn)行優(yōu)先級(jí)判斷排序,選出最佳分詞隊(duì)列,其中優(yōu)先級(jí)由高到低排列順序如下所示:

a、有效文本長度,越長越好。如“中華人民共和國”優(yōu)于“共和國”

b、詞元個(gè)數(shù)越少越好,單字詞除外

c、詞段路徑跨度越大越好

d、詞段隊(duì)列的起始位置越靠后越好,原因是根據(jù)統(tǒng)計(jì)學(xué)結(jié)論,詞元匹配逆向切分的正確率大于正向切分的正確率

e、詞長越平均越好

f、詞元位置權(quán)重越大越好

權(quán)重:其中pi是每一詞元在詞段隊(duì)列中的序號(hào),li是對(duì)應(yīng)詞元的詞長。

根據(jù)本發(fā)明的第五方面,采用unicode編碼方法解決文本間存在亂碼的問題。有些待分詞文本中含有亂碼信息,這些亂碼不僅沒有實(shí)際的意義,而且還會(huì)占用文本的存儲(chǔ)空間,因此在對(duì)文本分詞過程中通過對(duì)unicode編碼判斷的控制,會(huì)過濾掉亂碼信息,大大節(jié)省了文本的存儲(chǔ)空間。

根據(jù)本發(fā)明的第六方面,采用文法分詞解決在文本中存在著阿拉伯?dāng)?shù)字這樣的信息,這類信息內(nèi)部可能含有“,”,“?!保啊钡冗B接符號(hào),按照西方屈折語的分詞方法,會(huì)將連接符號(hào)作為詞與詞之間的分割符,從而將“21.54”分解成“21”,“54”,這樣會(huì)影響分詞的準(zhǔn)確性,針對(duì)這種情況,采用特殊的處理方法,通過判斷連接符的前一字符與后一字符的字符類型,判斷詞元的組合情況,達(dá)到分詞的目的。

本發(fā)明采用詞典匹配的方法,將待分詞文本與詞典進(jìn)行匹配,這樣不僅能夠準(zhǔn)確的將文本分解,還節(jié)省的文本所占用的存儲(chǔ)空間。

本發(fā)明提出的詞典與詞法分析的方法對(duì)多語種語言進(jìn)行分詞,采用一種新的分詞框架體系,通過詞典匹配方法,可以實(shí)現(xiàn)中、日、韓、粵語的等文本高效準(zhǔn)確的處理,并且對(duì)于不同時(shí)段、不同專業(yè)的詞可以實(shí)現(xiàn)靈活詞庫擴(kuò)展,有效更新詞庫信息,實(shí)現(xiàn)準(zhǔn)確、高效的多語種語言文本分詞;通過文法分析可以實(shí)現(xiàn)西方屈折語的分詞、中、日、韓、粵語的smart模式分詞,可以處理含有阿拉伯?dāng)?shù)字信息的文本;同時(shí),本發(fā)明還可以實(shí)現(xiàn)多種語言混合的文本分詞,脫離了分詞工具只能對(duì)單一語種、個(gè)別幾個(gè)語種分詞的局限性,保證文本分詞的安全性、準(zhǔn)確性、高效性、靈活性。通過本發(fā)明的提出的多語言分詞,在增強(qiáng)海量數(shù)據(jù)文本分類、文本信息提取、自動(dòng)摘要等文本分詞領(lǐng)域具有廣泛的應(yīng)用前景。

附圖說明

圖1為本發(fā)明結(jié)構(gòu)設(shè)計(jì)圖;

圖2為本發(fā)明對(duì)多語種文本處理流程圖;

圖3為本發(fā)明前綴樹數(shù)據(jù)結(jié)構(gòu)的詞典樹;

圖4為本發(fā)明基于詞典匹配的詞元獲取流程圖。

具體實(shí)施方式

為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)說明。

如圖1所示,根據(jù)本發(fā)明的第一方面,采用了一種新的分詞框架體系。本發(fā)明提出的新的分詞體系通過內(nèi)嵌中日韓粵等語系子分詞器、中文量子分詞器和西方語系分詞器,可以實(shí)現(xiàn)每類語種文本判斷的準(zhǔn)確分詞;通過內(nèi)置的語言片段編碼識(shí)別機(jī)制字段對(duì)待分詞文本片段進(jìn)行切分,切分后的每種文本片段對(duì)應(yīng)于一種語系,并使用相應(yīng)的子分詞器進(jìn)行分詞;其中含有擴(kuò)展詞典配置管理單元,用于實(shí)現(xiàn)中、日、韓、粵語等擴(kuò)展詞典以及各語種的停用詞詞典的管理;還含有分詞器管理單元,主要包含字母處理、數(shù)字處理、中、日、韓語處理,通過識(shí)別各語種類型,然后分別進(jìn)入不同的子分詞器,對(duì)其進(jìn)行分詞處理;另外,還設(shè)有詞典配置管理模塊,該部分包含詞典的加載管理、詞典檢索算法單元以及詞典文件的處理,本發(fā)明中只含有一個(gè)詞典,詞典中設(shè)有主詞典、停用詞詞典,在詞典匹配的過程中通過單例實(shí)現(xiàn)詞典的配置。加載詞典過程中采用哈希算法,這樣避免的詞典中含有重復(fù)詞的問題。可以看出,采用框架體系支持多語種分詞,能夠?qū)崿F(xiàn)同時(shí)對(duì)多種語種混合的文件進(jìn)行分詞,并具有高效性、可擴(kuò)展性。

根據(jù)本發(fā)明的第二方面,采用基于編碼來識(shí)別文本中標(biāo)點(diǎn)、空格等語言分隔符解決西方屈折語的分詞問題。對(duì)于西方屈折語的文本書寫習(xí)慣是以空格來把單詞一個(gè)一個(gè)的分開,因此采用unicode編碼來確定不同標(biāo)點(diǎn)符號(hào)及空格的編碼區(qū)間,構(gòu)造分隔符集合。為了更好的解釋屈折語的分詞過程,我們以“Hello word!”為例。首先,將待分詞文本以流的形式存入緩沖區(qū);然后,啟動(dòng)字符與阿拉伯?dāng)?shù)字處理的分詞器,使得該分詞器接收“Hello word!”字符流,用指針掃描字符,并記錄詞首“H”的指針位置begin,移動(dòng)指針,繼續(xù)掃描下一字符,直到遇到分隔符,記錄當(dāng)前指針的位置end,這樣就能夠能得到“Hello”這個(gè)詞的起始位置begin、以及詞的長度end-begin,依此繼續(xù)掃描,直至將緩存區(qū)中所有的詞的起始位置與詞長都識(shí)別出來即可;最后得到所有的詞元信息(詞的起始位置、詞長、詞所屬類型)。然后緩存下一批字符,來完成分詞功能,至此,完成了將屈折語文本分詞的過程,并將分詞結(jié)果存入詞段隊(duì)列??梢钥闯觯捎胾nicode編碼能夠準(zhǔn)確的識(shí)別不同語種詞之間分割標(biāo)點(diǎn),高效的完成屈折語單文本、屈折語混合文本的分詞功能。

如圖2所示,根據(jù)本發(fā)明的第三方面,采用基于詞典的方法解決詞與詞之間沒有任何空格之類的顯著標(biāo)志指示詞的邊界的語言分詞問題。對(duì)于諸如中文、日文、韓文等語種的文本,只是字、句、段能通過明顯的分解符來簡單劃劃界,唯獨(dú)詞之間沒有一個(gè)形式上的分解符,因此分詞比西方屈折語要困難的多。本發(fā)明采用基于詞典匹配的方法對(duì)其進(jìn)行分詞,詞典包括內(nèi)部詞典以及外部擴(kuò)展詞典。如圖3所示,詞典的存儲(chǔ)采用了前綴樹數(shù)據(jù)結(jié)構(gòu),對(duì)應(yīng)的數(shù)據(jù)結(jié)構(gòu)除了根節(jié)點(diǎn),任意一個(gè)子節(jié)點(diǎn)都包含兩個(gè)數(shù)據(jù)項(xiàng):nodeChar表示該節(jié)點(diǎn)對(duì)應(yīng)的字符,nodeState表示從根節(jié)點(diǎn)到本節(jié)點(diǎn)是否是一個(gè)完整的詞。為了能夠更好的描述分詞方法,以“這是一個(gè)多語種分詞工具”為例。首先,將待分詞文本以流的形式讀入緩沖區(qū);然后,啟動(dòng)處理中、日、韓語的分詞器,使得該分詞器接收“這是一個(gè)多語種分詞工具”字符流,將其與詞典中的詞進(jìn)行匹配,得到所有與詞典匹配的詞“這是”,“一個(gè)”,“多語種”,“多語”,“語種”,“分詞”,“工具”的詞元信息(字符起始位置、詞長、詞所屬類型)存儲(chǔ)到詞段隊(duì)列,對(duì)于未匹配的詞,則以單字詞的形式輸出。另外,本發(fā)明還可內(nèi)置及擴(kuò)展停用詞詞典,用來過濾掉一些保留意義不大的詞,如常用詞“的”,“是”,“了”??梢钥闯?,本發(fā)明的詞典擴(kuò)展性可以提高文本分詞的靈活性,采用詞典匹配方法能夠準(zhǔn)確的將文本中的詞分解出來。

如圖4所示,根據(jù)本發(fā)明的第四方面,本發(fā)明有兩種分詞模式,一種為smart模式,一種為非smart模式。例如:“結(jié)婚的和尚未結(jié)婚”這個(gè)詞條,就會(huì)存在一個(gè)詞段隊(duì)列,分別為“結(jié)婚”,“的”,“和尚”,“尚未”,“未結(jié)”“結(jié)婚”,若采用非smart分詞,則輸出詞段隊(duì)列中的所有詞,若采用smart,則需要采用文法分析方法解決詞語歧義的問題,具體方法如下:

1、詞典匹配得到詞段隊(duì)列:

其中,begin是每一詞元的起始位置;end是start+詞段隊(duì)列的長度;詞段路徑是end-start。

2、找出歧義即詞元路徑有交叉的部分:

3、選出詞段隊(duì)列的候選集,即所有可能的組合:

4、根據(jù)詞法分析,進(jìn)行優(yōu)先級(jí)判斷排序,選出最佳分詞隊(duì)列,其中優(yōu)先級(jí)由高到低排列順序如下所示:

b、有效文本長度,越長越好。如“中華人民共和國”優(yōu)于“共和國”

b、詞元個(gè)數(shù)越少越好,單字詞除外

c、詞段路徑跨度越大越好

d、詞段隊(duì)列的起始位置越靠后越好,原因是根據(jù)統(tǒng)計(jì)學(xué)結(jié)論,詞元匹配逆向切分的

正確率大于正向切分的正確率

e、詞長越平均越好

f、詞元位置權(quán)重越大越好

權(quán)重:其中pi是每一詞元在詞段隊(duì)列中的序號(hào),li是對(duì)應(yīng)詞元的詞長。

根據(jù)本發(fā)明的第五方面,采用unicode編碼方法解決文本間存在亂碼的問題。有些待分詞文本中含有亂碼信息,這些亂碼不僅沒有實(shí)際的意義,而且還會(huì)占用文本的存儲(chǔ)空間,因此在對(duì)文本分詞過程中通過對(duì)unicode編碼判斷的控制,會(huì)過濾掉亂碼信息,大大節(jié)省了文本的存儲(chǔ)空間。

根據(jù)本發(fā)明的第六方面,采用文法分詞解決在文本中存在著阿拉伯?dāng)?shù)字這樣的信息,這類信息內(nèi)部可能含有“,”,“?!?,“—”等連接符號(hào),按照西方屈折語的分詞方法,會(huì)將連接符號(hào)作為詞與詞之間的分割符,從而將“21.54”分解成“21”,“54”,這樣會(huì)影響分詞的準(zhǔn)確性,針對(duì)這種情況,采用特殊的處理方法,通過判斷連接符的前一字符與后一字符的字符類型,判斷詞元的組合情況,達(dá)到分詞的目的。

本發(fā)明提供的基于詞典與文法分析的多語言文本分詞,首先配置擴(kuò)展詞典及其相應(yīng)的配置文件,配置文件格式如下所示,其中,ext.dic是用戶的擴(kuò)展詞典,可以同時(shí)擴(kuò)展多個(gè)詞典,詞典之間以“;”符號(hào)間隔,stopword.dic是用戶的擴(kuò)展停用詞詞典,也可以同時(shí)擴(kuò)展多個(gè)詞典,詞典之間同樣以“;”符號(hào)間隔。擴(kuò)展詞典的路徑可以是絕對(duì)路徑亦或是相對(duì)路徑,配置文件設(shè)置完成后,將配置文件路徑(絕對(duì)或相對(duì)路徑)作為參數(shù)傳到分詞器即可。

<?xml version="1.0"encoding="UTF-8"?>

<properties>

<dict type="ext_dict">

<!--用戶可以在此處添加擴(kuò)展詞典-->

<ext_dict>ext.dic;ext1.dic</ext_dict>

</dict>

<dict type="ext_stopwords">

<!--用戶可以在此處添加擴(kuò)展停用詞詞典-->

<ext_stopwords>stopword.dic</ext_stopwords>

</dict>

</properties>

應(yīng)該注意到并理解,在不脫離后附的權(quán)利要求所要求的本發(fā)明的精神和范圍的情況下,能夠?qū)ι鲜鲈敿?xì)描述的本發(fā)明做出各種修改和改進(jìn)。因此,要求保護(hù)的技術(shù)方案的范圍不受所給出的任何特定示范教導(dǎo)的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南乐县| 宁晋县| 马关县| 新建县| 安阳县| 巴马| 峨眉山市| 镇雄县| 清水县| 兰州市| 祁东县| 施甸县| 清远市| 虞城县| 德兴市| 竹山县| 南涧| 小金县| 乐至县| 来安县| 泸定县| 桂林市| 象州县| 会东县| 仁化县| 惠州市| 抚州市| 宿迁市| 灌阳县| 枣强县| 定安县| 陇南市| 什邡市| 抚顺县| 北京市| 马边| 随州市| 澄迈县| 杭锦旗| 屯留县| 民丰县|