技術(shù)總結(jié)
本發(fā)明公開一種基于詞典與文法分析的多語種分詞方法,可以實現(xiàn)中、日、韓、粵語等混合文本高效準(zhǔn)確的分詞處理,并且對于不同時段、不同專業(yè)的詞可以實現(xiàn)靈活的詞庫擴(kuò)展,有效更新詞庫信息,實現(xiàn)準(zhǔn)確、高效的多語種語言文本分詞;通過內(nèi)嵌中日韓粵等語系子分詞器、中文量子分詞器和西方語系分詞器,可以實現(xiàn)每類語種文本判斷的準(zhǔn)確分詞;通過內(nèi)置的語言片段編碼識別機(jī)制字段對待分詞文本片段進(jìn)行切分,切分后的每種文本片段對應(yīng)于一種語系,并使用相應(yīng)的子分詞器進(jìn)行分詞;通過文法分析可以實現(xiàn)西方屈折語的分詞、中、日、韓、粵語的smart模式分詞,可以處理含有阿拉伯?dāng)?shù)字信息的文本;同時,本發(fā)明還可以實現(xiàn)多種語言混合的文本分詞,脫離了分詞工具只能對單一語種、個別幾個語種分詞的局限性,保證文本分詞的安全性、準(zhǔn)確性、高效性、靈活性、普適性。通過本發(fā)明的提出的多語言分詞,在增強(qiáng)海量數(shù)據(jù)文本分類、文本信息提取、自動摘要等文本分詞領(lǐng)域具有廣泛的應(yīng)用前景。
技術(shù)研發(fā)人員:王宇;徐曉燕;周淵;劉慶良;鄭彩娟;黃成;王海平;周游;陳婷婷
受保護(hù)的技術(shù)使用者:北京賽思信安技術(shù)股份有限公司;國家計算機(jī)網(wǎng)絡(luò)與信息安全管理中心
文檔號碼:201611001691
技術(shù)研發(fā)日:2016.11.14
技術(shù)公布日:2017.03.22