欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種火星文識別方法和系統(tǒng)的制作方法

文檔序號:6433434閱讀:836來源:國知局
專利名稱:一種火星文識別方法和系統(tǒng)的制作方法
技術領域
本發(fā)明涉及統(tǒng)計語言建模技術領域,特別涉及一種火星文識別方法和系統(tǒng)。
背景技術
隨著計算機硬件性能的不斷提升和軟件智能性的不斷提高,人們越來越期望計算機能夠提供更加自然的人機交互方式,這表現(xiàn)在(I)提供更加智能的漢語輸入法;(2)提供語音輸入功能;(3)提供連續(xù)手寫功能。而這三種交互方式的實現(xiàn),其底層都需要有語言建模技術的支持,語言模型的性能直接決定了人機交互軟件的智能性和易用性。
統(tǒng)計語言建模技術是目前語言建模的主流技術,其中Ngram模型是最成功的統(tǒng)計語言模型。Ngram模型是根據(jù)詞語之間的條件概率來計算候選漢語句子的概率,并挑選概率最大的候選漢語語句作為人機交互軟件的輸出。Ngram模型的訓練流程包括語料抓取、 語料過濾、分詞、Ngram模型訓練等步驟,如圖1所示。具體來說,首先,用語料抓取工具從互聯(lián)網(wǎng)的網(wǎng)站上抓取網(wǎng)絡原始文本,這些原始網(wǎng)絡文本通常是html格式或者是xml格式的文本,而且包含很多英文字符、火星文字符、亂碼等等,不能夠直接用來訓練語言模型;接下來,通過語料過濾程序,這些網(wǎng)絡文本被過濾成為只包含漢字的純文本格式;然后,這些純文本語料經(jīng)過分詞處理,被用來訓練Ngram語言模型;最后,語言模型作為輸入法的核心輸入引擎,隨輸入法產(chǎn)品發(fā)布給最終用戶。
Ngram語言模型在計算句子的概率時,將其分解為若干個條件概率的乘積。由于詞語的條件概率是通過對互聯(lián)網(wǎng)海量中文文本進行分析、訓練得到。因此,互聯(lián)網(wǎng)上中文文本的質量,決定了 Ngram模型中詞語條件概率的準確程度,從而決定了 Ngram統(tǒng)計語言模型的質量,進一步?jīng)Q定了人機交互軟件的質量。而目前的互聯(lián)網(wǎng)上的的文本魚龍混雜,因此必須要對原始文本進行適當?shù)倪^濾,才能得到適合Ngram模型訓練的樣本。在互聯(lián)網(wǎng)文本中,經(jīng)常出現(xiàn)火星文,火星文是近年來網(wǎng)絡流行的一種文體,網(wǎng)民為了追求個性,使用同音字、近音字、形近字、拆字組合來代替正常的漢字,表達自己的思想。如用拆字組合“走召弓雖”來表示“超強”,用“言兌言舌”表示“說話”,用“彳爾彳門者卩i井?又i吾”來表示“你們講漢語”;再比如用近音字“什底堤焱腥姣”來表示“什么是火星文”,等等。由于這些文字與日常使用的文字有明顯 差別,被稱為火星文,意指地球人看不懂的文字。在訓練語言模型時, 需要將訓練語料中的火星文識別出來并過濾掉,以保證語言模型的質量;但是,目前并沒有能夠自動用于識別火星文的技術。發(fā)明內容
本發(fā)明實施例提出一種火星文識別方法和系統(tǒng),能夠將網(wǎng)絡原始文本中的火星文識別出來。
本發(fā)明的技術方案是這樣實現(xiàn)的
一種火星文識別方法,包括
采用火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;
采用所述火星文訓練文本集合建立火星文語言模型,所述火星文語言模型的內容如下
P^dilff1-n,!· · · Wh)等于詞語序列Wi_n+1. · · Wi^1Wi在火星文訓練文本集合中出現(xiàn)的次數(shù)與詞語序列Wi_n+1. . . Wi^1在火星文訓練文本集合中出現(xiàn)的次數(shù)的商;其中,η為預先設定的整數(shù),?_ _. . . U表示在詞語序列Wi_n+1. . . Wi^1出現(xiàn)的條件下出現(xiàn)詞語化的條件概率;
利用所述火星文語言模型計算語句S是火星文的概率,當所述概率大于預先設定的閾值時,識別出該語句S是火星文。
一種火星文識別系統(tǒng),包括訓練文本集合搜索裝置、火星文語言建模裝置和火星文識別器;其中,
所述訓練文本集合搜索裝置,用于采用火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;
所述火星文語言建模裝置,用于采用所述火星文訓練文本集合建立火星文語言模型,所述火星文語言模型的內容如下
P^dilW1-n,!· · · U等于詞語序列Α_η+1. · · W^1Wi在火星文訓練文本集合中出現(xiàn)的次數(shù)與詞語序列Wi_n+1. . . Wi^1在火星文訓練文本集合中出現(xiàn)的次數(shù)的商;其中,η為預先設定的整數(shù),?_ _. . . U表示在詞語序列Wi_n+1. . . Wi^1出現(xiàn)的條件下出現(xiàn)詞語化的條件概率;
所述火星文識別器,用于利用所述火星文語言模型計算語句S是火星文的概率, 當所述概率大于預先設定的閾值時,識別出該語句S是火星文。
可見,本發(fā)明提出的火星文識別方法和系統(tǒng),能夠自動將網(wǎng)絡原始文本中的火星文識別出來。


·
圖1為現(xiàn)有的Ngram模型訓練流程示意圖2為本發(fā)明提出的火星文識別方法流程圖3為本發(fā)明實施例的整體流程圖4為本發(fā)明提出的火星文識別系統(tǒng)結構示意圖。
具體實施方式
本發(fā)明提出一種火星文識別方法,用于識別并過濾網(wǎng)絡文本中的火星文,提高訓練預料的質量,從而提高語言模型的質量,并最終提高輸入法軟件的智能性。
如圖2為本發(fā)明提出的火星文識別方法流程圖,包括
步驟201 :采用已知的火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;
步驟202 :采用所述火星文訓練文本集合建立火星文語言模型,所述火星文語言模型的內容如下
P^dilff1-n,!· . . Wh)等于詞語序列Wi_n+1. . . Wp1Wi在火星文訓練文本集合中出現(xiàn)的次數(shù)與詞語序列Wi_n+1. . . Wi^1在火星文訓練文本集合中出現(xiàn)的次數(shù)的商;
權利要求
1.一種火星文識別方法,其特征在于,所述方法包括采用火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;采用所述火星文訓練文本集合建立火星文語言模型,所述火星文語言模型的內容如下Pmars (WjWi^1. · · W^1)等于詞語序列Wi^1. · · Wp1Wi在火星文訓練文本集合中出現(xiàn)的次數(shù)與詞語序列Wi_n+1. . . Wi^1在火星文訓練文本集合中出現(xiàn)的次數(shù)的商;其中,η為預先設定的整數(shù),Pfflars(Wi I Wi^1. . . U表示在詞語序列1_η+1. . . Wi^1出現(xiàn)的條件下出現(xiàn)詞語Wi的條件概率;利用所述火星文語言模型計算語句S是火星文的概率,當所述概率大于預先設定的閾值時,識別出該語句S是火星文。
2.根據(jù)權利要求1所述的方法,其特征在于,所述利用火星文語言模型計算句子S是火星文的概率的方式為采用如下式子以及所述火星文語言模型內容中的式子進行計算
3.根據(jù)權利要求1所述的方法,其特征在于,所述利用火星文語言模型計算句子S是火星文的概率的方式為采用如下式子以及所述火星文語言模型內容中的式子進行計算KaJS) = ^/Pmars(S;)x...Pmars(SK),其中,F(xiàn)' ^ars(S)為句子 S 是火星文的概率,S' I 至 S' K分別為從句子S中選取的第I至第K個短語,每個短語包括h個詞語,其中,S' k的具體內容是,<至<分別是短語s' k中的第I至第h個詞語,k = 1、2···或 K;
4.根據(jù)權利要求1至3任意一項所述的方法,其特征在于,所述方法進一步包括當識別出語句S是火星文時,過濾所述語句S,并將語句S加入所述火星文訓練文本集合中,重新建立火星文語言模型。
5.一種火星文識別系統(tǒng),其特征在于,所述系統(tǒng)包括訓練文本集合搜索裝置、火星文語言建模裝置和火星文識別器;其中,所述訓練文本集合搜索裝置,用于采用火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;所述火星文語言建模裝置,用于采用所述火星文訓練文本集合建立火星文語言模型, 所述火星文語言模型的內容如下
6.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述火星文識別器計算句子S是火星文的概率的方式為采用如下式子以及所述火星文語言模型內容中的式子進行計算
7.根據(jù)權利要求5所述的系統(tǒng),其特征在于,所述火星文識別器計算句子S是火星文的概率的方式為采用如下式子以及所述火星文語言模型內容中的式子進行計算
8.根據(jù)權利要求5至7任意一項所述的系統(tǒng),其特征在于,所述火星文識別器還用于, 當識別出語句S是火星文時,過濾所述語句S,并將語句S加入所述火星文訓練文本集合中。
全文摘要
本發(fā)明提出一種火星文識別方法和系統(tǒng),其中方法包括采用已知的火星文文本在原始語料中進行搜索,得到火星文訓練文本集合;采用所述火星文訓練文本集合建立火星文語言模型;利用所述火星文語言模型計算語句S是火星文的概率,當所述概率大于預先設定的閾值時,識別出該語句S是火星文。本發(fā)明能夠將網(wǎng)絡原始文本中的火星文識別出來。
文檔編號G06F17/30GK102999533SQ201110277618
公開日2013年3月27日 申請日期2011年9月19日 優(yōu)先權日2011年9月19日
發(fā)明者肖鏡輝, 馮鵬超 申請人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
新乡县| 乳山市| 上虞市| 新乡县| 肃宁县| 普兰店市| 界首市| 隆昌县| 安徽省| 高淳县| 长白| 平南县| 广水市| 松江区| 蒙自县| 顺平县| 昌平区| 格尔木市| 女性| 固安县| 大丰市| 尤溪县| 微博| 丹凤县| 和林格尔县| 康保县| 延寿县| 武陟县| 浮梁县| 晴隆县| 聂拉木县| 尉犁县| 嘉荫县| 乌拉特后旗| 嘉善县| 砚山县| 奎屯市| 得荣县| 清水河县| 台东市| 从化市|