欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

構(gòu)建語言信息識別模型的方法及語言信息識別裝置制造方法

文檔序號:6536654閱讀:108來源:國知局
構(gòu)建語言信息識別模型的方法及語言信息識別裝置制造方法
【專利摘要】本發(fā)明公開了一種構(gòu)建語言信息識別模型的方法及語言信息識別裝置。該方法包括:采集并標(biāo)識垃圾語言信息,并提取采集的垃圾語言信息中包含的特征詞,生成垃圾特征詞庫;基于垃圾特征詞庫,構(gòu)建以垃圾語言信息標(biāo)識和特征詞分別為行列向量的文檔向量空間模型;根據(jù)預(yù)先設(shè)置的特征詞向量權(quán)重算法并基于垃圾特征詞庫,分別計(jì)算構(gòu)建的文檔向量空間模型中的行列向量值,得到訓(xùn)練的文檔向量空間模型;配置基于訓(xùn)練得到的文檔向量空間模型的識別策略,構(gòu)建語言信息識別模型以對語言信息進(jìn)行垃圾語言信息識別。應(yīng)用本發(fā)明,可以基于單類垃圾SMS數(shù)據(jù)構(gòu)建語言信息識別模型,并能有效降低模型訓(xùn)練的資源消耗以及訓(xùn)練時(shí)間。
【專利說明】構(gòu)建語言信息識別模型的方法及語言信息識別裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語言信息識別技術(shù),具體涉及一種構(gòu)建語言信息識別模型的方法及語言信息識別裝置。
【背景技術(shù)】
[0002]SMS利用信令鏈路實(shí)現(xiàn)點(diǎn)對點(diǎn)的消息傳送,是目前無線網(wǎng)絡(luò)常用的、非實(shí)時(shí)的可靠的信息傳遞業(yè)務(wù),并以其價(jià)格便宜、形式多樣、方便快捷等優(yōu)點(diǎn),成為用戶日常進(jìn)行溝通交流活動的一個(gè)重要媒介。
[0003]然而,當(dāng)用戶享受SMS帶來的便捷的同時(shí),一些垃圾SMS也趁虛而入,通過群發(fā)的方式,放送編造的詐騙和違法類信息,不僅極大地干擾了用戶的日常生活和工作,也嚴(yán)重影響了用戶的財(cái)產(chǎn)安全和社會秩序的安定。
[0004]因此,為了降低垃圾SMS對用戶日常生活和工作的影響,維護(hù)社會秩序的安定,現(xiàn)有技術(shù)提出了通過機(jī)器學(xué)習(xí)算法,構(gòu)建垃圾短消息識別模型,以對用戶接收的SMS進(jìn)行智能識別,并將識別出的垃圾SMS進(jìn)行過濾,從而降低垃圾SMS對用戶的影響。
[0005]圖1示出了現(xiàn)有構(gòu)建垃圾短消息識別模型的方法流程。參見圖1,該流程包括:
[0006]步驟101,收集SMS,基于人工方式對收集的SMS進(jìn)行分類,得到垃圾SMS庫與非垃圾SMS庫;
[0007]本步驟中,對于SMS運(yùn)營商來說,可以通過SMS服務(wù)中心收集經(jīng)由SMS服務(wù)中心中轉(zhuǎn)的所有SMS,并將收集的SMS作為后續(xù)用于模型訓(xùn)練的樣本集,通過人工的方式,將樣本集分類為垃圾SMS以及非垃圾SMS兩大類,非垃圾SMS即正常SMS。
[0008]步驟102,對得到的垃圾SMS庫進(jìn)行語料處理,生成垃圾SMS語料庫,對得到的非垃圾SMS庫進(jìn)行語料處理,生成非垃圾SMS語料庫;
[0009]本步驟中,語料處理包括分詞、命名實(shí)體識別、詞性標(biāo)注、數(shù)據(jù)標(biāo)注等。
[0010]步驟103,提取垃圾SMS語料庫中的特征詞,基于提取的垃圾特征詞形成垃圾特征詞庫,提取非垃圾SMS語料庫中的特征詞,基于提取的非垃圾特征詞形成非垃圾特征詞庫;
[0011]本步驟中,采用特征算法,分別對垃圾SMS語料庫以及非垃圾SMS語料庫進(jìn)行運(yùn)算,從而得到相應(yīng)的垃圾特征詞庫以及非垃圾特征詞庫。其中,特征算法可采用單類學(xué)習(xí)算法中的信息增益(IG, Information Gain)算法。
[0012]步驟104,基于形成的垃圾特征詞庫和非垃圾特征詞庫,對預(yù)先設(shè)置的文本分類模型進(jìn)行訓(xùn)練,并將經(jīng)訓(xùn)練后的文本分類模型作為垃圾短消息識別模型。
[0013]本步驟中,文本分類模型可以是樸素貝葉斯(NB,NaiveBayes)分類模型,也可以是支持向量機(jī)(SVM, Support Vector Machine)分類模型,還可以是最大熵(ME,Max Entropy)分類模型,或者是K最近鄰(KNN,k_Nearest Neighbor)分類模型等。不同的文本分類模型具有不同的訓(xùn)練算法,在此略去詳述。
[0014]在得到垃圾短消息識別模型后,后續(xù)應(yīng)用中,只需將該垃圾短消息識別模型存儲至客戶端中,客戶端接收SMS后,調(diào)用存儲的垃圾短消息識別模型,對接收的SMS進(jìn)行判斷,如果判斷為垃圾SMS,則刪除該接收的SMS,如果判斷為非垃圾SMS,則向用戶提示有新的SMS,以提醒用戶進(jìn)行瀏覽。
[0015]由上述可見,現(xiàn)有構(gòu)建垃圾短消息識別模型的方法,文本分類模型需要基于垃圾SMS和非垃圾SMS兩類數(shù)據(jù)進(jìn)行訓(xùn)練,首先,基于兩類數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練所需的資源較多,訓(xùn)練所需時(shí)間較長;其次,對于SMS運(yùn)營商來說,獲取SMS,并將SMS進(jìn)行分類、標(biāo)注和分析,從而得到用于文本分類模型訓(xùn)練所需的垃圾SMS和非垃圾SMS兩類數(shù)據(jù),是可行的,但對于互聯(lián)網(wǎng)公司或運(yùn)營商來說,基于職業(yè)守則,只能獲取到用戶上傳舉報(bào)的垃圾SMS,不可能獲取到用戶發(fā)送的非垃圾SMS和發(fā)送給用戶的非垃圾SMS,因而,基于獲取的一類垃圾SMS數(shù)據(jù),如何構(gòu)建垃圾短消息識別模型并降低訓(xùn)練的資源消耗以及訓(xùn)練時(shí)間,還沒有提出可行的技術(shù)方案。

【發(fā)明內(nèi)容】

[0016]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的構(gòu)建語言信息識別模型的方法及語言信息識別裝置。
[0017]依據(jù)本發(fā)明的一個(gè)方面,提供了構(gòu)建語言信息識別模型的方法,該方法包括:
[0018]采集并標(biāo)識垃圾語言信息,并提取采集的垃圾語言信息中包含的特征詞,生成垃圾特征詞庫;
[0019]基于垃圾特征詞庫,構(gòu)建以垃圾語言信息標(biāo)識和特征詞分別為行列向量的文檔向量空間模型;
[0020]根據(jù)預(yù)先設(shè)置的特征詞向量權(quán)重算法并基于垃圾特征詞庫,分別計(jì)算構(gòu)建的文檔向量空間模型中的行列向量值,得到訓(xùn)練的文檔向量空間模型;
[0021]配置基于訓(xùn)練得到的文檔向量空間模型的識別策略,構(gòu)建語言信息識別模型以對語目Ih息進(jìn)行垃圾語目Ih息識別。
[0022]優(yōu)選地,所述識別策略包括:用于基于訓(xùn)練得到的文檔向量空間模型對客戶端接收的語言信息進(jìn)行向量計(jì)算的客戶端向量值計(jì)算策略、計(jì)算客戶端接收的語言信息對應(yīng)的行向量與訓(xùn)練得到的文檔向量空間模型中各行向量的相似度值計(jì)算策略、以及,基于計(jì)算的相似度對客戶端接收的語言信息進(jìn)行識別的垃圾語言信息識別策略。
[0023]優(yōu)選地,所述方法進(jìn)一步包括:
[0024]對接收的語言信息進(jìn)行語料處理,提取語料處理的語言信息中包含的特征詞,將提取的特征詞向預(yù)先存儲的語言信息識別模型映射,并依據(jù)語言信息識別模型中配置的識別策略中的客戶端向量值計(jì)算策略,計(jì)算提取的特征詞在映射的語言信息識別模型中對應(yīng)的行列向量值;
[0025]依據(jù)語言信息識別模型中配置的識別策略中的相似度值計(jì)算策略,計(jì)算接收的語言信息映射的行向量分別與存儲的語言信息識別模型中的各行向量的相似度;
[0026]在計(jì)算得到的相似度中,統(tǒng)計(jì)大于語言信息識別模型中配置的相似度閾值的個(gè)數(shù),如果確定統(tǒng)計(jì)的個(gè)數(shù)大于語言信息識別模型中配置的識別數(shù)閾值,判斷接收的語言信息為垃圾語目/[目息。
[0027]優(yōu)選地,所述以垃圾語言信息標(biāo)識和特征詞為行列向量的文檔向量空間模型包含:以垃圾語言信息標(biāo)識為行向量、特征詞為列向量的文檔向量空間模型;或者,以垃圾語言信息標(biāo)識為列向量、特征詞為行向量的文檔向量空間模型。
[0028]優(yōu)選地,所述以垃圾語言信息標(biāo)識為行向量、特征詞為列向量為:以垃圾語言信息標(biāo)識數(shù)為行數(shù)、垃圾特征詞庫中包括的不同特征詞數(shù)為列數(shù)。
[0029]優(yōu)選地,所述行列向量值依據(jù)該行列對應(yīng)的特征詞在該行對應(yīng)的文檔中的詞頻以及所述行列對應(yīng)的特征詞在所有文檔的逆向文檔頻率進(jìn)行計(jì)算。
[0030]優(yōu)選地,所利用下式計(jì)算所述行列向量值:
【權(quán)利要求】
1.一種構(gòu)建語言信息識別模型的方法,其特征在于,包括: 采集并標(biāo)識垃圾語言信息,并提取采集的垃圾語言信息中包含的特征詞,生成垃圾特征詞庫; 基于垃圾特征詞庫,構(gòu)建以垃圾語言信息標(biāo)識和特征詞分別為行列向量的文檔向量空間模型; 根據(jù)預(yù)先設(shè)置的特征詞向量權(quán)重算法并基于垃圾特征詞庫,分別計(jì)算構(gòu)建的文檔向量空間模型中的行列向量值,得到訓(xùn)練的文檔向量空間模型; 配置基于訓(xùn)練得到的文檔向量空間模型的識別策略,構(gòu)建語言信息識別模型以對語言Ih息進(jìn)行垃圾語目Ih息識別。
2.如權(quán)利要求1所述的方法,其特征在于,所述識別策略包括:用于基于訓(xùn)練得到的文檔向量空間模型對客戶端接收的語言信息進(jìn)行向量計(jì)算的客戶端向量值計(jì)算策略、計(jì)算客戶端接收的語言信息對應(yīng)的行向量與訓(xùn)練得到的文檔向量空間模型中各行向量的相似度值計(jì)算策略、以及,基于計(jì)算的相似度對客戶端接收的語言信息進(jìn)行識別的垃圾語言信息識別策略。
3.如權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括: 對接收的語言信息進(jìn)行語料處理,提取語料處理的語言信息中包含的特征詞,將提取的特征詞向預(yù)先存儲的語言信息識別模型映射,并依據(jù)語言信息識別模型中配置的識別策略中的客戶端向量值計(jì)算策略,計(jì)算提取的特征詞在映射的語言信息識別模型中對應(yīng)的行列向量值; 依據(jù)語言信息識別模型中配置的識別策略中的相似度值計(jì)算策略,計(jì)算接收的語言信息映射的行向量分別與存儲的語言信息識別模型中的各行向量的相似度; 在計(jì)算得到的相似度中,統(tǒng)計(jì)大于語言信息識別模型中配置的相似度閾值的個(gè)數(shù),如果確定統(tǒng)計(jì)的個(gè)數(shù)大于語言信息識別模型中配置的識別數(shù)閾值,判斷接收的語言信息為垃圾語H Ih息。
4.如權(quán)利要求1所述的方法,其特征在于,所述以垃圾語言信息標(biāo)識和特征詞為行列向量的文檔向量空間模型包含:以垃圾語言信息標(biāo)識為行向量、特征詞為列向量的文檔向量空間模型;或者,以垃圾語言信息標(biāo)識為列向量、特征詞為行向量的文檔向量空間模型。
5.如權(quán)利要求4所述的方法,其特征在于,所述以垃圾語言信息標(biāo)識為行向量、特征詞為列向量為:以垃圾語言信息標(biāo)識數(shù)為行數(shù)、垃圾特征詞庫中包括的不同特征詞數(shù)為列數(shù)。
6.如權(quán)利要求1所述的方法,其特征在于,所述行列向量值依據(jù)該行列對應(yīng)的特征詞在該行對應(yīng)的文檔中的詞頻以及所述行列對應(yīng)的特征詞在所有文檔的逆向文檔頻率進(jìn)行計(jì)算。
7.如權(quán)利要求6所述的方法,其特征在于,所利用下式計(jì)算所述行列向量值: 義=TF xlDF =-TF..rlog(—'―)
hJUJIJ7^Z7 J

DtUj 式中,Xu為訓(xùn)練的文檔向量空間模型中,第i行第j列的向量值,其中,1、j為自然數(shù); TFiij為訓(xùn)練的文檔向量空間模型中,第i行第j列的向量值對應(yīng)的特征詞在第i行的詞頻;IDFi;J為訓(xùn)練的文檔向量空間模型中,第i行第j列的向量值對應(yīng)的特征詞的逆向文檔頻率; DFi;J為訓(xùn)練的文檔向量空間模型中,第i行第j列的向量值對應(yīng)的特征詞的文檔頻率。
8.如權(quán)利要求3所述的方法,其特征在于,所述將提取的特征詞向存儲的語言信息識別豐吳型映射包括: 調(diào)用存儲的語言信息識別模型,并在調(diào)用的語言信息識別模型中,新增接收的語言信息映射的行向量,并將所述映射的行向量值初始化為空。
9.一種語言信息識別裝置,其特征在于,包括:訓(xùn)練垃圾語言信息采集模塊、語料處理模塊、垃圾特征詞庫模塊、初始化模塊、訓(xùn)練模塊以及識別策略配置模塊,其中, 訓(xùn)練垃圾語言信息采集模塊,用于采集垃圾語言信息,并將采集的垃圾語言信息置于預(yù)先設(shè)置的垃圾語言信息庫,垃圾語言信息之間以垃圾語言信息標(biāo)識進(jìn)行區(qū)分; 語料處理模塊,用于對垃圾語言信息庫中的各垃圾語言信息分別進(jìn)行語料處理,生成垃圾語目?目息語料庫; 垃圾特征詞庫模塊,用于依序提取垃圾語言信息語料庫中的特征詞,并將依序提取的、包含垃圾語言信息標(biāo)識的垃圾特征詞置于垃圾特征詞庫; 初始化模塊,用于基于垃圾特征詞庫,初始化預(yù)先構(gòu)建的以垃圾語言信息標(biāo)識和特征詞分別為行列向量的文檔向量空間模型; 訓(xùn)練模塊,用于根 據(jù)預(yù)先設(shè)置的特征詞向量權(quán)重算法并基于垃圾特征詞庫,分別計(jì)算初始化的文檔向量空間模型中的行列向量值,得到訓(xùn)練的文檔向量空間模型; 識別策略配置模塊,用于配置基于訓(xùn)練得到的文檔向量空間模型的識別策略,構(gòu)建語H Ih息識別模型以對語目Ih息進(jìn)行垃圾語目Ih息識別。
10.如權(quán)利要求9所述的裝置,其特征在于,所述裝置進(jìn)一步包括:語言信息接收模塊、映射模塊、相似度計(jì)算模塊以及語言信息判斷模塊,其中, 語言信息接收模塊,用于接收語言信息,輸出至語料處理模塊,經(jīng)語料處理模塊的語料處理后,輸出至垃圾特征詞庫模塊進(jìn)行特征詞提取,并由垃圾特征詞庫模塊將提取的特征詞輸出至映射模塊模塊; 映射模塊,用于將接收的特征詞向存儲的語言信息識別模型映射,并依據(jù)語言信息識別模型中配置的識別策略中的客戶端向量值計(jì)算策略,計(jì)算提取的特征詞在映射的語言信息識別模型中對應(yīng)的行列向量值; 相似度計(jì)算模塊,用于依據(jù)語言信息識別模型中配置的識別策略中的相似度值計(jì)算策略,計(jì)算接收的語言信息映射的行向量分別與存儲的語言信息識別模型中的各行向量的相似度; 語言信息判斷模塊,用于在計(jì)算得到的相似度中,統(tǒng)計(jì)大于語言信息識別模型中配置的相似度閾值的個(gè)數(shù),如果確定統(tǒng)計(jì)的個(gè)數(shù)大于語言信息識別模型中配置的識別數(shù)閾值,判斷接收的語目Ih息為垃圾語目?目息。
【文檔編號】G06F17/30GK103778226SQ201410032258
【公開日】2014年5月7日 申請日期:2014年1月23日 優(yōu)先權(quán)日:2014年1月23日
【發(fā)明者】范文 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
普定县| 青州市| 英吉沙县| 禄劝| 昌平区| 江达县| 高安市| 韶关市| 明溪县| 子洲县| 文昌市| 大安市| 蕉岭县| 阿瓦提县| 海林市| 宜宾县| 自治县| 连云港市| 怀宁县| 车险| 江阴市| 桐梓县| 汉川市| 宁夏| 紫阳县| 柘城县| 山阴县| 阳朔县| 滦平县| 绵阳市| 灵武市| 顺义区| 伊金霍洛旗| 依安县| 中牟县| 鹿邑县| 华阴市| 宁都县| 云林县| 上林县| 清丰县|