欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種分類(lèi)短信文本內(nèi)容的方法

文檔序號(hào):9631573閱讀:393來(lái)源:國(guó)知局
一種分類(lèi)短信文本內(nèi)容的方法
【專(zhuān)利說(shuō)明】一種分類(lèi)短信文本內(nèi)容的方法 所屬技術(shù)領(lǐng)域
[0001] 本發(fā)明是自然語(yǔ)言處理在短信文本方面的應(yīng)用,通過(guò)對(duì)短信文本進(jìn)行分詞,提取 特征詞實(shí)現(xiàn)對(duì)短信文本的分類(lèi)。
【背景技術(shù)】
[0002] 近年來(lái),在自然語(yǔ)言處理領(lǐng)域涌現(xiàn)了各種技術(shù),使得自然語(yǔ)言處理在文本識(shí)別方 面有了很大的發(fā)展。但是對(duì)短信文本的分類(lèi),即使有了大量的已標(biāo)記語(yǔ)料,可以通過(guò)模型訓(xùn) 練的方式來(lái)得到對(duì)短信文本的分類(lèi)。但是模型訓(xùn)練需要大量的語(yǔ)料。目前在處理大量的文 本信息之前,如果對(duì)短信文本進(jìn)行分類(lèi),都需要通過(guò)人工去標(biāo)記一定量的短信文本信息,比 如標(biāo)記該短信文本的類(lèi)別比如電影,快遞,物流等。這樣一個(gè)過(guò)程前期需要很多人工的參與 或其他的方式,會(huì)得到一部分已標(biāo)記的短信文本,通過(guò)對(duì)這一部分?jǐn)?shù)據(jù)經(jīng)過(guò)分詞得到一個(gè) 詞表將每個(gè)文本表示成詞向量進(jìn)行模型訓(xùn)練。最終對(duì)新出現(xiàn)的短信文本信息進(jìn)行分詞得到 文本向量,然后通過(guò)訓(xùn)練的模型進(jìn)行分類(lèi)。但是經(jīng)過(guò)分詞,新出現(xiàn)短信文本信息有些詞匯經(jīng) 常會(huì)沒(méi)有出現(xiàn)在已有的詞表中,這個(gè)時(shí)候這些文本的一些信息會(huì)被丟失,詞向量就不能完 全體現(xiàn)短信文本本身的特性,而且將所有的分詞詞匯轉(zhuǎn)變成向量維度會(huì)過(guò)高,帶來(lái)巨大的 計(jì)算量。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明基于短信文本的特點(diǎn)提供一種對(duì)短信文本進(jìn)行分類(lèi)的方法。技術(shù)方案如 下:
[0004] -種分類(lèi)短信文本內(nèi)容的方法,包括下列方面:
[0005] 分詞模塊:采用字典分詞,遍歷字典中的所有詞匯,如果在短信文本中出現(xiàn)某詞 匯,則該詞匯為短信文本的分詞的一部分,所有在字典中出現(xiàn)的詞匯且在短信文本中出現(xiàn), 為該短信分詞的結(jié)果;
[0006] 篩選高頻詞模塊:對(duì)所有短信分詞的結(jié)果進(jìn)行詞匯統(tǒng)計(jì),對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行倒排 即詞頻越高的排在越前面,設(shè)定閾值篩選出一批高頻詞,然后通過(guò)人工篩選去掉一些非該 領(lǐng)域高頻詞,剩下的高頻詞即為該領(lǐng)域短信文本特征詞;
[0007] 閾值模塊:對(duì)篩選出的短信文本特征詞表示成一組用數(shù)字1或0的向量,將輸入的 新的短信映射為一個(gè)短信文本特征詞的向量。通過(guò)短信文本特征詞匹配,如果新的短信中 出現(xiàn)短信文本特征詞,將短信向量對(duì)應(yīng)該短信文本特征詞的位置標(biāo)記為1否則為〇 ;將短信 映射成的向量與短信文本特征詞的向量進(jìn)行歐式距離計(jì)算,如果距離小于某閾值,則認(rèn)為 該短信屬于某一類(lèi)別短信。
[0008] 本發(fā)明的有益效果是:本發(fā)明根據(jù)短信文本自身的特性,采用分詞技術(shù)并統(tǒng)計(jì)短 信的高頻詞,通過(guò)對(duì)高頻詞的匹配,轉(zhuǎn)化為計(jì)算短信文本與某一類(lèi)文本間的距離,進(jìn)而通 過(guò)計(jì)算歐式距離來(lái)判斷短信文本的類(lèi)別,有效的挖掘出短信本身的特性同時(shí)又能夠避免傳 統(tǒng)一些向量化文本產(chǎn)生的信息丟失,同時(shí)能夠減少大量的計(jì)算。
【具體實(shí)施方式】
[0009] 下面實(shí)施例對(duì)本發(fā)明進(jìn)行說(shuō)明。
[0010] 現(xiàn)在收集到大量的短信數(shù)據(jù)如下若干形式:
[0011] 106123456,【人才管理】邀請(qǐng)您參加校園招聘,2011. 05. 11。106123456,【人才 管理】邀請(qǐng)您參加校園招聘,2011. 05. 11?!?06123456,【人才管理】邀請(qǐng)您參加校園招 聘,2011. 05. 11。共計(jì)200條數(shù)據(jù)
[0012] 10678456,【人才管理】歡迎您投遞飛鴿公司,2011. 06. 11。10678456,人才管理及 時(shí)給您校招信息,2011. 06. 11··· 10678456,謝謝您來(lái)應(yīng)聘美的公司,2010. 05. 11。其中有 括號(hào)短信的200條,無(wú)括號(hào)短信的200條
[0013] 對(duì)于上面的所有招聘類(lèi)信息通過(guò)分詞模塊,可以得到分詞的結(jié)果"人才","管理", "招聘","邀請(qǐng)","投遞","校招","參加","飛鴿","歡迎","信息","及時(shí)"等等,但是這些詞 匯經(jīng)過(guò)高頻詞篩選模塊,只有"人才","管理","招聘","投遞","校招"這些詞匯會(huì)成為招聘 類(lèi)信息的高頻詞,將這些高頻詞映射為一個(gè)5維的向量[1,1,1,1,1],第一個(gè)維度表示"人 才",第二個(gè)維度表示"管理",第三個(gè)維度表示"招聘",第四個(gè)維度表示"投遞",第五個(gè)維度 表示"校招"。
[0014] 如果此時(shí)輸入一個(gè)短信文本,比如10676666,【人才管理】歡迎您投遞飛鴿公司的 研發(fā)崗位,期待您的加入,2011. 06. 13。該10676666短信通過(guò)高頻詞匹配可以得到一個(gè) [1,1,0, 1,0]。將得到的向量[1,1,0, 1,0]與[1,1,1,1,1]進(jìn)行歐式距離的計(jì)算,得到的結(jié) 果為如果經(jīng)過(guò)閾值模塊取閾值為2,則10676666服務(wù)號(hào)發(fā)送的該條短信內(nèi)容屬于招聘 信息類(lèi)。
[0015] 如果此時(shí)輸入一個(gè)短信文本,比如106766888,【金鼎物業(yè)】歡迎您光臨金鼎物業(yè), 需要買(mǎi)房請(qǐng)致電8888899999, 2011. 06. 16。該106766888短信通過(guò)高頻詞匹配可以得到一 個(gè)[0, 0, 0, 0, 0]。將得到的向量[0, 0, 0, 0, 0]與[1,1,1,1,1]進(jìn)行歐式距離的計(jì)算,得到的 結(jié)果為如果經(jīng)過(guò)閾值模塊取閾值為2,則106766888服務(wù)號(hào)發(fā)送的該條短信內(nèi)容不屬 于招聘信息類(lèi)。但是它屬于其他類(lèi)別的信息,比如物業(yè)管理或者房屋買(mǎi)賣(mài)類(lèi),但是前提是有 這一類(lèi)的已標(biāo)注信息可以去做分詞,去做高頻詞篩選,只要有一部分該領(lǐng)域該類(lèi)別的信息, 就可以通過(guò)分詞然后選擇高頻詞,通過(guò)匹配進(jìn)行歐式距離的計(jì)算來(lái)判斷短信文本的類(lèi)別。
【主權(quán)項(xiàng)】
1. 一種分類(lèi)短信文本內(nèi)容的方法,包括下列方面: 分詞模塊:采用字典分詞,遍歷字典中的所有詞匯,如果在短信文本中出現(xiàn)某詞匯,則 該詞匯為短信文本的分詞的一部分,所有在字典中出現(xiàn)的詞匯且在短信文本中出現(xiàn),為該 短信分詞的結(jié)果; 篩選高頻詞模塊:對(duì)所有短信分詞的結(jié)果進(jìn)行詞匯統(tǒng)計(jì),對(duì)統(tǒng)計(jì)的結(jié)果進(jìn)行倒排即詞 頻越高的排在越前面,設(shè)定閾值篩選出一批高頻詞,然后通過(guò)人工篩選去掉一些非該領(lǐng)域 高頻詞,剩下的高頻詞即為該領(lǐng)域短信文本特征詞; 閾值模塊:對(duì)篩選出的短信文本特征詞表示成一組用數(shù)字1或0的向量,將輸入的新的 短信映射為一個(gè)短信文本特征詞的向量。通過(guò)短信文本特征詞匹配,如果新的短信中出現(xiàn) 短信文本特征詞,將短信向量對(duì)應(yīng)該短信文本特征詞的位置標(biāo)記為1否則為0 ;將短信映射 成的向量與短信文本特征詞的向量進(jìn)行歐式距離計(jì)算,如果距離小于某閾值,則認(rèn)為該短 信屬于某一類(lèi)別短信。
【專(zhuān)利摘要】本發(fā)明涉及一種分類(lèi)短信文本內(nèi)容的方法,包括下列方面:采用字典分詞,遍歷字典中的所有詞匯,如果在短信文本中出現(xiàn)某詞匯,則該詞匯為短信文本的分詞的一部分,所有在字典中出現(xiàn)的詞匯且在短信文本中出現(xiàn),為該短信分詞的結(jié)果;對(duì)所有短信分詞的結(jié)果進(jìn)行詞匯統(tǒng)計(jì),篩選出一批高頻詞,然后通過(guò)人工篩選得到短信文本特征詞;對(duì)短信文本特征詞表示成一組用數(shù)字1或0的向量,將輸入的新的短信映射為一個(gè)短信文本特征詞的向量,進(jìn)行短信文本特征詞匹配和歐式距離計(jì)算實(shí)現(xiàn)分類(lèi)。本發(fā)明能有效挖掘出短信本身的特性同時(shí)又能夠避免傳統(tǒng)一些向量化文本產(chǎn)生的信息丟失,同時(shí)能夠減少計(jì)算量。
【IPC分類(lèi)】G06F17/30
【公開(kāi)號(hào)】CN105389345
【申請(qǐng)?zhí)枴緾N201510697003
【發(fā)明人】章宦記, 王建, 龐彥偉
【申請(qǐng)人】天津大學(xué)
【公開(kāi)日】2016年3月9日
【申請(qǐng)日】2015年10月26日
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
海门市| 翁牛特旗| 泽州县| 龙陵县| 娄烦县| 金寨县| 潍坊市| 霸州市| 承德县| 汕尾市| 通榆县| 鹤峰县| 海安县| 金溪县| 双桥区| 自贡市| 武威市| 方山县| 睢宁县| 龙口市| 章丘市| 竹溪县| 南城县| 玛多县| 钟祥市| 海城市| 大宁县| 常德市| 如东县| 汤阴县| 深圳市| 大名县| 商城县| 巴塘县| 原平市| 长治县| 瓮安县| 惠来县| 日照市| 东阳市| 嵊泗县|