欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于信息概念格矯正的svm文本自動(dòng)分類方法及其系統(tǒng)的制作方法

文檔序號(hào):6587153閱讀:337來源:國(guó)知局
專利名稱:基于信息概念格矯正的svm文本自動(dòng)分類方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種基于信息概念格矯正的SVM文本自動(dòng)分類方法及其系統(tǒng)。
背景技術(shù)
經(jīng)典的支持向量機(jī)(SVM)算法只給出了二類分類的算法,而在數(shù)據(jù)挖掘的實(shí)際應(yīng)用中,一般要解決以下兩個(gè)問題:1、樹狀多層次類別的分類首先,針對(duì)這個(gè)問題現(xiàn)有技術(shù)是通過多個(gè)二類支持向量機(jī)的組合來解決,主要有一對(duì)多組合模式、一對(duì)一組合模式和SVM決策樹,再就是通過構(gòu)造多個(gè)分類器的組合來解決。而這幾種解決方法最終解決是單層多個(gè)類別之間的文本分類,并沒有解決實(shí)際應(yīng)用中樹狀多層次類別的分類問題及其分類精度。其次,由于SVM是借助二次規(guī)劃來求解支持向量,而求解二次規(guī)劃將涉及m階矩陣的計(jì)算(m為樣本的個(gè)數(shù)),當(dāng)m數(shù)目很大時(shí)該矩陣的存儲(chǔ)和計(jì)算將耗費(fèi)大量的機(jī)器內(nèi)存和運(yùn)算時(shí)間。2、分類精度現(xiàn)有技術(shù)雖結(jié)合了其他算法的優(yōu)勢(shì),解決多類問題的分類精度。如:與粗集理論結(jié)合,形成一種優(yōu)勢(shì)互補(bǔ)的多類問題的組合分類器。但是對(duì)于樹狀類別的細(xì)化和深入,類別與類別之間的距離越來越近,不僅計(jì) 算量大量增加而且分類精度也越來越低。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于信息概念格矯正的SVM文本自動(dòng)分類方法,其基于信息概念格矯正可以對(duì)文本進(jìn)行全方面的挖掘和分析,如對(duì)新聞全方面的挖掘和分析可以提高廣告投放和新聞搜索的精度。為解決上述技術(shù)問題,本發(fā)明米用的一技術(shù)方案是:一種基于信息概念格矯正的SVM文本自動(dòng)分類方法,其包括以下具體步驟:第一步:信息概念格的建立,其用可擴(kuò)展標(biāo)記語言存儲(chǔ)數(shù)據(jù),并由多個(gè)Category節(jié)點(diǎn)和多個(gè)指針節(jié)點(diǎn)兩部分組成,其中指針的類型至少包括:局部與整體關(guān)系、類屬關(guān)系、制造關(guān)系、人物關(guān)系、地理關(guān)系、白名單、黑名單;第二步:信息概念格中Category節(jié)點(diǎn)和指針節(jié)點(diǎn)的計(jì)算;第三步:信息概念格結(jié)合SVM預(yù)測(cè)文本類別,根據(jù)Category節(jié)點(diǎn)與指針節(jié)點(diǎn)的關(guān)系及指針節(jié)點(diǎn)相對(duì)于Category節(jié)點(diǎn)的權(quán)重值預(yù)測(cè)文本類別,如信息概念格無法預(yù)測(cè)類別時(shí)則用SVM模型預(yù)測(cè)類別。在上述技術(shù)方案的基礎(chǔ)上,進(jìn)一步包括附屬技術(shù)方案:所述第二步中對(duì)于某個(gè)類別的所有特征詞先采用開方檢驗(yàn)方法,其計(jì)算公式是:
權(quán)利要求
1.一種基于信息概念格矯正的SVM文本自動(dòng)分類方法,其特征在于其包括以下步驟: 第一步:信息概念格的建立,其用可擴(kuò)展標(biāo)記語言存儲(chǔ)數(shù)據(jù),并由多個(gè)Category節(jié)點(diǎn)和多個(gè)指針節(jié)點(diǎn)兩部分組成,其中指針節(jié)點(diǎn)的類型至少包括:局部與整體關(guān)系、類屬關(guān)系、制造關(guān)系、人物關(guān)系、地理關(guān)系、白名單、黑名單; 第二步:信息概念格中Category節(jié)點(diǎn)和指針節(jié)點(diǎn)權(quán)重的計(jì)算; 第三步:信息概念格結(jié)合SVM預(yù)測(cè)文本類別,根據(jù)Category節(jié)點(diǎn)與指針節(jié)點(diǎn)的關(guān)系及指針節(jié)點(diǎn)相對(duì)于Category節(jié)點(diǎn)的權(quán)重值預(yù)測(cè)文本類別,如信息概念格無法預(yù)測(cè)類別時(shí)則用SVM模型預(yù)測(cè)類別。
2.根據(jù)權(quán)利要求1所述的SVM文本自動(dòng)分類方法,其特征在于:所述第二步中對(duì)于某個(gè)類別的所有特征詞先采用開方檢驗(yàn)方法,其計(jì)算公式是:
3.根據(jù)權(quán)利要求2所述的SVM文本自動(dòng)分類方法,其特征在于:所述Category節(jié)點(diǎn)指的是類別對(duì)象,指針節(jié)點(diǎn)指的是類別屬性,而信息概念格描述的是Category節(jié)點(diǎn)之間、Category節(jié)點(diǎn)和指針節(jié)點(diǎn)之間、指針節(jié)點(diǎn)之間的聯(lián)系和統(tǒng)一。
4.一種基于信息概念格矯正的SVM文本自動(dòng)分類系統(tǒng),其特征在于其包括:數(shù)據(jù)存儲(chǔ)模塊、權(quán)重計(jì)算模塊、SVM訓(xùn)練建模模塊、和類別預(yù)測(cè)模塊,其中數(shù)據(jù)存儲(chǔ)模塊通過利用分詞工具建立由多個(gè)Category節(jié)點(diǎn)和多個(gè)指針節(jié)點(diǎn)兩部分組成的信息概念格,指針節(jié)點(diǎn)的類型至少包括:局部與整體關(guān)系、類屬關(guān)系、制造關(guān)系、人物關(guān)系、地理關(guān)系、白名單、黑名單;權(quán)重計(jì)算模塊來計(jì)算節(jié)點(diǎn)的權(quán)重。
5.根據(jù)權(quán)利要求4所述的SVM文本自動(dòng)分類系統(tǒng),其特征在于:所述數(shù)據(jù)存儲(chǔ)模塊的建立包括以下步驟: 1)添加大類類別,生成信息概念格最基本的框架; 2)添加類別類屬,按順序步驟如下: ①采集各個(gè)大類樣本; ②利用分詞工具添加類屬關(guān)系、制造關(guān)系(上下游關(guān)系)、黑名單、白名單四大關(guān)系; ③人工采集分析信息添加節(jié)點(diǎn)的人物關(guān)系和地理關(guān)系; ④添加特征詞屬性,方法同SVM訓(xùn)練建模模塊中文本預(yù)處理步驟中的特征選擇; 3)添加類別的id,給每個(gè)Category節(jié)點(diǎn)添加id屬性,按照Category節(jié)點(diǎn)層次唯一標(biāo)識(shí)一個(gè)節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求5所述的SVM文本自動(dòng)分類系統(tǒng),其特征在于:所述SVM訓(xùn)練建模模塊包括如下步驟:1)依次進(jìn)行切詞、去停止詞、特征選擇、文本向量化的文本預(yù)處理;2)支持向量機(jī)。
7.根據(jù)權(quán)利要求4或5或6所述的SVM文本自動(dòng)分類系統(tǒng),其特征在于:所述類別預(yù)測(cè)模塊包括如下步驟:文本分 詞處理、分析分詞結(jié)果、類別匹配計(jì)算。
全文摘要
本發(fā)明公開了一種基于信息概念格矯正的SVM文本自動(dòng)分類方法及其系統(tǒng),其包括信息概念格的建立、信息概念格中節(jié)點(diǎn)權(quán)重的計(jì)算、和信息概念格結(jié)合SVM預(yù)測(cè)文本類別。本發(fā)明實(shí)現(xiàn)樹狀類別的分類,并且在很大程度上減少了計(jì)算量。另外,基于信息概念格的矯正大大提高了方法的精度。
文檔編號(hào)G06F17/30GK103092994SQ201310053968
公開日2013年5月8日 申請(qǐng)日期2013年2月20日 優(yōu)先權(quán)日2013年2月20日
發(fā)明者胡琳, 陳勇兵, 朱造峰 申請(qǐng)人:蘇州思方信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
大城县| 武陟县| 赤城县| 聊城市| 建始县| 岱山县| 阳曲县| 沙雅县| 香港| 青浦区| 永吉县| 桃园县| 富顺县| 波密县| 运城市| 永安市| 富阳市| 凉城县| 宝坻区| 荃湾区| 荣昌县| 临海市| 阿克陶县| 乌恰县| 灌南县| 玛曲县| 嘉善县| 汶川县| 都安| 巴林左旗| 咸丰县| 大冶市| 桐梓县| 昌平区| 巴林右旗| 任丘市| 香格里拉县| 明星| 阿克苏市| 仁怀市| 西乌|