欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于卡方算法進行角色特征提取的方法

文檔序號:6511453閱讀:251來源:國知局
一種基于卡方算法進行角色特征提取的方法
【專利摘要】本發(fā)明公開了一種基于卡方算法進行角色特征提取的方法,該方法包括:A、選定多個角色,將與所述角色對應的文檔提取出來,并對所述的文檔進行分詞;B、根據卡方算法對所述分詞進行特征提取,獲取所述角色下特征詞需要的數(shù)據;C、根據卡方特征評估函數(shù)計算各個特征的評分值,并對詞條進行分析,然后按所述評分值對所述特征進行排序,并選取若干個評分值最高的特征詞條作為特征詞。采用該方法,能夠在進行角色搜索時,較好的提高返回結果的相關性;根據某個系統(tǒng)中的樣本,提取該系統(tǒng)下的角色對應的特征詞,使得在進行角色搜索時,加入特征詞,設置權重,能夠提高搜索結果跟用戶的相關性。
【專利說明】一種基于卡方算法進行角色特征提取的方法【技術領域】
[0001]本發(fā)明涉及計算機應用技術,尤其涉及一種基于卡方(CHI)算法進行角色特征提取的方法。
【背景技術】
[0002] 目前有關文本表示的研究,主要集中于文本表示模型的選擇和特征詞選擇算法的選取上。用于表示文本的基本單位通常稱為文本的特征或特征項。
[0003]圖1為特征項必備的特性示意圖。如圖1所示,在中文文本中可以采用字、詞或短語作為表示文本的特征項。相比較而言,詞比字具有更強的表達能力,而詞和短語相比,詞的切分難度比短語的切分難度小得多。因此,目前大多數(shù)中文文本分類系統(tǒng)都采用詞作為特征項,稱作特征詞。這些特征詞作為文檔的中間表示形式,用來實現(xiàn)文檔與文檔、文檔與用戶目標之間的相似度計算。
[0004]由于信息增益的定義過于復雜,因此應用較多的是交叉熵和互信息。其中互信息的效果要好于交叉熵,這是因為互信息是對不同的主題類分別抽取特征詞,而交叉熵與特征在全部主題類內的分布有關,是對全部主題類來抽取特征詞。這些方法,在英文特征提取方面都有各自的優(yōu)勢,但用于中文文本并沒有很高的效率。主要有2個方面的原因:I)特征提取的計算量太大,特征提取效率太低,而特征提取的效率直接影響到整個文本分類系統(tǒng)的效率;2)經過特征提取后生成的特征向量維數(shù)太高,而且不能直接計算出特征向量中各個特征詞的權重。
[0005]若把所有的詞都作為特征項,那么特征向量的維數(shù)將過于巨大,從而導致計算量太大,在這樣的情況下,要完成文本分類幾乎是不可能的。

【發(fā)明內容】

[0006]有鑒于此,本發(fā)明的主要目的在于提供一種基于卡方算法(CHI)進行角色特征提取的方法,將卡方算法的統(tǒng)計量用于度量特征w和主題類C之間的獨立性,在進行角色搜索時,能較好的提高返回結果的相關性;根據某個系統(tǒng)中的樣本(分詞之后的),提取該系統(tǒng)下的角色對應的特征詞,使得在進行角色搜索時,加入特征詞,設置權重,以提高搜索結果跟用戶的相關性。
[0007]為達到上述目的,本發(fā)明的技術方案是這樣實現(xiàn)的:
一種基于卡方算法進行角色特征提取的方法,該方法包括:
A、選定多個角色,將與所述角色對應的文檔提取出來,并對所述的文檔進行分詞;
B、根據卡方算法對所述分詞進行特征提取,獲取所述角色下特征詞需要的數(shù)據;
C、根據卡方特征評估函數(shù)計算各個特征的評分值,并對詞條進行分析,然后按所述評分值對所述特征進行排序,并選取若干個評分值最高的特征詞條作為特征詞。
[0008]其中,所述卡方算法依據卡方特征評估函數(shù)進行,所述卡方特征評估函數(shù)為:
【權利要求】
1.一種基于卡方算法進行角色特征提取的方法,其特征在于,該方法包括: A、選定多個角色,將與所述角色對應的文檔提取出來,并對所述的文檔進行分詞; B、根據卡方算法對所述分詞進行特征提取,獲取所述角色下特征詞需要的數(shù)據; C、根據卡方特征評估函數(shù)計算各個特征的評分值,并對詞條進行分析,然后按所述評分值對所述特征進行排序,并選取若干個評分值最高的特征詞條作為特征詞。
2.根據權利要求1所述基于卡方算法進行角色特征提取的方法,其特征在于,所述卡方算法依據卡方特征評估函數(shù)進行,所述卡方特征評估函數(shù)為:
3.根據權利要求2所述基于卡方算法進行角色特征提取的方法,其特征在于,所述文檔個數(shù)針對角色所在的系統(tǒng)而言。
4.根據權利要求1所述基于卡方算法進行角色特征提取的方法,其特征在于,步驟B所述獲取所述角色下特征詞需要的數(shù)據,具體為: 在進行角色搜索時,在查詢語句中加入特征詞,然后從所述數(shù)據庫中查詢,先看緩存中是否存在所述特征詞,若有,則從所述緩存中查詢;否則,就從數(shù)據中查詢。
【文檔編號】G06F17/27GK103473323SQ201310417242
【公開日】2013年12月25日 申請日期:2013年9月13日 優(yōu)先權日:2013年9月13日
【發(fā)明者】程蕓蕓, 王清霞, 李振釗, 趙威, 劉鐵軍, 劉秀磊 申請人:北京鵬宇成軟件技術有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
建昌县| 乌鲁木齐县| 卢氏县| 万年县| 都安| 贞丰县| 广宗县| 山西省| 藁城市| 汝州市| 北安市| 二连浩特市| 岚皋县| 宁波市| 托克托县| 密云县| 葫芦岛市| 新疆| 微山县| 和林格尔县| 桐城市| 临清市| 马关县| 固原市| 平远县| 凤城市| 万全县| 搜索| 绥德县| 武城县| 南开区| 霞浦县| 六枝特区| 乐安县| 甘洛县| 镇雄县| 绥阳县| 石泉县| 克什克腾旗| 梁河县| 基隆市|