專利名稱:關(guān)鍵詞提取算法的多維空間評價方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種關(guān)鍵詞提取算法的評價方法,更具體的說,涉及一種關(guān)鍵詞提取 算法的多維評價標(biāo)準(zhǔn)和多維空間評價方法。
背景技術(shù):
現(xiàn)有的關(guān)鍵詞提取算法的評價方式都是“基于作者”的,也就是將提取結(jié)果與預(yù)先 確定的關(guān)鍵詞進行比較,通常用準(zhǔn)確率和覆蓋率兩個指標(biāo)反映關(guān)鍵詞提取算法的優(yōu)劣。這 種評價方式直觀、簡單,但需要人工預(yù)先給定關(guān)鍵詞,并存在以下不足之處1)、作者給定的關(guān)鍵詞往往基于更高層的理解、具有更高的概括性,很難與直接從 文本中提取出的關(guān)鍵詞相匹配,造成各種關(guān)鍵詞提取方法精度結(jié)果普遍比較低,使得傳統(tǒng) 評價不能很好地比較出各種提取算法的優(yōu)劣。2)、人工預(yù)先標(biāo)注關(guān)鍵詞的工作比一般檢索與分類更困難,對文本標(biāo)注的關(guān)鍵詞 是用來直接進行比較的,而信息檢索與分類只需要對類別進行標(biāo)注。所以,傳統(tǒng)評價方式不 能適用變化領(lǐng)域、大規(guī)模自動化文本的信息處理。3)、“基于作者”的比較方式,僅僅使用準(zhǔn)確率和覆蓋率,來檢查關(guān)鍵詞提取算法的 提取結(jié)果與預(yù)先給定結(jié)果的一致性,缺少對關(guān)鍵詞其他方面作用的度量,因此只能面向單 篇文本進行驗證。因此,有必要提出一種自動的、多方面度量的關(guān)鍵詞提取算法的評價方法,用于評 價出關(guān)鍵詞提取算法的優(yōu)劣和適用范圍。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術(shù)存在的不足,提供一種關(guān)鍵詞提取算法的多維空 間評價方法。該方法能提高關(guān)鍵詞提取算法的評價質(zhì)量,能為關(guān)鍵詞提取算法的改進和選 擇提供了客觀、全面的依據(jù),進而能提高關(guān)鍵詞的提取精度和效率。為實現(xiàn)上述目的,本發(fā)明的構(gòu)思如下在領(lǐng)域文本集中分別定義關(guān)鍵詞集的領(lǐng)域 內(nèi)鑒別力、領(lǐng)域有趣結(jié)構(gòu)保留力、領(lǐng)域間區(qū)分力的評價標(biāo)準(zhǔn)領(lǐng)域內(nèi)鑒別力,指領(lǐng)域文本集 中的一篇文本的關(guān)鍵詞能概括覆蓋該文本的主要內(nèi)容,且能區(qū)別于其他文本的內(nèi)容;領(lǐng)域 有趣結(jié)構(gòu)保留力,指所有文本的關(guān)鍵詞能保留整個領(lǐng)域中的有價值的信息;領(lǐng)域間區(qū)分力, 指一個領(lǐng)域所有文本以關(guān)鍵詞的方式表示后,能區(qū)分于其他領(lǐng)域的文本集;將上述三種關(guān) 鍵詞集的評價標(biāo)準(zhǔn)作為關(guān)鍵詞提取算法的多維評價標(biāo)準(zhǔn),用以綜合評價關(guān)鍵詞提取算法的 優(yōu)劣和適用范圍。根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明采用下述技術(shù)方案一種關(guān)鍵詞提取算法的評價方法,其特征在于,具體步驟如下(1)選擇待評價的關(guān)鍵詞提取算法;(2)選取不同領(lǐng)域的文本集;(3)對文本集的文本內(nèi)容,進行預(yù)處理,包括分詞、詞性標(biāo)注、過濾實詞;
(4)對文本集使用上述待評價的關(guān)鍵詞提取算法提取關(guān)鍵詞集;(5)對上述已提取的關(guān)鍵詞集分別進行評價,具體如下(5-1)對提取的關(guān)鍵詞集進行領(lǐng)域內(nèi)鑒別力的評價;(5-2)對提取的關(guān)鍵詞集進行領(lǐng)域有趣結(jié)構(gòu)保留力的評價;(5-3)對提取的關(guān)鍵詞集進行領(lǐng)域間區(qū)分力的評價;(6)對上述待評價的關(guān)鍵詞提取算法,進行多維空間評價,給出關(guān)鍵詞提取算法的 優(yōu)劣和適用范圍。上述步驟(5-1)所述的領(lǐng)域內(nèi)鑒別力評價,其包括鑒別力差異比、關(guān)鍵詞集平均 排名、平均相似度的計算,具體如下(5-1-1)計算鑒別力差異比,鑒別力好的詞的總鑒別力絕對值與鑒別力差的詞的 總鑒別力絕對值的比,記為dV_rati0,鑒別力差異比的計算公式如下
權(quán)利要求
一種關(guān)鍵詞提取算法的多維空間評價方法,其特征在于,在領(lǐng)域文本集中分別定義關(guān)鍵詞集的領(lǐng)域內(nèi)鑒別力、領(lǐng)域有趣結(jié)構(gòu)保留力、領(lǐng)域間區(qū)分力的評價標(biāo)準(zhǔn)領(lǐng)域內(nèi)鑒別力,指領(lǐng)域文本集中的一篇文本的關(guān)鍵詞能概括覆蓋該文本的主要內(nèi)容、且能區(qū)別于其他文本的內(nèi)容;領(lǐng)域有趣結(jié)構(gòu)保留力,指所有文本的關(guān)鍵詞能保留整個領(lǐng)域中的有價值的信息;領(lǐng)域間區(qū)分力,指一個領(lǐng)域所有文本以關(guān)鍵詞的方式表示后,能區(qū)分于其他領(lǐng)域的文本集;將上述三種關(guān)鍵詞集的評價標(biāo)準(zhǔn)作為關(guān)鍵詞提取算法的多維評價標(biāo)準(zhǔn),用以綜合評價關(guān)鍵詞提取算法的優(yōu)劣和適用范圍,其具體步驟如下(1)選擇待評價的關(guān)鍵詞提取算法;(2)選取不同領(lǐng)域的文本集;(3)對文本集的文本內(nèi)容,進行預(yù)處理,包括分詞、詞性標(biāo)注、過濾實詞;(4)對文本集使用上述待評價的關(guān)鍵詞提取算法提取關(guān)鍵詞集;(5)對上述已提取的關(guān)鍵詞集分別進行評價,具體如下(5 1)對提取的關(guān)鍵詞集進行領(lǐng)域內(nèi)鑒別力的評價;(5 2)對提取的關(guān)鍵詞集進行領(lǐng)域有趣結(jié)構(gòu)保留力的評價;(5 3)對提取的關(guān)鍵詞集進行領(lǐng)域間區(qū)分力的評價;(6)對上述待評價的關(guān)鍵詞提取算法,進行多維空間評價,給出關(guān)鍵詞提取算法的優(yōu)劣和適用范圍。
2.根據(jù)權(quán)利要求1所述的關(guān)鍵詞提取算法的多維空間評價方法,其特征在于,上述步 驟(5-1)所述的領(lǐng)域內(nèi)鑒別力評價,其包括鑒別力差異比、關(guān)鍵詞集平均排名、平均相似度 的計算,具體如下(5-1-1)計算鑒別力差異比,鑒別力好的詞的總鑒別力絕對值與鑒別力差的詞的總鑒 別力絕對值的比,記為dv_ratio,鑒別力差異比的計算公式如下m
3.根據(jù)權(quán)利要求1所述的關(guān)鍵詞提取算法的多維空間評價方法,其特征在于,上述步 驟(5-2)所述的領(lǐng)域有趣結(jié)構(gòu)保留力評價,其具體如下(5-2-1)計算隨機交換后頻繁集數(shù)減少的比例,頻繁集是指共同在一篇文本出現(xiàn)的詞 集,頻繁集的挖掘通過Apriori或FP-growth算法完成,頻繁集記為fp,它滿足其中
4.根據(jù)權(quán)利要求1所述的關(guān)鍵詞提取算法的多維空間評價方法,其特征在于,上述步 驟(5-3)所述的領(lǐng)域間區(qū)分力評價,其包括宏平均準(zhǔn)確率、宏平均召回率、宏平均F指標(biāo)、 微平均F指標(biāo)的計算,具體如下(5-3-1)計算宏平均準(zhǔn)確率,求文本分類后所有領(lǐng)域的準(zhǔn)確率的算術(shù)平均值,宏平均準(zhǔn) 確率記為maCro_p,其計算公式如下
5.根據(jù)權(quán)利要求1所述的關(guān)鍵詞提取算法的多維空間評價方法,其特征在于,上述步 驟(6)所述的多維空間評價,其具體如下(6-1)以領(lǐng)域內(nèi)鑒別力、領(lǐng)域間區(qū)分力、領(lǐng)域有趣結(jié)構(gòu)保留力為坐標(biāo),建立關(guān)鍵詞提取 算法的多維評價空間模型,取坐標(biāo)軸正方向為“優(yōu)”、負方向為“劣”;(6-2)根據(jù)上述步驟(5)中的步驟(5-1)、(5-2)、(5-3)的評價,在多維評價空間中標(biāo) 注關(guān)鍵詞提取算法所對應(yīng)的空間節(jié)點;(6-3)綜合評價關(guān)鍵詞提取算法在領(lǐng)域內(nèi)鑒別力、領(lǐng)域間區(qū)分力、領(lǐng)域有趣結(jié)構(gòu)保留力 三方面的優(yōu)劣,給出關(guān)鍵詞提取算法的適用范圍。
全文摘要
本發(fā)明公開了一種關(guān)鍵詞提取算法的多維空間評價方法,該方法步驟如下(1)選擇待評價的關(guān)鍵詞提取算法;(2)選取不同領(lǐng)域的文本集;(3)對文本集的文本內(nèi)容,進行預(yù)處理;(4)對文本集使用上述待評價的關(guān)鍵詞提取算法提取關(guān)鍵詞集;(5)對上述關(guān)鍵詞集分別進行領(lǐng)域內(nèi)鑒別力、域有趣結(jié)構(gòu)保留力、領(lǐng)域間區(qū)分力的評價;(6)對上述待評價的關(guān)鍵詞提取算法,進行多維空間評價,給出關(guān)鍵詞提取算法的優(yōu)劣和適用范圍。該方法采用自動計算的方式,無需人工標(biāo)注關(guān)鍵詞的工作,適用于對大規(guī)模文本和變化領(lǐng)域文集的關(guān)鍵詞提取的評價;該方法能夠從關(guān)鍵詞的多方面性質(zhì)對關(guān)鍵詞提取算法進行綜合評價,能提高關(guān)鍵詞提取算法的評價質(zhì)量。
文檔編號G06F17/30GK101937471SQ20101028999
公開日2011年1月5日 申請日期2010年9月21日 優(yōu)先權(quán)日2010年9月21日
發(fā)明者張順香, 徐煒民, 梁國寧, 殷曉波, 駱祥峰 申請人:上海大學(xué)