欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于詞分布的詞語全局權(quán)重計算方法

文檔序號:6582163閱讀:505來源:國知局
專利名稱:基于詞分布的詞語全局權(quán)重計算方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種自然語言的處理方法,特別涉及一種詞語權(quán)重的計算方法。
背景技術(shù)
90年代以來,隨著網(wǎng)絡(luò)信息的爆炸,人們需要精準(zhǔn)地在網(wǎng)絡(luò)上獲取信息。這促使自然語言處理迅速發(fā)展,信息檢索、信息過濾、文本分類、自動文摘、問答系統(tǒng)等自然語言處理應(yīng)用技術(shù)的研究就成為近年來研究的熱點。支持向量機(jī)、向量空間模型、潛在語義分析模型等新模型層出不窮。 這些新模型都以詞語權(quán)重的計算為基礎(chǔ),詞語權(quán)重計算是否準(zhǔn)確直接影響著自然語言處理的最終結(jié)果,如圖1。文檔中每一個詞語所表達(dá)的文檔的信息量是不同的,我們用詞語權(quán)重來表示詞語的重要程度,只有準(zhǔn)確地計算出每個詞語的權(quán)重,才能使文檔中的語義信息表現(xiàn)得更加明顯。 常見的權(quán)重算法,布爾權(quán)重,特征頻度,TF-IDF,熵等,都考慮了能夠描述詞語包含信息量的某個因素,如詞頻、文檔頻、詞的位置等。有的權(quán)重計算方法根據(jù)詞語在單一文檔中的規(guī)律計算出權(quán)重,稱之為詞語局部權(quán)重;還有的根據(jù)詞語在文檔集中的規(guī)律計算出權(quán)重,稱之為詞語全局權(quán)重。 現(xiàn)有的詞語權(quán)重計算方法得到的結(jié)果不夠精確,這將直接影響以詞語權(quán)重算法為基礎(chǔ)的自然語言處理模型的處理結(jié)果。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有詞語權(quán)重計算方法不夠準(zhǔn)確的問題,而提供一種基于詞分布的詞語全局權(quán)重計算方法,該方法能夠提高計算詞語權(quán)重的準(zhǔn)確性,從而有效的提高相應(yīng)自然語言處理模型的準(zhǔn)確率。 為了達(dá)到上述目的,本發(fā)明采用如下的技術(shù)方案 基于詞分布的詞語全局權(quán)重計算方法,該方法包括如下步驟 (1)將待分析文檔集進(jìn)行預(yù)處理,使待分析文檔集成為包含文檔主要內(nèi)容的詞序列。
(2)計算詞序列中詞語的分布均勻度系數(shù);
(3)計算詞序列中詞語的分布廣度系數(shù);
(4)計算基于詞分布的詞語全局權(quán)重。 根據(jù)上述技術(shù)方案得到的本發(fā)明能有效優(yōu)化目前詞語權(quán)重計算方法,提高其準(zhǔn)確率,推動自然語言處理的研究和應(yīng)用。本發(fā)明能夠使得以詞語權(quán)重算法為基礎(chǔ)的自然語言處理應(yīng)用,如信息檢索、文本分類、垃圾郵件過濾等獲得更佳的處理結(jié)果。本發(fā)明在實際應(yīng)用中可與其他權(quán)重算法組合,能夠獲得更高的準(zhǔn)確率。


以下結(jié)合附圖和具體實施方式
來進(jìn)一步說明本發(fā)明。
圖1為詞語權(quán)重計算方法與自然語言領(lǐng)域各技術(shù)的關(guān)系示意圖。
圖2為在文檔集中詞語分布均勻度與詞語權(quán)重的關(guān)系示意圖。
圖3為在文檔集中詞語分布均勻度與詞語權(quán)重的關(guān)系示意圖。
圖4為本發(fā)明的流程圖。
具體實施例方式
為了使本發(fā)明實現(xiàn)的技術(shù)手段、創(chuàng)作特征、達(dá)成目的與功效易于明白了解,下面結(jié)合具體圖示,進(jìn)一步闡述本發(fā)明。 詞語全局權(quán)重根據(jù)詞語在文檔集中的統(tǒng)計規(guī)律進(jìn)行權(quán)重計算,它考慮文檔集影響詞語權(quán)重的一些因素,如詞的文檔頻IDF等。在文檔集中,大范圍均勻分布的詞語蘊(yùn)含更少的信息量,和文檔的內(nèi)容基本無關(guān);小范圍集中分布的詞語,蘊(yùn)含較多信息量,更可能和出現(xiàn)該詞語的文檔內(nèi)容相關(guān)。 本專利對文檔中詞語的分布進(jìn)行研究,根據(jù)"K. Pearson定理"設(shè)計分布均勻度系數(shù)及其計算方法,來衡量詞的分布情況。文檔集中不同的詞對應(yīng)著不同的分布均勻度系數(shù),分布均勻度系數(shù)的值越小,詞的分布越均勻,其全局權(quán)重也應(yīng)當(dāng)越小。 另一方面,該統(tǒng)計量僅僅描述了詞語分布的均勻程度,本專利還利用詞語分布廣度,來適當(dāng)提高相應(yīng)詞的權(quán)重。 基于上述原理,本發(fā)明提供的一種基于詞分布的詞語全局權(quán)重算法通過如下步驟實現(xiàn)(參見圖4): (1)計算詞語全局權(quán)重前,必須將待分析的文檔集進(jìn)行中文分詞、詞性標(biāo)注、去停用詞、信息抽取等預(yù)處理操作,從而使待分析文檔集成為包含文檔主要內(nèi)容的詞序列(其為本領(lǐng)域較為成熟的技術(shù),此處不加以贅述)。
(2)計算詞序列中詞語的分布均勻度系數(shù); 設(shè)某一文檔集共有m篇文檔、Cm個字,對其執(zhí)行步驟(1)后,得到了詞序列。下面對詞序列中的第j個詞語求分布均勻度系數(shù) 設(shè)區(qū)間(C卜一l, C》表示第i篇文檔從文檔集的第C卜,1個字到第&個字,(其中C。 = 0, i = 1,2, . . . , m),文檔集的總字?jǐn)?shù)為Cm??梢妼τ谖臋n集中的任一詞語,包括詞序
列中的第j個詞語,如果它均勻分布,則其出現(xiàn)在第i篇文檔中的概率為巧=^^" (i =
、
1, 2, . . . , m) , n是這個詞在文檔集中實際出現(xiàn)的總次數(shù),Vi是這個詞在第i篇文檔中實際出現(xiàn)的次數(shù),則第j個詞語的分布均勻度系數(shù)為
x =f (Vl, , vm, r" rm, m, n, a, b) 其中,x2j為詞序列中第j個詞語的分布均勻度系數(shù),根據(jù)統(tǒng)計學(xué)原理,對上述變量進(jìn)行數(shù)學(xué)變換得出。Vl, . . . , vm, ri, . . . rm, m, n都是變量,取決于第j個詞語在待分析文檔集中的統(tǒng)計情況。a,b為參數(shù),涉及本專利的最優(yōu)實施方案,需根據(jù)本專利的具體應(yīng)用而定。
本專利計算的第j個詞語的在文檔集中的分布均勻度系數(shù)X 2,.具有以下性質(zhì)值越小,表示第j個詞語在文檔集中出現(xiàn)狀態(tài)就越均勻。按照前面所述,"在文檔集中,大范圍 均勻分布的詞語蘊(yùn)含更少的信息量,和文檔的內(nèi)容基本無關(guān);小范圍集中分布的詞語,蘊(yùn)含 較多信息量,更可能和出現(xiàn)該詞語的文檔內(nèi)容相關(guān)"(如圖2和圖3所示),也就是說詞語分 布越均勻的詞語全局權(quán)重越小??梢姳緦@嬎愕姆植季鶆蚨认禂?shù)符合實際情況。
(3)計算詞序列中詞語的分布廣度系數(shù) 待分析文檔集中,詞語分布的廣度和該詞語出現(xiàn)的文檔總數(shù)、文檔集中文檔總數(shù)
有關(guān)。根據(jù)統(tǒng)計學(xué)原理,本專利設(shè)計分布廣度系數(shù)計算方法如下 如對于詞序列中的第j個詞語,其分布廣度系數(shù)通過以下公式得到 Bj = 4) (p, m ;c, d, e) 其中,p, m為變量,p為該文檔中出現(xiàn)該詞語的段落總數(shù),m為文檔段落數(shù);c、 d、 e 為參數(shù)。 (4)計算基于詞分布的詞語全局權(quán)重?;谠~分布的詞語全局權(quán)重需將上述分布
均勻度系數(shù)和分布廣度系數(shù)的計算結(jié)果,根據(jù)統(tǒng)計學(xué)原理,設(shè)計組合計算方法。 如根據(jù)前面得到的第j個詞語的分布均勻度系數(shù)和分布廣度系數(shù),可計算得到第
j個詞語的全局權(quán)重
其中,X2j, Bj為變量,分別為分布均勻度系數(shù)和分布廣度系數(shù);f、 g、 h為參數(shù),涉 及本專利的最優(yōu)實施方案,需根據(jù)本專利的具體應(yīng)用而定。 在對本發(fā)明具體測試時,采用在sina、 sohu等中國國內(nèi)知名網(wǎng)絡(luò)媒體近1年內(nèi)的 超過150萬篇網(wǎng)頁文檔作為語料庫對本發(fā)明進(jìn)行測試,具體方法如下
在超過150萬篇網(wǎng)頁文檔中隨機(jī)挑選1000篇文檔,內(nèi)容涉及新聞、娛樂、汽車、體 育等12個大類。通過兩種方式進(jìn)行計算相應(yīng)詞語的權(quán)重,一種是人工方式人工選擇每篇 文檔中最重要的20個詞語,并標(biāo)注出權(quán)重,標(biāo)注過程需保證每篇文檔的詞語權(quán)重由10個不 同員工標(biāo)注,平均值作為人工標(biāo)注的最終詞語權(quán)重。另一種方式是利用本發(fā)明提供的計算 方法和IDF算法分別計算出相應(yīng)詞語的詞語權(quán)重,最后將得到的結(jié)果與人工標(biāo)注的結(jié)果比 對。測試結(jié)果顯示本發(fā)明提供的基于詞分布的詞語全局權(quán)重算法比其他IDF算法更接近人 工標(biāo)注的值。 本專利發(fā)明的"基于詞分布的詞語全局權(quán)重計算方法"能夠有效地分析出待分析 文檔集中能有效區(qū)分文檔內(nèi)容的重要詞語并給予適當(dāng)權(quán)重,該技術(shù)適用于文本分類的應(yīng)用 系統(tǒng),如海量信息管理、文檔自動分類、辦公自動化系統(tǒng)等。 以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術(shù) 人員應(yīng)該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本 發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進(jìn),這些變 化和改進(jìn)都落入要求保護(hù)的本發(fā)明范圍內(nèi)。本發(fā)明要求保護(hù)范圍由所附的權(quán)利要求書及其 等效物界定。
權(quán)利要求
基于詞分布的詞語全局權(quán)重計算方法,其特征在于,所述方法包括如下步驟(1)將待分析的文檔集進(jìn)行預(yù)處理操作,使待分析文檔集成為包含文檔主要內(nèi)容的詞序列。(2)計算詞序列中詞語的分布均勻度系數(shù);(3)計算詞序列中詞語的分布廣度系數(shù);(4)基于步驟(2)和步驟(3)得到的分布均勻度系數(shù)和分布廣度系數(shù),通過組合計算方法得到基于詞分布的詞語全局權(quán)重。
全文摘要
本發(fā)明公開了基于詞分布的詞語全局權(quán)重計算方法,該方法包括如下步驟(1)計算詞序列中詞語的分布均勻度系數(shù);(2)計算詞序列中詞語的分布廣度系數(shù);(3)計算基于詞分布的詞語全局權(quán)重。本發(fā)明將有效優(yōu)化目前詞語權(quán)重計算方法,提高其準(zhǔn)確率,推動自然語言處理的研究和應(yīng)用。
文檔編號G06F17/27GK101706776SQ20091019889
公開日2010年5月12日 申請日期2009年11月17日 優(yōu)先權(quán)日2009年11月17日
發(fā)明者夏天 申請人:上海第二工業(yè)大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
和硕县| 会昌县| 蒙山县| 弋阳县| 厦门市| 丰镇市| 水城县| 庆安县| 天柱县| 万荣县| 谷城县| 阿合奇县| 新乡县| 同仁县| 图片| 鲁甸县| 遵义县| 洛川县| 黄平县| 建湖县| 绥滨县| 马尔康县| 陇南市| 霞浦县| 剑河县| 东光县| 黄龙县| 高青县| 永仁县| 怀柔区| 绥芬河市| 巧家县| 安宁市| 咸宁市| 齐齐哈尔市| 登封市| 中西区| 琼海市| 新巴尔虎左旗| 永福县| 保康县|