欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法

文檔序號:6333141閱讀:629來源:國知局
專利名稱:一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機應(yīng)用和自然語言處理領(lǐng)域,特別涉及一種面向?qū)W科領(lǐng)域的新專 業(yè)詞匯識別方法。
背景技術(shù)
面向?qū)W科領(lǐng)域的專業(yè)詞匯與通用詞匯不同,具有鮮明的領(lǐng)域特色,通常由基本詞 根、專業(yè)基礎(chǔ)詞匯等構(gòu)成,是在通用詞匯基礎(chǔ)上發(fā)展起來的詞匯用語。新專業(yè)詞匯是專業(yè)領(lǐng) 域的未登錄詞和新詞。未登錄詞被定義為未在詞典中出現(xiàn)的詞,通常包括縮略詞、專有名 詞、派生詞、復(fù)合詞、數(shù)字類復(fù)合詞等。新詞也是未在詞典中出現(xiàn)的詞,屬于未登錄詞,包含 兩層含義通過各種途徑產(chǎn)生的、具有基本詞匯所沒有的新形式、新意義或新用法的詞語; 出現(xiàn)在某一時間段內(nèi)或自某一時間點以來首次出現(xiàn)的具有新詞形、新詞義或者新用法的詞 匯等。自然語言處理領(lǐng)域的專家一直嘗試借助計算機從大規(guī)模的文本中自動抽取新詞 和未登錄詞。新詞發(fā)現(xiàn)的方法通常有基于規(guī)則或基于統(tǒng)計方法。基于規(guī)則的方法是根據(jù)構(gòu)詞特 征或詞語外型特點建立規(guī)則庫或模式庫,然后通過匹配規(guī)則發(fā)現(xiàn)新詞。領(lǐng)域?qū)<腋鶕?jù)語言 學(xué)原理,結(jié)合領(lǐng)域知識體系制定一系列規(guī)則來處理各種語言現(xiàn)象,以發(fā)現(xiàn)新詞。這種方法可 發(fā)現(xiàn)較高質(zhì)量的新詞,但是靈活性差,而且要制定全面的規(guī)則費時費力。基于統(tǒng)計的方法是 通過對詞語的共現(xiàn)進行概率統(tǒng)計來提取候選串,然后再利用語言知識過濾掉垃圾串;或計 算相關(guān)度,尋找相關(guān)度最大的字與字的組合。這種方法適用于任何領(lǐng)域,但需要大量的訓(xùn)練 語料,而且查找的效率并不是很高。主要原因是忽略了不同詞語的構(gòu)詞模式,構(gòu)詞能力和上 下文語義關(guān)系等對各個詞語構(gòu)成新詞的影響。比較實用的方法是結(jié)合概率統(tǒng)計和規(guī)則幾何 方法進行新詞發(fā)現(xiàn),如采用二元統(tǒng)計模型或質(zhì)子串分解等,利用頻次統(tǒng)計選擇候選詞串,然 后利用組詞規(guī)則等過濾,最后由人工選擇確定最終的新詞結(jié)果。目前,由于新詞出現(xiàn)的速度之快,形式之靈活,且沒有固定的形成規(guī)律,導(dǎo)致當前 并沒有權(quán)威的標準來判斷一個詞語是否為新詞,所以對結(jié)果的檢驗很大程度上依賴于人工 的經(jīng)驗判斷。常用的方法中,統(tǒng)計的方法會受數(shù)據(jù)稀疏問題的影響,不利于低頻新詞和長度 較長的新詞的發(fā)現(xiàn)?;谝?guī)則的方法中,過濾的效果也依賴于規(guī)則獲取的完備性。

發(fā)明內(nèi)容
本發(fā)明就是針對上述背景技術(shù)中的不足之處,而提出的一種面向?qū)W科領(lǐng)域的新專 業(yè)詞匯識別方法,以快速發(fā)現(xiàn)較高質(zhì)量的新詞。本發(fā)明的目的是通過如下技術(shù)措施來實現(xiàn)的。一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,該方法使用的硬件部分包括文本預(yù)處 理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件、垃圾詞串過濾部件、重復(fù)子 串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法依次包括以下步驟
4(1)文本預(yù)處理部件對文本格式進行轉(zhuǎn)換,然后進行文本清洗、去除噪音文字,再抽取 出文中用特殊符號標志的長度不大于10的詞串,形成候選新詞表1 ;
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件首先對經(jīng)過上述文本預(yù)處理 后的內(nèi)容進行分詞,然后按照詞性去除不能構(gòu)詞的詞語,再采用原子詞匯構(gòu)詞法對文中的 候選詞串進行統(tǒng)計,形成候選新詞表2 ;
(3)垃圾詞串過濾部件主要是針對領(lǐng)域特點來對候選新詞表進行過濾,過濾掉不符合 領(lǐng)域特點的部分,具體可以利用專業(yè)詞庫、規(guī)則庫或者模式庫等進行匹配過濾;
(4)重復(fù)子串篩選部件利用頻率相減法對包含有相同內(nèi)容的重復(fù)子串進行篩選;
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫的熱點詞根來進一步篩選掉部 分垃圾詞串,生成新詞表,再通過排序算法計算所發(fā)現(xiàn)的每個新詞的序值來對結(jié)果進行排 序。領(lǐng)域詞匯庫主要是從專業(yè)領(lǐng)域文獻、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞 所組成的。在上述技術(shù)方案中,步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清 洗模塊和具有特殊符號標志的詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部 轉(zhuǎn)換為便于處理的TXT格式;文檔清洗模塊是去除文中的無用信息,包括圖形圖像、圖表、 作者信息和參考文獻;具有特殊符號標志的詞串抽取模塊是指抽取出用“ ”、‘’、()、《》標記 的長度不大于10的內(nèi)容。在上述技術(shù)方案中,步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建 與統(tǒng)計部件的具體工作步驟如下
(2-1)用基于通用詞庫的分詞系統(tǒng),如中國科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué) 統(tǒng)計分詞系統(tǒng)或者SEG分詞系統(tǒng)和SEGTAG系統(tǒng)等對所有文章進行分詞,并做好詞性標注; 分詞結(jié)果中,詞與詞之間用空格隔開,標點符號和停用詞都去掉,在其所在的位置用“#”代 替;
(2-2)對于分詞結(jié)果,考慮到現(xiàn)代漢語中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的 詞語,而這些詞語多是助詞、介詞、代詞、嘆詞、副詞、連詞、語氣詞、方位詞、時間詞、數(shù)詞、擬 聲詞、成語等,所以將屬于這些詞性的詞語直接從分詞結(jié)果中刪除;
(2-3)對處理過后的分詞結(jié)果,使用原子詞匯構(gòu)詞法進行候選新詞串統(tǒng)計,將可能構(gòu)成 新詞的候選詞串全部寫進候選新詞表2中。具體實現(xiàn)過程如下
(2-3-1)針對分詞結(jié)果,以“#/”為分隔符將全文切分成一個個字符串,并去掉只包含 有一個詞語的字符串,例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢/n,切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢/η”三個字符串;
(2-3-2)對剩下的由多個詞連續(xù)構(gòu)成的字符串從后向前進行掃描,每次以一個詞語作 為一個掃描單位,進行如下處理
(a)將當前掃描的詞串作為后綴1,后綴2為空;
(b)掃描下一個詞語,作為前綴;
(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞
串;
(d)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將它加到新詞表2中;
(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;
(f)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將 它加到新詞表2中;
(g)將當前前綴作為后綴2,當前詞串作為后綴1;
(h)判斷當前前綴是否為該字符串中最后一個字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。在上述技術(shù)方案中,步驟(3)中所述的垃圾詞串過濾部件的具體工作步驟如下 對構(gòu)造出來的候選新詞串,利用已有的規(guī)則庫、詞庫或者模式庫,如常用前綴詞匯庫、后綴 詞匯庫、“互斥性子串”過濾規(guī)則、特殊詞過濾、模式匹配規(guī)則等,對于凡是不滿足上述規(guī)則 要求的詞串全部刪除。在上述技術(shù)方案中,步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工 作步驟如下
(5-1)利用已有的領(lǐng)域詞匯庫,根據(jù)庫中各熱點詞根的頻度,計算新詞串為專業(yè)詞匯的 概率值;庫中各詞根頻度的計算方法為,取該詞根在領(lǐng)域詞匯庫中的出現(xiàn)頻次,除以該表中 所有詞根的總頻次,若新詞串中包含有領(lǐng)域詞匯庫中的詞,那么直接利用各個熱點詞根的 頻度;若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫中,那么其頻度的計算方法為以把該詞加入到 領(lǐng)域詞匯庫中后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過將構(gòu) 成該新詞串的所有詞語的頻度值相乘得到該新詞串的概率值;即對于新詞ABC,若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫中的概率分別為P (A)、P (B)和P (C),則新詞ABC的領(lǐng)域相關(guān)度的計 算方法為P(A) XP(B)XP(C)。經(jīng)多次實驗測試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前 25%進行保留,加入新詞表,否則進行刪除;
(5-2)對于已選出來候選新詞表1中的內(nèi)容,如果詞條的長度大于6,將其進行分詞,按 以上步驟進行處理,對于長度不大于6的詞條,去掉表示序號而與新詞無關(guān)的詞,然后將其 直接加入新詞表中;
(5-3)計算各個新詞的序值,對新詞進行排序輸出。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專 業(yè)術(shù)語,并對結(jié)果進行排序,彌補了現(xiàn)有算法的不足,更有利于人們把握這個學(xué)科的發(fā)展動 向和核心價值。


圖1是本發(fā)明的基本原理圖。圖2是本發(fā)明核心算法基于貪婪的原子詞匯構(gòu)詞法的流程圖。圖3是本發(fā)明重復(fù)子串處理的流程圖。
具體實施例方式下面結(jié)合附圖及實施例對本發(fā)明作進一步的描述。如圖1所示,為本發(fā)明的基本原理圖。初始文檔經(jīng)過文本預(yù)處理、新詞串統(tǒng)計、垃
6圾詞串過濾和結(jié)果排序后,將從文中發(fā)現(xiàn)的新詞語輸出,其中要用到一個分詞系統(tǒng)、一個或 多個規(guī)則庫,在詞匯領(lǐng)域相關(guān)度的計算部分,用到了已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫,并且在計算 新詞的序值以對結(jié)果進行排序時還要用已發(fā)現(xiàn)的新詞來充實分詞系統(tǒng)的通用詞典。本發(fā)明 的核心算法用在候選新詞串的統(tǒng)計部分,同時在過濾垃圾詞串的過程中充分考慮了詞性、 詞語的構(gòu)詞能力和構(gòu)詞方式等因素。在對重復(fù)子串進行處理,在對結(jié)果進行排序的過程中, 也直觀地體現(xiàn)了該新詞的“熱點”程度。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,該方法使用的硬件部分包括文 本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件、垃圾詞串過濾部件、 重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法依次包括以下步 驟
(1)文本預(yù)處理部件對文本格式進行轉(zhuǎn)換,然后進行文本清洗、去除噪音文字,再抽取 出文中用特殊符號標志的長度不大于10的詞串,形成候選新詞表1 ;
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件首先對經(jīng)過上述文本預(yù)處理 后的內(nèi)容進行分詞,然后按照詞性去除不能構(gòu)詞的詞語,再采用原子詞匯構(gòu)詞法對文中的 候選詞串進行統(tǒng)計,形成候選新詞表2 ;
(3)垃圾詞串過濾部件主要是針對領(lǐng)域特點來對候選新詞表進行過濾,過濾掉不符合 領(lǐng)域特點的部分,具體可以利用專業(yè)詞庫、規(guī)則庫或者模式庫等進行匹配過濾;
(4)重復(fù)子串篩選部件利用頻率相減法對包含有相同內(nèi)容的重復(fù)子串進行篩選;
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫的熱點詞根來進一步篩選掉部 分垃圾詞串,生成新詞表,再通過排序算法計算所發(fā)現(xiàn)的每個新詞的序值來對結(jié)果進行排 序。領(lǐng)域詞匯庫主要是從專業(yè)領(lǐng)域文獻、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞 所組成的。在上述實施例中,步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗 模塊和具有特殊符號標志的詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn) 換為便于處理的TXT格式,為了不影響效果,要求盡量保留原文的格式和字符順序;文檔清 洗模塊是去除文中的無用信息,包括圖形圖像、圖表、作者信息和參考文獻;具有特殊符號 標志的詞串抽取模塊是指對所有文章進行掃描,抽取出文中用“”、‘‘、()、《》、一等標記 的長度不大于10的內(nèi)容,形成候選新詞表1,并從原文中剔除關(guān)聯(lián)內(nèi)容,在其出現(xiàn)的位置用 “#”填補。在上述實施例中,步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與 統(tǒng)計部件的工作步驟如下
(2-1)用通用詞匯庫構(gòu)造的分詞系統(tǒng)對所有文章進行分詞,并做好詞性標注。分詞結(jié) 果中,詞與詞之間用空格隔開;去掉標點符號和停用詞,將其所在的位置用“#”代替。例如 “從工業(yè)社會到信息社會的巨大轉(zhuǎn)折中?!钡姆衷~結(jié)果為“從/P工業(yè)/n社會/n #/信息 /n社會/n #/巨大/a轉(zhuǎn)折/vn中/f。,,;
(2-2)對于分詞結(jié)果,考慮到某些詞性的詞語不具有構(gòu)詞能力,或者構(gòu)詞能力較弱,將 這些詞從文中刪除。被刪除的對象是屬于助詞、介詞、代詞、嘆詞、副詞、連詞、語氣詞、方位 詞、時間詞、數(shù)詞、擬聲詞、成語等的詞語,如“的”,“在”、“前”等,將其所在的位置用“ # ”代 替;(2-3)對處理過后的文檔,使用貪婪的原子詞匯構(gòu)詞法構(gòu)建候選詞串,統(tǒng)計候選詞串形 成候選新詞表2。構(gòu)建候選新詞的算法的主要思想為如果一個詞語的前面或后面緊跟著 的是標點符號,那么這個詞語不可能與標點符號前面或者后面的詞語構(gòu)成新詞,如果這個 詞語的前面或者后面緊挨著的是“的”,“了 ”,“地”,“還”之類構(gòu)詞能力很差的詞語,那么這 個詞語也不可能與這些詞語或者這些詞之前與之后的詞語構(gòu)成新詞; 具體實現(xiàn)過程如下
(2-3-1)針對分詞結(jié)果,以“#/”為分隔符將全文切分成一個個字符串,并去掉只包含 有一個詞語的字符串,例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢/n,切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢/η”三個字符串;
(2-3-2)對剩下的由多個詞連續(xù)構(gòu)成的字符串從后向前進行掃描,每次以一個詞語作 為一個掃描單位,進行如下處理
(a)將當前掃描的詞串作為后綴1,后綴2為空;
(b)掃描下一個詞語,作為前綴;
(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞
串;
(d)判斷新詞串是否已存在于候選新詞表中,如果在就將其頻次加1,如果不在就將它 加到候選新詞表2中;
(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;
(f)判斷新詞串是否已存在于候選新詞表中,如果在就將其頻次加1,如果不在就將它 加到候選新詞表2中;
(g)將當前前綴作為后綴2,當前詞串作為后綴1;
(h)判斷當前前綴是否為該字符串中最后一個字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。上述算法的步驟流程如圖2所示,為本發(fā)明中核心算法。使用這個算法進行統(tǒng)計, 是基于以下前提如果一個詞語的前面或后面緊跟著的是標點符號,那么這個詞語不可能 與標點符號前面或者后面詞語構(gòu)成新詞,如果這個詞語的前面或者后面緊挨著的是“的”, “了”,“地”,“還”之類的停用詞,那么這個詞語也不可能與這些停用詞之前或之后的詞語構(gòu) 成新詞。如果以一個詞語作為一個單位,那么每三個或者兩個連續(xù)的單位構(gòu)成的新詞串都 是統(tǒng)計的對象,按照從后向前的順序掃描整個字符串,在算法的執(zhí)行過程中,如果以當前讀 取的詞作為前綴,那么后綴就有兩個,根據(jù)當前新詞串的后綴對象的不同,分別進行處理。在上述實施例中,步驟(3)中所述的垃圾詞串過濾部件的具體工作步驟如下對 構(gòu)造出來的候選新詞串,已有的規(guī)則庫、詞庫或者模式庫,如常用前綴詞匯庫、后綴詞匯庫、 “互斥性子串”過濾規(guī)則、特殊詞過濾、模式匹配規(guī)則等,對于凡是不滿足上述規(guī)則要求的詞 串全部刪除。在上述實施例中,步驟(4)中所述的重復(fù)子串篩選部件的具體工作步驟為對于候 選詞串表中剩下的詞串,類似于“手提電腦”、“手提電”、“提電腦”含有相同內(nèi)容的部分,采 用頻率相減法進行過濾,該方法的執(zhí)行過程如圖3所示計算長詞串Y的頻率PL(Y)減去短詞串X的頻率PL(X),建立規(guī)則 Rl 若差值>=0,則說明X每次均出現(xiàn)在Y中,則將其去除;
R2 若差值<0,則說明X也作為新詞串單獨出現(xiàn),則將X保留,且PL (X) =PL (X) -PL (Y); R3 若差值<0且PL(Y) <=3,則將長詞串Y刪除。其原理為對于含有相同內(nèi)容的子串和父串,計算其頻度差,然后根據(jù)不同的結(jié)果 進行取舍,即可淘汰一部分出現(xiàn)頻度比較低的詞串。在上述實施例中,步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件包括新專業(yè) 詞匯提煉模塊和結(jié)果排序模塊。其中新專業(yè)詞匯提煉模塊的具體工作步驟如下利用已有 的學(xué)科領(lǐng)域詞匯庫,根據(jù)庫中各熱點詞根的頻度,計算新詞串為專業(yè)詞匯的概率值;庫中各 詞根頻度的計算方法為,取該詞根在領(lǐng)域詞匯庫中的出現(xiàn)頻次,除以該表中所有詞根的總 頻次,若新詞串中包含有領(lǐng)域詞匯庫中的詞,那么直接利用各個熱點詞根的頻度;若構(gòu)成 新詞串的詞不在領(lǐng)域詞匯庫中,那么其頻度的計算方法為以把該詞加入到領(lǐng)域詞匯庫中 后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過將構(gòu)成該新詞串的 所有詞語的頻度值相乘得到該新詞串的概率值。即對于新詞ABC,若詞根A、B和C在學(xué)科 領(lǐng)域詞匯庫中的概率分別為P(A)、P(B)和P(C),則新詞ABC的領(lǐng)域相關(guān)度的計算方法為 P(A) XP(B) XP(C)。經(jīng)多次實驗測試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前25%進行 保留,加入最終新詞表,將其保留,否則進行刪除。
步驟(5)中所述的結(jié)果排序模塊的具體工作步驟為
(5-1)對于候選新詞表1中存放的用“ ”、‘ ’、()、《》等特殊符號標記的長度不大于10 的詞條,如果詞條的長度大于6,將其進行分詞,按以上方法進行處理,對于長度不大于6的 詞條,去掉“1”,“2”,“一”,“二”,“圖一”,“圖二”,“第一”,“第二”,“如圖一所示”,等表示 序號而與新詞無關(guān)的詞,然后將其直接加入新詞表中;
(5-2)將經(jīng)過上述處理的新詞加到分詞系統(tǒng)的詞典中,再次對原文進行分詞,并統(tǒng)計重 新分詞后的詞語個數(shù),新詞串的個數(shù);
(5-3)計算各個新詞的序值,對新詞進行排序,新詞序值的計算公式為 F (w) =f (w) ·ρ (w)
其中w為某一新詞串;F(W)為詞串w經(jīng)計算后的最終序值;
f(w)為測試語料中詞串w的出現(xiàn)頻度;P(W)為詞串w在測試語料中的文檔覆蓋率;N 為測試語料中的總詞數(shù)。對于所有構(gòu)造出來的候選詞串,總是有相當一部分不符合語法要求,也缺乏實在 的語法意義,需要過濾掉。在具體的處理過程中,采用三個步驟來實現(xiàn)(1)垃圾詞串篩選, 利用常用前綴詞匯庫、后綴詞匯庫、“互斥性子串”過濾規(guī)則、特殊詞過濾、模式匹配規(guī)則等, 將不滿足規(guī)則要求的詞串全部刪除。在這一處理中充分考慮了詞義對構(gòu)詞的影響。(2)重 復(fù)子串的處理,對于“手提電腦”、“手提電”、“提電腦”這樣含有相同內(nèi)容的詞串,通過分析 發(fā)現(xiàn),總有部分是垃圾串,像該例中的“手提電”和“提電腦”就不符合語法要求,采用頻率 相減法,通過比較子串和父串的頻度關(guān)系,可以過濾掉部分垃圾詞串。(3)專業(yè)詞匯頻度計 算,這個步驟中利用已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫,計算各個詞語為專業(yè)詞匯的概率值,這里主 要是利用了詞語的頻度差異,所以測試語料庫的大小會對結(jié)果有一定影響。
權(quán)利要求
一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,該方法使用的硬件部分包括文本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件、垃圾詞串過濾部件、重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法包括以下步驟(1)文本預(yù)處理部件對文本格式進行轉(zhuǎn)換,進行文本清洗、去除噪音文字,再抽取出文中用特殊符號標志的長度不大于10的詞串,形成候選新詞表1;(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件首先對經(jīng)過上述文本預(yù)處理后的內(nèi)容進行分詞,然后按照詞性去除不能構(gòu)詞的詞語,再采用原子詞匯構(gòu)詞法對文中的候選詞串進行統(tǒng)計,形成候選新詞表2;(3)垃圾詞串過濾部件針對領(lǐng)域特點對候選新詞表進行過濾,過濾掉不符合領(lǐng)域特點的部分;(4)重復(fù)子串篩選部件利用頻率相減法對包含有相同內(nèi)容的重復(fù)子串進行篩選;(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫的熱點詞根來篩選掉部分垃圾詞串,生成新詞表,再通過排序算法計算所發(fā)現(xiàn)的每個新詞的序值對結(jié)果進行排序;其中領(lǐng)域詞匯庫是從專業(yè)領(lǐng)域文獻、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞所組成的。
2.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,其特征在于步 驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗模塊和具有特殊符號標志的 詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn)換為便于處理的TXT格式; 文檔清洗模塊是去除文中的無用信息,包括圖形圖像、圖表、作者信息和參考文獻;具有特 殊符號標志的詞串抽取模塊是指抽取出用“”、‘’、()、《》標記的長度不大于10的內(nèi)容。
3.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,其特征在于步驟 (2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計部件的具體工作步驟如下(2-1)用基于通用詞庫的分詞系統(tǒng)對所有文章進行分詞,并做好詞性標注;分詞結(jié)果 中,詞與詞之間用空格隔開,標點符號和停用詞都去掉,在其所在的位置用“#”代替;所述 通用詞庫的分詞系統(tǒng)為中國科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué)統(tǒng)計分詞系統(tǒng)或者 SEG分詞系統(tǒng)和SEGTAG系統(tǒng);(2-2)對于分詞結(jié)果,考慮到現(xiàn)代漢語中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的 詞語,而這些詞語多是助詞、介詞、代詞、嘆詞、副詞、連詞、語氣詞、方位詞、時間詞、數(shù)詞、擬 聲詞、成語,所以將屬于這些詞性的詞語直接從分詞結(jié)果中刪除;(2-3)對處理過后的分詞結(jié)果,使用原子詞匯構(gòu)詞法進行候選新詞串統(tǒng)計,將可能構(gòu)成 新詞的候選詞串全部寫進候選新詞表2中;具體實現(xiàn)過程如下(2-3-1)針對分詞結(jié)果,以“#/”為分隔符將全文切分成一個個字符串,并去掉只包含有 一個詞語的字符串;(2-3-2)對每個字符串從后向前進行掃描,每次以一個詞語作為一個掃描單位,進行如 下處理(a)將當前掃描的詞串作為后綴1,后綴2為空;(b)掃描下一個詞語,作為前綴;(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞串;(d)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將它加到新詞表2中;(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;(f)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將 它加到新詞表2中;(g)將當前前綴作為后綴2,當前詞串作為后綴1;(h)判斷當前前綴是否為該字符串中最后一個字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。
4.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,其特征在于步驟 (3)中所述的垃圾詞串過濾部件的具體工作步驟如下對構(gòu)造出來的候選新詞串,利用已有 的規(guī)則庫、詞庫或者模式庫,如常用前綴詞匯庫、后綴詞匯庫、“互斥性子串”過濾規(guī)則、特殊 詞過濾、模式匹配規(guī)則,對于凡是不滿足上述規(guī)則要求的詞串全部刪除。
5.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,其特征在于步驟 (5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工作步驟如下(5-1)利用已有的領(lǐng)域詞匯庫,根據(jù)庫中各熱點詞根的頻度,計算新詞串為專業(yè)詞匯的 概率值;庫中各詞根頻度的計算方法為,取該詞根在領(lǐng)域詞匯庫中的出現(xiàn)頻次,除以該表中 所有詞根的總頻次,若新詞串中包含有領(lǐng)域詞匯庫中的詞,那么直接利用各個熱點詞根的 頻度;若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫中,那么其頻度的計算方法為以把該詞加入到 領(lǐng)域詞匯庫中后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過將構(gòu) 成該新詞串的所有詞語的頻度值相乘得到該新詞串的概率值;即對于新詞ABC,若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫中的概率分別為P (A)、P (B)和P (C),則新詞ABC的領(lǐng)域相關(guān)度的計 算方法為P(A) XP(B)XP(C)。經(jīng)多次實驗測試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前 25%進行保留,加入新詞表,否則進行刪除;(5-2)對于已選出來候選新詞表1中的內(nèi)容,如果詞條的長度大于6,將其進行分詞,按 以上步驟進行處理,對于長度不大于6的詞條,去掉表示序號而與新詞無關(guān)的詞,然后將其 直接加入新詞表中;(5-3)計算各個新詞的序值,對新詞進行排序輸出。
全文摘要
本發(fā)明屬于計算機應(yīng)用和自然語言處理領(lǐng)域,提供一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識別方法,其原理是將初始文檔經(jīng)過文本預(yù)處理、新詞串統(tǒng)計、垃圾詞串過濾和結(jié)果排序等步驟后,輸出從文中發(fā)現(xiàn)的新詞語,本發(fā)明可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專業(yè)術(shù)語,并對結(jié)果進行排序,彌補了現(xiàn)有算法的不足,更有利于人們把握這個學(xué)科的發(fā)展動向和核心價值。
文檔編號G06F17/27GK101950309SQ201010299588
公開日2011年1月19日 申請日期2010年10月8日 優(yōu)先權(quán)日2010年10月8日
發(fā)明者劉清堂, 劉瑤瑤, 吳林靜, 黃濤, 黃 煥 申請人:華中師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
仲巴县| 泉州市| 繁峙县| 泽库县| 共和县| 新平| 浦东新区| 铜梁县| 化隆| 革吉县| 兴安县| 海南省| 偃师市| 侯马市| 革吉县| 临沂市| 无极县| 边坝县| 赤壁市| 融水| 常州市| 鹤山市| 滨海县| 北流市| 孟津县| 扶沟县| 田阳县| 东阿县| 武宣县| 如东县| 陆川县| 道真| 手机| 河西区| 黄龙县| 通辽市| 安塞县| 雅安市| 宜城市| 宣武区| 同心县|