一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),包括信息處理模塊、英文文本解析模塊、候選短語挖掘模塊、候選短語過濾模塊、候選短語排序模塊、同義短語歸一化模塊及關(guān)鍵短語選取模塊,英文文本解析模塊主要對縮略語還原后的文本數(shù)據(jù)進行文本解析,候選短語挖掘模塊主要對英文文本解析后的數(shù)據(jù)進行候選短語挖掘,候選短語排序模塊主要對過濾后的候選短語進行權(quán)值計算,并根據(jù)權(quán)值按照大小進行排序,同義短語歸一化模塊主要對相同含義的短語進行歸一化,關(guān)鍵短語選取模塊,主要用于根據(jù)權(quán)值輸出指定數(shù)目的關(guān)鍵短語。
【專利說明】
-種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng)
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及信息處理領(lǐng)域,具體為一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng)。
【背景技術(shù)】
[0002] 隨著科技的發(fā)展,用戶對英文文獻的需求量和查詢頻繁程度逐年上升。在浩如煙 海的英文文獻中,快速的理解并定位所需要的信息顯得尤為重要。關(guān)鍵短語是從報告、論文 中選取出來用W表示全文主題內(nèi)容信息的單詞或詞組。關(guān)鍵短語包括兩類:一是用W標(biāo)引 文獻主題概念的經(jīng)過規(guī)范化的主題詞或詞組;二是直接從論文的題名、摘要、層次標(biāo)題或正 文中抽取的能反映論文主題概念的自然語言,即主題詞表中的上位詞、下位詞、替代詞或反 映最新科技進展的而主題詞表中找不到的自由詞。
[0003] -般來說,英文文獻具有標(biāo)準(zhǔn)的格式,包含標(biāo)題、摘要、專業(yè)域等關(guān)鍵信息,在論文 及科技報告等類型的文獻中,作者會對文獻標(biāo)記3-5個關(guān)鍵短語。但是,僅僅依靠文獻中的 關(guān)鍵短語標(biāo)記并不能準(zhǔn)確的對文獻進行理解和定位。原因有W下Ξ個方面,一是作者標(biāo)引 的關(guān)鍵短語可能存在關(guān)鍵短語詞形不當(dāng)、翻譯不準(zhǔn)確、通用詞過多、詞序不當(dāng)?shù)葐栴},運將 導(dǎo)致作者標(biāo)記的關(guān)鍵短語可能不能準(zhǔn)確反映文獻的主題概念;二是英文文獻作者常用縮略 語作為關(guān)鍵短語,而縮略語存在歧義問題,在不同的領(lǐng)域可能理解為不同的概念,例如DSP 可W理解信號處理領(lǐng)域的為數(shù)字信號處理(Digital Signal Processing),也可W理解為 互聯(lián)網(wǎng)廣告領(lǐng)域中的需求方平臺(Demand-Side Platform),運樣的關(guān)鍵短語標(biāo)記會導(dǎo)致后 續(xù)的檢索結(jié)果不準(zhǔn)確甚至錯誤。Ξ是文獻作者標(biāo)記的關(guān)鍵短語數(shù)量有限,對文獻的主題的 刻畫能力有限,難W支撐文獻檢索和更高層應(yīng)用的需求。鑒于W上問題,對英文文獻重新進 行關(guān)鍵短語標(biāo)引是一項非常必要的工作。
[0004] 英文文獻數(shù)量龐大且專業(yè)領(lǐng)域分布廣泛,如果采用人工標(biāo)記弊端明顯,一是標(biāo)記 人員不能熟悉各領(lǐng)域,標(biāo)記困難且易出現(xiàn)誤差;二是人工標(biāo)記耗時較長,標(biāo)引結(jié)果不能及時 更新。此外,在文獻數(shù)據(jù)錄入過程中,可能存在多種錄入錯誤,例如拼寫錯誤、文本編碼問題 引起的亂碼、文本中包含HTML代碼等問題。
[0005] 鑒于上述英文文獻關(guān)鍵短語抽取中存在的問題,設(shè)計一種可自動抽取英文文獻關(guān) 鍵短語的方法和系統(tǒng)是非常必要的。目前關(guān)鍵短語抽取方法分為有監(jiān)督方法和無監(jiān)督方法 兩種,有監(jiān)督方法則通過訓(xùn)練學(xué)習(xí),需要人工預(yù)先標(biāo)注,針對大規(guī)模文獻數(shù)據(jù)的關(guān)鍵短語抽 取,人工標(biāo)注的工作量巨大。無監(jiān)督方法無需人工標(biāo)注訓(xùn)練集合。但在應(yīng)用于英文文獻的關(guān) 鍵短語抽取時,傳統(tǒng)的無監(jiān)督方法大多具有寬泛性,沒有考慮英文自身的語言特點,抽取結(jié) 果可能會存在噪聲數(shù)據(jù)、縮略語與原詞重復(fù)抽取、詞形表達(dá)不準(zhǔn)確,或者關(guān)鍵短語不能刻畫 文獻主題等問題,將會導(dǎo)致文獻的關(guān)鍵短語抽取效果不佳、排序不準(zhǔn)確等。
[0006] 針對W上問題,本發(fā)明提出了一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),用于 解決關(guān)鍵短語中出現(xiàn)漏標(biāo)、拼寫錯誤、關(guān)鍵短語過短、縮略語指代不明、關(guān)鍵短語詞形不當(dāng)、 對英文文獻主題刻畫能力較弱等問題。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),W解決上述
【背景技術(shù)】中提出的問題。
[0008] 為實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種英文文獻關(guān)鍵短語自動抽取方 法與系統(tǒng),包括信息處理模塊、英文文本解析模塊、候選短語挖掘模塊、候選短語過濾模塊、 候選短語排序模塊、同義短語歸一化模塊及關(guān)鍵短語選取模塊,信息處理模塊主要對原始 數(shù)據(jù)進行噪聲字符過濾、全角字符轉(zhuǎn)換為半角字符、句子智能糾錯、縮略語識別及還原等功 能,輸出的文本數(shù)據(jù)提供給英文文本解析模塊使用,英文文本解析模塊主要對縮略語還原 后的文本數(shù)據(jù)進行文本解析,候選短語挖掘模塊主要對英文文本解析后的數(shù)據(jù)進行候選短 語挖掘,候選短語排序模塊主要對過濾后的候選短語進行權(quán)值計算,并根據(jù)權(quán)值按照大小 進行排序,同義短語歸一化模塊主要利用詞形還原技術(shù),對詞形還原相同的短語進行歸一 化,關(guān)鍵短語選取模塊主要根據(jù)候選短語的權(quán)值,按照大小進行排序,輸出預(yù)先設(shè)定數(shù)目的 關(guān)鍵短語,用于標(biāo)引英文文獻,具體步驟如下:
[0009] 步驟一:信息處理模塊,包括數(shù)據(jù)提取、信息過濾、字符半角轉(zhuǎn)換、智能糾錯和數(shù)據(jù) 縮略語識別和還原,具體步驟為,第一,從英文文獻數(shù)據(jù)庫中提取出每一篇文獻的標(biāo)題、畐U 標(biāo)題、摘要等文本數(shù)據(jù)W及主題分類號等附屬數(shù)據(jù),第二,對包含標(biāo)題、副標(biāo)題、摘要等文本 數(shù)據(jù)中的噪聲字符進行過濾,設(shè)定的噪聲字符包括:V','"/f' Η-',w及控制字符\x31,第Ξ,對過濾后的文本數(shù)據(jù)中的全角字符轉(zhuǎn)換為半角字符,避免 全角字符影響后續(xù)短語抽取的精度,第四,對字符半角化后的文本數(shù)據(jù)進行智能糾錯,主要 針對數(shù)據(jù)錄入時,一個單詞被空格分割為兩個或多個單詞等運類問題進行處理,如da化,數(shù) 據(jù)錄入時由于OCR識別等問題,可能會被分割為da ta,本發(fā)明通過文本智能糾錯方法,將da ta還原為data,其中,糾錯方法采用基于編輯距離的糾錯方法,數(shù)據(jù)縮略語識別和還原,第 五,縮略語識別與還原過程為,首先將文本全部轉(zhuǎn)換為小寫,提取小括號中的文本,假定其 為縮略語,然后提取出含有假定縮略語的句子,一般情況下,縮略語原詞的長度不會超過 200個字符,在本實施例中,取小括號前200字符內(nèi)的文本作為含有假定縮略語的句子,如果 在括號前面匹配到W括號中文本為開頭的短語,則認(rèn)為括號中的文本為縮略語,匹配到的 短語為原詞,本實施例中,舍棄如下形式的縮略語,縮略語為單個字母,全寫短語長度大于 (縮略語長度+2),全寫短語W "and"單詞開頭;
[0010] 步驟二:英文文本數(shù)據(jù)解析模塊,具體包括分句、分詞、詞性標(biāo)注、淺層句法分析 (也即組塊分析),具體步驟為,首先,利用分句技術(shù)將文本數(shù)據(jù)切分為獨立的句子,其次,對 分句后的句子進行英文分詞,然后,對分詞后的文本進行詞性標(biāo)注。本實施例中,采用基于 神經(jīng)網(wǎng)絡(luò)模型的詞性標(biāo)注算法,最后,對詞性標(biāo)注后的文本進行淺層句法分析,其中,淺層 句法分析采用基于神經(jīng)網(wǎng)絡(luò)模型的組塊分析算法;
[0011] 步驟Ξ:候選短語挖掘模塊,主要包括兩部分,一部分是基于頻繁模式挖掘算法抽 取候選短語,另一部分是基于詞性標(biāo)注和淺層句法分析的結(jié)果,基于語法規(guī)則抽取候選短 語,最終將兩部分短語去重、合并為候選短語集合,具體步驟為,第一步,獲取上述文獻的主 題分類號,文本及對應(yīng)的詞性標(biāo)注信息、淺層句法分析信息,第二步,基于文本的詞性標(biāo)注 信息,抽取出文本中的形容詞與名詞,基于文獻所屬的各個主題分類號,分別查詢對應(yīng)該分 類號的主題詞表,獲取主題詞表中包含運些單詞的短語,構(gòu)成各個主題分類號的待挖掘詞 組,第Ξ步,對上述各個主題分類號的待挖掘詞組進行頻繁模式挖掘,得到各個主題分類號 的頻繁模式集合,基于FP-Growth算法,進行頻繁模式挖掘,第四步,對各個主題分類號的頻 繁模式集合中的短語進行過濾,過濾規(guī)則包括短語中任意一個單詞不在文檔中,短語中停 用詞數(shù)目等于短語的單詞數(shù)目,短語單詞個數(shù)小于2,對于滿足過濾規(guī)則的短語進行過濾, 第五步,對過濾后的各個主題分類號的頻繁模式集合中的短語計算權(quán)值,權(quán)值主要考慮4個 維度,包括短語的主題表現(xiàn)度、純凈度、構(gòu)成度、完整度,相對應(yīng)地,計算短語的主題表現(xiàn)因 子、純凈因子、構(gòu)成因子W及完整因子,權(quán)值計算公式為,
[0012]
[OOK] 主題表現(xiàn)因子,:護Y (戶)=巧e,(的)=./;W,ft(p)為短語p屬于主題分類號t的頻率, 純凈因子
,?(6*,*,(9))為短語9屬于主題分類號*和主題分類 號t'兩者短語集取并集后的集合的頻率,其中,t'=0,l,2, . . .k,t'聲t,構(gòu)成因子,
,p= {wi. . .Wn} ;P(et(W))為短語P中的單詞W屬于主題分類號t的 語P的短語,W是屬于短語P'而不屬于短語P的短語或單詞;如果包含短語P的短語P'出現(xiàn),短 語P也會相應(yīng)出現(xiàn),表明短語P并不完整,例如,'vector machines'并不是一個完整的短語, ' S叩po;rt vector machines '則是一個完整的短語,因為' s叩port '經(jīng)常伴隨' vector machines'一起出現(xiàn),參數(shù)丫,ω e[0,l],丫與ω均設(shè)置為0.5,第六步,基于各個主題分類 號的頻繁模式集合中的短語的權(quán)值,再乘W該短語所屬主題分類號對應(yīng)的權(quán)重,得到每個 短語的權(quán)值,文獻在錄入時,專業(yè)編輯會對此文獻進行人工主題分類,并給該文獻對應(yīng)的多 個主題分類號設(shè)定排名,排名靠前的主題分類號比排名靠后的主題分類號具備更強的信息 表達(dá)能力,因此,人工設(shè)定規(guī)則,如果文獻有兩類主題分類號,各主題分類號的權(quán)重依次按 照0.6,0.4進行分配,如果有Ξ類主題分類號,各主題分類號的權(quán)重依次按照0.5,0.3,0.2 進行分配,如果有四類主題分類號,各主題分類號的權(quán)重依次按照0.5,0.25,0.15,0.1進行 分配,一篇文獻一般不會超過四類主題分類號,第屯步,對各個主題分類號下的短語進行去 重、合并,如果不同主題分類號下存在相同短語,則權(quán)值相加,按照權(quán)值大小排序,得到權(quán)值 最大的前Ν個短語,作為頻繁模式挖掘算法抽取出的候選短語,Ν設(shè)置為20,第八步,基于詞 性標(biāo)注和淺層句法分析,抽取出所有的名詞性短語,名詞性短語滿足(Ν Ν|Ν Ν S|N Ν Ρ|Ν Ν Ρ S|J JlJ J R|J J S) *(Ν Ν|Ν Ν S|N Ν Ρ|Ν Ν Ρ S),譬如,complexity,effective algroithm,grid computing,distributed web-service discovery architecture,第九 步,針對步驟Ξ中第八步中的名詞性短語,保留滿足一定頻率的短語,抽取規(guī)則為針對一個 單詞的短語,單詞在整篇文檔中的出現(xiàn)次數(shù)大于等于2,則抽取,針對多個單詞的短語,則抽 取出運個短語,第十步,如果短語為of-PP格式,則變換短語,變換形式如number of sensor 改變?yōu)?6113〇1· number,第^^一步,如果短語為所有格格式,則變換短語,變換形式如agent ' S goal改變?yōu)間oal of agent,第十二步,獲取基于語法規(guī)則抽取的候選短語,第十Ξ步,將 步驟Ξ中第屯步與步驟Ξ中第十二步所抽取的候選短語去重后進行合并,組成候選短語集 合;
[0014]步驟四:候選短語過濾模塊,主要基于語法規(guī)則,對不符合語法規(guī)則的候選短語進 行過濾;
[001引步驟五:候選短語排序模塊,計算候選短語的主題表現(xiàn)因子、相對詞頻、相對篇頻、 位置因子、長度因子等因子,然后對短語的各個因子進行相乘運算,得到各個候選短語的權(quán) 值,并按照從大到小的順序排序,具體步驟為,候選短語的權(quán)值計算函數(shù)如,
[0016]
[0017] Α1,計算短語的主題表現(xiàn)因子
短語wi的主題表現(xiàn)能力,n(wi)代 表短語wi在由文獻山所得到的頻繁模式集合。(步驟Ξ中第屯步獲取的基于頻繁模式挖掘 算法抽取出的候選短語)中構(gòu)成固定搭配的個數(shù)(如果兩個短語被頻繁模式挖掘算法抽取 出,即運兩個短語同時出現(xiàn)在頻繁模式集合中的一個短語中,則認(rèn)為運兩個短語形成了一 條固定搭配),如果短語Wi沒有出現(xiàn)在頻繁模式集合中,則n(Wi)為固定值0,g(Wi)也為0;如 果出現(xiàn),n(wi)大于等于1,則g(wi)大于0,A2,計算短語在上述文獻中的相對詞頻,
-,是文獻山中的短語wi的相對詞頻,。(wi)是短語wi在文獻山中出現(xiàn)的次數(shù),η (dj)是文獻山中的實詞的數(shù)目,A3,計算短語在數(shù)據(jù)庫中的相對篇頻,i壯二log2(N/n),是短 語wi的相對篇頻,N為數(shù)據(jù)庫中的文獻總數(shù),η是數(shù)據(jù)庫中包含短語wi的文獻數(shù)目,如果短語 為多單詞短語,則η設(shè)為1;如果短語為一個單詞,則η為數(shù)據(jù)庫中包含短語wi的文獻實際數(shù) 目,A4,計算短語的位置因子
其中,Pf是短語的位置因子,根 據(jù)運個短語Wi出現(xiàn)的位置,如出現(xiàn)在標(biāo)題中或者沒有出現(xiàn)在標(biāo)題賦予不同的權(quán)重,如果既 出現(xiàn)在標(biāo)題又出現(xiàn)在摘要中,則按照出現(xiàn)在標(biāo)題中計算,ft(Wi)是Wi在標(biāo)題中出現(xiàn)的次數(shù), st(dj)是文檔山的標(biāo)題中包含的實詞個數(shù),A5,計算短語的長度因子,len(wi),短語wi的包含 的單詞個數(shù),保證單詞數(shù)目較多的短語權(quán)重較大一些,A6,將A1-A5計算的各個因子相乘,得 到短語對應(yīng)的權(quán)值,A7,按照權(quán)值,由大到小,進行排序,輸出候選短語及其權(quán)值;
[0018] 步驟六:同義短語歸一化模塊,主要是對候選短語進行詞形還原,將詞形相同的短 語的權(quán)值相加,并賦值給運些詞形相同的短語中權(quán)值最大的短語,其他短語舍棄,首先,對 候選短語中的每個單詞進行詞形還原,再W空格作為連接符,詞形還原后的單詞所組合的 候選短語,即為詞形還原后的候選短語,其次,將詞形相同的候選短語對應(yīng)的權(quán)值相加,賦 值給詞形相同的候選短語中權(quán)值最大的短語,并且只保留運個短語,其他短語舍棄,最后, 輸出候選短語與對應(yīng)的新的權(quán)值;
[0019] 步驟屯:關(guān)鍵短語選取模塊,將得到的候選短語的權(quán)值,按照從大到小的順序,對 各個候選短語排序,輸出預(yù)先設(shè)定的關(guān)鍵短語數(shù)量κ=15,從所述排序中權(quán)值最大開始輸出 15個權(quán)值,15個權(quán)值所對應(yīng)的候選關(guān)鍵短語即為最終關(guān)鍵短語。
[0020] 優(yōu)選的,在步驟四中,候選短語過濾規(guī)則為,(1)如果該候選短語中存在html標(biāo)簽, 則將該候選短語過濾,(2)如果"()","【】","《》","()","[]","<〉","{}"中的左右符號不是 成對出現(xiàn)在短語中,則將該候選短語過濾,(3)如果該候選短語是單詞數(shù)字"結(jié)尾的,貝U 將該候選短語過濾,(4)針對僅有一個單詞的候選短語,滿足如下條件,則將該候選短語過 濾:(4.1)候選短語為純數(shù)字,(4.2)候選短語的字符數(shù)小于等于2,(4.3)包含有"數(shù)字百分 號'運種格式的候選短語,如100% ,100.1%,(4.4)包含有"數(shù)字/字母,/_/ =數(shù)字/字母"運 種格式的候選短語,如"1,Γ,"1,a","a_r,"a = v",(4.5)包含有"數(shù)字-數(shù)字/字母"運種格 式的候選短語,如"12-worcr ,(4.6)包含有"字母運種格式的候選短語,如"river.",(5) 如果候選短語第一個單詞或者最后一個單詞出現(xiàn)在英文停用詞表中,則將該候選短語過 濾。
[0021] 優(yōu)選的,在步驟Ξ中,第二步的主題詞表基于英文文獻數(shù)據(jù)庫構(gòu)建,收錄的主題詞 主要包括W下類型,1、表示具體事物名稱的名詞術(shù)語,如汽車、變壓器、反應(yīng)堆、水稻、坐標(biāo) 儀等,2、表示事物的狀態(tài)或現(xiàn)象的名詞術(shù)語,如強度、失真、±壤熟化、日冕、船舶過載等,3、 表示科學(xué)分類的名詞術(shù)語,如數(shù)學(xué)、物理學(xué)、中醫(yī)學(xué)、電子學(xué)、建筑工程、水利工程等,4、表示 研究方法、技術(shù)方法的名詞術(shù)語,如分析(化學(xué))、針刺手法、有限元法、結(jié)構(gòu)功能法、力學(xué)性 能試驗等,5、表示工藝方法、加工技術(shù)的名詞術(shù)語,如鑄造、鍛造、熱處理、焊接、釀造、取屯、 鉆進、爆破成型、激光切割等,6、表示化學(xué)元素、化合物、金屬材料與合金的名詞術(shù)語,如鋼、 氧原子、IVA族元素、鋼化合物、娃化物、硫酸、鐵絡(luò)合物、釘胺、巧喃、化晚、醇聚四氣乙締、下 二酸(P)W及如金屬板耐蝕鋼、耐蝕合金等,7、表示國家名稱、地名、組織機構(gòu)名稱及人名的 專有名詞W及文獻類型、文獻載體的名詞術(shù)語,次部分主題詞。
[0022] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:該發(fā)明通過預(yù)先對英文文獻文本進行糾 錯,有效避免了文獻數(shù)據(jù)加工時可能存在的拼寫錯誤問題,通過識別英文文獻中的縮略語, 并對縮略語進行還原,可W避免抽取出的關(guān)鍵短語中包含縮略語,消除了信息檢索時由于 關(guān)鍵短語為縮略語導(dǎo)致的歧義問題,利用頻繁模式挖掘算法,抽取的關(guān)鍵短語不再受限于 單詞的物理位置,能夠在一定程度上克服文本寫作風(fēng)格多樣化的問題,通過對候選短語進 行詞形還原,可W避免抽取出的關(guān)鍵短語中存在信息冗余,并可W避免詞干提取出的關(guān)鍵 短語不具有可讀性等問題,不需要人工預(yù)先標(biāo)注關(guān)鍵短語用于訓(xùn)練模型,針對英文文獻快 速高效地抽取出能夠體現(xiàn)文獻主題且滿足檢索意圖的關(guān)鍵短語,可W避免關(guān)鍵短語主題刻 畫能力不強、包含縮略語等信息冗余問題,本發(fā)明將有效提高文本檢索的查詢效率和文本 檢索的準(zhǔn)確性,同時可用于文本分類、分本聚類、文獻相似性等多個領(lǐng)域,是一種高效簡潔 的英文文獻大數(shù)據(jù)的關(guān)鍵短語抽取方法,運是多語言文獻信息組織和檢索的基石之一,也 是深度知識挖掘和知識發(fā)現(xiàn)必不可少的基礎(chǔ)工作。
【附圖說明】
[0023] 圖1為本發(fā)明的系統(tǒng)構(gòu)成圖;
[0024] 圖2為本發(fā)明的信息處理模塊圖;
[0025] 圖3為本發(fā)明的英文文本數(shù)據(jù)解析模塊圖;
[0026] 圖4為本發(fā)明的候選短語挖掘模塊圖;
[0027] 圖5為本發(fā)明的候選短語排序模塊圖;
[0028] 圖6為本發(fā)明的同義短語歸一化模塊圖;
[0029] 圖7為本發(fā)明的術(shù)語與縮寫表;
【具體實施方式】
[0030] 下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;?本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0031] 請參閱圖1-7 [00創(chuàng)實施例
[0033] -種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),包括信息處理模塊、英文文本解析 模塊、候選短語挖掘模塊、候選短語過濾模塊、候選短語排序模塊、同義短語歸一化模塊及 關(guān)鍵短語選取模塊,信息處理模塊主要對原始數(shù)據(jù)進行噪聲字符過濾、全角字符轉(zhuǎn)換為半 角字符、句子智能糾錯、縮略語識別及還原等功能,輸出的文本數(shù)據(jù)提供給英文文本解析模 塊使用,英文文本解析模塊主要對縮略語還原后的文本數(shù)據(jù)進行文本解析,候選短語挖掘 模塊主要對英文文本解析后的數(shù)據(jù)進行候選短語挖掘,候選短語排序模塊主要對過濾后的 候選短語進行權(quán)值計算,并根據(jù)權(quán)值按照大小進行排序,同義短語歸一化模塊主要利用詞 形還原技術(shù),對詞形還原相同的短語進行歸一化,關(guān)鍵短語選取模塊主要根據(jù)候選短語的 權(quán)值,按照大小進行排序,輸出預(yù)先設(shè)定數(shù)目的關(guān)鍵短語,用于標(biāo)引英文文獻,具體步驟如 下:
[0034] 步驟一:信息處理模塊,包括數(shù)據(jù)提取、信息過濾、字符半角轉(zhuǎn)換、智能糾錯和數(shù)據(jù) 縮略語識別和還原,具體步驟為,第一,從英文文獻數(shù)據(jù)庫中提取出每一篇文獻的標(biāo)題、畐U 標(biāo)題、摘要等文本數(shù)據(jù)W及主題分類號等附屬數(shù)據(jù),第二,對包含標(biāo)題、副標(biāo)題、摘要等文本 數(shù)據(jù)中的噪聲字符進行過濾,設(shè)定的噪聲字符包括 Η-',W及控制字符\x31,第Ξ,對過濾后的文本數(shù)據(jù)中的全角字符轉(zhuǎn)換為半角字符,避免 全角字符影響后續(xù)短語抽取的精度,第四,對字符半角化后的文本數(shù)據(jù)進行智能糾錯,主要 針對數(shù)據(jù)錄入時,一個單詞被空格分割為兩個或多個單詞等運類問題進行處理,如da化,數(shù) 據(jù)錄入時由于OCR識別等問題,可能會被分割為da ta,本發(fā)明通過文本智能糾錯方法,將da ta還原為data,其中,糾錯方法采用基于編輯距離的糾錯方法,第五,數(shù)據(jù)縮略語識別和還 原,縮略語識別與還原過程為,首先將文本全部轉(zhuǎn)換為小寫,提取小括號中的文本,假定其 為縮略語,然后提取出含有假定縮略語的句子,一般情況下,縮略語原詞的長度不會超過 200個字符,在本實施例中,取小括號前200字符內(nèi)的文本作為含有假定縮略語的句子,如果 在括號前面匹配到W括號中文本為開頭的短語,則認(rèn)為括號中的文本為縮略語,匹配到的 短語為原詞,本實施例中,舍棄如下形式的縮略語,縮略語為單個字母,全寫短語長度大于 (縮略語長度+2),全寫短語W "and"單詞開頭;
[0035] 步驟二:英文文本數(shù)據(jù)解析模塊,具體包括分句、分詞、詞性標(biāo)注、淺層句法分析 (也即組塊分析),具體步驟為,首先,利用分句技術(shù)將文本數(shù)據(jù)切分為獨立的句子,其次,對 分句后的句子進行英文分詞,然后,對分詞后的文本進行詞性標(biāo)注。本實施例中,采用基于 神經(jīng)網(wǎng)絡(luò)模型的詞性標(biāo)注算法,最后,對詞性標(biāo)注后的文本進行淺層句法分析,其中,淺層 句法分析采用基于神經(jīng)網(wǎng)絡(luò)模型的組塊分析算法;
[0036] 步驟Ξ:候選短語挖掘模塊,主要包括兩部分,一部分是基于頻繁模式挖掘算法抽 取候選短語,另一部分是基于詞性標(biāo)注和淺層句法分析的結(jié)果,基于語法規(guī)則抽取候選短 語,最終將兩部分短語去重、合并為候選短語集合,具體步驟為,第一步,獲取上述文獻的主 題分類號,文本及對應(yīng)的詞性標(biāo)注信息、淺層句法分析信息,第二步,基于文本的詞性標(biāo)注 信息,抽取出文本中的形容詞與名詞,基于文獻所屬的各個主題分類號,分別查詢對應(yīng)該分 類號的主題詞表,獲取主題詞表中包含運些單詞的短語,構(gòu)成各個主題分類號的待挖掘詞 組,在步驟Ξ中,第二步的主題詞表基于英文文獻數(shù)據(jù)庫構(gòu)建,收錄的主題詞主要包括W下 類型,1、表示具體事物名稱的名詞術(shù)語,如汽車、變壓器、反應(yīng)堆、水稻、坐標(biāo)儀等,2、表示事 物的狀態(tài)或現(xiàn)象的名詞術(shù)語,如強度、失真、上壤熟化、日冕、船舶過載等,3、表示科學(xué)分類 的名詞術(shù)語,如數(shù)學(xué)、物理學(xué)、中醫(yī)學(xué)、電子學(xué)、建筑工程、水利工程等,4、表示研究方法、技 術(shù)方法的名詞術(shù)語,如分析(化學(xué))、針刺手法、有限元法、結(jié)構(gòu)功能法、力學(xué)性能試驗等,5、 表示工藝方法、加工技術(shù)的名詞術(shù)語,如鑄造、鍛造、熱處理、焊接、釀造、取屯、鉆進、爆破成 型、激光切割等,6、表示化學(xué)元素、化合物、金屬材料與合金的名詞術(shù)語,如鋼、氧原子、IVA 族元素、鋼化合物、娃化物、硫酸、鐵絡(luò)合物、釘胺、巧喃、化晚、醇聚四氣乙締、下二酸(P)W 及如金屬板耐蝕鋼、耐蝕合金等,7、表示國家名稱、地名、組織機構(gòu)名稱及人名的專有名詞 W及文獻類型、文獻載體的名詞術(shù)語,次部分主題詞,第Ξ步,對上述各個主題分類號的待 挖掘詞組進行頻繁模式挖掘,得到各個主題分類號的頻繁模式集合,基于FP-Growth算法, 進行頻繁模式挖掘,第四步,對各個主題分類號的頻繁模式集合中的短語進行過濾,過濾規(guī) 則包括短語中任意一個單詞不在文檔中,短語中停用詞數(shù)目等于短語的單詞數(shù)目,短語單 詞個數(shù)小于2,對于滿足過濾規(guī)則的短語進行過濾,第五步,對過濾后的各個主題分類號的 頻繁模式集合中的短語計算權(quán)值,權(quán)值主要考慮4個維度,包括短語的主題表現(xiàn)度、純凈度、 構(gòu)成度、完整度,相對應(yīng)地,計算短語的主題表現(xiàn)因子、純凈因子、構(gòu)成因子W及完整因子, 權(quán)值計算公式為,
[0037]
[003引主題表現(xiàn)因子,磚W(的=巧(的)二乂(的,ft(p)為短語P屬于主題分類號t的頻率, 純凈因子:
'?(6*,*,(9))為短語9屬于主題分類號*和主題分類 號t'兩者短語集取并集后的集合的頻率,其中,t'=0,l,2, . . .k,t'聲t,構(gòu)成因子,
p={wi. . .Wn} ;P(et(W))為短語P中的單詞W屬于主題分類號t的 頻率完整因子巧;y" { P -}.二1 - m a 乂戶.(€,(戶.')!自,{取))亡1 跑江式P (6.r.(護U { w) ) I存'(?。?'口,是 真包含短語P的短語,W是屬于短語P'而不屬于短語P的短語或單詞;如果包含短語P的短語 P'出現(xiàn),短語P也會相應(yīng)出現(xiàn),表明短語P并不完整,例如,'vector machines'并不是一個完 整的短語,'S叫port vector machines '則是一個完整的短語,因為'suppo;rt '經(jīng)常伴隨 'vector machines'一起出現(xiàn),參數(shù)丫,we [0,1],丫與ω均設(shè)置為0.5,第六步,基于各個 主題分類號的頻繁模式集合中的短語的權(quán)值,再乘W該短語所屬主題分類號對應(yīng)的權(quán)重, 得到每個短語的權(quán)值,文獻在錄入時,專業(yè)編輯會對此文獻進行人工主題分類,并給該文獻 對應(yīng)的多個主題分類號設(shè)定排名,排名靠前的主題分類號比排名靠后的主題分類號具備更 強的信息表達(dá)能力,因此,人工設(shè)定規(guī)則,如果文獻有兩類主題分類號,各主題分類號的權(quán) 重依次按照0.6,0.4進行分配,如果有Ξ類主題分類號,各主題分類號的權(quán)重依次按照0.5, 0.3,0.2進行分配,如果有四類主題分類號,各主題分類號的權(quán)重依次按照0.5,0.25,0.15, 0.1進行分配,一篇文獻一般不會超過四類主題分類號,第屯步,對各個主題分類號下的短 語進行去重、合并,如果不同主題分類號下存在相同短語,則權(quán)值相加,按照權(quán)值大小排序, 得到權(quán)值最大的前N個短語,作為頻繁模式挖掘算法抽取出的候選短語,N設(shè)置為20,第八 步,基于詞性標(biāo)注和淺層句法分析,抽取出所有的名詞性短語,名詞性短語滿足(N N|N N S N N P|N N P S|J JlJ J R|J J S)*(N N|N N S|N N P|N N P S),譬如,complexity, effective algroithm,grid computing,distributed web-service discovery archi tecture,第九步,針對步驟Ξ中第八步中的名詞性短語,保留滿足一定頻率的短語, 抽取規(guī)則為針對一個單詞的短語,單詞在整篇文檔中的出現(xiàn)次數(shù)大于等于2,則抽取,針對 多個單詞的短語,則抽取出運個短語,第十步,如果短語為of-PP格式,則變換短語,變換形 式如]11111166;1" of 36113〇1'改變?yōu)?6]13〇1· number,第^--步,如果短語為所有格格式,則變換 短語,變換形式如agent's goal改變?yōu)間oal of agent,第十二步,獲取基于語法規(guī)則抽取 的候選短語,第十Ξ步,將步驟Ξ中第屯步與步驟Ξ中第十二步所獲取的候選短語去重后 進行合并,組成候選短語集合;
[0039] 步驟四:候選短語過濾模塊,主要基于語法規(guī)則,對不符合語法規(guī)則的候選短語進 行過濾,在步驟四中,候選短語過濾規(guī)則為,(1)如果該候選短語中存在html標(biāo)簽,則將該候 選短語過濾,(2)如果"()","【】","《》","()","[]","<〉","{}"中的左右符號不是成對出現(xiàn) 在短語中,則將該候選短語過濾,(3)如果該候選短語是單詞數(shù)字"結(jié)尾的,則將該候選 短語過濾,(4)針對僅有一個單詞的候選短語,滿足如下條件,則將該候選短語過濾:(4.1) 候選短語為純數(shù)字,(4.2)候選短語的字符數(shù)小于等于2,(4.3)包含有"數(shù)字百分號"運種格 式的候選短語,如100%,100.1 %,(4.4)包含有"數(shù)字/字母,/_/ =數(shù)字/字母"運種格式的 候選短語,如"1,Γ,"1,a","a_r,"a = v",(4.5)包含有"數(shù)字-數(shù)字/字母"運種格式的候選 短語,如"12-word" ,(4.6)包含有"字母運種格式的候選短語,如"river.",(5)如果候選 短語第一個單詞或者最后一個單詞出現(xiàn)在英文停用詞表中,則將該候選短語過濾;
[0040] 步驟五:候選短語排序模塊,計算候選短語的主題表現(xiàn)因子、相對詞頻、相對篇頻、 位置因子、長度因子等因子,然后對短語的各個因子進行相乘運算,得到各個候選短語的權(quán) 值,并按照從大到小的順序排序,具體步驟為,候選短語的權(quán)值計算函數(shù)如,
[0041]
[0042] A1,計算短語的主題表現(xiàn)因子
,短語wi的主題表現(xiàn)能力,n(wi)代 表短語wi在由文獻山所得到的頻繁模式集合。(步驟Ξ中第屯步獲取的基于頻繁模式挖掘 算法抽取出的候選短語)中構(gòu)成固定搭配的個數(shù)(如果兩個短語被頻繁模式挖掘算法抽取 出,即運兩個短語同時出現(xiàn)在頻繁模式集合中的一個短語中,則認(rèn)為運兩個短語形成了一 條固定搭配),如果短語Wi沒有出現(xiàn)在頻繁模式集合中,則n(Wi)為固定值0,g(Wi)也為0;如 果出現(xiàn),n(wi)大于等于1,則g(wi)大于0,A2,計算短語在上述文獻中的相對詞頻,
,是文獻山中的短語wi的相對詞頻,。(wi)是短語wi在文獻山中出現(xiàn)的次數(shù),η (dj)是文獻山中的實詞的數(shù)目,A3,計算短語在數(shù)據(jù)庫中的相對篇頻,i壯二log2(N/n),是短 語wi的相對篇頻,N為數(shù)據(jù)庫中的文獻總數(shù),η是數(shù)據(jù)庫中包含短語wi的文獻數(shù)目,如果短語 為多單詞短語,則η設(shè)為1;如果短語為一個單詞,則η為數(shù)據(jù)庫中包含短語wi的文獻實際數(shù) 目,A4,計算短語的位置因子:
其中,Pf是短語的位置因子,根 據(jù)運個短語Wi出現(xiàn)的位置,如出現(xiàn)在標(biāo)題中或者沒有出現(xiàn)在標(biāo)題賦予不同的權(quán)重,如果既 出現(xiàn)在標(biāo)題又出現(xiàn)在摘要中,則按照出現(xiàn)在標(biāo)題中計算,ft(Wi)是Wi在標(biāo)題中出現(xiàn)的次數(shù), st(dj)是文檔山的標(biāo)題中包含的實詞個數(shù),A5,計算短語的長度因子,len(wi),短語wi的包含 的單詞個數(shù),保證單詞數(shù)目較多的短語權(quán)重較大一些,A6,將A1-A5計算的各個因子相乘,得 到短語對應(yīng)的權(quán)值,A7,按照權(quán)值,由大到小,進行排序,輸出候選短語及其權(quán)值;
[0043] 步驟六:同義短語歸一化模塊,主要是對候短語進行詞形還原,將詞形相同的短語 的權(quán)值相加,并賦值給運些詞形相同的短語中權(quán)值最大的短語,其他短語舍棄,首先,對候 選短語中的每個單詞進行詞形還原,再W空格作為連接符,詞形還原后的單詞所組合的候 選短語,即為詞形還原后的候選短語,其次,將詞形相同的候選短語對應(yīng)的權(quán)值相加,賦值 給詞形相同的候選短語中權(quán)值最大的短語,并且只保留運個短語,其他短語舍棄,最后,輸 出候選短語與對應(yīng)的新的權(quán)值;
[0044] 步驟屯:關(guān)鍵短語選取模塊,將得到的候選短語的權(quán)值,按照從大到小的順序,對 各個候選短語排序,輸出預(yù)先設(shè)定的關(guān)鍵短語數(shù)量Κ=15,從所述排序中權(quán)值最大開始輸出 15個權(quán)值,15個權(quán)值所對應(yīng)的候選關(guān)鍵短語即為最終關(guān)鍵短語。
[0045] 該發(fā)明通過預(yù)先對英文文獻文本進行糾錯,有效避免了文獻數(shù)據(jù)加工時可能存在 的拼寫錯誤問題,通過識別英文文獻中的縮略語,并對縮略語進行還原,可W避免抽取出的 關(guān)鍵短語中包含縮略語,消除了信息檢索時由于關(guān)鍵短語為縮略語導(dǎo)致的歧義問題,利用 頻繁模式挖掘算法,抽取的關(guān)鍵短語不再受限于單詞的物理位置,能夠在一定程度上克服 文本寫作風(fēng)格多樣化的問題,通過對候選短語進行詞形還原,可W避免抽取出的關(guān)鍵短語 中存在信息冗余,并可W避免詞干提取出的關(guān)鍵短語不具有可讀性等問題,不需要人工預(yù) 先標(biāo)注關(guān)鍵短語用于訓(xùn)練模型,針對英文文獻快速高效地抽取出能夠體現(xiàn)文獻主題且滿足 檢索意圖的關(guān)鍵短語,可W避免關(guān)鍵短語主題刻畫能力不強、包含縮略語等信息冗余問題, 本發(fā)明將有效提高文本檢索的查詢效率和文本檢索的準(zhǔn)確性,同時可用于文本分類、分本 聚類、文獻相似性等多個領(lǐng)域,是一種高效簡潔的英文文獻大數(shù)據(jù)的關(guān)鍵短語抽取方法,運 是多語言文獻信息組織和檢索的基石之一,也是深度知識挖掘和知識發(fā)現(xiàn)必不可少的基礎(chǔ) 工作。
[0046] 對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細(xì)節(jié),而且在 不背離本發(fā)明的精神或基本特征的情況下,能夠W其他的具體形式實現(xiàn)本發(fā)明。因此,無論 從哪一點來看,均應(yīng)將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán) 利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有 變化囊括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所設(shè)及的權(quán)利要求。
【主權(quán)項】
1. 一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),其特征在于:包括信息處理模塊、英文 文本解析模塊、候選短語挖掘模塊、候選短語過濾模塊、候選短語排序模塊、同義短語歸一 化模塊及關(guān)鍵短語選取模塊,信息處理模塊主要對原始數(shù)據(jù)進行噪聲字符過濾、全角字符 轉(zhuǎn)換為半角字符、句子智能糾錯、縮略語識別及還原等功能,輸出的文本數(shù)據(jù)提供給英文文 本解析模塊使用,英文文本解析模塊主要對縮略語還原后的文本數(shù)據(jù)進行文本解析,候選 短語挖掘模塊主要對英文文本解析后的數(shù)據(jù)進行候選短語挖掘,候選短語排序模塊主要對 過濾后的候選短語進行權(quán)值計算,并根據(jù)權(quán)值按照大小進行排序,同義短語歸一化模塊主 要利用詞形還原技術(shù),對詞形還原相同的短語進行歸一化,關(guān)鍵短語選取模塊主要根據(jù)候 選短語的權(quán)值,按照大小進行排序,輸出預(yù)先設(shè)定數(shù)目的關(guān)鍵短語,用于標(biāo)引英文文獻,具 體步驟如下: 步驟一:信息處理模塊,包括數(shù)據(jù)提取、信息過濾、字符半角轉(zhuǎn)換、智能糾錯和數(shù)據(jù)縮略 語識別和還原,具體步驟為,第一,從英文文獻數(shù)據(jù)庫中提取出每一篇文獻的標(biāo)題、副標(biāo)題、 摘要等文本數(shù)據(jù)以及主題分類號等附屬數(shù)據(jù),第二,對包含標(biāo)題、副標(biāo)題、摘要等文本數(shù)據(jù) 中的噪聲字符進行過濾,設(shè)定的噪聲字符包括','f','H 0 ',以及控制字符\x31,第三,對過濾后的文本數(shù)據(jù)中的全角字符轉(zhuǎn)換為半角字符,避免全 角字符影響后續(xù)短語抽取的精度,第四,對字符半角化后的文本數(shù)據(jù)進行智能糾錯,主要針 對數(shù)據(jù)錄入時,一個單詞被空格分割為兩個或多個單詞等這類問題進行處理,如data,數(shù)據(jù) 錄入時由于OCR識別等問題,可能會被分割為da ta,本發(fā)明通過文本智能糾錯方法,將da ta還原為data,其中,糾錯方法采用基于編輯距離的糾錯方法,第五,數(shù)據(jù)縮略語識別和還 原,縮略語識別與還原過程為,首先將文本全部轉(zhuǎn)換為小寫,提取小括號中的文本,假定其 為縮略語,然后提取出含有假定縮略語的句子,一般情況下,縮略語原詞的長度不會超過 200個字符,在本實施例中,取小括號前200字符內(nèi)的文本作為含有假定縮略語的句子,如果 在括號前面匹配到以括號中文本為開頭的短語,則認(rèn)為括號中的文本為縮略語,匹配到的 短語為原詞,本實施例中,舍棄如下形式的縮略語,縮略語為單個字母,全寫短語長度大于 (縮略語長度+2),全寫短語以"and"單詞開頭; 步驟二:英文文本數(shù)據(jù)解析模塊,具體包括分句、分詞、詞性標(biāo)注、淺層句法分析(也即 組塊分析),具體步驟為,首先,利用分句技術(shù)將文本數(shù)據(jù)切分為獨立的句子,其次,對分句 后的句子進行英文分詞,然后,對分詞后的文本進行詞性標(biāo)注。本實施例中,采用基于神經(jīng) 網(wǎng)絡(luò)模型的詞性標(biāo)注算法,最后,對詞性標(biāo)注后的文本進行淺層句法分析,其中,淺層句法 分析采用基于神經(jīng)網(wǎng)絡(luò)模型的組塊分析算法; 步驟三:候選短語挖掘模塊,主要包括兩部分,一部分是基于頻繁模式挖掘算法抽取候 選短語,另一部分是基于詞性標(biāo)注和淺層句法分析的結(jié)果,基于語法規(guī)則抽取候選短語,最 終將兩部分短語去重、合并為候選短語集合,具體步驟為,第一步,獲取上述文獻的主題分 類號,文本及對應(yīng)的詞性標(biāo)注信息、淺層句法分析信息,第二步,基于文本的詞性標(biāo)注信息, 抽取出文本中的形容詞與名詞,基于文獻所屬的各個主題分類號,分別查詢對應(yīng)該分類號 的主題詞表,獲取主題詞表中包含這些單詞的短語,構(gòu)成各個主題分類號的待挖掘詞組,第 三步,對上述各個主題分類號的待挖掘詞組進行頻繁模式挖掘,得到各個主題分類號的頻 繁模式集合,基于FP-Growth算法,進行頻繁模式挖掘,第四步,對各個主題分類號的頻繁模 式集合中的短語進行過濾,過濾規(guī)則包括短語中任意一個單詞不在文檔中,短語中停用詞 數(shù)目等于短語的單詞數(shù)目,短語單詞個數(shù)小于2,對于滿足過濾規(guī)則的短語進行過濾,第五 步,對過濾后的各個主題分類號的頻繁模式集合中的短語計算權(quán)值,權(quán)值主要考慮4個維 度,包括短語的主題表現(xiàn)度、純凈度、構(gòu)成度、完整度,相對應(yīng)地,計算短語的主題表現(xiàn)因子、 純凈因子、構(gòu)成因子以及完整因子,權(quán)值計算公式為, \^,π??0,η{ρ)<γ rt{p)\ , \χ^ρ)[(\-ω)πΓ???) + ωπΓ(ρ)] 主題表現(xiàn)因子,<'(尸) = P(S⑶) = ./;⑶,ft(P)為短語Ρ屬于主題分類號t的頻率,純凈 因子,_,?(^,*,(?))為短語?屬于主題分類號〖和主題分類號七' 兩者短語集取并集后的集合的頻率,其中,t,= 0,1,2, . . .k,t'辛t,構(gòu)成因子,rp= {wi. . .Wn} ;?(61;(¥))為短語口中的單詞¥屬于主題分類號1:的 頻率,完整因子,1 - =1 - max卜丨Sp'是真包含 短語P的短語,W是屬于短語P'而不屬于短語P的短語或單詞;如果包含短語P的短語P'出現(xiàn), 短語P也會相應(yīng)出現(xiàn),表明短語P并不完整,例如,'vector machines'并不是一個完整的短 語,' support vector machines '貝lj是一個完整的短語,因為' support '經(jīng)常伴隨' vector machines'一起出現(xiàn),參數(shù)γ,ω e[〇,l],γ與ω均設(shè)置為0.5,第六步,基于各個主題分類 號的頻繁模式集合中的短語的權(quán)值,再乘以該短語所屬主題分類號對應(yīng)的權(quán)重,得到每個 短語的權(quán)值,文獻在錄入時,專業(yè)編輯會對此文獻進行人工主題分類,并給該文獻對應(yīng)的多 個主題分類號設(shè)定排名,排名靠前的主題分類號比排名靠后的主題分類號具備更強的信息 表達(dá)能力,因此,人工設(shè)定規(guī)則,如果文獻有兩類主題分類號,各主題分類號的權(quán)重依次按 照0.6,0.4進行分配,如果有三類主題分類號,各主題分類號的權(quán)重依次按照0.5,0.3,0.2 進行分配,如果有四類主題分類號,各主題分類號的權(quán)重依次按照0.5,0.25,0.15,0.1進行 分配,一篇文獻一般不會超過四類主題分類號,第七步,對各個主題分類號下的短語進行去 重、合并,如果不同主題分類號下存在相同短語,則權(quán)值相加,按照權(quán)值大小排序,得到權(quán)值 最大的前Ν個短語,作為頻繁模式挖掘算法抽取出的候選短語,Ν設(shè)置為20,第八步,基于詞 性標(biāo)注和淺層句法分析,抽取出所有的名詞性短語,名詞性短語滿足(N N|N N S|N Ν Ρ|Ν Ν P S|J J|J J R|J J S)*(N N|N N S|N Ν Ρ|Ν Ν P S),譬如,complexity,effective algroithm,grid computing,distributed web-service discovery architecture,第九 步,針對步驟三中第八步中的名詞性短語,保留滿足一定頻率的短語,抽取規(guī)則為針對一個 單詞的短語,單詞在整篇文檔中的出現(xiàn)次數(shù)大于等于2,則抽取,針對多個單詞的短語,則抽 取出這個短語,第十步,如果短語為of-ΡΡ格式,則變換短語,變換形式如number of sensor 改變?yōu)閟ensor number,第^--步,如果短語為所有格格式,則變換短語,變換形式如agent ' s goal改變?yōu)間oal of agent,第十二步,獲取基于語法規(guī)則抽取的候選短語,第十三步,將 步驟三中第七步與步驟三中第十二步所抽取的候選短語去重后進行合并,組成候選短語集 合; 步驟四:候選短語過濾模塊,主要基于語法規(guī)則,對不符合語法規(guī)則的候選短語進行過 濾; 步驟五:候選短語排序模塊,計算候選短語的主題表現(xiàn)因子、相對詞頻、相對篇頻、位置 因子、長度因子等因子,然后對短語的各個因子進行相乘運算,得到各個候選短語的權(quán)值, 并按照從大到小的順序排序,具體步驟為,候選短語的權(quán)值計算函數(shù)如,,A 1,計算短語的主題表現(xiàn)因子,:,短語wi的主題表現(xiàn)能力,n (wi)代表短語wi在由文獻dj所得到的頻繁模式集 合込(步驟三中第七步獲取的基于頻繁模式挖掘算法抽取出的候選短語)中構(gòu)成固定搭配 的個數(shù)(如果兩個短語被頻繁模式挖掘算法抽取出,即這兩個短語同時出現(xiàn)在頻繁模式集 合中的一個短語中,則認(rèn)為這兩個短語形成了一條固定搭配),如果短語^沒有出現(xiàn)在頻繁 模式集合中,貝 1Jn(wi)為固定值0,g(wi)也為0;如果出現(xiàn),n(wi)大于等于1,則g(wi)大于0, A2,計算短語在上述文獻中的相對詞頻,?是文獻山中的短語Wl的相對詞頻,f」 (wi)是短語Wi在文獻dj中出現(xiàn)的次數(shù),n(dj)是文獻dj中的實詞的數(shù)目,A3,計算短語在數(shù)據(jù) 庫中的相對篇頻,idf = log2(N/n),是短語Wl的相對篇頻,N為數(shù)據(jù)庫中的文獻總數(shù),η是數(shù)據(jù) 庫中包含短語的文獻數(shù)目,如果短語為多單詞短語,則η設(shè)為1;如果短語為一個單詞,則η 為數(shù)據(jù)庫中包含短語w i的文獻實際數(shù)目,A 4,計算短語的位置因子,其中,Pf是短語的位置因子,根據(jù)這個短語化出現(xiàn)的位置,如出 現(xiàn)在標(biāo)題中或者沒有出現(xiàn)在標(biāo)題賦予不同的權(quán)重,如果既出現(xiàn)在標(biāo)題又出現(xiàn)在摘要中,則 按照出現(xiàn)在標(biāo)題中計算,ft(Wl)是^在標(biāo)題中出現(xiàn)的次數(shù),st(山)是文檔山的標(biāo)題中包含的 實詞個數(shù),A5,計算短語的長度因子,len( Wl),短語Wl的包含的單詞個數(shù),保證單詞數(shù)目較多 的短語權(quán)重較大一些,A6,將A1-A5計算的各個因子相乘,得到短語對應(yīng)的權(quán)值,A7,按照權(quán) 值,由大到小,進行排序,輸出候選短語及其權(quán)值; 步驟六:同義短語歸一化模塊,主要是對候選短語進行詞形還原,將詞形相同的短語的 權(quán)值相加,并賦值給這些詞形相同的短語中權(quán)值最大的短語,其他短語舍棄,首先,對候選 短語中的每個單詞進行詞形還原,再以空格作為連接符,詞形還原后的單詞所組合的候選 短語,即為詞形還原后的候選短語,其次,將詞形相同的候選短語對應(yīng)的權(quán)值相加,賦值給 詞形相同的候選短語中權(quán)值最大的短語,并且只保留這個短語,其他短語舍棄,最后,輸出 候選短語與對應(yīng)的新的權(quán)值; 步驟七:關(guān)鍵短語選取模塊,將得到的候選短語的權(quán)值,按照從大到小的順序,對各個 候選短語排序,輸出預(yù)先設(shè)定的關(guān)鍵短語數(shù)量K = 15,從所述排序中權(quán)值最大開始輸出15個 權(quán)值,15個權(quán)值所對應(yīng)的候選關(guān)鍵短語即為最終關(guān)鍵短語。2.根據(jù)權(quán)利要求1所述的一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),其特征在于:在 步驟四中,候選短語過濾規(guī)則為,(1)如果該候選短語中存在html標(biāo)簽,則將該候選短語過 濾,(2)如果〃()〃,〃【】〃,〃《》〃,〃()〃,〃[]〃,〃〈>〃,〃{}〃中的左右符號不是成對出現(xiàn)在短語中, 則將該候選短語過濾,(3)如果該候選短語是以"單詞數(shù)字"結(jié)尾的,則將該候選短語過濾, (4)針對僅有一個單詞的候選短語,滿足如下條件,則將該候選短語過濾:(4.1)候選短語為 純數(shù)字,(4.2)候選短語的字符數(shù)小于等于2,(4.3)包含有"數(shù)字百分號"這種格式的候選短 語,如100 %,100.1 %,( 4.4)包含有"數(shù)字/字母,/_/ =數(shù)字/字母"這種格式的候選短語,如 "1,1","l,a","a_l","a = v",(4.5)包含有"數(shù)字-數(shù)字/字母"這種格式的候選短語,如"12-word",(4.6)包含有"字母這種格式的候選短語,如"river.",(5)如果候選短語第一個單 詞或者最后一個單詞出現(xiàn)在英文停用詞表中,則將該候選短語過濾。3. 根據(jù)權(quán)利要求1所述的一種英文文獻關(guān)鍵短語自動抽取方法與系統(tǒng),其特征在于:在 步驟三中,第二步的主題詞表基于英文文獻數(shù)據(jù)庫構(gòu)建,收錄的主題詞主要包括以下類型, 1、表示具體事物名稱的名詞術(shù)語,如汽車、變壓器、反應(yīng)堆、水稻、坐標(biāo)儀等,2、表示事物的 狀態(tài)或現(xiàn)象的名詞術(shù)語,如強度、失真、土壤熟化、日冕、船舶過載等,3、表示科學(xué)分類的名 詞術(shù)語,如數(shù)學(xué)、物理學(xué)、中醫(yī)學(xué)、電子學(xué)、建筑工程、水利工程等,4. 表示研究方法、技術(shù)方法的名詞術(shù)語,如分析(化學(xué))、針刺手法、有限元法、結(jié)構(gòu)功能 法、力學(xué)性能試驗等,5、表示工藝方法、加工技術(shù)的名詞術(shù)語,如鑄造、鍛造、熱處理、焊接、 釀造、取心鉆進、爆破成型、激光切割等,6、表示化學(xué)元素、化合物、金屬材料與合金的名詞 術(shù)語,如鈉、氧原子、IVA族元素、鈉化合物、硅化物、硫酸、鈦絡(luò)合物、釘胺、呋喃、吡啶、醇聚 四氟乙烯、丁二酸(P)以及如金屬板耐蝕鋼、耐蝕合金等,7、表示國家名稱、地名、組織機構(gòu) 名稱及人名的專有名詞以及文獻類型、文獻載體的名詞術(shù)語,次部分主題詞。
【文檔編號】G06F17/30GK106066866SQ201610363382
【公開日】2016年11月2日
【申請日】2016年5月26日 公開號201610363382.3, CN 106066866 A, CN 106066866A, CN 201610363382, CN-A-106066866, CN106066866 A, CN106066866A, CN201610363382, CN201610363382.3
【發(fā)明人】符文君, 周海波, 強成倉, 馬娟, 張振海
【申請人】同方知網(wǎng)(北京)技術(shù)有限公司