本發(fā)明整體上涉及計算機信息處理技術領域,特別地,涉及一種用于在文檔中識別中文物種名稱的方法與系統(tǒng)。
技術背景:
目前,隨著生物多樣性領域的科學技術發(fā)展,涉及生物學領域的各類書籍、科技論文以及專利文獻等日益增多。在這些文獻的計算機深度處理中,生物物種中文名稱識別技術顯得非常重要。源于中文語義及構(gòu)詞的復雜性,生物物種中文名結(jié)構(gòu)復雜,其書寫格式多樣或不規(guī)范等原因,目前還沒有一種用于在文檔中識別中文物種名稱的技術或方法,在計算機處理生物類科技文獻時,需要一種用于文檔中識別生物物種名稱的方法與系統(tǒng)。
技術實現(xiàn)要素:
:
本發(fā)明一方面提供一種用于在文檔中識別中文物種名稱的方法,步驟包括:接收包含中文物種名稱的文檔;識別所述文檔中的中文物種名稱字段;識別非物種名稱字段;基于所識別的中文物種名稱字段向兩端擴展,擴展到非物種名稱字段終止,合并物種名稱字段以得到所述中文物種名稱。
本發(fā)明另一方面提供一種用于在文檔中識別中文物種名稱的系統(tǒng),如圖2所示,裝置包括:接收裝置,用于接收包含中文物種名稱的文檔;識別裝置一,用于識別所述文檔中的中文物種名稱片段;識別裝置二,用于識別所述文檔中的非物種名稱片段;以及合并裝置,用于基于所識別的中文物種名稱片段向兩端擴展以得到所述完整的中文物種名稱。
本發(fā)明的具體實施方式可以有效地從科技文獻中識別中文物種名稱。
為了實現(xiàn)上述目的,本發(fā)明提供了如下的技術方案:
一種在文檔中識別中文物種名稱的方法,該方法包括:接收包含中文物種名稱的文檔,識別所述文檔中的中文物種名稱字段,識別所述文檔中的非物種名稱字段,基于所識別的中文物種名稱字段和非物種名稱字段,擴展、合并以得到所述完整中文物種名稱步驟。
如所述的一種在文檔中識別中文物種名稱的方法,其中所述識別所述文檔中的非物種名稱字段步驟包括:對所述文檔進行分詞,檢查每個分詞是否在非中文物種名稱字段字典中,響應于所述分詞在非中文物種名稱字段字典中,確定所述分詞為非中文物種名稱字段,記錄所述非中文物種名稱字段的位置信息。
如所述的一種在文檔中識別中文物種名稱的方法,其中所述識別文檔中的中文物種名稱字段步驟包括:對所述文檔進行分句,基于中文物種名稱字典匹配所述文檔的分句中出現(xiàn)的所有中文物種名稱,記錄所述中文物種名稱字段的位置信息。
如所述的一種在文檔中識別中文生物物種名稱的方法,所述位置信息由所述任一物種名稱片段或非物種名稱片段在所述文檔中的起始位置和結(jié)束位置組成。
如所述的一種在文檔中識別中文物種名稱的方法,其中所述非物種名稱字段在基于所識別的中文物種名稱字段向兩端擴展,以得到所述完整中文物種名稱中作為終止符。
如所述的一種在文檔中識別中文生物物種名稱的方法,其中所述基于所識別的中文物種名稱字段向兩端擴展以得到所述完整中文物種名稱步驟包括:從所述生物物種名稱字段位置向前后兩端擴展直至遇到非生物物種名稱片段為止,以獲得所述生物物種名稱。
如所述的一種在文檔中識別中文生物物種名稱的方法,在識別所述文檔中的中文物種名稱字段步驟中,當同一分句中出現(xiàn)一個以上物種名稱片段時,檢查物種名稱片段位置信息之間是否存在包含關系,響應于多個物種名稱片段存在包含關系,保留最長的物種名稱片段及位置信息。
如所述的一種在文檔中識別中文物種名稱的方法,該方法還包括以下步驟至少之一:
從已有的生物學領域中文物種名稱生成中文物種名稱片段字典,包括物種中文學名、俗名、栽培馴化后的品種名稱;或者,基于非生物學領域的中文文檔,例如數(shù)學、物理學、法學、社會學、心理學、管理學等;收集出現(xiàn)頻率較高的詞,形成非生物物種名稱片段字典。
本發(fā)明還提供了所述的一種在文檔中識別中文物種中文名稱的方法與系統(tǒng)用于從科技文獻中識別中文物種名稱。
本發(fā)明的方法主要步驟包括接收包含中文物種名稱的文檔,識別所述文檔中的中文物種名稱字段,識別非物種名稱字段,基于所識別的中文物種名稱字段和非物種名稱字段擴展、合并以得到所述完整的我中文物種名稱。本發(fā)明的具體實施方式可以有效地從科技文獻中識別中文物種名稱。
附圖說明
圖1:本發(fā)明用于在文檔中識別中文物種名稱的具體實施方式示意圖。
圖2:本發(fā)明用于在文檔中識別中文物種名稱的系統(tǒng)構(gòu)成示意圖。
圖3:本發(fā)明用于在文檔中識別中文物種名稱的計算機設備結(jié)構(gòu)框架圖。
具體實施方式:
為了對本發(fā)明實施例的特征和優(yōu)點進行詳細說明,將參照附圖1、2、3,對本發(fā)明的實質(zhì)性內(nèi)容進行更進一步的描述,但并不以此來限定本發(fā)明。
實施例1:
本發(fā)明的一種在文檔中識別中文生物物種中文名稱的系統(tǒng),如圖2所示,該系統(tǒng)包括下述裝置:
接收裝置,用于接收包括生物物種名稱的文檔;
識別裝置一,用于識別所述文檔中的中文物種名稱字段;
識別裝置二,用于識別所述文檔中的非物種名稱片段;
合并裝置,用于基于所識別的中文物種名稱字段向兩端擴展以得到所述完整中文物種名稱。
以上所有裝置的實施過程,各個步驟可以以任何順序或者同時執(zhí)行,除非從上下文能夠清楚判斷某個步驟的實施必須依賴于上一個步驟。此外,步驟之間可以有時間間隔。
圖1示出了本發(fā)明用于在文檔中識別中文物種拉丁學名的具體實施方式。
在步驟101中接收包括中文物種名稱的文檔。該文檔可以是各種文件格式。比如可以是純文本txt文件,也可以是word文件、pdf文件、XML文件、excel文件、掃描圖片等。對于不是純文本格式的文檔,可以對該文檔進行預處理以形成純文本文件。
在步驟102中,識別所述文檔中的中文物種名稱字段,其中所述中文物種名稱是指用于生物學領域中文物種命名的各種科學名稱、俗稱。如杜鵑、白花杜鵑、大白花杜鵑、杜鵑花葉山茶等。
識別文檔中的中文物種名稱字段、輔助詞字段和種下等級加詞字段可以通過與事先建立起來的中文物種名稱字典、輔助詞字典和種下等級加詞字典進行精確和模糊匹配,當然本領域技術人員也可以基于本申請考慮到其它任何適合的識別方式。其中,可以從已有的生物學領域中文物種名錄生成中文物種名稱字典。
圖3示意性的呈現(xiàn)了可以實現(xiàn)本發(fā)明的計算機系統(tǒng)結(jié)構(gòu)框架圖。圖3中所示的計算機系統(tǒng)包括CPU(中央處理器)、RAM(隨機存取存儲器)、ROM(只讀存儲器)、系統(tǒng)總線,硬盤控制器、鍵盤控制器、串行接口控制器、并行接口控制器、顯示器控制器、硬盤、鍵盤、串行外部設備、并行外部設備和顯示器。在這些部件中,與系統(tǒng)總線相連的有CPU、RAM、ROM、硬盤控制器、鍵盤控制器,串行接口控制器,并行接口控制器和顯示器控制器。硬盤與硬盤控制器相連,鍵盤與鍵盤控制器相連,串行外部設備與串行接口控制器相連,并行外部設備與并行接口控制器相連,以及顯示器與顯示器控制器相連。
本發(fā)明的流程圖或者流程圖中的每個框圖步驟都可以由計算機程序?qū)崿F(xiàn)。用于執(zhí)行本發(fā)明的操作的計算機程序,可以以一種或多種程序設計語言的任何組合來編寫,所述程序設計語言包括面向?qū)ο蟮某绦蛟O計語言—例如Java、C++之類,還包括常規(guī)的過程式程序設計語言—例如”C”語言、Fortran語言或類似的程序設計語言。計算機程序可以完全地或部分的在用戶個人計算上執(zhí)行、也可作為一個獨立的軟件包運行、也可在個人移動設備上執(zhí)行。
圖3中的流程圖和流程圖中的每個框圖,揭示了按照本發(fā)明的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的功能、體系架構(gòu)和操作流程。在這點上,流程圖或流程圖中的每個框圖可以代表一個模塊、程序段、或源代碼的一部分,所述模塊、程序段、或源代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行程序。