欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

本體半自動信息抽取處理裝置的制作方法

文檔序號:6425617閱讀:136來源:國知局
專利名稱:本體半自動信息抽取處理裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及的是一種信息處理技術(shù)領(lǐng)域的信息抽取處理裝置,特別是涉及一種本體半自動信息抽取處理裝置。
背景技術(shù)
所謂本體,是共享概念模型的明確形式化規(guī)范說明,能夠以一種明確的、形式化的方式來表示領(lǐng)域知識,提高異構(gòu)系統(tǒng)之間的互操作性,促進(jìn)知識共享。在計算機(jī)科學(xué)界,尤其是知識工程界,人們對本體的認(rèn)識和定義經(jīng)歷了一個不斷深化的過程。不同于哲學(xué)中的本體論概念,計算機(jī)科學(xué)中的本體有其特定的含義。根據(jù)本體不同方面的屬性(如形式化程度、目的和描述對象),可以對本體進(jìn)行不同的分類。如根據(jù)本體的形式化程度不同,可以把本體分為高度非形式化的、結(jié)構(gòu)非形式化的、半形式化的和嚴(yán)格形式化的類別。根據(jù)本體的描述對象不同,可以把本體分為特殊領(lǐng)域本體(如農(nóng)業(yè)、醫(yī)藥、地理、金融等)、一般世界知識本體、問題求解本體和知識表示語言本體等。針對不同類型的數(shù)據(jù)源需要采用不同的本體學(xué)習(xí)技術(shù),文獻(xiàn)根據(jù)數(shù)據(jù)源的結(jié)構(gòu)化程度,將本體學(xué)習(xí)技術(shù)分為3大類基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)、基于非結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)和基于半結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)技術(shù)。本發(fā)明基于結(jié)構(gòu)化數(shù)據(jù)的領(lǐng)域本體學(xué)習(xí)技術(shù),所謂的結(jié)構(gòu)化數(shù)據(jù)主要包括關(guān)系數(shù)據(jù)庫或面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù)。隨著數(shù)據(jù)庫在信息管理領(lǐng)域的廣泛應(yīng)用,大量的數(shù)據(jù)通常存儲在數(shù)據(jù)庫中。而且這些數(shù)據(jù)一般都是面向主題(領(lǐng)域)的。因此,如何利用數(shù)據(jù)庫中豐富的數(shù)據(jù)構(gòu)建本體是一個很有意義的研究課題。目前國內(nèi)外對于都市農(nóng)業(yè)領(lǐng)域本體構(gòu)建的研究還不多,在現(xiàn)有的領(lǐng)域本體構(gòu)建技術(shù)中,如“基于敘詞表的領(lǐng)域本體構(gòu)建研究,現(xiàn)代圖書情報技術(shù),2006”,所述的基于結(jié)構(gòu)化數(shù)據(jù)的本體學(xué)習(xí)的現(xiàn)有方法一般只考慮關(guān)系模式的語義,而沒有進(jìn)一步去挖掘大量元組中包含的語義信息,所以獲取的概念數(shù)量和關(guān)系種類都非常有限。本發(fā)明基于敘詞表進(jìn)行領(lǐng)域本體生成方法的研究,通過采用領(lǐng)域相關(guān)度和領(lǐng)域一致度相結(jié)合的方法來對候選術(shù)語集進(jìn)行過濾,實(shí)現(xiàn)了基于名詞短語模式匹配規(guī)則的分類關(guān)系抽取方法,再以WordNet為參照通用本體運(yùn)用模糊決策樹算法對本體概念間關(guān)系進(jìn)行修正,最后通過領(lǐng)域本體的形式化進(jìn)行表達(dá)并輸出,用半自動本體構(gòu)建方法降低了人工參與程度并提高了準(zhǔn)確率。

發(fā)明內(nèi)容
本發(fā)明目的在于克服了采用傳統(tǒng)語義排歧方法導(dǎo)致大量信息喪失的技術(shù)缺陷,提供一種本體半自動信息抽取處理裝置。本發(fā)明實(shí)現(xiàn)了將面向都市農(nóng)業(yè)行業(yè)領(lǐng)域的敘詞表中現(xiàn)有知識體系,轉(zhuǎn)化到具有概念化的顯式規(guī)格的本體中的目的,是利用計算機(jī)設(shè)備推進(jìn)農(nóng)業(yè)現(xiàn)代化、信息化及標(biāo)準(zhǔn)化的信息處理設(shè)備。本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的
本發(fā)明包括輸入設(shè)備、存儲器、規(guī)則庫、中央處理器及輸出設(shè)備,其中,輸入設(shè)備、 規(guī)則庫的輸出端與中央處理器連接,中央處理器與存儲器通過數(shù)據(jù)總線連接,中央處理器的輸出端與輸出設(shè)備連接,用戶通過輸入設(shè)備輸入領(lǐng)域敘詞表及通用本體,并在規(guī)則庫中保存領(lǐng)域?qū)<易远x規(guī)則;中央處理器包括核心本體種子概念篩選器、本體中概念間關(guān)系解析器、本體中概念間關(guān)系修正器、評價結(jié)果處理器,并依次連接在輸入設(shè)備與輸出設(shè)備之間;所述的中央處理器對用戶的輸入進(jìn)行核心本體準(zhǔn)則確立、概念間關(guān)系抽取、概念間關(guān)系修正、構(gòu)建結(jié)果評價、構(gòu)建結(jié)果形式化的核心功能,中央處理器對輸入敘詞表進(jìn)行領(lǐng)域本體半自動構(gòu)建的結(jié)果作為顯式規(guī)格的本體通過輸出設(shè)備進(jìn)行輸出及表達(dá)。所述的輸入設(shè)備用于接受用戶輸入的語料庫、基本敘詞表、領(lǐng)域?qū)<易远x規(guī)則、 通用本體等。所述的存儲器是硬盤或磁帶機(jī)或其他數(shù)據(jù)存儲設(shè)備,用于儲存輸入設(shè)備所產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)(包括領(lǐng)域基本敘詞表及通用本體)、構(gòu)建運(yùn)算分析過程中的部分中間結(jié)果(例如核心本體概念集)及輸出設(shè)備所產(chǎn)生的形式化的領(lǐng)域本體庫。所述的規(guī)則庫包括用于確立領(lǐng)域核心本體的規(guī)則庫、用于確定本體中概念間分類關(guān)系的規(guī)則庫和用于本體概念間關(guān)系修正的規(guī)則庫。所述的核心本體種子概念篩選器包括選擇器、本體種子概念質(zhì)量閾值控制器、 過濾器和核心本體概念集存儲器,輸入設(shè)備連接到選擇器,輸入語料庫信息,選擇器、過濾器和核心本體概念集存儲器依次連接,本體種子概念質(zhì)量閾值控制器的輸出端與過濾器連接,過濾器按照本體種子概念質(zhì)量閥值控制器的設(shè)定要求,對選定的種子概念集進(jìn)行過濾, 同時把過濾后的結(jié)果輸出到核心本體概念集存儲器中,進(jìn)行后續(xù)處理。其中由核心本體種子概念篩選器接收來自輸入設(shè)備輸入的語料庫,初步選取核心本體種子概念集,選擇器為基于領(lǐng)域相關(guān)度與一致度綜合計算的概念確立核心本體種子概念,本體種子概念質(zhì)量閾值控制器為可用于控制評估核心本體種子概念質(zhì)量,過濾器為基于領(lǐng)域?qū)<胰斯ば拚诵谋倔w種子概念,核心本體概念集存儲器為可用于保存核心本體概念集的。所述的本體中概念間關(guān)系解析器包括邏輯控制器、本體中概念間分類關(guān)系解析器、本體中概念間分類關(guān)系規(guī)則庫、本體中概念間非分類關(guān)系解析器、本體中概念間非分類關(guān)系規(guī)則庫、處理器和解析結(jié)果存儲器,由邏輯控制器接收來自核心本體種子概念篩選器的輸出,本體中概念間分類關(guān)系規(guī)則庫和本體中概念間非分類關(guān)系規(guī)則庫兩者分別與本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者連接,邏輯控制器分別與本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者連接,本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者輸出端依次連接到處理器和解析結(jié)果存儲器,由本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者對本體中概念間關(guān)系進(jìn)行抽取,并把抽取的結(jié)果輸出到處理器中進(jìn)行同步,最終結(jié)果輸出到解析結(jié)果存儲器中保存,進(jìn)行后續(xù)處理。所述的本體中概念間關(guān)系修正器包括名詞短語分析器、WordNet通用本體庫、語義排歧器、自定義規(guī)則庫、關(guān)系修正分析器、修正分析結(jié)果存儲器,名詞短語分析器接收來自本體中概念間關(guān)系解析器的輸出,名詞短語分析器依次與語義排歧器、關(guān)系修正分析器、 修正分析結(jié)果存儲器連接,WordNet通用本體庫分別與名詞短語分析器和語義排歧器連接,自定義規(guī)則庫與關(guān)系修正分析器連接,關(guān)系修正分析器把修正的結(jié)果輸出到修正分析結(jié)果存儲器中保存,進(jìn)行后續(xù)處理。其中修正分析結(jié)果存儲器可用于保存修正分析結(jié)果。名詞短語分析器生成概念集對應(yīng)的短語中心詞,輸入到語義排歧器中進(jìn)行語義排歧和詞義匹配,排歧器的輸出端與自定義規(guī)則庫的輸出端合并后輸入本體中概念間關(guān)系的修正分析器中,并把修正的結(jié)果保存,進(jìn)行后續(xù)處理。所述的評價結(jié)果處理器包括本體評價器、本體構(gòu)建質(zhì)量閾值控制器、形式化表達(dá)轉(zhuǎn)換器、本體構(gòu)建存儲器,由本體評價器接收來自本體中概念間關(guān)系修正器中的輸出,本體評價器依次與形式化表達(dá)轉(zhuǎn)換器和本體構(gòu)建存儲器連接,本體構(gòu)建質(zhì)量閾值控制器與本體評價器連接。其中本體評價器為基于準(zhǔn)確率和召回率綜合分析,本體構(gòu)建質(zhì)量閾值控制器可用于控制本體構(gòu)建質(zhì)量,形式化表達(dá)轉(zhuǎn)換器為基于可擴(kuò)展性標(biāo)記語言(XML)的對構(gòu)建本體進(jìn)行形式化表達(dá),本體構(gòu)建存儲器可用于保存輸出本體構(gòu)建結(jié)果。由本體評價器接收來自本體中概念間關(guān)系修正器中修正分析結(jié)果存儲器中的輸出信息,采用準(zhǔn)確率、召回率和F 指數(shù)等指標(biāo)對輸入進(jìn)行評價分析,把滿足本體構(gòu)建質(zhì)量閾值控制器設(shè)定要求的本體片段輸入到形式化表達(dá)轉(zhuǎn)換器中進(jìn)行基于XML的轉(zhuǎn)換,并把處理完成后的本體輸出到本體構(gòu)建結(jié)果存儲器中進(jìn)行保存。所述的輸出設(shè)備用于輸出構(gòu)建完成的領(lǐng)域本體庫。本發(fā)明的工作原理如下根據(jù)農(nóng)業(yè)領(lǐng)域公開的敘詞表作為格式化數(shù)據(jù)來源通過輸入設(shè)備進(jìn)行輸入。通過領(lǐng)域?qū)<覅⑴c確定該領(lǐng)域本體處理過程中的相關(guān)規(guī)則并保存于規(guī)則庫中。中央處理器中的篩選器基于領(lǐng)域相關(guān)度與一致度綜合的計算方法確立領(lǐng)域核心本體概念集,作為進(jìn)行領(lǐng)域本體擴(kuò)展的基礎(chǔ)。中央處理器中的解析器基于規(guī)則庫中設(shè)定的規(guī)則集合,對本體中概念間分類關(guān)系及非分類關(guān)系進(jìn)行抽取。中央處理器中的修正器基于關(guān)系的模糊性特征,面向通用本體WordNet,內(nèi)置了基于模糊決策樹的規(guī)則學(xué)習(xí),生成及修正關(guān)系的算法,對本體中概念間分類及非分類關(guān)系進(jìn)行修正。通過OWL進(jìn)行領(lǐng)域本體的形式化表達(dá),經(jīng)過評價結(jié)果處理器后輸出領(lǐng)域本體。通過上述方法及裝置,從而達(dá)到將一個在語義上有歧義、缺乏表述能力的敘詞表轉(zhuǎn)換為一個在語義上富有豐富表達(dá)能力又沒有歧義的領(lǐng)域本體并輸出。上述工作原理的實(shí)施有利于增加敘詞表中現(xiàn)有概念和關(guān)系的精確性,有助于減少人工參與程度,提高領(lǐng)域本體構(gòu)建的效率和準(zhǔn)確性。


圖1是基于敘詞表的都市農(nóng)業(yè)領(lǐng)域本體半自動構(gòu)建方法及裝置的總體配置圖;圖2是本發(fā)明中央處理器單元的硬件結(jié)構(gòu)圖;圖3是本發(fā)明核心本體種子概念篩選器的內(nèi)部硬件結(jié)構(gòu)圖;圖4是本發(fā)明本體中概念間關(guān)系解析器的內(nèi)部硬件結(jié)構(gòu)圖;圖5是本發(fā)明本體中概念間關(guān)系修正器的內(nèi)部硬件結(jié)果圖;圖6是本發(fā)明本體評價結(jié)果處理器的內(nèi)部硬件結(jié)構(gòu)圖。
具體實(shí)施例方式以下結(jié)合附圖對本發(fā)明的實(shí)施例作詳細(xì)說明以下實(shí)施例在以本發(fā)明技術(shù)方案為前提下進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。圖1示出了本發(fā)明總體配置圖,本實(shí)施例的裝置包括輸入設(shè)備101、存儲器102、 規(guī)則庫103、中央處理器104、輸出設(shè)備105。輸入設(shè)備101的輸出端與中央處理器連接,中央處理器103與存儲器102的輸出端連接,同時中央處理器103與規(guī)則庫104的輸出端連接,中央處理器103的輸出端與輸出設(shè)備105相連。用戶通過輸入設(shè)備101輸入行業(yè)領(lǐng)域敘詞表、用于生成核心本體的語料庫和通用本體WordNet,同時用戶通過規(guī)則庫103輸入本體中概念間關(guān)系(包括分類關(guān)系與非分類關(guān)系)自定義抽取規(guī)則及本體中概念間關(guān)系(包括分類關(guān)系與非分類關(guān)系)自定義修正規(guī)則。中央處理器104對輸入的信息進(jìn)行行業(yè)領(lǐng)域本體的半自動構(gòu)建,并將最終的評價結(jié)果及形式化表達(dá)的領(lǐng)域本體由輸出設(shè)備105輸出。其中,輸入設(shè)備101要求輸入結(jié)構(gòu)化數(shù)據(jù),可以是多種數(shù)據(jù)源,包括在線字典格式、關(guān)系型數(shù)據(jù)庫格式、XML格式等。儲存器102是硬盤或磁帶機(jī)或其他數(shù)據(jù)存儲設(shè)備,用于儲存輸入設(shè)備所產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)(包括領(lǐng)域基本敘詞表及通用本體)、構(gòu)建運(yùn)算過程中的部分中間結(jié)果及輸出設(shè)備所產(chǎn)生的領(lǐng)域本體庫。規(guī)則庫103是用于保存本體中概念間關(guān)系(包括分類關(guān)系與非分類關(guān)系)自定義抽取規(guī)則及本體中概念間關(guān)系(包括分類關(guān)系與非分類關(guān)系)自定義修正規(guī)則,服務(wù)于領(lǐng)域本體半自動構(gòu)建的運(yùn)算及處理過程。中央處理器104是本發(fā)明核心單元,用于實(shí)現(xiàn)對用戶的輸入進(jìn)行核心本體確立、 概念間關(guān)系抽取、概念間關(guān)系修正、評價構(gòu)建結(jié)果的核心功能。輸出設(shè)備105是系統(tǒng)的輸出裝置,用于實(shí)現(xiàn)向用戶輸出滿足構(gòu)建要求的并做了形式化表達(dá)處理的領(lǐng)域本體庫。圖2示出了本發(fā)明中央處理器104的詳細(xì)內(nèi)部硬件結(jié)構(gòu)圖。本發(fā)明中央處理器104 包括核心本體種子概念篩選器202、本體中概念間關(guān)系解析器203、本體中概念間關(guān)系修正器204和評價結(jié)果處理器205。輸入設(shè)備101的輸出端,與核心本體種子概念篩選器202連接,基于202輸出的種子概念,經(jīng)過循環(huán)迭代獲取概念在語料庫中出現(xiàn)的上下文,通過綜合計算領(lǐng)域相關(guān)度與一致度的方式獲取和更新領(lǐng)域概念并擴(kuò)展核心本體。核心本體構(gòu)建完成后,作為本體中概念間關(guān)系解析器203的輸入,203對概念間分類關(guān)系的抽取采用基于名詞短語詞匯模式匹配規(guī)則,對概念間非分類關(guān)系的抽取基于領(lǐng)域?qū)<叶x規(guī)則。概念間關(guān)系抽取結(jié)果作為本體中概念間關(guān)系修正器204的輸入,204通過面向通用本體庫WordNet實(shí)現(xiàn)了基于模糊決策樹的本體中概念間關(guān)系的修正。構(gòu)建完成的領(lǐng)域本體庫作為評價結(jié)果處理器205的輸入,205 評估構(gòu)建完成的行業(yè)領(lǐng)域本體庫的質(zhì)量并進(jìn)行形式化表達(dá),205的輸出端與輸出設(shè)備105 的輸入端相連,最終通過105將構(gòu)建完成的本體進(jìn)行輸出及展示。圖3示出了本發(fā)明核心本體種子概念篩選器202的內(nèi)部硬件結(jié)構(gòu)圖。其具體結(jié)構(gòu)包括輸入設(shè)備101、選擇器302、過濾器303、本體種子概念質(zhì)量閾值控制器304和核心本體概念集存儲器305。
其中,302接收來自輸入設(shè)備101的輸入的語料庫,由302得到初步選取的核心本體種子概念集,302的輸出端與過濾器303連接,303根據(jù)本體種子概念質(zhì)量閾值控制器304 輸入的閾值對初步選取的核心本體種子概念集進(jìn)行過濾,其輸出端與核心本體概念集存儲器305與連接。選擇器302用于從語料庫中獲取面向行業(yè)領(lǐng)域的核心本體種子概念,種子概念在語料中出現(xiàn)的頻率是選擇的一個重要標(biāo)準(zhǔn),如果種子概念在語料中出現(xiàn)的頻率較低,那么它與目標(biāo)概念之間共現(xiàn)的次數(shù)就更低,因此無法建立起源語言向量空間與目標(biāo)語言向量空間之間的關(guān)系;而如果選擇一個高頻詞作為種子概念,那它與所有目標(biāo)概念都具有較高的共現(xiàn)關(guān)系,這樣就不具有區(qū)分度。選取種子概念要考慮的因素由下式給定 Seed (ffs, Wd) = {(ffs, Wd) | Fsfflin < F (Ws) < Fsmax, Fdfflin < F (Wd) < Fdmax,(ffs, Wd) e D其中,Ws表示源概念,Wd表示目標(biāo)概念,F(xiàn) (W)表示概念W在語料中出現(xiàn)的頻率,F(xiàn)smin 表示源概念種子詞的最小頻率,F(xiàn)smax表示源概念種子詞的最大頻率,F(xiàn)dfflin表示目標(biāo)概念詞的最小頻率,F(xiàn)dfflax表示目標(biāo)概念詞的最大頻率,D表示初始領(lǐng)域敘詞表。篩選得到的種子概念作為302的輸出,進(jìn)行后續(xù)處理。過濾器303用于通過綜合計算領(lǐng)域相關(guān)度與一致度的方式獲取和更新領(lǐng)域核心本體種子概念。通過302的選取,雖然從候選術(shù)語集中除去了常用詞和出現(xiàn)頻率較低的詞, 但集合中還包括一定數(shù)量的和領(lǐng)域無關(guān)的詞,它們常常出現(xiàn)在多個領(lǐng)域文集中但又不在停用詞表中,這時必須對候選術(shù)語集進(jìn)行過濾。過濾候選術(shù)語集的算法是首先確定術(shù)語對特定領(lǐng)域重要程度的量化公式,根據(jù)本體種子概念質(zhì)量閾值控制器304設(shè)定的閾值W,對于每個術(shù)語,如果其量化公式的值大于規(guī)定的閾值W,則該術(shù)語被保留在候選術(shù)語集中。因此,當(dāng)候選術(shù)語t對領(lǐng)域Dk的重要程度為TWt, k時Tfftjk = α DRtjk+β DCtjk ; α , β e (0,1)經(jīng)過多次實(shí)驗(yàn)比較發(fā)現(xiàn),α取值0. 9左右,β的取值0. 25 0. 35之間時,TWt, k 的計算結(jié)果比較接近實(shí)際狀態(tài)。過濾器303計算所得到的核心本體種子概念集作為輸出并存儲于核心本體概念集存儲器305。圖4示出了本發(fā)明本體中概念間關(guān)系解析器204的內(nèi)部硬件結(jié)構(gòu)圖。其具體結(jié)構(gòu)包括核心本體種子概念篩選器202、邏輯控制器402、本體中概念間分類關(guān)系解析器403、 本體中概念間分類關(guān)系規(guī)則庫404、本體中概念間非分類關(guān)系解析器405、本體中概念間非分類關(guān)系規(guī)則庫406、處理器407和解析結(jié)果存儲器408。其中,經(jīng)過核心本體種子概念篩選器202輸入的領(lǐng)域敘詞表經(jīng)過邏輯控制器402, 分別與本體中概念間分類關(guān)系解析器403及本體中概念間非分類關(guān)系解析器405連接。本體中概念分類關(guān)系規(guī)則庫404與本體中概念間非分類關(guān)系規(guī)則庫406則與對應(yīng)的解析器連接。403與405的輸出端與處理器407連接并進(jìn)行本體中概念間關(guān)系的融合處理,結(jié)果輸出到解析結(jié)果存儲器408中。本體中概念間的關(guān)系分為分類關(guān)系(Taxonomic Relation)和非分類關(guān)系 (Non-taxonomic Relation)兩種。分類關(guān)系被廣泛的用于組織本體的知識,許多系統(tǒng)都把上下位關(guān)系(Hyponymy Relation)作為分類關(guān)系來處理。下位/上位關(guān)系也稱為從屬/上屬關(guān)系,子集/全集關(guān)系,一般使用<is-a>關(guān)系進(jìn)行表述。像{Maple}是{Tree}的下位詞,
7{Tree}是{Plant}的下位詞,則:“A Maple is a (kind of) Tree,,。本體中概念間分類關(guān)系解析器403用于對于分類關(guān)系的解析及抽取,采用了基于詞匯的模式O^ttern)匹配的算法進(jìn)行。所謂模式也叫字符串是指那些以字符序列形式出現(xiàn)而且不能將這些字符分成相互獨(dú)立的關(guān)鍵字的一種數(shù)據(jù)。例如,給定一個長度為η的字符串即文本正文Text = {tj (i = 1,2, ... , n),以及另一個長度為m(m彡η)的字符串通常稱為模式I^attern = {Pj} (j = 1,2,...,m),這里的、和Pj是字典表中的字符,{ □ }表示字符集合,要求找出模式在目標(biāo)字符串中首次出現(xiàn)的起始位置(即下標(biāo))。一旦在正文中找到一個模式,則稱它發(fā)生一次匹配。詞匯句法模式的含義可以直觀的從下面的例中看出來設(shè)目標(biāo)串為cdabfdbab,模式串為ab,則模式匹配后查找到目標(biāo)串中與模式串相同的子串的首位置是3和8。由于本發(fā)明中所操作的目標(biāo)字符串(名詞詞組)是從敘詞表中讀取的,因此略去對句法模式算法的分析。對詞匯模式算法的基本思路是首先定義一些模式,應(yīng)用詞匯模式算法在目標(biāo)字符串集合中尋找所定義的模式的關(guān)系。根據(jù)上述原理,本體中概念間分類關(guān)系規(guī)則庫404中定義了中心詞識別規(guī)則、相同中心詞規(guī)則、傳遞性規(guī)則、擴(kuò)展性規(guī)則、縮寫詞規(guī)則等。本體中概念間非分類關(guān)系解析器405用于對于非分類關(guān)系的解析及抽取,采用了基于領(lǐng)域?qū)<叶x規(guī)則的方法進(jìn)行。相對于分類關(guān)系而言,非分類關(guān)系的抽取就比較困難。 如前所述,敘詞表中的關(guān)系表示存在形式化程度不足、關(guān)系表達(dá)含糊等問題,因此,首先需要在領(lǐng)域?qū)<业膸椭?,對敘詞表中存在的盡可能多的關(guān)系進(jìn)行細(xì)化和規(guī)范,并將上述規(guī)則存入本體中概念間非分類關(guān)系規(guī)則庫406中。下面給出一個非分類關(guān)系規(guī)則及應(yīng)用的實(shí)例。M :If X and Y are marked as "Τ*" in the concept type field, and X BT Y then X<subclassOf>Y ;例如,AGR0V0C中的關(guān)系類型Rosaceae和Malus都是TP類,而且它們由BT關(guān)聯(lián), 那么原來的關(guān)系 Malus BT Rosaceae 自動轉(zhuǎn)換成 Malus<subclassOf>Rosaceae。處理器407將通過403及405解析得到的概念間關(guān)系進(jìn)行融合,將結(jié)果輸出至結(jié)果解析結(jié)果存儲器408。圖5示出了本發(fā)明本體中概念間關(guān)系修正器204的內(nèi)部硬件結(jié)構(gòu)圖。其具體結(jié)構(gòu)包括本體中概念間關(guān)系解析器203、名詞短語分析器502、WordNet通用本體庫503、語義排歧器504、自定義規(guī)則庫505、本體中概念間關(guān)系修正分析器506和修正分析結(jié)果存儲器 507。其中,名詞短語分析器502接收來自本體中概念間關(guān)系解析器203的輸入,由502 生成相應(yīng)的短語中心詞,502的輸出端與WordNet通用本體庫503的輸出端合并后輸入語義排歧器504進(jìn)行語義排歧和詞義匹配。同時,規(guī)則庫505存儲由領(lǐng)域?qū)<抑贫ǖ淖远x的關(guān)系修正規(guī)則。504與505輸出端合并后輸入本體中概念間關(guān)系修正分析器506,506的輸出端與修正分析結(jié)果存儲器507連接。名詞短語分析器502用于進(jìn)行短語分析,抽取中心詞。以AGR0V0C敘詞表為例, 領(lǐng)域?qū)<铱梢詫Υ嬖诘牟糠指拍顚M(jìn)行更為明確的關(guān)系定義,并引入WordNet進(jìn)行詞義標(biāo)注。例如,概念"Mutton,,和“She印”可以被定義為Mutton#l<madeFrom>She印#1, 其中概念的“#id”參照WordNet中的詞義說明。對于出現(xiàn)的復(fù)合名詞,例如,概念“Rice”和“Rice Flour",我們在定義關(guān)系的時候只提取其中心詞,可以被定義為 Rice#l<usedToMake>Flour#lο語義排歧器504用于根據(jù)WordNet通用本體庫的查詢結(jié)果,基于重合路徑的相似度計算方法,對不同的詞義對應(yīng)不同的層次關(guān)系和路徑進(jìn)行排歧。給出計算公式如下所示
權(quán)利要求
1.一種本體半自動信息抽取處理裝置,其特征在于,包括輸入設(shè)備、存儲器、規(guī)則庫、 中央處理器及輸出設(shè)備,其中,輸入設(shè)備、規(guī)則庫的輸出端與中央處理器連接,中央處理器與存儲器通過數(shù)據(jù)總線連接,中央處理器的輸出端與輸出設(shè)備連接,用戶通過輸入設(shè)備輸入領(lǐng)域敘詞表及通用本體,并在規(guī)則庫中保存領(lǐng)域?qū)<易远x規(guī)則;中央處理器包括核心本體種子概念篩選器、本體中概念間關(guān)系解析器、本體中概念間關(guān)系修正器、評價結(jié)果處理器,并依次連接在輸入設(shè)備與輸出設(shè)備之間;所述的中央處理器對用戶的輸入進(jìn)行核心本體準(zhǔn)則確立、概念間關(guān)系抽取、概念間關(guān)系修正、構(gòu)建結(jié)果評價、構(gòu)建結(jié)果形式化的核心功能,中央處理器對輸入敘詞表進(jìn)行領(lǐng)域本體半自動構(gòu)建的結(jié)果作為顯式規(guī)格的本體通過輸出設(shè)備進(jìn)行輸出及表達(dá)。
2.根據(jù)權(quán)利要求1所述的本體半自動信息抽取處理裝置,其特征是,所述的核心本體種子概念篩選器包括選擇器、本體種子概念質(zhì)量閾值控制器、過濾器和核心本體概念集存儲器,輸入設(shè)備連接到選擇器,輸入語料庫信息,選擇器、過濾器和核心本體概念集存儲器依次連接,本體種子概念質(zhì)量閾值控制器的輸出端與過濾器連接,過濾器按照本體種子概念質(zhì)量閥值控制器的設(shè)定要求,對選定的種子概念集進(jìn)行過濾,同時把過濾后的結(jié)果輸出到核心本體概念集存儲器中,進(jìn)行后續(xù)處理。
3.根據(jù)權(quán)利要求1所述的本體半自動信息抽取處理裝置,其特征是,所述的本體中概念間關(guān)系解析器包括邏輯控制器、本體中概念間分類關(guān)系解析器、本體中概念間分類關(guān)系規(guī)則庫、本體中概念間非分類關(guān)系解析器、本體中概念間非分類關(guān)系規(guī)則庫、處理器和解析結(jié)果存儲器,由邏輯控制器接收來自核心本體種子概念篩選器的輸出,本體中概念間分類關(guān)系規(guī)則庫和本體中概念間非分類關(guān)系規(guī)則庫兩者分別與本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者連接,邏輯控制器分別與本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者連接,本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者輸出端依次連接到處理器和解析結(jié)果存儲器,由本體中概念間分類關(guān)系解析器和本體中概念間非分類關(guān)系解析器兩者對本體中概念間關(guān)系進(jìn)行抽取, 并把抽取的結(jié)果輸出到處理器中進(jìn)行同步,最終結(jié)果輸出到解析結(jié)果存儲器中保存,進(jìn)行后續(xù)處理。
4.根據(jù)權(quán)利要求1所述的本體半自動信息抽取處理裝置,其特征是,所述的本體中概念間關(guān)系修正器包括名詞短語分析器、WordNet通用本體庫、語義排歧器、自定義規(guī)則庫、 關(guān)系修正分析器、修正分析結(jié)果存儲器,名詞短語分析器接收來自本體中概念間關(guān)系解析器的輸出,名詞短語分析器依次與語義排歧器、關(guān)系修正分析器、修正分析結(jié)果存儲器連接,WordNet通用本體庫分別與名詞短語分析器和語義排歧器連接,自定義規(guī)則庫與關(guān)系修正分析器連接,關(guān)系修正分析器把修正的結(jié)果輸出到修正分析結(jié)果存儲器中保存,進(jìn)行后續(xù)處理。
5.根據(jù)權(quán)利要求1所述的本體半自動信息抽取處理裝置,其特征是,所述的評價結(jié)果處理器包括本體評價器、本體構(gòu)建質(zhì)量閾值控制器、形式化表達(dá)轉(zhuǎn)換器、本體構(gòu)建存儲器, 由本體評價器接收來自本體中概念間關(guān)系修正器中的輸出,本體評價器依次與形式化表達(dá)轉(zhuǎn)換器和本體構(gòu)建存儲器連接,本體構(gòu)建質(zhì)量閾值控制器與本體評價器連接。
全文摘要
一種信息處理技術(shù)領(lǐng)域的本體半自動信息抽取處理裝置。包括輸入設(shè)備、存儲器、規(guī)則庫、中央處理器及輸出設(shè)備,其中,輸入設(shè)備、規(guī)則庫的輸出端與中央處理器連接,中央處理器與存儲器通過數(shù)據(jù)總線連接,中央處理器的輸出端與輸出設(shè)備連接,用戶通過輸入設(shè)備輸入領(lǐng)域敘詞表及通用本體,并在規(guī)則庫中保存領(lǐng)域?qū)<易远x規(guī)則;中央處理器對用戶的輸入進(jìn)行核心本體準(zhǔn)則確立、概念間關(guān)系抽取、概念間關(guān)系修正、構(gòu)建結(jié)果評價、構(gòu)建結(jié)果形式化的核心功能,對輸入敘詞表進(jìn)行領(lǐng)域本體半自動構(gòu)建的結(jié)果作為顯式規(guī)格的本體通過輸出設(shè)備進(jìn)行輸出及表達(dá)。本發(fā)明增加敘詞表中現(xiàn)有概念和關(guān)系的精確性,減少人工參與程度,提高領(lǐng)域本體構(gòu)建的效率和準(zhǔn)確性。
文檔編號G06F17/30GK102243649SQ20111015047
公開日2011年11月16日 申請日期2011年6月7日 優(yōu)先權(quán)日2011年6月7日
發(fā)明者周培, 彭勇政, 支月娥, 李強(qiáng), 肖杭, 蔣磷蕾, 詹學(xué)佳 申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
忻城县| 修文县| 星子县| 江都市| 鹤庆县| 板桥市| 房产| 精河县| 新泰市| 金坛市| 汉沽区| 荃湾区| 永清县| 静安区| 天等县| 鸡泽县| 若羌县| 石阡县| 凤山市| 绥芬河市| 通榆县| 丰都县| 托里县| 雅安市| 固阳县| 长海县| 嫩江县| 辉县市| 黑龙江省| 武强县| 磐石市| 会东县| 禹城市| 沿河| 澎湖县| 大港区| 博野县| 嵊泗县| 宜都市| 双鸭山市| 库伦旗|