欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)及方法

文檔序號:6583880閱讀:242來源:國知局
專利名稱:一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)及方法
技術領域
本發(fā)明涉及Web文本特征抽取,尤其涉及一種面向e-Science環(huán)境的多領域Web 文本特征抽取系統(tǒng)及方法。
背景技術
Khaled Khelif(2007)提出了一種基于本體的信息抽取方法,意在幫助生物學家 更為有效地獲取專業(yè)知識。該方法依賴于對科技文獻的語義標注,自動生成領域本體并提 供相應信息檢索接口。Tara Mcintosh(2007)針對傳統(tǒng)基于文獻摘要分析方法的不足,提 出了一種面向生物醫(yī)學領域的全文信息抽取系統(tǒng)。Ziya Ozkan Gokturk和Nihan Kesim Cicekli等人(2007)借助網絡爬蟲技術,利用預先設定的正則表達式實現(xiàn)Web頁面元數(shù) 據的抽取與分類。實驗中以歐洲杯及歐洲冠軍聯(lián)賽為例,定時下載指定體育站點信息,抽 取賽事信息元數(shù)據,進而挖掘最新體育發(fā)生的賽事。Rodney D. Nielsen和Wayne Ward等 人(2008)結合自動教學領域的實際需求,提出了一種文本語義表示方法并進一步證明了 其有效性。Veronica Dahl和Baohua Gu(2006)描述了一種用于分析生物醫(yī)學概念及其 關聯(lián)的文本處理方法。該方法將不同醫(yī)學概念的語義特性及其在表達方面的語法約束作 為分類標準,實現(xiàn)特征短語抽取同時,提高了對于不規(guī)則文本的容錯能力。B. Martins和 H. Manguinhas等人(2009)針對地理信息系統(tǒng)中元數(shù)據表示不規(guī)范現(xiàn)象(例如數(shù)據不完 整或機器不可讀),引入了一種基于時間表示的信息抽取系統(tǒng)。該系統(tǒng)借助Web地名詞典, 使用相對簡單的信息抽取方法獲取地理時間信息,通過將地理時間與空間信息相互結合, 更加全面描述地理信息元數(shù)據。Honglei Guo和Huijia Zhu (2009)提出了一種基于語義關 聯(lián)分析的命名實體檢測系統(tǒng)。系統(tǒng)通過挖掘詞語間的潛在語義關聯(lián),有效克服了不同領域 間數(shù)據分布差異,從而促進了實體識別的精度。Rajib Verma(2009)將Web文本挖掘技術用 于互聯(lián)網用戶情感分析,為金融、客戶關系以及商業(yè)等領域多種復雜應用提供數(shù)據支撐?,F(xiàn)有的基于領域的信息抽取方法多依賴領域詞典實現(xiàn)文本特征的發(fā)現(xiàn),既不便于 實驗復現(xiàn),也不易于其在多領域環(huán)境中移植與推廣,嚴重制約了中文信息抽取系統(tǒng)的應用 范圍。在分析過程中多依賴于領域詞典或標注詞集的輔助,雖能有效改善具體領域特征的 抽取精度,卻無法滿足多領域信息抽取在系統(tǒng)可移植性方面的實際需求。下面說明本發(fā)明的相關術語e-Science環(huán)境^-Science是一種信息化的基礎設施,它提供了一種信息化的科 學研究環(huán)境和平臺,使得不同學科領域的研究和科研活動能夠有針對性地開發(fā)特定的科學 研究與應用,應用是e-Science的主軸。特征發(fā)現(xiàn)依據某種方法或推理發(fā)現(xiàn)某類事物的共有特征,在本發(fā)明中,是指抽取 某些或某類話題的共有屬性。多領域數(shù)據模型能夠應用于多個領域的數(shù)據模型,即對文本數(shù)據的特征抽象,是 基于多個領域進行的,是適用于多個應用領域的。
Web文本挖掘Web文本挖掘是指從大量Web文檔的集合C中發(fā)現(xiàn)隱含的模式P。 如果將C看作輸入,將P看作輸出的話,那么Web文本挖掘的過程就是從輸入到輸出的一個 映射ξ =C-P0即針對網絡文本信息,應用Web挖掘和數(shù)據挖掘的方法,抽取潛在的感興 趣的主題或話題,以及針對文本信息的情感傾向性分析。

發(fā)明內容
為了解決上述的技術問題,提供了一種面向e-Science環(huán)境的多領域Web文本特 征抽取系統(tǒng)及方法,其目的在于,將無詞典分詞技術引入多領域文本特征發(fā)現(xiàn)過程,擺脫對 于領域詞典的依賴;借助對領域主題及其具體事件中共性與個性特征的抽取與分類,動態(tài) 追蹤領域事件發(fā)生及其發(fā)展變化,并最終形成多個區(qū)域性數(shù)據中心;通過對各數(shù)據中心中 領域知識的協(xié)同調度,來提高領域信息在全局范圍內的利用效率。。本發(fā)明提供了一種面向e-Science環(huán)境的多領域Web文本特征抽取方法,包括步驟1,統(tǒng)計目標文本中的字符頻度;步驟2,以字符為基本處理單位,逐一抽取以該字符為起點,以頻度為1的字符為 終點間的字符串;步驟3,統(tǒng)計每個字符串出現(xiàn)頻度,按照出現(xiàn)頻度對特征詞串進行降序排列并輸
出ο對目標樣本集執(zhí)行步驟1-步驟3,以產生知識庫供目標文本使用。步驟2中,將停用字符集中的字符的頻度保持為1 ;停用字符集,用于存儲所有標 點符號以及無實意的助詞輔助分詞。步驟2中還記錄字符串的長度;步驟3中,對于頻度相同的字符串,優(yōu)先輸出長度 較長的字符串。步驟3中,對于具有包含關系的字符串,子集字符串頻度加1 ;而對于相同字符串, 字符串頻度加1,并去除重復。還包括步驟4,將輸出的字符串作為輸入條件,利用TF-IDF方法對測試樣本集中 共性特征及個性特征予以分類。還包括步驟5,利用資源描述框架對各區(qū)域領域數(shù)據中心中局部高頻或新發(fā)現(xiàn)的 主題事件以案例抽象表示;該抽象表示包括案例主體、案例客體和謂詞,謂詞表示案例主體 與案例客體間的二元關系。還包括步驟6,基于對各區(qū)域性數(shù)據中心中確定事件的案例表示,對各區(qū)域領域 數(shù)據中心中局部監(jiān)控節(jié)點中滿足一定發(fā)生頻度的案例進行協(xié)同調度。步驟6包括 步驟61,定時遍歷發(fā)送監(jiān)控節(jié)點中所有確定事件案例,挖掘總發(fā)生頻度或單位時 間間隔內發(fā)生頻度滿足預先設定閾值的領域事件,以廣播的形式向其他節(jié)點發(fā)送區(qū)域性領 域案例;步驟62,目標節(jié)點接收區(qū)域性領域案例后,檢測目標案例庫中是否存在區(qū)域性領 域案例所屬領域主題;若存在,則進一步遍歷該主題下所有領域事件,查找與區(qū)域性領域案 例相似事件案例;其中對于相似的領域案例,合并其特征詞匯并更新案例β發(fā)生頻度,反 之,則向該主題添加新領域事件;若目標案例庫中不存在任意主題符合區(qū)域性領域案例,則為該區(qū)域性領域案例創(chuàng)建新的主題。
本發(fā)明提供了一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng),包括字符頻度統(tǒng)計模塊,用于統(tǒng)計目標文本中的字符頻度;字符串抽取模塊,用于以字符為基本處理單位,逐一抽取以該字符為起點,以頻度 為1的字符為終點間的字符串;字符串頻度統(tǒng)計和輸出模塊,用于統(tǒng)計每個字符串出現(xiàn)頻度,按照出現(xiàn)頻度對特 征詞串進行降序排列并輸出。字符頻度統(tǒng)計模塊、字符串抽取模塊和字符串頻度統(tǒng)計和輸出模塊處理目標樣本 集,以產生知識庫供目標文本使用。字符串抽取模塊,還用于將停用字符集中的字符的頻度保持為1 ;停用字符集,用 于存儲所有標點符號以及無實意的助詞輔助分詞。字符串抽取模塊,還用于記錄字符串的長度;字符串頻度統(tǒng)計和輸出模塊,還用于 對于頻度相同的字符串,優(yōu)先輸出長度較長的字符串。字符串頻度統(tǒng)計和輸出模塊,還用于對于具有包含關系的字符串,子集字符串頻 度加1 ;而對于相同字符串,字符串頻度加1,并去除重復。還包括主題特征動態(tài)追蹤模塊,用于將輸出的字符串作為輸入條件,利用TF-IDF 方法對測試樣本集中共性特征及個性特征予以分類。還包括領域案例特征表示模塊,用于利用資源描述框架對各區(qū)域領域數(shù)據中心中 局部高頻或新發(fā)現(xiàn)的主題事件以案例抽象表示;該抽象表示包括案例主體、案例客體和謂 詞,謂詞表示案例主體與案例客體間的二元關系。還包括領域案例協(xié)同調度,用于基于對各區(qū)域性數(shù)據中心中確定事件的案例表 示,對各區(qū)域領域數(shù)據中心中局部監(jiān)控節(jié)點中滿足一定發(fā)生頻度的案例進行協(xié)同調度。領域案例協(xié)同調度,用于定時遍歷發(fā)送監(jiān)控節(jié)點中所有確定事件案例,挖掘總發(fā) 生頻度或單位時間間隔內發(fā)生頻度滿足預先設定閾值的領域事件,以廣播的形式向其他節(jié) 點發(fā)送區(qū)域性領域案例;目標節(jié)點接收區(qū)域性領域案例后,檢測目標案例庫中是否存在區(qū) 域性領域案例所屬領域主題;若存在,則進一步遍歷該主題下所有領域事件,查找與區(qū)域性 領域案例相似事件案例;其中對于相似的領域案例,合并其特征詞匯并更新案例β發(fā)生頻 度,反之,則向該主題添加新領域事件;若目標案例庫中不存在任意主題符合區(qū)域性領域案 例,則為該區(qū)域性領域案例創(chuàng)建新的主題。傳統(tǒng)面向領域的信息抽取系統(tǒng)多依賴領域詞典或標注詞庫實現(xiàn)文本特征的挖掘, 本發(fā)明針對這一不足提出了一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)及方 法。本發(fā)明將無詞典分詞技術引入領域文本的特征發(fā)現(xiàn),有效擺脫了傳統(tǒng)方法對于領域詞 典的依賴,一定程度上增強了本發(fā)明在多領域科學數(shù)據中的移植性和實用價值。通過對領 域主題及其所蘊含具體事件的特征分類,本發(fā)明定時抽取領域事件特征,挖掘不同時段的 特征詞匯,從而實現(xiàn)對領域事件發(fā)生及發(fā)展趨勢的追蹤,并逐步形成多個區(qū)域性多領域數(shù) 據中心,為滿足科研工作者的多種應用需求提供了良好的數(shù)據原型。為了進一步提高領域 知識在全局范圍內的利用效率,本發(fā)明對各數(shù)據中心中高頻事件予以案例抽象表示,借助 對各數(shù)據中心中領域事件案例的周期性調度,實現(xiàn)多領域信息的協(xié)同與共享。驗證試驗中 大規(guī)模采集“中文全文期刊數(shù)據庫”中科技文獻摘要作為測試語料,分別通過多領域文本特征抽取(準確率74. 2%,召回率71. 5%,F(xiàn)-指標72. 82% )、主題特征追蹤以及領域知識協(xié) 同調度三個方面進行原型驗證,證明了所用技術的合理性和實用價值。


圖1是面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)整體架構圖;圖2是主題特征發(fā)現(xiàn)與追蹤流程圖;圖3是基于RDF的區(qū)域性領域知識案例表示實例。
具體實施例方式下面結合附圖,對本發(fā)明做進一步的詳細描述。面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)在設計過程中重點考慮以下 三個方面第一、擺脫領域詞典的依賴。多數(shù)中文信息抽取系統(tǒng)中領域詞典的作用在于切分 文本,為特征發(fā)現(xiàn)進行數(shù)據預處理。但是由于其在數(shù)量和更新速度方面的局限性,嚴重制約 了中文信息抽取系統(tǒng)對新事件以及最新領域詞匯的發(fā)現(xiàn)能力,不利于中文信息抽取系統(tǒng)移 植與推廣。無詞典分詞技術的引入,將有效提高中文信息抽取系統(tǒng)的知識學習能力,更加適 用于多領域文本的特征抽取與發(fā)現(xiàn)。第二、追蹤事件特征的發(fā)展趨勢。任何一種事件的存 在都不可能一成不變,伴隨著領域知識的發(fā)展,事件特征往往會不斷更新。面向e-Science 環(huán)境的多領域Web文本特征抽取系統(tǒng)在檢測事件特征同時,兼顧對特征發(fā)展趨勢的追蹤, 回溯當前特征根源,為多種應用服務(例如事件關聯(lián)分析、領域知識脈絡挖掘等)提供詳實 的數(shù)據支撐。第三、促進領域知識的共享。e-Science的立意之本在于更為有效地促進眾多 專家、學者對科學數(shù)據的協(xié)同與共享。面向e-Science環(huán)境的多領域Web文本特征抽取系 統(tǒng)結合用戶實際需求,建立多個局部領域數(shù)據中心,通過協(xié)同調度各中心最新領域信息,以 此擴大本發(fā)明對于局部突發(fā)事件在全局范圍內的檢測速度及知識利用率。面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)整體架構如圖1所示。面向 e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)由多領域Web文本特征發(fā)現(xiàn)、主題特征動態(tài) 追蹤以及領域知識的協(xié)同與共享三部分組成。特征發(fā)現(xiàn)與抽取過程中,領域專家可根據實 際需要提供目標文本,面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)抽取并選取具 有相似特征Web文本。通過主題特征的不斷更新,面向e-Science環(huán)境的多領域Web文本 特征抽取系統(tǒng)動態(tài)追蹤各領域主題特征變化趨勢并逐步形成區(qū)域性多領域數(shù)據中心。另一 方面,面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)對各局部數(shù)據中心主題特征予 以案例抽象,協(xié)同調度最新領域特征,促進領域知識在全局范圍內的發(fā)現(xiàn)與共享。下面介紹e-Science環(huán)境下Web文本特征發(fā)現(xiàn)與抽取。1)多領域Web文本特征發(fā)現(xiàn)不同于英文,人們以空格作為切分詞語的標識符。中文作為一種源于象形文字的 語言表達形式,每個字符都可能具有獨立的含義,詞語間沒有明顯的分隔標志,必須借助中 文分詞技術以此實現(xiàn)中文詞語自動切分?;谏鲜鲈颍蠖鄶?shù)領域文本特征抽取系統(tǒng)依 賴領域詞典,對目標文本進行分詞處理。這種方法簡單,能夠很好地應用于具體領域文本特 征發(fā)現(xiàn)與抽取,但由于領域詞典自身知識結構及更新速度等方面的局限性,不易于多領域 環(huán)境下推廣和移植。
面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)將無詞典分詞技術引入Web文本的特征發(fā)現(xiàn),以適應多領域環(huán)境實際應用需求。這里給定目標文本T,領域專家提供的 目標樣本集SampleD。main(注這里只提供目標主題樣本,而不是具體的領域詞典,這將極大 提高領域專家使用的靈活性,降低應用復雜度)。FreqList和SplitWordsList用于記錄目 標文本每個字符出現(xiàn)頻率及分詞結果。α i和β」分別表示FreqList和SplitWordsList中 第 i 個元素。其中 α i = <Char, Freq>, β」=〈Word,F(xiàn)req, Length〉。TList 為目標文本 T 最終輸出的特征詞串。為了進一步提高分詞準確率,面向e-Science環(huán)境的多領域Web文 本特征抽取系統(tǒng)設置了一個停用字符集StopCharacterList,用于存儲所有標點符號以及 一些無實意的助詞輔助分詞。具體細節(jié)如表2所示。步驟1中,面向e-Science環(huán)境的多 領域Web文本特征抽取系統(tǒng)首先統(tǒng)計文本T中字符頻率,為后續(xù)詞語切分做準備。然而對 于停用集中所出現(xiàn)的字符,始終保持頻度為1。步驟2以字符為基本處理單位,逐一抽取以 該字符為起點,以頻度為1的字符為終點間的字符串,并記錄其長度。步驟3統(tǒng)計每個字符 串出現(xiàn)頻度。對于具有包含關系的字符串,子集詞串頻度加1 ;而對于兩相同字符串,字串 頻度加1,并去除重復。最后按照出現(xiàn)頻度及其長度對特征詞串進行降序排列。當兩詞串具 有相同頻度,優(yōu)先輸出長度較長者。FreqList記錄目標文本中所有字符以及其出現(xiàn)頻率; SplitWordsList用于記錄經過中文分詞后的目標文本,包括詞、詞頻以及詞長。char,freq 分別表示測試文本中的出現(xiàn)的字符以及該字符出現(xiàn)的頻率;word,freq, Length則表示測 試文本在經過中文分詞處理后,所包含的詞語,頻度以及該詞語的長度。領域專家提供的目標樣本集,用于訓練本發(fā)明提供的系統(tǒng),并產生初步的知識庫。 目標文本T則是最終測試目標,它需要借助訓練產生的知識庫。訓練知識庫是為了便于找 到可能相似事件,以提高處理速度。表2多領域Web文本特征抽取方法
權利要求
1.一種面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征在于,包括步驟1,統(tǒng)計目標文本中的字符頻度;步驟2,以字符為基本處理單位,逐一抽取以該字符為起點,以頻度為1的字符為終點 間的字符串;步驟3,統(tǒng)計每個字符串出現(xiàn)頻度,按照出現(xiàn)頻度對特征詞串進行降序排列并輸出。
2.如權利要求1所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,對目標樣本集執(zhí)行步驟1-步驟3,以產生知識庫供目標文本使用。
3.如權利要求1所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,步驟2中,將停用字符集中的字符的頻度保持為1 ;停用字符集,用于存儲所有標點符 號以及無實意的助詞輔助分詞。
4.如權利要求1所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,步驟2中還記錄字符串的長度;步驟3中,對于頻度相同的字符串,優(yōu)先輸出長度較長 的字符串。
5.如權利要求1所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,步驟3中,對于具有包含關系的字符串,子集字符串頻度加1 ;而對于相同字符串,字 符串頻度加1,并去除重復。
6.如權利要求1所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,還包括步驟4,將輸出的字符串作為輸入條件,利用TF-IDF方法對測試樣本集中共性 特征及個性特征予以分類。
7.如權利要求6所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,還包括步驟5,利用資源描述框架對各區(qū)域領域數(shù)據中心中局部高頻或新發(fā)現(xiàn)的主題 事件以案例抽象表示;該抽象表示包括案例主體、案例客體和謂詞,謂詞表示案例主體與案 例客體間的二元關系。
8.如權利要求7所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,還包括步驟6,基于對各區(qū)域性數(shù)據中心中確定事件的案例表示,對各區(qū)域領域數(shù) 據中心中局部監(jiān)控節(jié)點中滿足一定發(fā)生頻度的案例進行協(xié)同調度。
9.如權利要求8所述的面向e-Science環(huán)境的多領域Web文本特征抽取方法,其特征 在于,步驟6包括步驟61,定時遍歷發(fā)送監(jiān)控節(jié)點中所有確定事件案例,挖掘總發(fā)生頻度或單位時間間 隔內發(fā)生頻度滿足預先設定閾值的領域事件,以廣播的形式向其他節(jié)點發(fā)送區(qū)域性領域案 例;步驟62,目標節(jié)點接收區(qū)域性領域案例后,檢測目標案例庫中是否存在區(qū)域性領域案 例所屬領域主題;若存在,則進一步遍歷該主題下所有領域事件,查找與區(qū)域性領域案例相 似事件案例;其中對于相似的領域案例,合并其特征詞匯并更新案例β發(fā)生頻度,反之,則 向該主題添加新領域事件;若目標案例庫中不存在任意主題符合區(qū)域性領域案例,則為該 區(qū)域性領域案例創(chuàng)建新的主題。
10.一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng),其特征在于,包括字符頻度統(tǒng)計模塊,用于統(tǒng)計目標文本中的字符頻度;字符串抽取模塊,用于以字符為基本處理單位,逐一抽取以該字符為起點,以頻度為1的字符為終點間的字符串;字符串頻度統(tǒng)計和輸出模塊,用于統(tǒng)計每個字符串出現(xiàn)頻度,按照出現(xiàn)頻度對特征詞 串進行降序排列并輸出。
全文摘要
本發(fā)明涉及一種面向e-Science環(huán)境的多領域Web文本特征抽取系統(tǒng)及方法。該方法包括步驟1,統(tǒng)計目標文本中的字符頻度;步驟2,以字符為基本處理單位,逐一抽取以該字符為起點,以頻度為1的字符為終點間的字符串;步驟3,統(tǒng)計每個字符串出現(xiàn)頻度,按照出現(xiàn)頻度對特征詞串進行降序排列并輸出。本發(fā)明將無詞典分詞技術引入領域文本的特征發(fā)現(xiàn),有效擺脫了傳統(tǒng)方法對于領域詞典的依賴,一定程度上增強了本發(fā)明在多領域科學數(shù)據中的移植性和實用價值。
文檔編號G06F17/30GK102073647SQ20091022352
公開日2011年5月25日 申請日期2009年11月23日 優(yōu)先權日2009年11月23日
發(fā)明者翁彧, 胡長軍, 趙沖沖, 趙立永 申請人:北京科技大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
济南市| 华池县| 台安县| 封丘县| 渭源县| 密山市| 扎兰屯市| 谢通门县| 深圳市| 香港 | 湖南省| 团风县| 阜南县| 平和县| 新宁县| 肃北| 盖州市| 安福县| 密云县| 南昌市| 开远市| 阜新| 旌德县| 汉源县| 通州市| 靖江市| 丰镇市| 泽州县| 镇坪县| 缙云县| 河间市| 中宁县| 白水县| 监利县| 崇礼县| 洛扎县| 罗田县| 大方县| 保德县| 灵武市| 霍林郭勒市|