欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于owl語義分析的定向采集系統(tǒng)的制作方法

文檔序號:6433960閱讀:210來源:國知局
專利名稱:基于owl語義分析的定向采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于計算機技術(shù)領(lǐng)域,尤其涉及一種基于OWL語義分析的定向采集系統(tǒng)。
背景技術(shù)
定向采集系統(tǒng)是網(wǎng)絡(luò)蜘蛛的一種,它是網(wǎng)絡(luò)數(shù)據(jù)獲取系統(tǒng)的核心部分。它通過對互聯(lián)網(wǎng)上已知信息源(即網(wǎng)絡(luò)鏈接,URL: Universal Resource Locator)的不斷抓取海量網(wǎng)頁內(nèi)容,獲取其中所有主題相關(guān)內(nèi)容。這就要求計算機能夠在全互聯(lián)網(wǎng)的范圍內(nèi)識別、找到相應的網(wǎng)頁,并能夠“看懂”該網(wǎng)頁,把有關(guān)的內(nèi)容提取出來。但是,目前業(yè)界絕大部分廠家主要采用傳統(tǒng)的關(guān)鍵詞匹配和網(wǎng)頁內(nèi)容提取的數(shù)學算法,定向采集系統(tǒng)的智能化水平非常有限。到目前為止,計算機只能通過HTML、XML協(xié)議讀懂網(wǎng)絡(luò)文本的格式,文本究竟代表什么意思,計算機并不知曉。對網(wǎng)絡(luò)內(nèi)容最原始,但很有效的應用工具就是關(guān)鍵詞匹配。為了進一步分析網(wǎng)頁內(nèi)容,科學家們發(fā)明了互聯(lián)網(wǎng)資源描述框架(Resources Description Framework,即RDF)作為XML協(xié)議描述元數(shù)據(jù)的語言。RDF可以對網(wǎng)頁內(nèi)容做一些概念化的抽象,因此為計算機識別一些特定的網(wǎng)絡(luò)內(nèi)容提供了基礎(chǔ)。沿著同樣的思路發(fā)展到今天, 網(wǎng)絡(luò)本體語言(Ontology Web Language,即0WL)誕生了,而且成為世界互聯(lián)網(wǎng)組織W3C的標準。OWL是一個由簡單到復雜的概念描述工具,計算機可以根據(jù)OWL完成各種推理,因此, 對于用OWL寫的網(wǎng)頁,計算機是“讀得懂”的,即可以對該網(wǎng)頁的內(nèi)容進行分析推理。但是,使用OWL寫的網(wǎng)頁還很少,絕大部分海量信息都是HTML或XML格式的普通網(wǎng)頁;另外,使用OWL構(gòu)造一個復雜概念體系的成本很高,可操作性很差,遠沒有達到普通人平常寫文章那樣方便的操作水平;就算有一些OWL網(wǎng)頁了,針對這些網(wǎng)頁的計算機推理程序還需要一個一個的開發(fā),因而,使用OWL構(gòu)造一個新的海量信息互聯(lián)網(wǎng)幾乎不可能。不過,OWL畢竟為我們提供了一個世界標準的網(wǎng)絡(luò)本體描述工具,以此做成內(nèi)容過濾“網(wǎng)”對普通HTML、XML或RDF文本進行分析,提取網(wǎng)頁內(nèi)容還是可能的。如何利用OWL 使得定向采集主題(關(guān)鍵詞組)有一個更概念化和延伸的描述,針對特定的信息源使用特定的OWL “過濾網(wǎng)”來實現(xiàn)去粗取精,去偽存真、由表及里、由此及彼的推理。這是傳統(tǒng)定向采集系統(tǒng)所不具備的。

發(fā)明內(nèi)容
本發(fā)明為解決上述問題,提供一種更加智能的基于OWL語義分析的定向采集系統(tǒng)。本發(fā)明的技術(shù)方案是提供一種基于OWL語義分析的定向采集系統(tǒng),其包括采集配置客戶端、任務調(diào)度管理模塊、定向采集執(zhí)行端和采集數(shù)據(jù)管理模塊,所述采集配置客戶端根據(jù)用戶設(shè)定輸出采集主題和初始URL,并將所述初始URL保存在URL種子數(shù)據(jù)庫中,其特征在于所述定向采集執(zhí)行端采集所述URL種子數(shù)據(jù)庫中所有URL對應的網(wǎng)頁,并將其輸出到所述任務調(diào)度管理模塊和采集數(shù)據(jù)管理模塊,所述任務調(diào)度管理模塊對該網(wǎng)頁進行OWL 本體實例轉(zhuǎn)換后獲取其中所有的與所述采集主題相關(guān)的URL,并將其保存到所述URL種子數(shù)據(jù)庫中。優(yōu)選的,所述任務調(diào)度管理模塊對網(wǎng)頁進行OWL本體實例轉(zhuǎn)換的工作流程為
1)將所述定向采集執(zhí)行端采集到的網(wǎng)頁轉(zhuǎn)換成HTML格式或XML格式的格式文本;
2)對上一步驟中提取的格式文本進行過濾處理,提取其中的正文;
3)對上一步驟中提取的正文進行分詞、排歧、去重和語法標注處理;
4)根據(jù)預先設(shè)計好的OWL轉(zhuǎn)換規(guī)則將上一步驟中處理后的正文轉(zhuǎn)換成OWL本體實例。優(yōu)選的,其還包括OWL本體策略配置模塊,所述OWL本體策略配置模塊負責維護所述OWL轉(zhuǎn)換規(guī)則。優(yōu)選的,其還包括OWL內(nèi)容提取模塊,所述OWL內(nèi)容提取模塊對所述定向采集執(zhí)行端采集的網(wǎng)頁進行OWL本體實例轉(zhuǎn)換后提取其中所有的與所述采集主題相關(guān)的內(nèi)容,并將其保存到采集結(jié)果數(shù)據(jù)庫中。優(yōu)選的,所述OWL內(nèi)容提取模塊的工作流程為 DOffL本體轉(zhuǎn)換將所述網(wǎng)頁轉(zhuǎn)換成OWL本體實例;
2)OffL語義分析分析步驟1)得到的OWL本體實例,提取其中與所述采集主題相關(guān)的內(nèi)容;
3)文件重壓縮將步驟2)中提取的內(nèi)容進行壓縮處理并保存到所述采集結(jié)果數(shù)據(jù)庫
中;
4)網(wǎng)頁導出將步驟2)中提取的內(nèi)容以網(wǎng)頁的形式輸出。優(yōu)選的,所述定向采集執(zhí)行端包括網(wǎng)頁定向采集器,所述網(wǎng)頁定向采集器根據(jù)輸入的URL采集互聯(lián)網(wǎng)網(wǎng)頁。優(yōu)選的,所述采集數(shù)據(jù)管理模塊包括原始網(wǎng)頁數(shù)據(jù)庫,所述采集數(shù)據(jù)管理模塊將所述定向采集執(zhí)行端采集的網(wǎng)頁保存到所述原始網(wǎng)頁數(shù)據(jù)庫中。本發(fā)明的基于OWL語義分析的定向采集系統(tǒng)通過將采集到的原始網(wǎng)頁進行OWL轉(zhuǎn)換,以此作為OWL推理的基礎(chǔ)。相比傳統(tǒng)的定向采集系統(tǒng),本發(fā)明充分利用OWL的先進思想, 先去讀懂網(wǎng)頁中的內(nèi)容,然后在從中提取真正需要采集的內(nèi)容。其具有精度高、智能化等優(yōu)
點ο


圖1是本發(fā)明的基于OWL語義分析的定向采集系統(tǒng)的總體框架圖2是任務調(diào)度管理模塊對網(wǎng)頁進行OWL本體實例轉(zhuǎn)換的功能結(jié)構(gòu)示意圖。
具體實施例方式下面對本發(fā)明的具體實施方式
作進一步詳細的描述。如圖1所示,本發(fā)明的基于OWL語義分析的定向采集系統(tǒng)包括采集管理平臺和定向采集執(zhí)行端。其中采集管理平臺包括采集配置客戶端、OWL本體策略配置模塊,任務調(diào)度管理模塊、采集數(shù)據(jù)管理模塊和OWL內(nèi)容提取模塊。任務調(diào)度管理模塊中包括任務測試與分配子模塊和URL種子數(shù)據(jù)庫。定向采集執(zhí)行端包括若干個可以并行運行的網(wǎng)頁采集器,每個網(wǎng)頁采集器均包括網(wǎng)頁定向采集器、網(wǎng)頁分析模塊和鏈接隊列池。采集數(shù)據(jù)管理模塊包括網(wǎng)頁推送、站內(nèi)搜索和內(nèi)容安全等子模塊,以及原始網(wǎng)頁數(shù)據(jù)庫。OWL內(nèi)容提取模塊中包括OWL本體轉(zhuǎn)換、OffL語義分析、文件重壓縮和網(wǎng)頁導出等子模塊。OffL本體策略配置模塊提供人機交互界面,允許用戶維護OWL轉(zhuǎn)換規(guī)則、OffL辭典等。OffL辭典是在漢語大辭典的基礎(chǔ)上,通過對每個詞語進行OWL標注形成的OWL詞匯數(shù)據(jù)庫。采集配置客戶端提供人機交互界面,允許用戶設(shè)定自己感興趣的采集主題,并指定自己感興趣的網(wǎng)站地址,即初始URL。任務調(diào)度管理模塊根據(jù)采集主題精選URL種子隊列輸出給定向采集執(zhí)行端,保存在鏈接隊列池中;同時,根據(jù)定向采集執(zhí)行端反饋的采集成功率調(diào)整URL種子隊列的策略。 其具體的工作流程是
1)任務調(diào)度管理模塊首先將初始URL保存到URL種子數(shù)據(jù)庫中,然后通過讀取URL種子數(shù)據(jù)庫中的數(shù)據(jù)向定向采集執(zhí)行端分配URL列表。2)定向采集執(zhí)行端接收到URL列表后,會通過網(wǎng)頁定向采集器依次將URL列表中的URL對應網(wǎng)頁采集回。3)任務調(diào)度管理模塊會對采集回的網(wǎng)頁進行OWL本體實例轉(zhuǎn)換工作。如圖2所示,OffL本體實例轉(zhuǎn)換的工作流程為
3. 1)首先要建立一個OWL辭典庫,將OWL的各種定義和概念與漢語在詞一級對應起來, 即選取一本漢語大辭典中各個詞的詞性用OWL的語義所取代,形成一個新的數(shù)據(jù)庫0WL 辭典庫。3. 2)將互聯(lián)網(wǎng)網(wǎng)頁采集到系統(tǒng)中,提取其中HTML格式或XML格式的格式文本信息。然后,按照最通用的分詞方法進行提取正文、分詞、過濾、去重、排岐、語法標注等處理, 以便于提取OWL本體信息。然后利用OWL大辭典進行OWL標注,使文本帶有基本的OWL語乂 fe息。3. 3)然后將預處理過的格式文本解析為OWL本體描述的OWL本體實例。這個過程需要依靠OWL模型庫和OWL轉(zhuǎn)換規(guī)則庫來完成格式文本向OWL本體實例的轉(zhuǎn)換。OWL轉(zhuǎn)換中出現(xiàn)問題時,OffL轉(zhuǎn)換模塊將向OWL轉(zhuǎn)換規(guī)則維護模塊和OWL建模模塊提供的人機交互界面提問,與操作者互動。操作者通過修改OWL模型和OWL轉(zhuǎn)換規(guī)則以幫助OWL轉(zhuǎn)換模塊完成OffL轉(zhuǎn)換的過程。4)任務調(diào)度管理模塊通過對OWL本體實例轉(zhuǎn)換后得到的OWL本體實例進行分析, 將其中新的URL會被提取出來,然后會判斷這些URL是否有價值,如果有就把它們加入到 URL種子數(shù)據(jù)庫中。這時,URL種子數(shù)據(jù)庫中就不僅僅是初始URL。然后,任務測試與分配子模塊不斷將URL種子數(shù)據(jù)庫中的URL分配給定向采集執(zhí)行端,直到URL列表中所有URL都被分配完畢。定向采集執(zhí)行端中包括若干個網(wǎng)頁定向采集器,網(wǎng)頁定向采集器執(zhí)行具體的采集任務,經(jīng)過網(wǎng)頁分析模塊分析后,把與采集主題相關(guān)的網(wǎng)頁作為采集結(jié)果輸出給采集數(shù)據(jù)管理模塊。采集數(shù)據(jù)管理模塊對采集的網(wǎng)頁內(nèi)容做安全掃描、去重、排岐、過濾、網(wǎng)頁推送、站內(nèi)搜索、內(nèi)容安全等預處理后,將原始內(nèi)容存入原始網(wǎng)頁數(shù)據(jù)庫,以備OffL語義分析模塊調(diào)用。同時,采集數(shù)據(jù)管理模塊將被采集成功的網(wǎng)頁URL反饋給任務調(diào)度管理模塊。OffL內(nèi)容提取模塊從原始網(wǎng)頁庫中調(diào)取預處理過的網(wǎng)頁進行CWL本體轉(zhuǎn)換、CWL語義分析后得到OffL本體實例。OffL本體實例經(jīng)過文件重壓縮后,網(wǎng)頁導出并存入采集結(jié)果數(shù)據(jù)庫。采集結(jié)果數(shù)據(jù)庫中的OffL本體實例與原始網(wǎng)頁數(shù)據(jù)庫中的網(wǎng)頁一一對應,綁定輸出,以便后續(xù)智能化應用調(diào)用。OWL內(nèi)容提取模塊的工作流程為
DOffL本體轉(zhuǎn)換將所述網(wǎng)頁轉(zhuǎn)換成OWL本體實例;
2)0ffL語義分析分析步驟1)得到的OWL本體實例,提取其中與所述采集主題相關(guān)的內(nèi)容;
3)文件重壓縮將步驟2)中提取的內(nèi)容進行壓縮處理并保存到所述采集結(jié)果數(shù)據(jù)庫
中;
4)網(wǎng)頁導出將步驟2)中提取的內(nèi)容以網(wǎng)頁的形式輸出。以上實施例僅為本發(fā)明其中的一種實施方式,其描述較為具體和詳細,但并不能因此而理解為對本發(fā)明專利范圍的限制。應當指出的是,對于本領(lǐng)域的普通技術(shù)人員來說, 在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權(quán)利要求為準。
權(quán)利要求
1.基于OWL語義分析的定向采集系統(tǒng),其包括采集配置客戶端、任務調(diào)度管理模塊、定向采集執(zhí)行端和采集數(shù)據(jù)管理模塊,所述采集配置客戶端根據(jù)用戶設(shè)定輸出采集主題和初始URL,并將所述初始URL保存在URL種子數(shù)據(jù)庫中,其特征在于所述定向采集執(zhí)行端采集所述URL種子數(shù)據(jù)庫中所有URL對應的網(wǎng)頁,并將其輸出到所述任務調(diào)度管理模塊和采集數(shù)據(jù)管理模塊,所述任務調(diào)度管理模塊對該網(wǎng)頁進行OWL本體實例轉(zhuǎn)換后獲取其中所有的與所述采集主題相關(guān)的URL,并將其保存到所述URL種子數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于所述任務調(diào)度管理模塊對網(wǎng)頁進行OWL本體實例轉(zhuǎn)換的工作流程為1)將所述定向采集執(zhí)行端采集到的網(wǎng)頁轉(zhuǎn)換成HTML格式或XML格式的格式文本;2)對上一步驟中提取的格式文本進行過濾處理,提取其中的正文;3)對上一步驟中提取的正文進行分詞、排歧、去重和語法標注處理;4)根據(jù)預先設(shè)計好的OWL轉(zhuǎn)換規(guī)則將上一步驟中處理后的正文轉(zhuǎn)換成OWL本體實例。
3.根據(jù)權(quán)利要求2所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于其還包括 OffL本體策略配置模塊,所述OWL本體策略配置模塊負責維護所述OWL轉(zhuǎn)換規(guī)則。
4.根據(jù)權(quán)利要求1所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于其還包括 OffL內(nèi)容提取模塊,所述OWL內(nèi)容提取模塊對所述定向采集執(zhí)行端采集的網(wǎng)頁進行OWL本體實例轉(zhuǎn)換后提取其中所有的與所述采集主題相關(guān)的內(nèi)容,并將其保存到采集結(jié)果數(shù)據(jù)庫中。
5.根據(jù)權(quán)利要求4所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于所述OWL內(nèi)容提取模塊的工作流程為DOffL本體轉(zhuǎn)換將所述網(wǎng)頁轉(zhuǎn)換成OWL本體實例;2)0WL語義分析分析步驟1)得到的OWL本體實例,提取其中與所述采集主題相關(guān)的內(nèi)容;3)文件重壓縮將步驟2)中提取的內(nèi)容進行壓縮處理并保存到所述采集結(jié)果數(shù)據(jù)庫中;4)網(wǎng)頁導出將步驟2)中提取的內(nèi)容以網(wǎng)頁的形式輸出。
6.根據(jù)權(quán)利要求1所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于所述定向采集執(zhí)行端包括網(wǎng)頁定向采集器,所述網(wǎng)頁定向采集器根據(jù)輸入的URL采集互聯(lián)網(wǎng)網(wǎng)頁。
7.根據(jù)權(quán)利要求1所述的基于OWL語義分析的定向采集系統(tǒng),其特征在于所述采集數(shù)據(jù)管理模塊包括原始網(wǎng)頁數(shù)據(jù)庫,所述采集數(shù)據(jù)管理模塊將所述定向采集執(zhí)行端采集的網(wǎng)頁保存到所述原始網(wǎng)頁數(shù)據(jù)庫中。
全文摘要
本發(fā)明公開了一種基于OWL語義分析的定向采集系統(tǒng),其包括采集配置客戶端、任務調(diào)度管理模塊、定向采集執(zhí)行端和采集數(shù)據(jù)管理模塊,所述采集配置客戶端根據(jù)用戶設(shè)定輸出采集主題和初始URL,并將所述初始URL保存在URL種子數(shù)據(jù)庫中,其特征在于所述定向采集執(zhí)行端采集所述URL種子數(shù)據(jù)庫中所有URL對應的網(wǎng)頁,并將其輸出到所述任務調(diào)度管理模塊,所述任務調(diào)度管理模塊對該網(wǎng)頁進行OWL本體實例轉(zhuǎn)換后獲取其中所有的與所述采集主題相關(guān)的URL,并將其保存到所述URL種子數(shù)據(jù)庫中。相比傳統(tǒng)的定向采集系統(tǒng),本發(fā)明的基于OWL語義分析的定向采集系統(tǒng)充分利用OWL的先進思想,先去讀懂網(wǎng)頁中的內(nèi)容,然后在從中提取真正需要采集的內(nèi)容。其具有精度高、智能化等優(yōu)點。
文檔編號G06F17/30GK102346772SQ201110285068
公開日2012年2月8日 申請日期2011年9月23日 優(yōu)先權(quán)日2011年9月23日
發(fā)明者王楠 申請人:王楠
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
常熟市| 长阳| 随州市| 哈密市| 加查县| 德格县| 鄂伦春自治旗| 同江市| 眉山市| 黔西县| 舟山市| 台前县| 青冈县| 揭西县| 雷波县| 南城县| 呼伦贝尔市| 天台县| 绍兴县| 嵩明县| 新昌县| 邵武市| 夏津县| 合水县| 鄄城县| 海阳市| 南安市| 广丰县| 临城县| 红原县| 尤溪县| 双桥区| 宜都市| 西吉县| 清徐县| 平舆县| 成武县| 河间市| 静宁县| 建瓯市| 丁青县|