專利名稱:用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法
技術領域:
本發(fā)明涉及計算機和人工智能應用領域,特別涉及用于農業(yè) 復雜自適應搜索引擎系統(tǒng)的控制方法。
背景技術:
國內外學者對個性化、專業(yè)化以及自適應搜索模式的研究做 了大量有價值的工作。比如,唐晨輝設計的"一種互聯(lián)網用戶相互搜索方法 及其搜索引擎",提供一種互聯(lián)網用戶之間相互搜索的方法和搜索引擎?;ヂ?lián) 網用戶之間可以根據彼此使用搜索引擎時的搜索記錄(采用的關鍵字和搜索時間)而找到對方;GROSS WILLIAM等人設計的"SEARCH ENGINE USING USER INTENT",提出了一種基于歷史搜索用戶行為屬性的搜索結果排序方法。這些 屬性為搜索查詢要求與鏈、文件或與其相關的其他資源的相關度提供了一個 評測標準。但是,由于Internet的結構無組織、多模式特點;信息源動態(tài)性、異地 分布性特點;信息量曰新月異地增加,致使保存的信息是變化的、模糊的甚 至是不完整的;這些特點使得這些搜索模型無法適應復雜網絡環(huán)境的動態(tài)變 化,信息更新速度緩慢;專業(yè)化信息獲取困難,網頁抓取的采全率、釆準率 無法得到保證;個性化搜索模型與自適應搜索模型僅僅建立了用戶興趣與搜 索服務的適應與協(xié)作關系,如何把用戶興趣模式用于校準專業(yè)信息釆集意向, 如何進一步提高專業(yè)信息分類精度,如何凈化分類信息進一步提高信息質量, 都是新一代專業(yè)化、個性化、高度智能化搜索引擎面臨的核心問題。正如戴汝為院士指出的互聯(lián)網是一個以不確定的形式、不確定的時間 進行著不確定內容的動態(tài)交互作用形成的動態(tài)系統(tǒng),這個系統(tǒng)完全具備了開 放的巨復雜系統(tǒng)的動力學特征。經查新檢索,現有技術中的情報雜志24卷7期介紹了《多Agent協(xié)作的智能搜索引擎系統(tǒng)的設計與實現》論文。論文主要技術內容是設計了一 種基于多Agent協(xié)作的智能搜索引擎系統(tǒng)模型,結合人工智能的Agent技術 與元搜索引擎技術來共同執(zhí)行檢索任務,實現基于用戶興趣的智能化與個性化。該現有技術論文所述的多Agent協(xié)作的智能搜索引擎系統(tǒng)綜合考慮了用 戶個性化的特點,以Agent之間的通信與協(xié)作完成信息檢索,具有良好的靈活 性和擴展性,為用戶檢索所需的信息提供了較好的解決方案。但是該系統(tǒng)的不足之處是多Agent協(xié)作的智能搜索引擎系統(tǒng)是一種元 搜索引擎系統(tǒng),存在著搜索效率較低,受到成員搜索引擎功能的限制,對于 一些行業(yè)的專業(yè)化搜索引擎的需要,如農業(yè)方面的搜索,則查全率與查準率 還不夠。發(fā)明內容本發(fā)明的目的是針對互聯(lián)網開放性、層次性、演化性、巨 量性等本質特性,在提高查全率與查準率等重要指標的同時,提出一種用于 農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法。該方法能夠提高搜索引擎對用戶 與網絡環(huán)境的動態(tài)適應能力,為我國廣大農業(yè)協(xié)會、企業(yè)、大戶以及農技人 員提供農業(yè)巿場、技術以及政策、新聞等智能化、個性化專業(yè)化服務,有效 解決農業(yè)信息服務"信息過載"問題。同時,該方法對建立其它行業(yè)的專業(yè) 化搜索引擎也具有指導意義。本發(fā)明的技術方案是 一種用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,包括釆用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和釆集信息數據庫, 通過系統(tǒng)控制器釆用分層式多主體聯(lián)盟,其中搜集子系統(tǒng)包括基于知識模板的采集主體與互聯(lián)網和系統(tǒng)控制器的交 互,,它從系統(tǒng)控制器中獲得需要搜集的網頁地址,然后根據HTTP協(xié)議,和對 應的網頁地址所在的網絡服務器建立連接,在每個系統(tǒng)控制器上設一個以上 分布接口,使用于農業(yè)復雜自適應搜索引擎系統(tǒng)向搜集子系統(tǒng)進行擴展;索引子系統(tǒng)包括索引器和索引數據庫,索引器包括詞典、 一級網頁索引、 二級網頁索引和網頁描述;曰志挖掘子系統(tǒng)包括日志分析器和用戶行為日志數據庫;特別是用于農業(yè)復雜自適應搜索引擎系統(tǒng)建立釆集信息數據庫的原始 信息數據庫,實現農業(yè)信息的形式化表達,該方法的執(zhí)行步驟是將與執(zhí)行任務的順序控制或伺服控制程序存入系統(tǒng)的程序存儲器;
啟動該用于農業(yè)復雜自適應搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲器內容讀取指令、執(zhí)行操作,并根據所執(zhí)行指令的內容更新程序計數器; 當所執(zhí)行的指令為打開指令時,程序計數器更新與通用計算機相同,通過多個主體協(xié)作組進入多主體分類聯(lián)盟,建立農業(yè)信息采集、分類、清洗和服務的農業(yè)知識平臺;當所執(zhí)行的指令為工作指令時,所述的用于農業(yè)復雜自適應搜索引擎釆用搜集節(jié)點、索引節(jié)點、查詢主體和用戶;設定搜集到的網頁存在于一個搜集節(jié)點上,每個索引節(jié)點對應搜集節(jié)點搜集的網頁;查詢主體通過多播向所有索引節(jié)點發(fā)送查詢命令,等待搜集到全部索引 節(jié)點返回的檢索結果后,對所有結果依據相關度排序,并緩存一定數量的結 果,最后向用戶返回結果的首頁;當所執(zhí)行的指令為農業(yè)知識平臺中的釆集主體指令時,用于農業(yè)復雜自 適應搜索引擎采用搜集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個子系統(tǒng);設定在搜集子系統(tǒng)中采集主體利用知識模板從互聯(lián)網上不斷的采集信 息,經過系統(tǒng)控制器將信息存儲在原始信息數據庫中;將原始信息數據庫中的數據通過多主體分類聯(lián)盟進行信息分類,然后通 過索引器的分析,建立索引數據庫;同時將原始信息數據庫中的數據通過多主體分類聯(lián)盟分類和日志分析器 的分析,建立索引數據庫,通過檢索器建立用戶接口,方便用戶查詢檢索信 息,將用戶的行為記錄在用戶行為日志數據庫中,作為日志分析器的依據;農業(yè)知識平臺中的釆集主體能夠根據用戶的不同需要和興趣自適應調整釆集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務主體協(xié)作組通過相互間 的通信以及跟釆集主體協(xié)作組的相互通信,也進行自適應調整,包括原始信 息數據庫的背景知識,索引節(jié)點的網頁索引、檢索式、結果排序,最終提供 給用戶滿意的搜索結果和服務。作為對現有技術的進一步改進,原始信息數據庫包括數據庫、文本庫、 圖片庫、知識庫,知識庫為農業(yè)分類本體知識庫。
多個主體協(xié)作組進入多主體分類聯(lián)盟,其中,多個主體協(xié)作組為四個, 包括服務主體協(xié)作組、清洗主體協(xié)作組、分類主體協(xié)作組、和釆集主體協(xié)作 組,多主體分類聯(lián)盟為四個,包括釆集聯(lián)盟、分類聯(lián)盟、清洗聯(lián)盟、服務聯(lián) 盟。釆集聯(lián)盟,以星型結構建立多主體釆集聯(lián)盟,釆用知識模板技術,根據 農業(yè)種植、養(yǎng)殖分類標準定義主體的信息釆集意向,實現大量農業(yè)技術、農 業(yè)巿場、農業(yè)新聞信息的分類釆集,建立網絡信息的釆集主體。分類聯(lián)盟以星型結構建立多主體分類聯(lián)盟,針對種植、養(yǎng)殖的品種技術、 施肥技術、病蟲害診斷與防治技術以及糧食作物、經濟作物、瓜果蔬菜分類 本體為背景知識,釆用基于支持向量機的半監(jiān)督聚類方法對釆集的網絡信息 建立支持向量機分類主體。清洗聯(lián)盟以星型結構建立多主體清洗聯(lián)盟,設有數據清洗、文本清洗、 圖片清洗,采用時間序列插值、空間序列插值方法建立數據缺損、矛盾、冗 余探測與清洗主體;釆用基于背景知識的半監(jiān)督聚類方法建立網頁信息奇異 點探測主體,釆用基于矢量空間模型相似度計算方法建立冗余網頁信息探測 與清洗主體。服務聯(lián)盟建立多主體服務聯(lián)盟,利用廣大用戶注冊信息作為背景知識, 結合網絡用戶曰志挖掘技術,基于農業(yè)分類本體的信息擴張技術,實現用戶 需求逐步聚焦,針對農業(yè)協(xié)會、農業(yè)企業(yè)、農民大戶建立服務主體。本發(fā)明的有益效果是現有技術論文中的多Agent協(xié)作的智能搜索引擎系統(tǒng)是一種元搜索引擎 系統(tǒng),直接利用成員搜索引擎進行搜索,獲得結果,不需要對網絡原始信息 進行釆集,沒有利用知識表達方法對信息進行形式化表達,不存在原始信息 數據庫。本發(fā)明方法中建立原始信息數據庫,實現農業(yè)信息的形式化表達,釆 集主體利用知識模板從互聯(lián)網上不斷的采集信息,經過系統(tǒng)控制器,將信息 存儲在原始信息數據庫中。原始信息數據庫中的數據通過多主體分類聯(lián)盟進 行信息分類,然后通過索引器的分析,建立索引數據庫。用戶通過用戶接口,
利用檢索器查詢索引數據庫中的信息,同時用戶的行為會記錄在用戶行為曰 志數據庫中,作為曰志分析器的依據。曰志分析器的結果會反饋到原始信息 數據庫和索引數據庫,對原始信息數據庫中的內容做相應的調整。農業(yè)知識 平臺中的采集主體能夠根據用戶的不同需要和興趣自適應調整釆集意向,分 類主體協(xié)作組、清洗主體協(xié)作組和服務主體協(xié)作組通過相互間的通信以及跟 釆集主體協(xié)作組的相互通信,也進行自適應調整,包括原始信息數據庫的背 景知識,索引節(jié)點的網頁索引、檢索式、結果排序,最終提供給用戶滿意的 搜索結果和服務。本專利申請中的用于農業(yè)復雜自適應搜索引擎系統(tǒng)是一種基于網絡信息 采集器的搜索引擎,利用釆集主體聯(lián)盟和知識模板直接在互聯(lián)網上釆集信息, 不存在對外界搜索引擎的依賴,并且利用知識表達方法對信息進行形式化表 達,建立系統(tǒng)的原始信息數據庫,而且本系統(tǒng)利用復雜適應系統(tǒng)的思想,建立具有學習機制和進化機制的多智能體,不但注重主體(agent)間的交互, 還強調主體與外界環(huán)境的交互和影響,與傳統(tǒng)的多主體系統(tǒng)有所不同。本發(fā)明針對互聯(lián)網開放性、層次性、演化性、巨量性等本質特性,從復 雜適應系統(tǒng)這一全新的角度,以農業(yè)搜索服務為應用背景,建立專業(yè)信息釆 集、分類、清洗與服務主體聯(lián)盟,并組成多主體聯(lián)盟實驗環(huán)境。
本發(fā)明對文化程度以及計算機操作水平相對較低的涉農用戶將有更加迫 切的需求。目前國內農業(yè)專業(yè)搜索引擎,特別是個性化、自適應的農業(yè)搜索 引擎還處于技術突破的前沿,因此用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制 方法為我國蓬勃發(fā)展的農業(yè)企業(yè)、農業(yè)協(xié)會、農民大戶以及廣大農業(yè)技術人 員提供農業(yè)巿場、農業(yè)技術以及政策新聞等個性化服務。有效緩解農業(yè)信息 服務"信息過載"問題,對促進我國農業(yè)與農村信息化建設也將起到關鍵作 用。同時,該方法對建立其它行業(yè)的專業(yè)化搜索引擎也具有指導意義。
圖l是本發(fā)明的農業(yè)知識平臺示意圖。圖2是用于農業(yè)復雜自適應搜索引擎設計示意圖。圖3是用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法實施方框圖。圖4是用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法的流程圖。
具體實施方式
下面結合附圖和實施例對本發(fā)明作進一步解釋 圖l是本發(fā)明的農業(yè)知識平臺示意圖。在圖l中多個主體協(xié)作組為四個,包括服務主體協(xié)作組、清洗主體協(xié)作組、分類主體協(xié)作組、和釆集主體協(xié)作組;多主體分類聯(lián)盟為四個,包括釆集聯(lián)盟、分類聯(lián)盟、清洗聯(lián)盟、服務聯(lián) 盟。其中釆集聯(lián)盟,由農業(yè)技術釆集主體、農業(yè)巿場釆集主體、農業(yè)新聞釆集主 體等組成采集聯(lián)盟。以星型結構建立多主體釆集聯(lián)盟,釆用知識模板技術, 根據農業(yè)種植、養(yǎng)殖分類標準定義主體的信息釆集意向,實現大量農業(yè)技術、 農業(yè)巿場、農業(yè)新聞信息的分類采集,建立網絡信息的采集主體。分類聯(lián)盟,由種植業(yè)分類主體、養(yǎng)殖業(yè)分類主體、林業(yè)分類主體等組成 分類聯(lián)盟。以星型結構建立多主體分類聯(lián)盟,針對種植、養(yǎng)殖的品種技術、 施肥技術、病蟲害診斷與防治技術以及糧食作物、經濟作物、瓜果蔬菜分類 本體為背景知識,釆用基于支持向量機的半監(jiān)督聚類方法對采集的網絡信息 建立支持向量機分類主體。清洗聯(lián)盟,由數據清洗主體、文本清洗主體、圖片清洗主體等組成清洗 聯(lián)盟。以星型結構建立多主體清洗聯(lián)盟,設有數據清洗、文本清洗、圖片清 洗,釆用時間序列插值、空間序列插值方法建立數據缺損、矛盾、冗余探測 與清洗主體;采用基于背景知識的半監(jiān)督聚類方法建立網頁信息奇異點探測 主體,釆用基于矢量空間模型相似度計算方法建立冗余網頁信息探測與清洗 主體。服務聯(lián)盟,由農業(yè)協(xié)會服務主體、農業(yè)企業(yè)服務主體、農民大戶服務主 體等組成服務聯(lián)盟。建立多主體服務聯(lián)盟,利用廣大用戶注冊信息作為背景 知識,結合網絡用戶日志挖掘技術,基于農業(yè)分類本體的信息擴張技術,實 現用戶需求逐步聚焦,針對農業(yè)協(xié)會、農業(yè)企業(yè)、農民大戶建立服務主體。多個主體協(xié)作組進入多主體分類聯(lián)盟,并以原始信息數據庫為交互平臺、 按層次式組織結構最終形成農業(yè)復雜自適應多主體聯(lián)盟系統(tǒng),即農業(yè)知識平
隨著用戶興趣模式的變化,索引節(jié)點的網頁索引、檢索式、結果排序, 釆集主體釆集意向,清洗聯(lián)盟與分類聯(lián)盟學習的背景知識都在進行與之適應的演變。用戶能夠釆用農業(yè)知識平臺觀察多主體協(xié)助組和多主體分類聯(lián)盟之 間及其與用戶環(huán)境、網絡環(huán)境之間交互、學習、適應、進化的結果,進行自 適應搜索模型的查全率、查準率在宏觀上的演化規(guī)律的研究。圖2是用于農業(yè)復雜自適應搜索引擎設計示意圖。搜集節(jié)點之間相互協(xié)調,分配URL,保證每個網絡主機的全部網頁只能存在于一個搜集節(jié)點上。每個索引節(jié)點對應搜集節(jié)點搜集的網頁,查詢主體通過多播向所有索引節(jié)點 發(fā)送查詢命令,等待搜集到全部索引節(jié)點返回的檢索結果后,對所有結果依 據相關度排序,并緩存一定數量的結果,最后向用戶返回結果的首頁。用戶 的后續(xù)查詢(翻頁),將會在緩存命中,不必再次啟動后面的網絡查詢,這將 大大減少查詢的響應時間,降低后面查詢系統(tǒng)的負載,從而提高查詢系統(tǒng)的 性能。圖3是用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法實施方框圖。首先釆集主體利用知識模板從互聯(lián)網上不斷的釆集信息,經過系統(tǒng)控制 器,將信息存儲在原始信息數據庫中。原始信息數據庫中的數據通過多主體 分類聯(lián)盟進行信息分類,然后通過索引器的分析,主要包括利用字典實現原始信息特征項和URL的編碼,通過編碼建立一級網頁索引和二級網頁索引,最 后是網頁描述,建立索引數據庫。用戶通過用戶接口,利用檢索器査詢索引 數據庫中的信息,同時用戶的行為會記錄在用戶行為日志數據庫中,作為曰 志分析器的依據。日志分析器的結果會反饋到原始信息數據庫和索引數據庫, 對數據庫中的內容做相應的調整。從圖3可以看出,從功能模塊上劃分,用于農業(yè)復雜自適應搜索引擎系 統(tǒng)由搜集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個子系統(tǒng)構成。搜集子系統(tǒng)包括基于知識模板的釆集主體與互聯(lián)網和系統(tǒng)控制器的交 互,它從系統(tǒng)控制器中獲得需要搜集的網頁地址,然后根據HTTP協(xié)議,和對 應的網頁地址所在的網絡服務器建立連接。索引子系統(tǒng)包括索引器和索引數據庫,索引器包括如下四部分
一、 詞典詞典是實現特征項、URL和其對應編碼的工具。對于搜索引 擎而言,特征項和URL是中文或英文的不定長字符串。顯然這不利于系統(tǒng)的 存儲和運算。通過詞典,將這些不定長的數據轉換成系統(tǒng)唯一的整型編碼, 能夠節(jié)省系統(tǒng)的存儲空間,同時提高了檢索中最常用的運算——比較運算的 運行效率。二、 一級網頁索引通過詞典, 一個特征項被翻譯為系統(tǒng)唯一的編碼。 利用這個編碼,可以找到這個特征項對應的網頁的一級索引的入口。 一級索 引中包含兩個數據, 一是該特征項對應的二級網頁索引的入口地址偏移量, 二是二級索引項的個數。三、 二級網頁索引二級索引是一個索引項列表,它通過一級索引獲得。 二級索引表中每一項代表檢索特征項對應的一個結果網頁概要描述,包括該 網頁的編碼,特征項與該網頁的相關度權值以及用戶的評價權值。四、 網頁描述這就是檢索到的信息,用戶通過網頁編碼獲得它。它的 對應域基本上和網頁分析時產生的網頁描述相同,只有一個域_一鏈接權值, 是在索引生成時通過對已搜集網頁的鏈接關系生成。曰志挖掘子系統(tǒng)是包括用戶行為日志數據庫和日志分析器。系統(tǒng)控制器 除了按照啟發(fā)式算法優(yōu)先選擇重要的URL并分派給各個釆集主體外,還完成 站點過濾、實現釆集主體協(xié)議及域名解析高速緩存功能。釆集主體按照HTTP 協(xié)議負責從網絡上抓取網頁,為提高網頁搜集速度,通常可以啟動上百個釆 集主體同時工作。釆集主體同時對搜集回來的網頁內容進行分析處理。系統(tǒng)控制器由主控接口、網頁處理模塊、超鏈提取模塊三部分構成。其 中主控接口負責和釆集主體的通信,以及和系統(tǒng)控制器內部網頁處理模塊 和超鏈提取模塊的通信。主控接口將采集主體提交的信息轉送給網頁處理模 塊和超鏈提取模塊,同時將超鏈提取模塊選出的待抓取的URL分配給釆集主 體。網頁處理模塊主要的功能主要是將網頁的文本及相關信息,如網頁大小、 網頁的最后更新日期等,進行提取分析,然后保存到原始信息數據庫中的網 頁數據庫。
超鏈提取模塊分析網頁的文本內容,從中提取指向其它網頁的鏈接,將 它們保存到原始信息數據庫中的鏈接數據庫中。超鏈提取模塊的選擇是按照 一定的算法,從超鏈數據庫中提取優(yōu)先級最高的網頁,將它們分配給采集主 體進行搜集。在用于農業(yè)復雜自適應搜索引擎系統(tǒng)的設計里,在每一個系統(tǒng) 控制器上多設了 一個分布接口 ,使原有系統(tǒng)向子系統(tǒng)進行擴展。用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法執(zhí)行步驟是將與執(zhí)行任務的順序控制或伺服控制程序存入系統(tǒng)的程序存儲器; 啟動該用于農業(yè)復雜自適應搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲器內容讀取指令、執(zhí)行操作,并根據所執(zhí)行指令的內容更新程序計數器; 當所執(zhí)行的指令為打開指令時,程序計數器更新與通用計算機相同,通過多個主體協(xié)作組進入多主體分類聯(lián)盟,建立農業(yè)信息釆集、分類、清洗和服務的農業(yè)知識平臺;當所執(zhí)行的指令為工作指令時,搜索引擎釆用搜集節(jié)點、索引節(jié)點、查 詢主體和用戶;設定搜集到的網頁存在于一個搜集節(jié)點上,每個索引節(jié)點對應搜集節(jié)點 搜集的網頁;查詢主體通過多播向所有索引節(jié)點發(fā)送查詢命令,等待搜集到全部索引 節(jié)點返回的檢索結果后,對所有結果依據相關度排序,并緩存一定數量的結 果,最后向用戶返回結果的首頁;當所執(zhí)行的指令為農業(yè)知識平臺中的釆集主體指令時,搜索引擎采用搜 集子系統(tǒng)、索引子系統(tǒng)和曰志挖掘子系統(tǒng)三個子系統(tǒng);設定在搜集子系統(tǒng)中采集主體利用知識模板從互聯(lián)網上不斷的采集信 息,經過系統(tǒng)控制器將信息存儲在原始信息數據庫中;將原始信息數據庫中的數據通過多主體分類聯(lián)盟分類和日志分析器的分 析,建立索引數據庫,通過檢索器建立用戶接口,方便用戶查詢檢索信息, 將用戶的行為記錄在用戶行為日志數據庫中,作為日志分析器的依據;農業(yè)知識平臺中的釆集主體能夠根據用戶的不同需要和興趣自適應調整釆集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務主體協(xié)作組通過相互間 的通信以及跟釆集主體協(xié)作組的相互通信,也進行自適應調整,包括原始信 息數據庫的背景知識,索引節(jié)點的網頁索引、檢索式、結果排序,最終提供 給用戶滿意的搜索結果和服務。索引器將原始信息數據庫的內容重新組織,建立索引數據庫,以提高檢 索效率。調用切詞軟件以提取關鍵詞和摘要,提取URL超鏈接,記錄網頁的 元信息,如作者、修改日期、長度等,并將這些內容存入原始信息數據庫。用戶接口在截取用戶的查詢請求后,將它轉發(fā)給檢索器,檢索器根據查 詢項和索引數據庫的內容,找到匹配的網頁后,進行相關度計算并排序,然 后通過用戶接口返回給用戶。另外,用戶接口程序還將用戶行為信息,包括用戶查詢項、用戶點擊的URL、用戶翻頁情況等,記錄到用戶行為曰志數據庫中。日志分析器用于跟蹤用戶行為,能夠學習新詞來動態(tài)更新詞典內容, 以提高搜索引擎的服務質量。圖4是用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法的流程圖。 農業(yè)復雜自適應搜索引擎開始啟動(步驟100 ),搜索引擎系統(tǒng)初始化(步 驟IIO),然后,采集主體聯(lián)盟開始采集網絡信息(步驟120),對獲得的網絡 原始信息進行網絡信息處理,對網頁的文本及相關信息進行提取分析(步驟 130),并從中提取指向其它網頁的超鏈接(步驟140),將分析后的網絡信息 保存到原始信息數據庫(步驟150),對原始信息建立信息索引(步驟160), 建立索引數據庫(步驟170),用戶對索引數據庫進行信息檢索(步驟180), 系統(tǒng)返回給用戶相應的檢索結果即作為結果網頁(190),同時系統(tǒng)保存用戶 曰志行為(步驟200 ),用戶日志行為分析器對用戶日志行為進行分析(步驟 210),修改原始信息采集策略和索引策略(步驟220 )。如果還有新的檢索要 求,用戶繼續(xù)檢索信息(步驟230),則重復步驟180至步驟220,若否,則 檢索結束(步驟240)。
權利要求
1、一種用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法,包括采用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和采集信息數據庫,通過系統(tǒng)控制器采用分層式多主體聯(lián)盟,其中所述的搜集子系統(tǒng)包括基于知識模板的采集主體與互聯(lián)網和系統(tǒng)控制器的交互,它從系統(tǒng)控制器中獲得需要搜集的網頁地址,然后根據HTTP協(xié)議,和對應的網頁地址所在的網絡服務器建立連接,在每個系統(tǒng)控制器上設一個以上分布接口,使用于農業(yè)復雜自適應搜索引擎系統(tǒng)向搜集子系統(tǒng)進行擴展;所述的索引子系統(tǒng)包括索引器和索引數據庫,索引器包括詞典、一級網頁索引、二級網頁索引和網頁描述;所述的日志挖掘子系統(tǒng)包括日志分析器和用戶行為日志數據庫;其特征在于用于農業(yè)復雜自適應搜索引擎系統(tǒng)建立采集信息數據庫的原始信息數據庫,實現農業(yè)信息的形式化表達,該方法的執(zhí)行步驟是將與執(zhí)行任務的順序控制或伺服控制程序存入系統(tǒng)的程序存儲器;啟動該用于農業(yè)復雜自適應搜索引擎系統(tǒng)工作,CPU按系統(tǒng)的程序存儲器內容讀取指令、執(zhí)行操作,并根據所執(zhí)行指令的內容更新程序計數器;當所執(zhí)行的指令為打開指令時,程序計數器更新與通用計算機相同,通過多個主體協(xié)作組進入多主體分類聯(lián)盟,建立農業(yè)信息采集、分類、清洗和服務的農業(yè)知識平臺;當所執(zhí)行的指令為工作指令時,所述的用于農業(yè)復雜自適應搜索引擎采用搜集節(jié)點、索引節(jié)點、查詢主體和用戶;設定搜集到的網頁存在于一個搜集節(jié)點上,每個索引節(jié)點對應搜集節(jié)點搜集的網頁;查詢主體通過多播向所有索引節(jié)點發(fā)送查詢命令,等待搜集到全部索引節(jié)點返回的檢索結果后,對所有結果依據相關度排序,并緩存一定數量的結果,最后向用戶返回結果的首頁;設定在所述的搜集子系統(tǒng)中采集主體利用知識模板從互聯(lián)網上不斷的采集信息,經過系統(tǒng)控制器將信息存儲在所述的原始信息數據庫中;將所述的原始信息數據庫中的數據通過多主體分類聯(lián)盟進行信息分類,然后通過所述的索引器的分析,建立索引數據庫;同時將所述的原始信息數據庫中的數據通過多主體分類聯(lián)盟分類和日志分析器的分析,建立索引數據庫,通過檢索器建立用戶接口,方便用戶查詢檢索信息,將用戶的行為記錄在用戶行為日志數據庫中,作為日志分析器的依據;所述的農業(yè)知識平臺中的采集主體能夠根據用戶的不同需要和興趣自適應調整采集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務主體協(xié)作組通過相互間的通信與采集主體協(xié)作組相互通信,進行自適應調整,包括所述的原始信息數據庫的背景知識,索引節(jié)點的網頁索引、檢索式、結果排序,最終提供給用戶滿意的搜索結果和服務。
2、 根據權利要求l所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的原始信息數據庫包括數據庫、文本庫、圖片庫、知識庫,所述的知識庫為農業(yè)分類本體知識庫。
3、 根據權利要求1所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的多個主體協(xié)作組進入多主體分類聯(lián)盟,其中,所述的 多個主體協(xié)作組為四個,包括服務主體協(xié)作組、清洗主體協(xié)作組、分類主體 協(xié)作組、和釆集主體協(xié)作組,所述的多主體分類聯(lián)盟為四個,包括釆集聯(lián)盟、 分類聯(lián)盟、清洗聯(lián)盟、服務聯(lián)盟。
4、 根據權利要求1所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的采集聯(lián)盟,以星型結構建立多主體釆集聯(lián)盟,釆用知 識模板技術,根據農業(yè)種植、養(yǎng)殖分類標準定義主體的信息采集意向,實現 大量農業(yè)技術、農業(yè)市場、農業(yè)新聞信息的分類釆集,建立網絡信息的釆集 主體。
5、 根據權利要求1所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的分類聯(lián)盟以星型結構建立多主體分類聯(lián)盟,針對種植、 養(yǎng)殖的品種技術、施肥技術、病蟲害診斷與防治技術以及糧食作物、經濟作 物、瓜果蔬菜分類本體為背景知識,釆用基于支持向量機的半監(jiān)督聚類方法 對釆集的網絡信息建立支持向量機分類主體。
6、 根據權利要求1所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的清洗聯(lián)盟,以星型結構建立多主體清洗聯(lián)盟,設有數 據清洗、文本清洗、圖片清洗,釆用時間序列插值、空間序列插值方法建立 數據缺損、矛盾、冗余探測與清洗主體,釆用基于背景知識的半監(jiān)督聚類方 法建立網頁信息奇異點探測主體,釆用基于矢量空間模型相似度計算方法建 立冗余網頁信息探測與清洗主體。
7、 根據權利要求1所述的用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方 法,其特征是所述的服務聯(lián)盟,建立多主體服務聯(lián)盟,利用廣大用戶注冊 信息作為背景知識,結合網絡用戶曰志挖掘技術,基于農業(yè)分類本體的信息 擴張技術,實現用戶需求逐步聚焦,針對農業(yè)協(xié)會、農業(yè)企業(yè)、農民大戶建 立服務主體。
全文摘要
本發(fā)明涉及用于農業(yè)復雜自適應搜索引擎系統(tǒng)的控制方法,包括采用搜集子系統(tǒng)、索引子系統(tǒng)、日志挖掘子系統(tǒng)和原始信息數據庫,通過系統(tǒng)控制器采用分層式多主體聯(lián)盟。通過多個主體協(xié)作組進入多主體分類聯(lián)盟,建立農業(yè)信息采集、分類、清洗和服務的農業(yè)知識平臺。農業(yè)知識平臺中的采集主體能夠根據用戶的不同需要和興趣自適應調整采集意向,分類主體協(xié)作組、清洗主體協(xié)作組和服務主體協(xié)作組通過相互間的通信與采集主體協(xié)作組相互通信,進行自適應調整,包括原始信息數據庫的內容更新,最終提供給用戶滿意的搜索結果和服務。本發(fā)明提高搜索引擎對用戶與網絡環(huán)境的動態(tài)適應能力,解決農業(yè)信息服務“信息過載”問題。
文檔編號G06F19/00GK101162472SQ20071019395
公開日2008年4月16日 申請日期2007年11月21日 優(yōu)先權日2007年11月21日
發(fā)明者孫丙宇, 張曉明, 王儒敬, 魏圓圓, 河 黃 申請人:中國科學院合肥物質科學研究院