欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置和方法

文檔序號:6539543閱讀:141來源:國知局
用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置和方法
【專利摘要】本發(fā)明公開了一種用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置和方法,用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置包括,爬行器引擎即搜索器引擎;調度;下載器:下載器抓取網(wǎng)頁并將網(wǎng)頁內容返還給蜘蛛;蜘蛛:蜘蛛是爬行器用戶自己定義用來解析網(wǎng)頁并抓取制定URL返回的內容的類,每個蜘蛛能處理一個域名或一組域名,即用來定義特定網(wǎng)站的抓取和解析規(guī)則;搜素因子庫;項目管道;下載器中間件;蜘蛛中間件;調度中間件:調度中間件是介于爬行器引擎和調度之間的中間件,負責處理從爬行器引擎發(fā)送到調度的請求和響應,并提供了一個自定義的代碼來拓展爬行器的功能。實現(xiàn)可靠、準確、實時且智能搜索的優(yōu)點。
【專利說明】用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置和方法
【技術領域】
[0001]本發(fā)明涉及用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置和方法,具體地,涉及一種用于藥品、食品和醫(yī)療器械安全產(chǎn)業(yè)鏈智能垂直搜索裝置和方法。
【背景技術】
[0002]大數(shù)據(jù)(big data),或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊。據(jù)win咨詢數(shù)據(jù),2005年全球共產(chǎn)生了 1300億GB (千兆字節(jié))的數(shù)據(jù)。預計2020年將增至40萬億GB。而每天產(chǎn)生的25GB數(shù)據(jù)中,僅有0.5%被充分利用,展現(xiàn)出其分析價值。2010年,大數(shù)據(jù)產(chǎn)業(yè)的價值為32億美元。到2015年預計這一數(shù)字將高達169億美元。
[0003]在藥品、食品、醫(yī)療器械安全產(chǎn)業(yè)鏈云計算集群服務平臺中,2012年積累核心業(yè)務數(shù)據(jù)到200萬份,關聯(lián)文獻數(shù)據(jù)1000萬份,2014年核心業(yè)務數(shù)據(jù)積累達到500萬份。每年以250%增長。如表一所不:
表一、藥品、食品、醫(yī)療器械安全產(chǎn)業(yè)鏈云計算集群服務平臺Big Data大數(shù)據(jù)表:
【權利要求】
1.一種用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置,其特征在于,包括 爬行器引擎即搜索器引擎:爬行器引擎用來控制整個系統(tǒng)的數(shù)據(jù)處理流程,并進行事務處理的觸發(fā); 調度:調度程序從爬行器引擎接受請求并排序列入隊列,并在爬行器引擎發(fā)出請求后返還給調度程序; 下載器:下載器抓取網(wǎng)頁并將網(wǎng)頁內容返還給蜘蛛; 蜘蛛:蜘蛛是爬行器用戶自己定義用來解析網(wǎng)頁并抓取制定URL返回的內容的類,每個蜘蛛能處理一個域名或一組域名,即用來定義特定網(wǎng)站的抓取和解析規(guī)則; 搜素因子庫:包括標準因子庫、權重因子庫和域庫:標準因子庫記載藥和器械的數(shù)據(jù),也就是第一搜素對象,權重因子庫,域庫:負責權威認證的互聯(lián)網(wǎng)范圍; 項目管道:項目管道的負責處理蜘蛛從網(wǎng)頁中抽取的項目,驗證和存儲數(shù)據(jù),當頁面被蜘蛛解析后,將被發(fā)送到項目管道;項目管道通常執(zhí)行的過程有:清洗HTML數(shù)據(jù),驗證解析到的數(shù)據(jù)即檢查項目是否包含必要的字段,檢查是否是重復數(shù)據(jù)如果重復就刪除,將解析到的數(shù)據(jù)存儲到數(shù)據(jù)庫中; 下載器中間件:下載中間件是位于爬行器引擎和下載器之間的鉤子框架,負責處理爬行器引擎與下載器之間的請求及響應; 蜘蛛中間件:蜘蛛中間件是介于爬行器引擎和蜘蛛之間的鉤子框架,負責處理蜘蛛的響應輸入和請求輸出;提供一個自定義代碼的方式來拓展爬行器的功能; 調度中間件:調度中間件是介于爬行器引擎和調度之間的中間件,負責處理從爬行器引擎發(fā)送到調度的請求和響應,并提供了一個自定義的代碼來拓展爬行器的功能。
2.根據(jù)權利要求1所述的用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置,其特征在于,還包括, 安全認證模塊:負責內部用戶安全認證; 用戶行為識別記憶模塊:負責垂直閉環(huán)搜索中用戶的智能行為識別和記憶,為用戶提供智能使用導向和服務。
3.—種權利要求2所述的用于安全產(chǎn)業(yè)鏈的智能垂直搜索裝置的搜索方法,其特征在于,包括以下步驟: 步驟1、爬行器引擎打開一個域名,蜘蛛處理這個域名,并讓蜘蛛獲取第一個爬取的URL ; 步驟2、引擎從蜘蛛那獲取第一個需要爬取的URL,然后作為請求在調度中進行調度; 步驟3、引擎從調度那獲取下一步進行爬取的頁面; 步驟4、調度將下一個爬取的URL返回給引擎,引擎通過下載中間件發(fā)送到下載器; 步驟5、當網(wǎng)頁被下載器下載完成以后,響應內容通過下載中間件被發(fā)送到爬行器引擎; 步驟6、爬行器引擎收到下載器的響應并將它通過蜘蛛中間件發(fā)送到蜘蛛進行處理; 步驟7、蜘蛛處理響應并返回爬取到的項目,然后給爬行器引擎發(fā)送新的請求; 步驟8、爬行器引擎將抓取到的項目發(fā)送到項目管道,并向調度發(fā)送請求; 步驟9、返回步驟2直到調度中沒有請求,然后斷開引擎與域之間的聯(lián)系。
【文檔編號】G06F17/30GK103886033SQ201410078014
【公開日】2014年6月25日 申請日期:2014年3月5日 優(yōu)先權日:2014年3月5日
【發(fā)明者】劉欣毅, 李昂生 申請人:無錫香象生物科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
五台县| 常宁市| 聂拉木县| 苏尼特右旗| 吉安县| 灵璧县| 榆中县| 晴隆县| 乌兰浩特市| 阳新县| 陇川县| 正宁县| 莆田市| 叙永县| 彭阳县| 民勤县| 佛学| 通道| 临夏县| 丰城市| 白银市| 翼城县| 怀来县| 化州市| 湖南省| 衡阳县| 繁峙县| 清原| 大名县| 青神县| 襄汾县| 楚雄市| 邻水| 闻喜县| 长白| 逊克县| 浦城县| 罗江县| 潜山县| 东山县| 安福县|