本發(fā)明涉及旅游信息服務技術(shù)領(lǐng)域,尤其涉及一種信息推送及搜索設備、方法和系統(tǒng)。
背景技術(shù):
隨著旅游業(yè)和商業(yè)的發(fā)展,越來越多的人喜歡在閑暇之余出去旅游。智能旅游以方便用戶旅游為原則,將豐富的旅游信息整合在一起,通過智慧化的管理,讓這些信息與每一位旅行者的聯(lián)系更加緊密。
隨著互聯(lián)網(wǎng)的爆發(fā)式發(fā)展,網(wǎng)絡上的信息資源從匱乏走向了另一個極端。在面臨海量的信息及搜索結(jié)果時,用戶往往無力進行抉擇。
因此,需要一種信息推送及搜索系統(tǒng),針對用戶的相關(guān)搜索,可以精準地獲取相關(guān)信息,將旅游線路和相關(guān)的旅游資訊關(guān)聯(lián)起來,并將其推送給用戶,使游客便捷地獲取對自己有用的信息。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種信息推送及搜索設備,包括第一通信模塊、第二通信模塊、處理模塊、存儲模塊和搜索模塊,其中,
所述第一通信模塊,用于向移動終端推送多媒體資源,接收并解析移動終端發(fā)送的數(shù)據(jù)包,獲取移動終端的標識與信號強度并將其轉(zhuǎn)發(fā)至所述處理模塊,以及將檢索結(jié)果發(fā)送給移動終端以返回給用戶;
處理模塊,用于接收所述第一通信模塊發(fā)送的移動終端的標識與信號強度,統(tǒng)計人流量,并將人流量統(tǒng)計結(jié)果保存至存儲模塊;
存儲模塊,用于保存第二通信模塊獲取的多媒體資源和處理模塊計算出的人流量統(tǒng)計結(jié)果;
第二通信模塊,用于與服務器進行信息交互,從服務器下載多媒體資源,以及讀取網(wǎng)頁鏈接列表;
搜索模塊,用于利用網(wǎng)絡爬蟲從第二通信模塊讀取網(wǎng)頁鏈接列表,構(gòu)建內(nèi)部數(shù)據(jù)庫,針對用戶提交的查詢在內(nèi)部數(shù)據(jù)庫中進行搜索,將檢索結(jié)果通過第一通信模塊返回給用戶。
所述搜索模塊包括信息采集單元、信息處理單元和搜索服務單元; 其中,信息采集單元利用網(wǎng)絡爬蟲從第二通信模塊讀取網(wǎng)頁鏈接列表,并根據(jù)指定算法抓取相關(guān)網(wǎng)頁,處理后存入網(wǎng)頁信息數(shù)據(jù)庫;信息處理單元將網(wǎng)頁信息數(shù)據(jù)庫中的相關(guān)網(wǎng)頁文檔進行分詞處理,建立索引,將結(jié)果保存在索引數(shù)據(jù)庫中,并對結(jié)果進行檢索排序;搜索服務單元針對用戶提交的查詢,在內(nèi)部數(shù)據(jù)庫中進行搜索,從中提取相應檢索頁面的摘要信息,發(fā)送給第一通信模塊,從而返回給用戶。
所述搜索是針對旅游信息的專業(yè)信息搜索。
所述信息采集單元具體用于通過網(wǎng)絡爬蟲讀取待抓取網(wǎng)站的根URL,提取出所有下一級URL并將其放入第一待抓取URL列表中,如果所述第一待抓取URL列表不為空則從中取出一個URL并判斷是否已經(jīng)訪問過,若沒有訪問過則讀取此網(wǎng)頁,并進行內(nèi)容解析,再將內(nèi)容進行主題相關(guān)度判斷,若與主題相關(guān)則將網(wǎng)頁內(nèi)容存入網(wǎng)頁信息數(shù)據(jù)庫,并將已訪問過的URL放入已訪問URL列表,否則放棄該網(wǎng)頁;然后分析所述已訪問過的URL的下一級URL,將所有下一級URL添加到第二待抓取URL列表中,依次讀取所述第二待抓取URL列表并將與主題相關(guān)的網(wǎng)頁內(nèi)容存入網(wǎng)頁信息數(shù)據(jù)庫,直到所述第二待抓取URL列表為空或抓取深度等于指定深度,此時再繼續(xù)讀取所述第一待抓取URL列表,依次循環(huán)直到第一待抓取URL列表為空為止。
所述指定算法為首頁關(guān)聯(lián)算法,其中,所述信息采集單元首先訪問一個網(wǎng)站的首頁,通過基于布爾模型或向量空間模型的主題相關(guān)度算法計算該首頁與主題的相關(guān)程度,如果相關(guān)度滿足一預定要求,就把這個網(wǎng)站納入抓取范圍,如果相關(guān)度不滿足所述預定要求,則直接放棄整個網(wǎng)站,將該 URL 放入禁止訪問列表,爬蟲以后再遇到這個網(wǎng)站內(nèi)的 URL 時,直接丟棄該 URL 而不再將其放入待訪問的URL列表中。
所述預定要求為預先設定的一個閾值,主題相關(guān)度低于該閾值的網(wǎng)頁被丟棄,高于該閾值的網(wǎng)頁將被抓取。
所述分詞處理是采用基于字符串匹配的分詞方法或基于統(tǒng)計的分詞方法或基于理解的分詞方法。
所述第一通信模塊為WIFI模塊,所述第二通信模塊為3G和/或4G模塊。所述處理模塊將計算的客流量通過第二通信模塊上傳到服務器。
本發(fā)明還提供一種信息推送及搜索方法,應用于信息推送及搜索設備,所述信息推送及搜索設備包括第一通信模塊、第二通信模塊和搜索模塊,所述搜索模塊包括信息采集單元、信息處理單元和搜索服務單元,所述方法包括如下步驟:
S1. 信息采集單元利用網(wǎng)絡爬蟲從第二通信模塊讀取網(wǎng)頁鏈接列表,并根據(jù)指定算法抓取相關(guān)網(wǎng)頁,處理后存入網(wǎng)頁信息數(shù)據(jù)庫;
S2. 信息處理單元將網(wǎng)頁信息數(shù)據(jù)庫中的相關(guān)網(wǎng)頁文檔進行分詞處理,建立索引,將結(jié)果保存在索引數(shù)據(jù)庫中,并對結(jié)果進行檢索排序;
S3. 搜索服務單元針對用戶提交的查詢,在內(nèi)部數(shù)據(jù)庫中進行搜索,從中提取相應檢索頁面的摘要信息,發(fā)送給第一通信模塊,從而返回給用戶。
本發(fā)明還提供一種信息推送及搜索系統(tǒng),包括前述信息推送及搜索設備。
本發(fā)明的信息推送及搜索設備、方法及系統(tǒng),針對用戶的相關(guān)搜索,可以精準地獲取相關(guān)信息,將旅游線路和相關(guān)的旅游資訊關(guān)聯(lián)起來,并將其推送給用戶,使游客便捷地獲取對自己有用的信息。
附圖說明
圖1是根據(jù)本發(fā)明實施方式示出的信息推送及搜索設備結(jié)構(gòu)圖。
圖2是根據(jù)本發(fā)明實施方式示出的信息推送及搜索方法流程圖。
圖3是根據(jù)本發(fā)明實施方式示出的信息推送及搜索系統(tǒng)構(gòu)成圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面結(jié)合具體實施方式并參照附圖,對本發(fā)明進一步詳細說明。應該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
圖1是根據(jù)本發(fā)明實施方式示出的信息推送及搜索設備結(jié)構(gòu)圖,包括第一通信模塊、第二通信模塊、處理模塊、存儲模塊和搜索模塊,其中,
所述第一通信模塊,分別與處理模塊、存儲模塊相連,用于向移動終端推送多媒體資源,接收并解析移動終端發(fā)送的數(shù)據(jù)包,獲取移動終端的標識與信號強度并將其轉(zhuǎn)發(fā)至所述處理模塊。所述多媒體資源可以是景區(qū)的導覽服務,例如,景點介紹、景區(qū)電子地圖、附近商業(yè)信息等。所述移動終端標識為移動終端的MAC地址。所述第一通信模塊為WIFI模塊。
處理模塊,分別與第一通信模塊、存儲模塊相連,用于接收所述第一通信模塊發(fā)送的移動終端的標識與信號強度,統(tǒng)計人流量,并將人流量統(tǒng)計結(jié)果保存至存儲模塊。所述處理模塊還包括自動導覽模塊、地圖服務模塊、周邊推薦模塊。所述自動導覽模塊將景點介紹經(jīng)第一通信模塊發(fā)送至移動終端,將該游客服務管理裝置所在景點通過音頻、視頻、動畫、圖片、文字等多媒體形式向游客展示和介紹。所述地圖服務模塊將景區(qū)電子地圖經(jīng)第一通信模塊發(fā)送至移動終端,所述景區(qū)電子地圖包括各景點、以及商業(yè)服務設施的位置,向游客提供游覽線路的指引。所述周邊推薦模塊經(jīng)第一通信模塊向移動終端推送附近商業(yè)信息,例如,可以向游客推薦游客周邊的特色旅游商業(yè)信息,含美食、住宿、娛樂等。所述處理模塊還包括客流量統(tǒng)計模塊、接入時長統(tǒng)計模塊、接入次數(shù)統(tǒng)計模塊。所述客流量統(tǒng)計模塊根據(jù)保存的移動終端標識及對應的時間標簽,計算一定時間內(nèi)的客流量;所述接入時長統(tǒng)計模塊根據(jù)保存的移動終端標識及對應的時間標簽,計算一定時間內(nèi)移動終端的接入時長;所述接入次數(shù)統(tǒng)計模塊根據(jù)保存的移動終端標識及對應的時間標簽,計算一定時間內(nèi)相同移動終端的接入次數(shù),并將計算的客流量、接入時長、以及接入次數(shù)通過第二通信模塊傳輸至服務器。具體地,所述移動終端標識可以為MAC地址。以本裝置接收到的所述移動終端的第一個WIFI信號為該移動終端的到達時間,以后每接收一次移動終端的WIFI信號,若接收到該信號的時間距離上一次接收到同一移動終端的WIFI信號的時間小于一預定時間,則認為該移動終端在此停留,同時刷新移動終端的接入時長;如果接收到該信號的時間距離上一次接收到同一移動終端的WIFI信號的時間大于或等于該預定時間,則認為該移動終端為新的一次接入。根據(jù)所述移動終端的MAC地址和對應的時間標簽,計算所述移動終端的接入次數(shù)和接入時長,得到客流量。
存儲模塊,分別與處理模塊、第一通信模塊、第二通信模塊相連,用于保存第二通信模塊獲取的多媒體資源和處理模塊計算出的人流量統(tǒng)計結(jié)果;所述處理模塊將計算的客流量通過第二通信模塊上傳到服務器。
第二通信模塊,與存儲模塊相連,用于與服務器進行信息交互,從服務器下載多媒體資源并將其轉(zhuǎn)發(fā)至所述存儲模塊進行存儲。所述第二通信模塊為3G和/或4G模塊。
搜索模塊,與第一通信模塊和第二通信模塊相連,包括信息采集單元、信息處理單元和搜索服務單元; 其中,信息采集單元利用網(wǎng)絡爬蟲從第二通信模塊讀取網(wǎng)頁鏈接列表,并根據(jù)指定算法抓取相關(guān)網(wǎng)頁,處理后存入網(wǎng)頁信息數(shù)據(jù)庫;信息處理單元將網(wǎng)頁信息數(shù)據(jù)庫中的相關(guān)網(wǎng)頁文檔進行分詞處理,建立索引,將結(jié)果保存在索引數(shù)據(jù)庫中,并對結(jié)果進行檢索排序;搜索服務單元針對用戶提交的查詢,在內(nèi)部數(shù)據(jù)庫中進行搜索,從中提取相應檢索頁面的摘要信息,發(fā)送給第一通信模塊,從而返回給用戶。所述搜索是針對旅游信息的專業(yè)信息搜索。
所述信息采集單元具體用于通過網(wǎng)絡爬蟲讀取待抓取網(wǎng)站的根URL,提取出所有下一級URL并將其放入第一待抓取URL列表中,如果所述第一待抓取URL列表不為空則從中取出一個URL并判斷是否已經(jīng)訪問過,若沒有訪問過則讀取此網(wǎng)頁,并進行內(nèi)容解析,再將內(nèi)容進行主題相關(guān)度判斷,若與主題相關(guān)則將網(wǎng)頁內(nèi)容存入網(wǎng)頁信息數(shù)據(jù)庫,并將已訪問過的URL放入已訪問URL列表,否則放棄該網(wǎng)頁;然后分析所述已訪問過的URL的下一級URL,將所有下一級URL添加到第二待抓取URL列表中,依次讀取所述第二待抓取URL列表并將與主題相關(guān)的網(wǎng)頁內(nèi)容存入網(wǎng)頁信息數(shù)據(jù)庫,直到所述第二待抓取URL列表為空或抓取深度等于指定深度,此時再繼續(xù)讀取所述第一待抓取URL列表,依次循環(huán)直到第一待抓取URL列表為空為止。
所述指定算法為首頁關(guān)聯(lián)算法,其中,所述信息采集單元首先訪問一個網(wǎng)站的首頁,通過基于布爾模型或向量空間模型的主題相關(guān)度算法計算該首頁與主題的相關(guān)程度,如果相關(guān)度滿足一預定要求,就把這個網(wǎng)站納入抓取范圍,如果相關(guān)度不滿足所述預定要求,則直接放棄整個網(wǎng)站,將該 URL 放入禁止訪問列表,爬蟲以后再遇到這個網(wǎng)站內(nèi)的 URL 時,直接丟棄該 URL 而不再將其放入待訪問的URL列表中。
所述預定要求為預先設定的一個閾值,主題相關(guān)度低于該閾值的網(wǎng)頁被丟棄,高于該閾值的網(wǎng)頁將被抓取。
所述分詞處理是采用基于字符串匹配的分詞方法或基于統(tǒng)計的分詞方法或基于理解的分詞方法。
圖2是根據(jù)本發(fā)明實施方式示出的信息推送及搜索方法,應用于前述景點推薦設備,所述方法包括如下步驟:
S1. 信息采集單元利用網(wǎng)絡爬蟲從第二通信模塊讀取網(wǎng)頁鏈接列表,并根據(jù)指定算法抓取相關(guān)網(wǎng)頁,處理后存入網(wǎng)頁信息數(shù)據(jù)庫;
S2. 信息處理單元將網(wǎng)頁信息數(shù)據(jù)庫中的相關(guān)網(wǎng)頁文檔進行分詞處理,建立索引,將結(jié)果保存在索引數(shù)據(jù)庫中,并對結(jié)果進行檢索排序;
S3. 搜索服務單元針對用戶提交的查詢,在內(nèi)部數(shù)據(jù)庫中進行搜索,從中提取相應檢索頁面的摘要信息,發(fā)送給第一通信模塊,從而返回給用戶。
圖3是根據(jù)本發(fā)明實施方式示出的信息推送及搜索系統(tǒng)構(gòu)成圖,其包括前述信息推送及搜索設備。
本發(fā)明的信息推送及搜索設備、方法及系統(tǒng),針對用戶的相關(guān)搜索,可以精準地獲取相關(guān)信息,將旅游線路和相關(guān)的旅游資訊關(guān)聯(lián)起來,并將其推送給用戶,使游客便捷地獲取對自己有用的信息。