一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別是涉及一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法及裝 置。
【背景技術(shù)】
[0002] 電網(wǎng)企業(yè)在進行技術(shù)創(chuàng)新時,需要進行新技術(shù)、新方法等技術(shù)信息的收集,并以收 集到的技術(shù)信息作為基礎(chǔ)進行創(chuàng)造性的革新和拓展?;谒阉饕妫褂谜咴谳斎氩樵儍?nèi) 容后,搜索引擎可以根據(jù)查詢內(nèi)容將相關(guān)網(wǎng)站的信息提供給用戶查閱。
[0003] 目前搜索引擎一般需要抓取整個廣域網(wǎng)或局域網(wǎng)內(nèi)的網(wǎng)站,并將所有網(wǎng)站中包含 的內(nèi)容與所述查詢內(nèi)容進行比對,不但費時費力,而且抓取得到的網(wǎng)站的質(zhì)量也參差不齊, 例如用戶需要查詢電網(wǎng)的相關(guān)技術(shù)內(nèi)容,并輸入查詢內(nèi)容"高壓",通過上述方法獲得網(wǎng)站 往往包含大量無關(guān)網(wǎng)站例如賣高壓鍋的電商網(wǎng)站以及報道高壓線故障的新聞門戶網(wǎng)站等, 其包含的信息很容易干擾用戶的檢索工作,造成檢索效率低下。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例中提供了一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法及裝置,以解決現(xiàn)有技術(shù)中 的檢索效率低的問題。
[0005] 為了解決上述技術(shù)問題,本發(fā)明實施例公開了如下技術(shù)方案:
[0006] 本發(fā)明實施例公開了一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法,該方法包括:
[0007] 獲取用戶的網(wǎng)絡(luò)訪問記錄;
[0008] 根據(jù)所述網(wǎng)絡(luò)訪問記錄訪問網(wǎng)絡(luò)頁面,獲取所述網(wǎng)絡(luò)頁面中的鏈接地址;
[0009] 從所述鏈接地址中,獲取網(wǎng)站域名地址;
[0010] 根據(jù)所述網(wǎng)站域名地址對應(yīng)的網(wǎng)站中出現(xiàn)的行業(yè)詞匯數(shù),計算所述網(wǎng)站的網(wǎng)站行 業(yè)相關(guān)度;
[0011] 根據(jù)所述網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站。
[0012] 優(yōu)選地,根據(jù)所述網(wǎng)站域名對應(yīng)的網(wǎng)站中出現(xiàn)的行業(yè)詞匯數(shù),計算所述網(wǎng)站的網(wǎng) 站行業(yè)相關(guān)度之前,還包括:
[0013] 獲取行業(yè)類別信息,所述行業(yè)類別信息為包括電力、航天、能源以及醫(yī)學(xué)的一個或 多個的類別信息;
[0014] 根據(jù)所述行業(yè)類別信息,獲得相應(yīng)行業(yè)的行業(yè)詞匯。
[0015] 優(yōu)選地,所述根據(jù)所述網(wǎng)站域名地址對應(yīng)的網(wǎng)站中出現(xiàn)的行業(yè)詞匯數(shù),計算所述 網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度,包括:
[0016] 對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的標(biāo)題與行業(yè)詞匯,確定標(biāo)題行業(yè)詞匯數(shù);
[0017] 對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容與行業(yè)詞匯,確定網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù);
[0018] 通過所述標(biāo)題行業(yè)詞匯數(shù)和所述網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù),計算獲得網(wǎng)站行業(yè)相關(guān) 度。
[0019] 優(yōu)選地,所述通過所述標(biāo)題行業(yè)詞匯數(shù)和所述網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù),計算獲得網(wǎng) 站行業(yè)相關(guān)度,還包括:
[0020] 預(yù)設(shè)標(biāo)題權(quán)重系數(shù);
[0021] 根據(jù)所述標(biāo)題權(quán)重系數(shù)、標(biāo)題行業(yè)詞匯數(shù)以及網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù),加權(quán)計算獲 得網(wǎng)站行業(yè)相關(guān)度。
[0022] 優(yōu)選地,所述根據(jù)所述網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站,包括:
[0023]預(yù)設(shè)網(wǎng)站行業(yè)相關(guān)度閾值;
[0024]判斷所述網(wǎng)站行業(yè)相關(guān)度是否大于所述網(wǎng)站行業(yè)相關(guān)度閾值;
[0025]判斷所述網(wǎng)站域名地址是否存在于行業(yè)網(wǎng)站庫中;
[0026] 如果所述網(wǎng)站行業(yè)相關(guān)度大于所述網(wǎng)站行業(yè)相關(guān)度閾值,且所述網(wǎng)站域名地址不 存在于所述行業(yè)網(wǎng)站庫中,將所述網(wǎng)站域名地址整理加入到行業(yè)網(wǎng)站庫。
[0027]本發(fā)明實施例還公開了一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置,包括:
[0028] 網(wǎng)絡(luò)訪問記錄獲取模塊,用于獲取用戶的網(wǎng)絡(luò)訪問記錄;
[0029] 鏈接地址抓取模塊,用于根據(jù)所述網(wǎng)絡(luò)訪問記錄訪問網(wǎng)絡(luò)頁面,獲取所述網(wǎng)絡(luò)頁 面中的鏈接地址;
[0030] 網(wǎng)站域名地址獲取模塊,用于從所述鏈接地址中,獲取網(wǎng)站域名地址;
[0031] 網(wǎng)站行業(yè)相關(guān)度計算模塊,用于根據(jù)所述網(wǎng)站域名地址對應(yīng)的網(wǎng)站中出現(xiàn)的行業(yè) 詞匯數(shù),計算所述網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度;
[0032]網(wǎng)站庫整理模塊,用于根據(jù)所述網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站。
[0033]優(yōu)選地,所述行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置還包括:
[0034] 行業(yè)類別信息獲取模塊,用于獲取行業(yè)類別信息,所述行業(yè)類別信息為包括電力、 航天、能源以及醫(yī)學(xué)的一個或多個的類別信息;
[0035] 行業(yè)詞匯獲取模塊,用于根據(jù)所述行業(yè)類別信息,獲得相應(yīng)行業(yè)的行業(yè)詞匯。
[0036] 優(yōu)選地,所述網(wǎng)站行業(yè)相關(guān)度計算模塊包括:
[0037] 標(biāo)題行業(yè)詞匯數(shù)確定模塊,用于對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的標(biāo)題與行業(yè)詞匯, 確定標(biāo)題行業(yè)詞匯數(shù);
[0038] 網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù)確定模塊,用于對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容與行 業(yè)詞匯,確定網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù);
[0039] 網(wǎng)站行業(yè)相關(guān)度獲得模塊,用于通過所述標(biāo)題行業(yè)詞匯數(shù)和所述網(wǎng)頁內(nèi)容行業(yè)詞 匯數(shù),計算獲得網(wǎng)站行業(yè)相關(guān)度。
[0040] 優(yōu)選地,所述網(wǎng)站行業(yè)相關(guān)度獲得模塊包括:
[0041 ]標(biāo)題權(quán)重系數(shù)預(yù)設(shè)模塊,用于預(yù)設(shè)標(biāo)題權(quán)重系數(shù);
[0042]網(wǎng)站行業(yè)相關(guān)度加權(quán)模塊,用于根據(jù)所述標(biāo)題權(quán)重系數(shù)、標(biāo)題行業(yè)詞匯數(shù)以及網(wǎng) 頁內(nèi)容行業(yè)詞匯數(shù),加權(quán)計算獲得網(wǎng)站行業(yè)相關(guān)度。
[0043]優(yōu)選地,所述網(wǎng)站庫整理模塊包括:
[0044] 網(wǎng)站行業(yè)相關(guān)度預(yù)設(shè)模塊,用于預(yù)設(shè)網(wǎng)站行業(yè)相關(guān)度閾值;
[0045] 網(wǎng)站行業(yè)相關(guān)度判斷模塊,用于判斷所述網(wǎng)站行業(yè)相關(guān)度是否大于所述網(wǎng)站行業(yè) 相關(guān)度閾值;
[0046] 網(wǎng)站域名地址判斷模塊,用于判斷所述網(wǎng)站域名地址是否存在于行業(yè)網(wǎng)站庫中;
[0047]行業(yè)網(wǎng)站入庫模塊,用于如果所述網(wǎng)站行業(yè)相關(guān)度大于所述網(wǎng)站行業(yè)相關(guān)度閾 值,且所述網(wǎng)站域名地址不存在于所述行業(yè)網(wǎng)站庫中,將所述網(wǎng)站域名地址整理加入到行 業(yè)網(wǎng)站庫。
[0048]由以上技術(shù)方案可見,本發(fā)明實施例提供的一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法及裝 置,通過獲取用戶的網(wǎng)絡(luò)訪問記錄,根據(jù)所述網(wǎng)絡(luò)訪問記錄訪問網(wǎng)絡(luò)頁面,獲取所述網(wǎng)絡(luò)頁 面中的鏈接地址;然后,從所述連接地址中獲取網(wǎng)站域名地址;根據(jù)所述網(wǎng)站域名地址對應(yīng) 的網(wǎng)站出現(xiàn)的行業(yè)詞匯數(shù),計算所述網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度;最好根據(jù)所述網(wǎng)站行業(yè)相關(guān) 度,整理網(wǎng)站。通過上述方法,能夠有效獲得與待檢索行業(yè)緊密相關(guān)的網(wǎng)站,用戶通過整理 出的網(wǎng)站繼續(xù)進行檢索,有效防止其他無關(guān)信息的干擾,保證檢索的專業(yè)度,提高檢索效 率。同時,通過所述方法對網(wǎng)站進行整理,有效減輕了用戶尋找和維護行業(yè)網(wǎng)站的工作量, 方便檢索。
【附圖說明】
[0049] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對于本領(lǐng)域普通技術(shù)人員而 言,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0050] 圖1為本發(fā)明實施例提供的一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法的流程示意圖;
[0051] 圖2為本發(fā)明實施例提供的另一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法的流程示意圖;
[0052]圖3為本發(fā)明實施例提供的一種網(wǎng)站行業(yè)相關(guān)度計算方法的流程示意圖;
[0053]圖4為本發(fā)明實施例提供的另一種網(wǎng)站行業(yè)相關(guān)度計算方法的流程示意圖;
[0054]圖5為本發(fā)明實施例提供的一種行業(yè)網(wǎng)站庫加入方法的流程示意圖;
[0055]圖6為本發(fā)明實施例提供的一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置的結(jié)構(gòu)示意圖;
[0056]圖7為本發(fā)明實施例提供的另一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置的結(jié)構(gòu)示意圖;
[0057] 圖8為本發(fā)明實施例提供的一種網(wǎng)站行業(yè)相關(guān)度計算模塊的結(jié)構(gòu)示意圖;
[0058] 圖9為本發(fā)明實施例提供的另一種網(wǎng)站行業(yè)相關(guān)度計算模塊的結(jié)構(gòu)示意圖;
[0059]圖10為本發(fā)明實施例提供的一種網(wǎng)站庫整理模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0060] 為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明中的技術(shù)方案,下面將結(jié)合本發(fā)明實 施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施 例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通 技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護 的范圍。
[0061] 技術(shù)創(chuàng)新主要分為三種模式:自主創(chuàng)新、模仿創(chuàng)新和合作創(chuàng)新。目前,電網(wǎng)企業(yè)技 術(shù)創(chuàng)新以模仿創(chuàng)新為主將新技術(shù)、新方法與當(dāng)前電網(wǎng)生產(chǎn)實踐相結(jié)合。模仿創(chuàng)新是指在率 先創(chuàng)新