業(yè)相關(guān)度為1*3+10 = 13。
[0090] 表三: 「00911
Luuyzj 田丁網(wǎng)站你越果屮慨畑網(wǎng)站Η谷和失Μ,囚仕ΤΓ舁網(wǎng)站仃大皮H、」,R」以觀 設(shè)標題權(quán)重系數(shù),從而進一步保證所述網(wǎng)站行業(yè)相關(guān)度計算的正確性,參見圖4,為本發(fā)明 實施例提供的另一種網(wǎng)站行業(yè)相關(guān)度計算方法的流程示意圖,該方法包括以下步驟:
[0093]步驟S1044:預(yù)設(shè)標題權(quán)重系數(shù)。
[0094]所述標題權(quán)重系數(shù)可以預(yù)設(shè)為任意數(shù)值,例如3或1.5等。
[0095] 步驟S1045:根據(jù)所述標題權(quán)重系數(shù)、標題行業(yè)詞匯數(shù)以及網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù)加 權(quán)計算獲得網(wǎng)站行業(yè)相關(guān)度。
[0096] 引入所述標題權(quán)重系數(shù)后,所述網(wǎng)站行業(yè)相關(guān)度通過以下公式計算獲得:
[0097] 網(wǎng)站行業(yè)相關(guān)度=標題行業(yè)詞匯數(shù)·標題權(quán)重系數(shù)+網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù) [0098]當然,需要說明的是,在具體實施時,根據(jù)用戶選擇的行業(yè)類別信息,計算所述行 業(yè)類別信息對應(yīng)的網(wǎng)站行業(yè)相關(guān)度。例如用戶不選擇行業(yè)類別信息,或則設(shè)定所述行業(yè)類 別信息為電力,則根據(jù)上述步驟計算電力網(wǎng)站行業(yè)相關(guān)度;如果用戶需要同時整理電力和 航天領(lǐng)域的網(wǎng)站,則分別計算網(wǎng)站的電力網(wǎng)站行業(yè)相關(guān)度和航天網(wǎng)站行業(yè)相關(guān)度。
[0099] 步驟S105:根據(jù)網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站。
[0100]參見圖5,為本發(fā)明實施例提供的一種行業(yè)網(wǎng)站庫加入方法的流程示意圖,所述方 法包括以下步驟:
[0101] S1051:預(yù)設(shè)網(wǎng)站行業(yè)相關(guān)度閾值。
[0102] 在具體實施時,所述網(wǎng)站行業(yè)相關(guān)度閾值可以設(shè)置為10。當然在具體實施時,根據(jù) 實際網(wǎng)站相關(guān)度的要求,可以設(shè)置所述網(wǎng)站行業(yè)相關(guān)度閾值為任意數(shù)值;例如如果用戶對 于網(wǎng)站相關(guān)度要求比較高,需要整理與行業(yè)緊密相關(guān)的網(wǎng)站,則可以設(shè)置較高的所述網(wǎng)站 行業(yè)相關(guān)度閾值;或者用戶需要拓展搜索范圍,對網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度要求比較低,則可 以設(shè)置較低的所述網(wǎng)站行業(yè)相關(guān)度閾值。而且,根據(jù)不同行業(yè),也可以設(shè)置不同的網(wǎng)站行業(yè) 相關(guān)度閾值,例如對電力行業(yè),設(shè)置電力行業(yè)相關(guān)度閾值;對能源行業(yè),設(shè)置能源行業(yè)相關(guān) 度閾值等。
[0103] 步驟S1052:判斷所述網(wǎng)站行業(yè)相關(guān)度是否大于所述網(wǎng)站行業(yè)相關(guān)度閾值。
[0104] 通過上述步驟計算得到的網(wǎng)站行業(yè)相關(guān)度,在具體實施時,網(wǎng)站"https : // www.baidu.com"的網(wǎng)站行業(yè)相關(guān)度為0,小于網(wǎng)站行業(yè)相關(guān)度閾值10,因此網(wǎng)站"https :// www. baidu. com"無需再進入后續(xù)步驟;網(wǎng)站"http: //www.b jx. com. cn"的網(wǎng)站行業(yè)相關(guān)度 為13,大于網(wǎng)站行業(yè)相關(guān)度閾值,因此網(wǎng)站"http: //www. b jx. com. cn"繼續(xù)進入后續(xù)步驟。
[0105] 步驟S1053:判斷所述網(wǎng)站域名地址是否存在于行業(yè)網(wǎng)站庫中。
[0106]所述行業(yè)網(wǎng)站庫可以理解為整理記錄相應(yīng)行業(yè)網(wǎng)站的數(shù)據(jù)庫。在本發(fā)明實施例 中,所述行業(yè)網(wǎng)站庫可以包括電力、航天、能源以及醫(yī)學(xué)等多個行業(yè)的網(wǎng)站。所述行業(yè)網(wǎng)站 庫的組織形式在本發(fā)明實施例中不做限制,例如所述行業(yè)網(wǎng)站庫可以為包括電力網(wǎng)站子 庫、航天網(wǎng)站子庫、能源網(wǎng)站子庫以及醫(yī)學(xué)網(wǎng)站子庫等多個子庫的行業(yè)網(wǎng)站庫;所述行業(yè)網(wǎng) 站庫也可以為一個匯集多個行業(yè)網(wǎng)站的、通過行業(yè)標識進行區(qū)分的綜合行業(yè)網(wǎng)站庫等。
[0107] 根據(jù)所述行業(yè)網(wǎng)站庫比對網(wǎng)站域名地址,具體的比對方式可以為根據(jù)行業(yè)網(wǎng)站庫 中保存的網(wǎng)站地址進行全文比對,或者從所述行業(yè)網(wǎng)站庫中提取網(wǎng)站域名地址,與步驟 S104中確定的網(wǎng)站域名地址進行比對,確定網(wǎng)站是否存在于行業(yè)網(wǎng)站庫中。在具體實施時, 如果判斷網(wǎng)站"http: //www. bj X. com. cn"與行業(yè)網(wǎng)站庫中保存的地址或域名匹配,則判斷 存在與行業(yè)網(wǎng)站庫中,則上述網(wǎng)站無需進入后續(xù)步驟;如果判斷網(wǎng)站"http:// www.bjx.com.cn"不與行業(yè)網(wǎng)站庫中的地址或域名匹配,則判斷上述網(wǎng)站不存在與行業(yè)網(wǎng) 站庫中,需要進入后續(xù)步驟。當然,在實際應(yīng)用過程中,由于網(wǎng)站整理行業(yè)需求不同,可以首 選選擇行業(yè)網(wǎng)站庫的行業(yè)類型,例如用戶需要整理電力行業(yè)網(wǎng)站,則可以只與比對電力行 業(yè)網(wǎng)站庫。
[0108] 步驟S1054:將所述網(wǎng)站域名地址整理加入到行業(yè)網(wǎng)站庫中。
[0109] 在具體實施時,如果網(wǎng)站"http: //www. bjx. com. cn"通過上述步驟的判斷確定,所 述網(wǎng)站"http : / /www . b j x . com . cn"不存在于行業(yè)網(wǎng)站庫中,則將網(wǎng)站"http : / / www. bjX. com. cn"加入到行業(yè)網(wǎng)站庫中。當然,根據(jù)整理網(wǎng)站的行業(yè)需求,可以將分門別類 地所述網(wǎng)站域名地址加入到相應(yīng)的行業(yè)網(wǎng)站庫中,例如將"http: //www. bjx. com. cn"加入 到電力行業(yè)網(wǎng)站庫中,以及通過步驟S1052和步驟S1053的判斷,將其他網(wǎng)站域名地址加入 到航天行業(yè)網(wǎng)站庫中等。
[0110] 在本發(fā)明實施例提供的行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法中,通過獲取用戶的網(wǎng)絡(luò)訪問記 錄,根據(jù)所述網(wǎng)絡(luò)訪問記錄訪問網(wǎng)絡(luò)頁面,獲取所述網(wǎng)絡(luò)頁面中的鏈接地址;然后,從所述 連接地址中獲取網(wǎng)站域名地址;根據(jù)所述網(wǎng)站域名地址對應(yīng)的網(wǎng)站出現(xiàn)的行業(yè)詞匯數(shù),計 算所述網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度;最后根據(jù)所述網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站。通過上述方法, 能夠有效獲得與待檢索行業(yè)緊密相關(guān)的網(wǎng)站,用戶通過整理出的網(wǎng)站繼續(xù)進行檢索,有效 防止其他無關(guān)信息的干擾,保證檢索的專業(yè)度,提高檢索效率。同時,通過所述方法對網(wǎng)站 進行整理,有效減輕了用戶尋找和維護行業(yè)網(wǎng)站的工作量,方便檢索。
[0111] 通過以上的方法實施例的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可 借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當然也可以通過硬件,但很多情況下前者 是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢 獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包 括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行 本發(fā)明各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:只讀存儲器 (R0M)、隨機存取存儲器(RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0112] 與本發(fā)明提供的行業(yè)網(wǎng)站的發(fā)現(xiàn)整理方法實施例相對應(yīng),本發(fā)明還提供了一種行 業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置。
[0113] 參見圖6,為本發(fā)明實施例提供的一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置的結(jié)構(gòu)示意圖,所 述裝置包括:
[0114] 網(wǎng)絡(luò)訪問記錄獲取模塊11,用于獲取用戶的網(wǎng)絡(luò)訪問記錄;
[0115] 鏈接地址抓取模塊12,用于根據(jù)所述網(wǎng)絡(luò)訪問記錄訪問網(wǎng)絡(luò)頁面,獲取所述網(wǎng)絡(luò) 頁面中的鏈接地址;
[0116] 網(wǎng)站域名地址獲取模塊13,用于從所述鏈接地址中,獲取網(wǎng)站域名地址;
[0117] 網(wǎng)站行業(yè)相關(guān)度計算模塊14,用于根據(jù)所述網(wǎng)站域名地址對應(yīng)的網(wǎng)站中出現(xiàn)的行 業(yè)詞匯數(shù),計算所述網(wǎng)站的網(wǎng)站行業(yè)相關(guān)度;
[0118] 網(wǎng)站庫整理模塊15,用于根據(jù)所述網(wǎng)站行業(yè)相關(guān)度,整理網(wǎng)站。
[0119] 參見圖7,為本發(fā)明實施例提供的另一種行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置的結(jié)構(gòu)示意圖, 所述行業(yè)網(wǎng)站的發(fā)現(xiàn)整理裝置還包括:
[0120] 行業(yè)類別信息獲取模塊21,用于獲取行業(yè)類別信息,所述行業(yè)類別信息為包括電 力、航天、能源以及醫(yī)學(xué)的一個或多個行業(yè)的類別信息;
[0121] 行業(yè)詞匯獲取模塊22,用于根據(jù)所述行業(yè)類別信息,獲得相應(yīng)行業(yè)的行業(yè)詞匯。
[0122] 為了獲得網(wǎng)站行業(yè)相關(guān)度,參見圖8,為本發(fā)明實施例提供的一種網(wǎng)站行業(yè)相關(guān)度 計算模塊的結(jié)構(gòu)示意圖,所述網(wǎng)站行業(yè)相關(guān)度計算模塊14包括:
[0123] 標題行業(yè)詞匯數(shù)確定模塊141,用于對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的標題與行業(yè)詞 匯,確定標題行業(yè)詞匯數(shù);
[0124] 網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù)確定模塊142,用于對比網(wǎng)站域名地址對應(yīng)網(wǎng)站的網(wǎng)頁內(nèi)容 與行業(yè)詞匯,確定網(wǎng)頁內(nèi)容行業(yè)詞匯數(shù);
[0125] 網(wǎng)站行業(yè)相關(guān)度獲得模塊143,用于通過所述標題行業(yè)詞匯數(shù)和所述網(wǎng)頁內(nèi)容行 業(yè)詞匯數(shù),計算獲得網(wǎng)站行業(yè)相關(guān)度。
[0126] 為了更精確、且靈活的計算網(wǎng)站行業(yè)相關(guān)度,參見圖9,為本發(fā)明實施例提供的另 一種網(wǎng)站行業(yè)相關(guān)度計算模塊的結(jié)構(gòu)示意圖,所述網(wǎng)站行業(yè)相關(guān)度計算模塊14包括:
[0127] 標題權(quán)重系數(shù)預(yù)設(shè)模塊144,用于預(yù)設(shè)標題權(quán)