欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種信息搜索方法及搜索引擎的制作方法

文檔序號:6489854閱讀:213來源:國知局
一種信息搜索方法及搜索引擎的制作方法
【專利摘要】本申請?zhí)峁┝艘环N信息搜索方法及搜索引擎,屬于數(shù)據(jù)處理【技術(shù)領(lǐng)域】。其中方法包括:依據(jù)預(yù)置的各入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度;根據(jù)所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站;依據(jù)所述查詢詞在所述價值網(wǎng)站中進(jìn)行信息搜索,得到相應(yīng)的搜索結(jié)果。本申請將小眾站點中的內(nèi)容也通過模型進(jìn)行索引,增強(qiáng)了行業(yè)類別和網(wǎng)站的覆蓋面,提供了更加豐富的信息;而且本申請的操作流程均為自動完成,無需人工參與,且各網(wǎng)站模型可以自動訓(xùn)練和自動更新,大大提高了信息處理的效率。
【專利說明】一種信息搜索方法及搜索引擎
【技術(shù)領(lǐng)域】
[0001]本申請涉及數(shù)據(jù)處理【技術(shù)領(lǐng)域】,特別是涉及一種信息搜索方法及搜索引擎。
【背景技術(shù)】
[0002]目前,搜索引擎技術(shù)已經(jīng)是人們從互聯(lián)網(wǎng)上獲得資金所需要信息的主要工具,得到了廣泛應(yīng)用。
[0003]相對于通用搜索引擎的信息量大、查詢不準(zhǔn)確、深度不夠等缺陷,垂直搜索引擎是一種新的搜索引擎服務(wù)模式,通過針對某一行業(yè)類別、某一特定人群或某一特定需求設(shè)定查詢?nèi)肟?,提供有一定價值的信息和相關(guān)服務(wù),例如,游戲、軟件、房產(chǎn)、汽車等都是獨立的垂直搜索類型。
[0004]現(xiàn)有技術(shù)中的信息搜索方法為將多個垂直搜索引擎的結(jié)果按分類模型中的規(guī)則合并在一個搜索結(jié)果頁面上,相應(yīng)的流程具體可以包括:
[0005]步驟1、人工預(yù)設(shè)查詢的行業(yè)類別(比如:游戲,軟件,房產(chǎn)、汽車等),人工篩選出預(yù)設(shè)的行業(yè)類別中知名可靠的站點,并建立相應(yīng)的解析和展示邏輯;
[0006]步驟2、利用分類模型、規(guī)則篩選等方法來建立以查詢詞為基礎(chǔ)的分類模型,當(dāng)用戶輸入查詢詞后會通過所述分類模型將查詢詞映射到預(yù)設(shè)的行業(yè)類別上,將查詢詞解析后輸入到預(yù)設(shè)的行業(yè)類別中比較知名可靠的站點,并獲取站點中相應(yīng)的搜索結(jié)果;
[0007]步驟3、整合各站點中垂直搜索引擎對應(yīng)的搜索結(jié)果,統(tǒng)一濾重、排序并展示在搜索結(jié)果頁面上。
[0008]現(xiàn)有技術(shù)具有如下缺點:
[0009]1、行業(yè)類別覆蓋面較??;現(xiàn)有技術(shù)中需要人工預(yù)設(shè)行業(yè)類別,由于每個行業(yè)類別均需要進(jìn)行結(jié)構(gòu)定義、數(shù)據(jù)獲取、模型訓(xùn)練、黑白名單挖掘等一系列復(fù)雜繁瑣的工作,因此能覆蓋的行業(yè)類別是非常有限的。
[0010]比如,在現(xiàn)有技術(shù)的搜索引擎中輸入查詢詞“三級螺紋鋼”,由于鋼材類的需求非常少,在搜索中的占比不到萬分之一,人工方式通常不會針對這么小的需求來建立行業(yè)類別的;因此,現(xiàn)有技術(shù)通常只能搜索出一些鋼材網(wǎng)站的零散頁面作為搜索結(jié)果返回給用戶。
[0011]2、網(wǎng)站覆蓋面比較??;現(xiàn)有技術(shù)中的站點依靠人工篩選,預(yù)設(shè)得行業(yè)類別中比較知名可靠的站點,但這樣通常僅能利用有限數(shù)量的站點,使搜索結(jié)果均為一些名站的結(jié)果,提供的彳目息有限。
[0012]比如,用戶搜索某一款限量款的奢侈汽車,現(xiàn)有的方法會將該款汽車相應(yīng)的查詢詞歸類為汽車類,在名站“搜狐汽車”和“愛卡汽車網(wǎng)”中獲取對應(yīng)的搜索結(jié)果并展示給用戶;但是,這兩個網(wǎng)站主要關(guān)注是普通的消費類汽車,對奢侈汽車的覆蓋度不高,不能提供對應(yīng)的查詢信息。
[0013]3、信息的處理效率低;由于設(shè)定的每個行業(yè)類別均需要進(jìn)行結(jié)構(gòu)定義、獲取數(shù)據(jù)、訓(xùn)練模型、挖掘黑白名單等一系列復(fù)雜繁瑣的工作,均需要人工來完成,因此每增加一個行業(yè)類別均需要耗費大量的人力,從而降低了信息的處理效率。[0014]總之,需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是:如何能夠更好地覆蓋用戶的搜索需求,以及,能夠提高信息的處理效率。

【發(fā)明內(nèi)容】

[0015]本申請所要解決的技術(shù)問題是提供一種信息搜索方法及搜索引擎,得到的搜索結(jié)果能夠更好地覆蓋用戶的搜索需求,并且能夠提高信息的處理效率。
[0016]為了解決上述問題,本申請公開了一種信息搜索方法,包括:
[0017]依據(jù)預(yù)置的各入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度;
[0018]根據(jù)所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站;
[0019]依據(jù)所述查詢詞在所述價值網(wǎng)站中進(jìn)行信息搜索,得到相應(yīng)的搜索結(jié)果。
[0020]優(yōu)選的,所述獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度包括:在入口網(wǎng)站的網(wǎng)站模型中,根據(jù)一元或多元的查詢詞分別在所述入口網(wǎng)站和全網(wǎng)網(wǎng)站中的出現(xiàn)概率獲取查詢詞的關(guān)聯(lián)度。
[0021]優(yōu)選的,所述實體詞為依據(jù)對所述入口網(wǎng)站的網(wǎng)站模型的訓(xùn)練數(shù)據(jù)進(jìn)行分析抽取得到;
[0022]所述訓(xùn)練數(shù)據(jù)至少包括下列數(shù)據(jù)中的一種或多種:用于展現(xiàn)入口網(wǎng)站中頁面內(nèi)容的頁面數(shù)據(jù)、從入口網(wǎng)站搜索結(jié)果中提取后形成的結(jié)果數(shù)據(jù)、符合預(yù)置質(zhì)量指標(biāo)的結(jié)果數(shù)據(jù)對應(yīng)的查詢詞。
[0023]優(yōu)選的,所述方法還包括:通過下列步驟收集互聯(lián)網(wǎng)上的入口網(wǎng)站:
[0024]針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口,若是,則其為入口網(wǎng)站。
[0025]優(yōu)選的,所述針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口的步驟,包括:
[0026]第一判斷步驟:判斷所述網(wǎng)站的頁面元素中是否包含輸入框,若是,則執(zhí)行第二判斷步驟;
[0027]第二判斷步驟:判斷所述網(wǎng)站中輸入框的功能是否為供查詢詞進(jìn)行輸入后搜索或查詢,若是,則執(zhí)行第三判斷步驟;
[0028]第三判斷步驟:判斷所述網(wǎng)站對應(yīng)的結(jié)果頁面的地址是否符合搜索引擎對應(yīng)的結(jié)果頁面地址的格式。
[0029]優(yōu)選的,在所述網(wǎng)站對應(yīng)的結(jié)果頁面的地址符合搜索引擎對應(yīng)的結(jié)果頁面地址的格式時,判斷該網(wǎng)站依據(jù)查詢詞得到的結(jié)果頁面的內(nèi)容和頁面結(jié)構(gòu)是否符合搜索引擎對應(yīng)的結(jié)果頁面的內(nèi)容和頁面結(jié)構(gòu),若是,則該網(wǎng)站為暗網(wǎng)資源入口。
[0030]優(yōu)選的,所述收集互聯(lián)網(wǎng)上的入口網(wǎng)站的步驟還包括:
[0031]對判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行質(zhì)量評估,得到相應(yīng)的質(zhì)量得分;
[0032]依據(jù)所述質(zhì)量得分對所述判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行篩選,得到相應(yīng)的入口網(wǎng)站。
[0033]優(yōu)選的,所述根據(jù)所述查詢詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站時,將與入口網(wǎng)站的關(guān)聯(lián)度高于關(guān)聯(lián)度閾值的入口網(wǎng)站作為價值網(wǎng)站;所述關(guān)聯(lián)度閾值依據(jù)預(yù)置的召回率和準(zhǔn)確率得到。
[0034]優(yōu)選的,所述方法還包括:依據(jù)接收到的對所述價值網(wǎng)站的選擇信息,搜索得到所述查詢詞在選中的價值網(wǎng)站中的搜索結(jié)果。
[0035]優(yōu)選的,所述方法還包括:按照所述查詢詞與入口網(wǎng)站的關(guān)聯(lián)度的從高到低的順序,將所述搜索結(jié)果以條目鏈接的形式按對應(yīng)的價值網(wǎng)站進(jìn)行展現(xiàn)。
[0036]根據(jù)本申請的另一方面,提供了一種搜索引擎,包括:
[0037]關(guān)聯(lián)度獲取單元,用于依據(jù)預(yù)置的各入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度;
[0038]第一價值網(wǎng)站獲取單元,用于根據(jù)所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站 '及
[0039]信息搜索單元,用于依據(jù)所述查詢詞在所述價值網(wǎng)站中進(jìn)行信息搜索,得到相應(yīng)的搜索結(jié)果。
[0040]優(yōu)選的,所述關(guān)聯(lián)度獲取單元,具體用于在入口網(wǎng)站的網(wǎng)站模型中,根據(jù)一元或多元的查詢詞分別在所述入口網(wǎng)站和全網(wǎng)網(wǎng)站中的出現(xiàn)概率獲取查詢詞的關(guān)聯(lián)度。
[0041]優(yōu)選的,所述實體詞為依據(jù)對所述入口網(wǎng)站的網(wǎng)站模型的訓(xùn)練數(shù)據(jù)進(jìn)行分析抽取得到;
[0042]所述訓(xùn)練數(shù)據(jù)至少包括下列數(shù)據(jù)中的一種或多種:用于展現(xiàn)入口網(wǎng)站中頁面內(nèi)容的頁面數(shù)據(jù)、從入口網(wǎng)站搜索結(jié)果中提取后形成的結(jié)果數(shù)據(jù)、符合預(yù)置質(zhì)量指標(biāo)的結(jié)果數(shù)據(jù)對應(yīng)的查詢詞。
[0043]優(yōu)選的,所述搜索引擎還包括:用于收集互聯(lián)網(wǎng)上的入口網(wǎng)站的收集單元;
[0044]所述收集單元,包括:
[0045]暗網(wǎng)資源的入口判斷子單元,用于針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口,若是,則其為入口網(wǎng)站。
[0046]優(yōu)選的,所述收集單元還包括:
[0047]質(zhì)量評估子單元,用于對判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行質(zhì)量評估,得到相應(yīng)的質(zhì)量得分;
[0048]篩選子單元,用于依據(jù)所述質(zhì)量得分,對所述判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行篩選,得到相應(yīng)的入口網(wǎng)站。
[0049]優(yōu)選的,所述搜索引擎還包括:
[0050]第一展現(xiàn)單元,用于展現(xiàn)所述價值網(wǎng)站;
[0051]選擇搜索單元,用于依據(jù)接收到的對所述價值網(wǎng)站的選擇信息,搜索得到所述查詢詞在選中的價值網(wǎng)站中的搜索結(jié)果。
[0052]優(yōu)選的,所述搜索引擎還包括:
[0053]排序展現(xiàn)單元,用于按照所述查詢詞與入口網(wǎng)站的關(guān)聯(lián)度的從高到低的順序,將所述搜索結(jié)果以條目鏈接的形式按對應(yīng)的價值網(wǎng)站進(jìn)行展現(xiàn)。
[0054]與現(xiàn)有技術(shù)相比,本申請具有以下優(yōu)點:
[0055]本申請依據(jù)查詢詞在價值網(wǎng)站中進(jìn)行信息搜索;一方面,本申請的價值網(wǎng)站為經(jīng)過選取的入口網(wǎng)站,而入口網(wǎng)站用于表示暗網(wǎng)資源的入口,故能夠搜索得到現(xiàn)有技術(shù)無法索引的暗網(wǎng)資源對應(yīng)的結(jié)果;另一方面,由于本申請中查詢詞在各價值網(wǎng)站中的搜索結(jié)果會好于在全網(wǎng)網(wǎng)站中的搜索結(jié)果;因此,本申請摒棄了現(xiàn)有技術(shù)中基于行業(yè)類別對查詢詞進(jìn)行搜索,將小眾站點中的內(nèi)容也通過模型進(jìn)行索引,增強(qiáng)了行業(yè)類別和網(wǎng)站的覆蓋面,提供了更加豐富的信息;而且本申請的操作流程均為自動完成,無需人工參與,且各網(wǎng)站模型可以自動訓(xùn)練和自動更新,因此,相對于現(xiàn)有技術(shù),大大提高了信息處理的效率。
【專利附圖】

【附圖說明】
[0056]圖1是本申請一種信息搜索方法實施例的流程圖;
[0057]圖2是本申請一種入口網(wǎng)站的網(wǎng)站模型的訓(xùn)練方法實施例的流程圖;
[0058]圖3是本申請一種搜索引擎實施例的結(jié)構(gòu)圖。
【具體實施方式】
[0059]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和【具體實施方式】對本申請作進(jìn)一步詳細(xì)的說明。
[0060]互聯(lián)網(wǎng)上存在著數(shù)千個或數(shù)萬個網(wǎng)站,每個網(wǎng)站具有一種有關(guān)不同字段的搜索功能。但是,網(wǎng)絡(luò)上大部分內(nèi)容是不能通過靜態(tài)鏈接獲取的,特別是大部分隱藏在搜索表單之后的頁面只有通過用戶鍵入一系列關(guān)鍵詞才可以獲得,這些頁面被稱為暗網(wǎng)資源(HiddenWeb)。也就是說,由于當(dāng)前的搜索引擎不能索引到或不能在它們的返回結(jié)果中顯示這些頁面,因此,這些頁面是現(xiàn)有技術(shù)中搜索引擎所無法抓取的網(wǎng)頁、不能檢索到的信息,即“看不見”的頁面,因此對用戶來說這部分頁面是隱藏的。
[0061]本申請采用入口網(wǎng)站表示暗網(wǎng)資源的入口,以及采用入口網(wǎng)站的網(wǎng)站模型描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度;這里,關(guān)聯(lián)度主要根據(jù)各實體詞在入口網(wǎng)站的出現(xiàn)概率和在全網(wǎng)網(wǎng)站的出現(xiàn)概率進(jìn)行計算。全網(wǎng)網(wǎng)站主要指整個互聯(lián)網(wǎng)上的網(wǎng)站,入口網(wǎng)站主要指全網(wǎng)網(wǎng)站中表示暗網(wǎng)資源的入口的單個網(wǎng)站;這樣,如果查詢詞與某入口網(wǎng)站的關(guān)聯(lián)度較高,則說明該查詢詞在該入口網(wǎng)站中的搜索結(jié)果會好于其在全網(wǎng)網(wǎng)站中的搜索結(jié)果;由于現(xiàn)有技術(shù)中搜索引擎無法索引到入口網(wǎng)站中的暗網(wǎng)資源,因此,本申請得到查詢詞在關(guān)聯(lián)度較高的入口網(wǎng)站的搜索結(jié)果,能夠更好地滿足用戶的搜索需求。
[0062]參照圖1,示出了本申請一種信息搜索方法實施例的流程圖,具體可以包括:
[0063]步驟101、依據(jù)預(yù)置的入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型與入口網(wǎng)站一一對應(yīng),用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度;
[0064]在獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度后,能夠從全網(wǎng)中區(qū)分出與輸入的查詢詞關(guān)聯(lián)度聞的入口網(wǎng)站。
[0065]在本申請的一種優(yōu)選實施例中,所述獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度具體可以包括:在入口網(wǎng)站的網(wǎng)站模型中,根據(jù)一元或多元的查詢詞分別在入口網(wǎng)站和全網(wǎng)網(wǎng)站出現(xiàn)概率獲取查詢詞的關(guān)聯(lián)度。
[0066]本申請實施例中,一元實體詞也即一個實體詞,多元實體詞也即連續(xù)的多個實體詞,多元實體詞可有查詢串分詞得到。具體而言,如果一元或多元實體詞在某入口網(wǎng)站的出現(xiàn)概率大于其在全網(wǎng)網(wǎng)站的出現(xiàn)概率,則該一元或多元實體詞與該入口網(wǎng)站的關(guān)聯(lián)度較高,即以該一元或多元實體詞作為查詢詞在該入口網(wǎng)站中的搜索結(jié)果會好于在全網(wǎng)網(wǎng)站中的搜索結(jié)果。
[0067]在具體實現(xiàn)中,各入口網(wǎng)站的網(wǎng)站模型可采用數(shù)據(jù)庫的形式存儲一元或多元實體詞分別在入口網(wǎng)站和全網(wǎng)網(wǎng)站的出現(xiàn)概率,則步驟101依據(jù)預(yù)置的入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度的實現(xiàn)過程具體可以包括:
[0068]將所述查詢詞與所述數(shù)據(jù)庫中存儲的一元或多元實體詞進(jìn)行匹配,若匹配成功,則通過所述數(shù)據(jù)庫獲取該一元或多元實體詞分別在入口網(wǎng)站和全網(wǎng)網(wǎng)站的出現(xiàn)概率,從而得到所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度。
[0069]在本申請的一 種應(yīng)用示例中,入口網(wǎng)站的網(wǎng)站模型存儲的所述一元或多元實體詞分別在入口網(wǎng)站和全網(wǎng)網(wǎng)站的出現(xiàn)概率的關(guān)聯(lián)情況,具體可以包括一元或多元實體詞分別在入口網(wǎng)站和全網(wǎng)網(wǎng)站的出現(xiàn)概率比的對數(shù)(log)值。
[0070]參照表1,示出了本申請入口網(wǎng)站的網(wǎng)站模型描述的一元實體詞分別在某入口網(wǎng)站和全網(wǎng)網(wǎng)站的出現(xiàn)概率比的log值的示例。
[0071]表1
[0072]
【權(quán)利要求】
1.一種信息搜索方法,其特征在于,包括: 依據(jù)預(yù)置的各入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度; 根據(jù)所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站; 依據(jù)所述查詢詞在所述價值網(wǎng)站中進(jìn)行信息搜索,得到相應(yīng)的搜索結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度包括:在入口網(wǎng)站的網(wǎng)站模型中,根據(jù)一元或多元的查詢詞分別在所述入口網(wǎng)站和全網(wǎng)網(wǎng)站中的出現(xiàn)概率獲取查詢詞的關(guān)聯(lián)度。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述實體詞為依據(jù)對所述入口網(wǎng)站的網(wǎng)站模型的訓(xùn)練數(shù)據(jù)進(jìn)行分析抽取得到; 所述訓(xùn)練數(shù)據(jù)至少包括下列數(shù)據(jù)中的一種或多種:用于展現(xiàn)入口網(wǎng)站中頁面內(nèi)容的頁面數(shù)據(jù)、從入口網(wǎng)站搜索結(jié)果中提取后形成的結(jié)果數(shù)據(jù)、符合預(yù)置質(zhì)量指標(biāo)的結(jié)果數(shù)據(jù)對應(yīng)的查詢詞。
4.如權(quán)利要求1或2所述的方法,其特征在于,還包括:通過下列步驟收集互聯(lián)網(wǎng)上的入口網(wǎng)站: 針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口,若是,則其為入口網(wǎng)站。
5.如權(quán)利要求4所述的方法,`其特征在于,所述針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口的步驟,包括: 第一判斷步驟:判斷所述網(wǎng)站的頁面元素中是否包含輸入框,若是,則執(zhí)行第二判斷步驟; 第二判斷步驟:判斷所述網(wǎng)站中輸入框的功能是否為供查詢詞進(jìn)行輸入后搜索或查詢,若是,則執(zhí)行第三判斷步驟; 第三判斷步驟:判斷所述網(wǎng)站對應(yīng)的結(jié)果頁面的地址是否符合搜索引擎對應(yīng)的結(jié)果頁面地址的格式。
6.如權(quán)利要求5所述的方法,其特征在于,在所述網(wǎng)站對應(yīng)的結(jié)果頁面的地址符合搜索引擎對應(yīng)的結(jié)果頁面地址的格式時,判斷該網(wǎng)站依據(jù)查詢詞得到的結(jié)果頁面的內(nèi)容和頁面結(jié)構(gòu)是否符合搜索引擎對應(yīng)的結(jié)果頁面的內(nèi)容和頁面結(jié)構(gòu),若是,則該網(wǎng)站為暗網(wǎng)資源入口。
7.如權(quán)利要求4所述的方法,其特征在于,所述收集互聯(lián)網(wǎng)上的入口網(wǎng)站的步驟還包括: 對判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行質(zhì)量評估,得到相應(yīng)的質(zhì)量得分; 依據(jù)所述質(zhì)量得分對所述判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行篩選,得到相應(yīng)的入口網(wǎng)站。
8.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述查詢詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站時,將與入口網(wǎng)站的關(guān)聯(lián)度高于關(guān)聯(lián)度閾值的入口網(wǎng)站作為價值網(wǎng)站;所述關(guān)聯(lián)度閾值依據(jù)預(yù)置的召回率和準(zhǔn)確率得到。
9.如權(quán)利要求1所述的方法,其特征在于,還包括: 依據(jù)接收到的對所述價值網(wǎng)站的選擇信息,搜索得到所述查詢詞在選中的價值網(wǎng)站中的搜索結(jié)果。
10.如權(quán)利要求1或8或9所述的方法,其特征在于,還包括: 按照所述查詢詞與入口網(wǎng)站的關(guān)聯(lián)度的從高到低的順序,將所述搜索結(jié)果以條目鏈接的形式按對應(yīng)的價值網(wǎng)站進(jìn)行展現(xiàn)。
11.一種搜索引擎,其特征在于,包括: 關(guān)聯(lián)度獲取單元,用于依據(jù)預(yù)置的各入口網(wǎng)站的網(wǎng)站模型,分別獲取輸入的查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度;所述入口網(wǎng)站的網(wǎng)站模型用于描述各實體詞與相應(yīng)入口網(wǎng)站的關(guān)聯(lián)度; 第一價值網(wǎng)站獲取單元,用于根據(jù)所述查詢詞與各入口網(wǎng)站的關(guān)聯(lián)度選取入口網(wǎng)站作為價值網(wǎng)站 '及 信息搜索單元,用于依據(jù)所述查詢詞在所述價值網(wǎng)站中進(jìn)行信息搜索,得到相應(yīng)的搜索結(jié)果。
12.如權(quán)利要求11所述的搜索引擎,其特征在于,所述關(guān)聯(lián)度獲取單元,具體用于在入口網(wǎng)站的網(wǎng)站模型中,根據(jù)一元或多元的查詢詞分別在所述入口網(wǎng)站和全網(wǎng)網(wǎng)站中的出現(xiàn)概率獲取查詢詞的關(guān)聯(lián)度。
13.如權(quán)利要求11或12所述的搜索引擎,其特征在于,所述實體詞為依據(jù)對所述入口網(wǎng)站的網(wǎng)站模型的訓(xùn)練數(shù)據(jù)進(jìn)行分析抽取得到; 所述訓(xùn)練數(shù)據(jù)至少包括下列數(shù)據(jù)中的一種或多種:用于展現(xiàn)入口網(wǎng)站中頁面內(nèi)容的頁面數(shù)據(jù)、從入口網(wǎng)站搜索結(jié)果中提取后形成的結(jié)果數(shù)據(jù)、符合預(yù)置質(zhì)量指標(biāo)的結(jié)果數(shù)據(jù)對應(yīng)的查詢詞。
14.如權(quán)利要求11或12所述的搜索引擎,其特征在于,還包括:用于收集互聯(lián)網(wǎng)上的入口網(wǎng)站的收集單元; 所述收集單元,包括: 暗網(wǎng)資源的入口判斷子單元,用于針對互聯(lián)網(wǎng)上的網(wǎng)站,依據(jù)其頁面結(jié)構(gòu)判斷其是否為暗網(wǎng)資源入口,若是,則其為入口網(wǎng)站。
15.如權(quán)利要求14所述的搜索引擎,其特征在于,所述收集單元還包括: 質(zhì)量評估子單元,用于對判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行質(zhì)量評估,得到相應(yīng)的質(zhì)量得分; 篩選子單元,用于依據(jù)所述質(zhì)量得分,對所述判斷為暗網(wǎng)資源入口的對應(yīng)網(wǎng)站進(jìn)行篩選,得到相應(yīng)的入口網(wǎng)站。
16.如權(quán)利要求11所述的搜索引擎,其特征在于,還包括: 第一展現(xiàn)單元,用于展現(xiàn)所述價值網(wǎng)站; 選擇搜索單元,用于依據(jù)接收到的對所述價值網(wǎng)站的選擇信息,搜索得到所述查詢詞在選中的價值網(wǎng)站中的搜索結(jié)果。
17.如權(quán)利要求11或16所述的搜索引擎,其特征在于,還包括: 排序展現(xiàn)單元,用于按照所述查詢詞與入口網(wǎng)站的關(guān)聯(lián)度的從高到低的順序,將所述搜索結(jié)果以條目鏈接的形式按對應(yīng)的價值網(wǎng)站進(jìn)行展現(xiàn)。
【文檔編號】G06F17/30GK103729374SQ201210390941
【公開日】2014年4月16日 申請日期:2012年10月15日 優(yōu)先權(quán)日:2012年10月15日
【發(fā)明者】張帆 申請人:北京搜狗信息服務(wù)有限公司, 北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
科技| 元阳县| 丰台区| 长泰县| 栾城县| 宜章县| 贺兰县| 黔江区| 张北县| 凤庆县| 五指山市| 阿图什市| 雅江县| 乌什县| 松溪县| 梁平县| 富民县| 石城县| 梅州市| 绥江县| 儋州市| 蒙阴县| 大同市| 历史| 余姚市| 公主岭市| 盐津县| 桃园县| 隆安县| 白玉县| 甘泉县| 凤台县| 苍溪县| 临武县| 扶绥县| 将乐县| 青海省| 龙游县| 揭东县| 琼海市| 昌宁县|