一種網(wǎng)絡(luò)資源的排重方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)絡(luò)資源的排重方法及裝置,其中該方法包括:獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求;根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象;獲取所述資源列表中每兩個資源對象之間的相似值;根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。本發(fā)明實(shí)施例根據(jù)每兩個網(wǎng)絡(luò)資源對象之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。
【專利說明】
一種網(wǎng)絡(luò)資源的排重方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于通信技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)資源的排重方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,互聯(lián)網(wǎng)上可供用戶搜索查詢的網(wǎng)絡(luò)資源也越來越多,在這眾多的資源中,可能會存在很多重復(fù)的資源,以視頻資源為例,由于各家視頻網(wǎng)站的影片資源信息,如:影片名,導(dǎo)演/演員名等字段都是依賴于人工編輯補(bǔ)充和審核,而且各家視頻網(wǎng)站人工編輯對于同一部影片所填寫的名稱可能不同,導(dǎo)演和演員所填寫的名稱或數(shù)量也有所不同,比如:某部影片具有中英文名或某部影片會有多個演員,不同的編輯選填的可能都只是其中不同的子集,所以,在影片開放搜索下,必然會面臨一系列的視頻重復(fù)問題。在現(xiàn)有技術(shù)中,一般會采用“完全字符串匹配”的方式來離線排除重復(fù)的網(wǎng)絡(luò)資源,從而來提高用戶搜索網(wǎng)絡(luò)資源的效率,一般的,將這種技術(shù)簡稱為“排重”。
[0003]在對現(xiàn)有技術(shù)的研究和實(shí)踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),由于現(xiàn)有技術(shù)僅僅基于影片名及導(dǎo)演演員名等這些簡單的信息作完全字符串匹配,因此會導(dǎo)致排重的準(zhǔn)確率低、召回率不高的問題。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于提供一種網(wǎng)絡(luò)資源的排重方法及裝置,旨在提高網(wǎng)絡(luò)資源的排重準(zhǔn)確率以及召回率。
[0005]為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
[0006]—種網(wǎng)絡(luò)資源的排重方法,其中所述方法包括:
[0007]獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求;
[0008]根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象;
[0009]獲取所述資源列表中每兩個資源對象之間的相似值;
[0010]根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0011]為解決上述技術(shù)問題,本發(fā)明實(shí)施例還提供以下技術(shù)方案:
[0012]—種網(wǎng)絡(luò)資源的排重裝置,其中所述裝置包括:
[0013]請求獲取模塊,用于獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求;
[0014]生成模塊,用于根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象;
[0015]相似值獲取模塊,用于獲取所述資源列表中每兩個資源對象之間的相似值;
[0016]第一排除模塊,用于根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0017]相對于現(xiàn)有技術(shù),本實(shí)施例,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)每兩個網(wǎng)絡(luò)資源對象之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。
【附圖說明】
[0018]下面結(jié)合附圖,通過對本發(fā)明的【具體實(shí)施方式】詳細(xì)描述,將使本發(fā)明的技術(shù)方案及其它有益效果顯而易見。
[0019]圖1是本發(fā)明第一實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖;
[0020]圖2為本發(fā)明第二實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖;
[0021]圖3為本發(fā)明第三實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖;
[0022]圖4為本發(fā)明第四實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置的結(jié)構(gòu)示意圖;
[0023]圖5為本發(fā)明第五實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置的結(jié)構(gòu)示意圖;
[0024]圖6為本發(fā)明第六實(shí)施例提供的服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0025]請參照圖式,其中相同的組件符號代表相同的組件,本發(fā)明的原理是以實(shí)施在一適當(dāng)?shù)倪\(yùn)算環(huán)境中來舉例說明。以下的說明是基于所例示的本發(fā)明具體實(shí)施例,其不應(yīng)被視為限制本發(fā)明未在此詳述的其它具體實(shí)施例。
[0026]在以下的說明中,本發(fā)明的具體實(shí)施例將參考由一部或多部計算機(jī)所執(zhí)行的步驟及符號來說明,除非另有述明。因此,這些步驟及操作將有數(shù)次提到由計算機(jī)執(zhí)行,本文所指的計算機(jī)執(zhí)行包括了由代表了以一結(jié)構(gòu)化型式中的數(shù)據(jù)的電子信號的計算機(jī)處理單元的操作。此操作轉(zhuǎn)換該數(shù)據(jù)或?qū)⑵渚S持在該計算機(jī)的內(nèi)存系統(tǒng)中的位置處,其可重新配置或另外以本領(lǐng)域測試人員所熟知的方式來改變該計算機(jī)的運(yùn)作。該數(shù)據(jù)所維持的數(shù)據(jù)結(jié)構(gòu)為該內(nèi)存的實(shí)體位置,其具有由該數(shù)據(jù)格式所定義的特定特性。但是,本發(fā)明原理以上述文字來說明,其并不代表為一種限制,本領(lǐng)域測試人員將可了解到以下所述的多種步驟及操作亦可實(shí)施在硬件當(dāng)中。
[0027]本發(fā)明的原理使用許多其它泛用性或特定目的運(yùn)算、通信環(huán)境或組態(tài)來進(jìn)行操作。所熟知的適合用于本發(fā)明的運(yùn)算系統(tǒng)、環(huán)境與組態(tài)的范例可包括(但不限于)手持電話、個人計算機(jī)、服務(wù)器、多處理器系統(tǒng)、微電腦為主的系統(tǒng)、主架構(gòu)型計算機(jī)、及分布式運(yùn)算環(huán)境,其中包括了任何的上述系統(tǒng)或裝置。
[0028]本文所使用的術(shù)語「模塊」可看做為在該運(yùn)算系統(tǒng)上執(zhí)行的軟件對象。本文所述的不同組件、模塊、引擎及服務(wù)可看做為在該運(yùn)算系統(tǒng)上的實(shí)施對象。而本文所述的裝置及方法優(yōu)選的以軟件的方式進(jìn)行實(shí)施,當(dāng)然也可在硬件上進(jìn)行實(shí)施,均在本發(fā)明保護(hù)范圍之內(nèi)。
[0029]而且本文所使用的詞語“優(yōu)選的”意指用作實(shí)例、示例或例證。奉文描述為“優(yōu)選的”任意方面或設(shè)計不必被解釋為比其他方面或設(shè)計更有利。相反,詞語“優(yōu)選的”的使用旨在以具體方式提出概念。如本申請中所使用的術(shù)語“或”旨在意指包含的“或”而非排除的“或”。即,除非另外指定或從上下文中清楚,“X使用A或B”意指自然包括排列的任意一個。即,如果X使用A ;X使用B ;或X使用A和B 二者,則“X使用A或B”在前述任一示例中得到滿足。
[0030]而且,盡管已經(jīng)相對于一個或多個實(shí)現(xiàn)方式示出并描述了本公開,但是本領(lǐng)域技術(shù)人員基于對本說明書和附圖的閱讀和理解將會想到等價變型和修改。本公開包括所有這樣的修改和變型,并且僅由所附權(quán)利要求的范圍限制。特別地關(guān)于由上述組件(例如元件、資源等)執(zhí)行的各種功能,用于描述這樣的組件的術(shù)語旨在對應(yīng)于執(zhí)行所述組件的指定功能(例如其在功能上是等價的)的任意組件(除非另外指示),即使在結(jié)構(gòu)上與執(zhí)行本文所示的本公開的示范性實(shí)現(xiàn)方式中的功能的公開結(jié)構(gòu)不等同。此外,盡管本公開的特定特征已經(jīng)相對于若干實(shí)現(xiàn)方式中的僅一個被公開,但是這種特征可以與如可以對給定或特定應(yīng)用而言是期望和有利的其他實(shí)現(xiàn)方式的一個或多個其他特征組合。而且,就術(shù)語“包括”、“具有”、“含有”或其變形被用在【具體實(shí)施方式】或權(quán)利要求中而言,這樣的術(shù)語旨在以與術(shù)語“包含”相似的方式包括。
[0031]第一實(shí)施例
[0032]請參閱圖1,圖1是本發(fā)明第一實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖。所述方法包括:
[0033]在步驟SlOl中,獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求。
[0034]在步驟S102中,根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象。
[0035]其中,所述步驟SlOl與步驟S102可具體為:
[0036]可以理解的是,所述網(wǎng)絡(luò)資源的排重方法可基于一終端服務(wù)器上運(yùn)行,根據(jù)用戶發(fā)起的網(wǎng)絡(luò)資源搜索請求,服務(wù)器基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,在線對資源對象進(jìn)行排重。
[0037]本發(fā)明實(shí)施例中所述網(wǎng)絡(luò)資源可以具體為視頻影片、或者網(wǎng)絡(luò)圖像、或者網(wǎng)絡(luò)商品、或者網(wǎng)頁等等,對應(yīng)的,基于所述網(wǎng)絡(luò)資源生成對應(yīng)的資源列表中包括兩個以上資源對象具體為視頻影片、網(wǎng)絡(luò)圖像、網(wǎng)絡(luò)商品以及網(wǎng)頁等,此處不作具體限定。另容易想到的是,所述資源列表中指示的是上述資源對象的信息,如對應(yīng)的鏈接信息等,此處不作具體描述。
[0038]在步驟S103中,獲取所述資源列表中每兩個資源對象之間的相似值。
[0039]在步驟S104中,根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0040]其中,所述步驟S103與步驟S104可具體為:
[0041]可以理解的是,所述資源列表中的資源對象兩兩之間會具有相似值,用以判斷對應(yīng)的兩個資源對象之間的相似度;例如,若網(wǎng)絡(luò)資源具體為視頻影片,則生成的資源列表中每兩個視頻影片會計算相似值以指示該兩個視頻影片的相似度。
[0042]在一種可能的實(shí)施方式中,每兩個資源對象之間的相似值可以預(yù)先根據(jù)網(wǎng)絡(luò)資源的屬性特征進(jìn)行計算,并將相似值分別存儲于服務(wù)器中,以便在用戶查詢時,服務(wù)器調(diào)用該相似值與所述預(yù)設(shè)條件進(jìn)行比較,將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取并排除。
[0043]在另一種可能的實(shí)施方式中,可以在根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表之后,根據(jù)資源列表中的資源對象的屬性特征,對每兩個資源對象之間進(jìn)行相似值的計算,以便服務(wù)器利用實(shí)時計算得出的相似值與所述預(yù)設(shè)條件進(jìn)行比較,將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取并排除。
[0044]其中,所述預(yù)設(shè)條件可預(yù)先設(shè)置于服務(wù)器中,所述預(yù)設(shè)條件可以具體指示根據(jù)相似值的大小,對資源對象執(zhí)行的相應(yīng)操作,如是否需要排重或需要進(jìn)一步判斷等,即可以根據(jù)相似值的大小,在線控制對應(yīng)的排重條件,可提高排重準(zhǔn)確率及資源對象召回率。
[0045]由上述可知,本實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。
[0046]第二實(shí)施例
[0047]請參閱圖2,圖2為本發(fā)明第二實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖。其中,所述網(wǎng)絡(luò)資源的排重方法基于一終端服務(wù)器上運(yùn)行,根據(jù)用戶發(fā)起的網(wǎng)絡(luò)資源搜索請求,服務(wù)器基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,在線對資源對象進(jìn)行排重。
[0048]優(yōu)選的,本發(fā)明實(shí)施例中,在資源對象進(jìn)行在線排重之前還可以包括離線排重,區(qū)別于第一實(shí)施例,本實(shí)施例主要針對資源對象進(jìn)行離線排重的過程進(jìn)行詳細(xì)說明。所述方法包括:
[0049]在步驟S201中,獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息。
[0050]在步驟S202中,根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。
[0051]其中,所述步驟S201與步驟S202可具體為:
[0052]在進(jìn)行在線排重之前,服務(wù)器可優(yōu)先對網(wǎng)絡(luò)資源進(jìn)行離線排重;離線排重時首先需要對網(wǎng)絡(luò)資源中各個資源對象之間的相似值進(jìn)行計算,可具體的:
[0053]遍歷網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息的字段的simhash值,其后計算每兩個資源對象各個字段simhash值的漢明距離,最后將各個字段的漢明距離進(jìn)行線性插值求和,從而生成資源對象之間的相似值以表示資源對象之間的相似度。
[0054]可以理解的是,simhash是用來網(wǎng)頁排重最常用的hash方法,其排重速度很快,本發(fā)明實(shí)施例中simhash僅作舉例應(yīng)用,對其具體實(shí)現(xiàn)操作不作詳細(xì)描述。
[0055]優(yōu)選的,該實(shí)施例中所述網(wǎng)絡(luò)資源可具體為視頻影片,則對應(yīng)的屬性特征信息可具體包括影片名、導(dǎo)演名、演員名、視頻縮略圖、影片詳情等信息中的一個或兩個以上組合;每兩個視頻影片之間的相似值的計算可具體包括:遍歷計算所有視頻的影片名,導(dǎo)演演員名,視頻縮略圖,影片詳情等字段的simhash值;計算任意兩部視頻影片各個字段simhash值的漢明距離;將各個字段的漢明距離進(jìn)行線性插值求和算相似度。
[0056]另容易想到的是,該實(shí)施例僅以網(wǎng)絡(luò)資源為視頻影片為例進(jìn)行描述,所述網(wǎng)絡(luò)資源還可以具體為網(wǎng)絡(luò)圖像、或者網(wǎng)絡(luò)商品、或者網(wǎng)頁等,此處舉例不構(gòu)成對本發(fā)明的限定。
[0057]在步驟S203中,將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較。
[0058]在步驟S204中,若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象。
[0059]在步驟S205中,從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源。
[0060]其中,所述步驟S203至步驟S205可具體為:
[0061]將相似值與第一預(yù)設(shè)閾值進(jìn)行初步比較,根據(jù)比較結(jié)果對網(wǎng)絡(luò)資源中被認(rèn)為重復(fù)的資源對象進(jìn)行排除,從而得到初步排重后的網(wǎng)絡(luò)資源,即得到離線排重后的網(wǎng)絡(luò)資源;該實(shí)施例中,相似值大于或者等于所述第一預(yù)設(shè)閾值對應(yīng)的兩個資源對象,可被認(rèn)為是重復(fù)的資源對象。
[0062]可以理解的是,所述第一預(yù)設(shè)閾值預(yù)先設(shè)置于服務(wù)器中,用于對網(wǎng)絡(luò)資源的初步排重,可適當(dāng)?shù)脑O(shè)置為較大一點(diǎn),其具體取值根據(jù)具體的場景進(jìn)行確定,此處不作具體限定。
[0063]優(yōu)選的,該實(shí)施例中所述網(wǎng)絡(luò)資源可具體為視頻影片,將預(yù)先設(shè)置的第一預(yù)設(shè)閾值與視頻影片的相似值進(jìn)行比較,若視頻影片的相似值大于第一預(yù)設(shè)閾值,則將該相似值對應(yīng)的兩個視頻影片認(rèn)為重復(fù)視頻對,進(jìn)而,從重復(fù)視頻對中排除其中一個視頻影片,從而得到離線排重后的視頻影片,以供用戶查詢召回。
[0064]進(jìn)一步的,從所述重復(fù)的資源對象中排除其中一個資源對象,可預(yù)先設(shè)定一排除條件,例如,根據(jù)視頻影片的出處、出片時間、點(diǎn)擊播放率、熱門搜索統(tǒng)計等信息進(jìn)行打分和排序,保留打分相對較高的視頻源,其中,打分較高可被認(rèn)為相對權(quán)威較高。
[0065]例如,在確定出視頻影片的相似值大于所述第一預(yù)設(shè)閾值對應(yīng)的重復(fù)視頻對時,如果確定出該重復(fù)視頻對中有公司Q的視頻數(shù)據(jù),則保留公司Q的視頻影片,排除另外一個視頻影片,從而可保留更貼合用戶需求的視頻源。另容易想到的是,此處關(guān)于所述排除條件的實(shí)現(xiàn)僅為舉例說明,不構(gòu)成對本發(fā)明的限定。
[0066]在步驟S206中,獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求,根據(jù)所述搜索請求,基于所述初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。
[0067]可以理解的是,所述資源列表中包含兩個以上相應(yīng)的資源對象,即在離線排重后,根據(jù)用戶的搜索請求,服務(wù)器基于離線排重后的網(wǎng)絡(luò)資源生成資源列表,其中,所述資源列表中指示的是上述資源對象的信息,如對應(yīng)的鏈接信息等。
[0068]在步驟S207中,獲取所述資源列表中每兩個資源對象之間的相似值。
[0069]在步驟S208中,根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0070]步驟S207至步驟S208,在獲取資源列表中每兩個資源對象之間的相似值的過程中,具體包括:
[0071]在一種可能的實(shí)施方式下,可以預(yù)先根據(jù)網(wǎng)絡(luò)資源的屬性特征進(jìn)行計算,并將相似值分別存儲于服務(wù)器中,在另一種可能的實(shí)施方式下,可以在根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表之后,根據(jù)資源列表中的資源對象的屬性特征,對每兩個資源對象之間進(jìn)行相似值的計算,以便服務(wù)器通過該相似值與所述預(yù)設(shè)條件進(jìn)行比較,將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取并排除。
[0072]其中,所述預(yù)設(shè)條件可預(yù)先設(shè)置于服務(wù)器中,所述預(yù)設(shè)條件可以具體指示根據(jù)相似值的大小,對資源對象執(zhí)行的相應(yīng)操作,如是否需要排重或需要進(jìn)一步判斷等,即可以根據(jù)相似值的大小,在線控制對應(yīng)的排重條件。
[0073]可以理解的是,該過程中可根據(jù)如上述步驟S201以及步驟S202對相似值進(jìn)行計算,此處不再贅述。
[0074]由上述可知,本實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。并且,在在線排重之前先進(jìn)行離線排重,可進(jìn)一步提高排重的準(zhǔn)確率。
[0075]第三實(shí)施例
[0076]請參閱圖3,圖3為本發(fā)明第三實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法的流程示意圖。同上述實(shí)施例,所述網(wǎng)絡(luò)資源的排重方法基于一終端服務(wù)器上運(yùn)行,根據(jù)用戶發(fā)起的網(wǎng)絡(luò)資源搜索請求,服務(wù)器基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,在線對資源對象進(jìn)行排重。
[0077]區(qū)別于第二實(shí)施例,本實(shí)施例主要針對通過在線排重和離線排重相結(jié)合的方式,對資源對象在線排重的實(shí)現(xiàn)過程進(jìn)行詳細(xì)說明。所述方法包括:
[0078]在步驟S301中,獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求。
[0079]在步驟S302中,根據(jù)所述搜索請求,基于初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。
[0080]其中,所述步驟S301與步驟S302可具體為:
[0081]優(yōu)選的,在對資源對象進(jìn)行在線排重之前,先對網(wǎng)絡(luò)資源進(jìn)行離線排重,可包括:
[0082]步驟a、獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息;
[0083]步驟b、根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值;
[0084]步驟C、將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較;
[0085]步驟d、若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象;
[0086]步驟e、從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源。
[0087]其中,所述步驟a至步驟e為離線排重的過程,得到的初步排重后的網(wǎng)絡(luò)資源即為離線排重后的網(wǎng)絡(luò)資源。
[0088]可以理解的是,步驟a至步驟e的具體過程可參考第二實(shí)施例中步驟S201至步驟S205的相關(guān)描述來實(shí)現(xiàn),此處不再贅述。
[0089]基于初步排重后的網(wǎng)絡(luò)資源,服務(wù)器根據(jù)獲取到的關(guān)于網(wǎng)絡(luò)資源的搜索請求,生成對應(yīng)的資源列表。其中,所述資源列表中包含兩個以上相應(yīng)的資源對象。
[0090]進(jìn)一步的優(yōu)選的,在根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值(即步驟b)之后,還可以包括:將所述相似值保存在數(shù)據(jù)庫,即將網(wǎng)絡(luò)資源中的資源對象之間的相似值進(jìn)行預(yù)設(shè)置,以便后續(xù)在在線排重時進(jìn)行調(diào)用,提高處理效率。
[0091]在步驟S303中,獲取所述資源列表中每兩個資源對象之間的相似值。
[0092]可選的,可根據(jù)資源列表中各個資源對象的屬性特征信息,在線分別計算每兩個資源對象之間的相似值。
[0093]進(jìn)一步可選的,由于在離線排重過程中,已將所述相似值保存在數(shù)據(jù)庫,因此可以從所述數(shù)據(jù)庫中,直接獲取所述資源列表中每兩個資源對象之間的相似值,以避免在線處理較為龐大的數(shù)據(jù),提高處理效率。
[0094]在獲取相似值后,需要將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取和排除,可包括:
[0095]在步驟S304中,將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較。
[0096]在步驟S305中,若所述相似值小于所述第一預(yù)設(shè)閾值,則將相應(yīng)的資源對象組成第一候選集合。
[0097]即獲取相似值小于所述第一預(yù)設(shè)閾值對應(yīng)的資源對象并提取,將提取的資源對象進(jìn)行集合并作為第一候選集合。
[0098]在步驟S306中,確定在所述第一候選集合中是否存在與所述搜索請求完全匹配的資源對象。
[0099]可以理解的是,確定在所述候選集合中是否存在與所述搜索請求完全匹配的資源對象可認(rèn)為是判斷在該候選集合是否已滿足用戶需求。
[0100]根據(jù)步驟S306判斷的結(jié)果,分別執(zhí)行步驟S307和步驟S308,以及執(zhí)行步驟S309和步驟S310 ;
[0101]在步驟S307中,若存在,則在第一候選集合中,將每兩個資源對象的相似值與第二預(yù)設(shè)閾值進(jìn)行比較。
[0102]在步驟S308中,當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取。
[0103]其中,若確定出該第一候選集合已滿足用戶需求,則執(zhí)行所述步驟S307與步驟S308,在該情形下,設(shè)定第二預(yù)設(shè)閾值,且所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值,將相似值與所述第二預(yù)設(shè)閾值進(jìn)行比較,并對滿足相似值大于或等于所述第二預(yù)設(shè)閾值的資源對象集合進(jìn)行排重,也就是說,在所述第一候選集合中,進(jìn)一步確定重復(fù)可能性較高的資源對象集合。
[0104]可具體的,當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,從而,第一候選集合中除去滿足預(yù)設(shè)條件的資源對象后,余下的為在線排重后的資源對象。
[0105]在步驟S309中,若不存在,則在第一候選集合中,將所述相似值小于所述第二預(yù)設(shè)閾值相應(yīng)的資源對象組成第二候選集合,并在所述第二候選集合中,將每兩個資源對象的相似值與第三預(yù)設(shè)閾值進(jìn)行比較。
[0106]在步驟S310中,當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取。
[0107]其中,若確定出該第一候選集合不滿足用戶需求,則執(zhí)行所述步驟S309與步驟S310,柔性的多保留一些相似率較小的資源對象;在該情形下,設(shè)定第二預(yù)設(shè)閾值,將相似值與所述第二預(yù)設(shè)閾值進(jìn)行比較,并對滿足相似值小于所述第二預(yù)設(shè)閾值的資源對象集合進(jìn)行排重。
[0108]在排重過程中,在設(shè)定第三預(yù)設(shè)閾值,且所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值,當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,從而,第二候選集合中除去滿足預(yù)設(shè)條件的資源對象后,余下的為在線排重后的資源對象。
[0109]可以理解的是,從所述重復(fù)的資源對象中排除其中一個資源對象,可預(yù)先設(shè)定一排除條件,例如,根據(jù)視頻影片的出處、出片時間、點(diǎn)擊播放率、熱門搜索統(tǒng)計等信息進(jìn)行打分和排序,從而保留可認(rèn)為相對權(quán)威較高的視頻源;例如,如果確定出該重復(fù)視頻對中有公司Q的視頻數(shù)據(jù),則保留公司Q的視頻影片,排除另外一個視頻影片,從而可保留更貼合用戶需求的視頻源。另容易想到的是,此處關(guān)于所述排除條件的實(shí)現(xiàn)僅為舉例說明,不構(gòu)成對本發(fā)明的限定。
[0110]在步驟S311中,將提取的滿足預(yù)設(shè)條件的資源對象組成排重組合,基于所述排重組合排除提取的資源對象。
[0111]由上述可知,本實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。并且,在在線排重之前先進(jìn)行離線排重,可進(jìn)一步提高排重的準(zhǔn)確率。
[0112]第四實(shí)施例
[0113]為便于更好的實(shí)施本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)資源的排重方法,本發(fā)明實(shí)施例還提供一種基于上述網(wǎng)絡(luò)資源的排重方法的裝置。其中名詞的含義與上述網(wǎng)絡(luò)資源的排重的方法中相同,具體實(shí)現(xiàn)細(xì)節(jié)可以參考方法實(shí)施例中的說明。
[0114]請參閱圖4,圖4為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置的結(jié)構(gòu)示意圖,其中所述網(wǎng)絡(luò)資源的排重裝置可基于一接收終端服務(wù)器上運(yùn)行,根據(jù)用戶發(fā)起的網(wǎng)絡(luò)資源搜索請求,服務(wù)器基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,在線對資源對象進(jìn)行排重。
[0115]如圖4所示,本發(fā)明所述網(wǎng)絡(luò)資源的排重裝置可以包括請求獲取模塊401、生成模塊402、相似值獲取模塊403以及第一排除模塊404。
[0116]其中,所述請求獲取模塊401,用于獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求;所述生成模塊402,用于根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象。
[0117]可以理解的是,本發(fā)明實(shí)施例中所述網(wǎng)絡(luò)資源可以具體為視頻影片、或者網(wǎng)絡(luò)圖像、或者網(wǎng)絡(luò)商品、或者網(wǎng)頁等等,對應(yīng)的,基于所述網(wǎng)絡(luò)資源生成對應(yīng)的資源列表中包括兩個以上資源對象具體為視頻影片、網(wǎng)絡(luò)圖像、網(wǎng)絡(luò)商品以及網(wǎng)頁等,此處不作具體限定。另容易想到的是,所述資源列表中指示的是上述資源對象的信息,如對應(yīng)的鏈接信息等,此處不作具體描述。
[0118]所述相似值獲取模塊403,用于獲取所述資源列表中每兩個資源對象之間的相似值;所述第一排除模塊404,用于根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0119]可以理解的是,所述資源列表中的資源對象兩兩之間會具有相似值,用以判斷對應(yīng)的兩個資源對象之間的相似度;例如,若網(wǎng)絡(luò)資源具體為視頻影片,則生成的資源列表中每兩個視頻影片會計算相似值以指示該兩個視頻影片的相似度。
[0120]在一種可能的實(shí)施方式中,所述相似值獲取模塊403獲取的每兩個資源對象之間的相似值,可以預(yù)先根據(jù)網(wǎng)絡(luò)資源的屬性特征進(jìn)行計算,并將相似值分別進(jìn)行預(yù)先存儲,以便在用戶查詢時,所述第一排除模塊404調(diào)用該相似值與所述預(yù)設(shè)條件進(jìn)行比較,將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取并排除。
[0121]在另一種可能的實(shí)施方式中,可以在所述生成模塊402根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表之后,根據(jù)資源列表中的資源對象的屬性特征,對每兩個資源對象之間進(jìn)行相似值的計算,以便第一排除模塊404利用實(shí)時計算得出的相似值與所述預(yù)設(shè)條件進(jìn)行比較,將滿足預(yù)設(shè)條件的資源對象進(jìn)行提取并排除。
[0122]其中,所述預(yù)設(shè)條件可預(yù)先設(shè)置于服務(wù)器中,所述預(yù)設(shè)條件可以具體指示根據(jù)相似值的大小,對資源對象執(zhí)行的相應(yīng)操作,如是否需要排重或需要進(jìn)一步判斷等,即可以根據(jù)相似值的大小,在線控制對應(yīng)的排重條件,可提高排重準(zhǔn)確率及資源對象召回率。
[0123]由上述可知,本實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。
[0124]第五實(shí)施例
[0125]請參閱圖5,圖5為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置的結(jié)構(gòu)示意圖,其中所述網(wǎng)絡(luò)資源的排重裝置包括:請求獲取模塊501、生成模塊502、相似值獲取模塊503以及第一排除模塊504,其中,該實(shí)施例中上述各功能模塊的功能作用可對應(yīng)參考第四實(shí)施例中的所述請求獲取模塊401、生成模塊402、相似值獲取模塊403以及第一排除模塊404的相關(guān)描述,此處不作贅述。
[0126]優(yōu)選的,在進(jìn)行在線排重之前,服務(wù)器可優(yōu)先對網(wǎng)絡(luò)資源進(jìn)行離線排重;離線排重時首先需要對網(wǎng)絡(luò)資源中各個資源對象之間的相似值進(jìn)行計算,從而所述網(wǎng)絡(luò)資源的排重裝置還可以包括特征獲取模塊505和計算模塊506。
[0127]其中所述特征獲取模塊505,用于獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息;所述計算模塊506,用于根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。
[0128]進(jìn)一步優(yōu)選的,該實(shí)施例中所述網(wǎng)絡(luò)資源可具體為視頻影片,則對應(yīng)的屬性特征信息可具體包括影片名、導(dǎo)演名、演員名、視頻縮略圖、影片詳情等信息中的一個或兩個以上組合;每兩個視頻影片之間的相似值的計算可具體包括:遍歷計算所有視頻的影片名,導(dǎo)演演員名,視頻縮略圖,影片詳情等字段的simhash值;計算任意兩部視頻影片各個字段simhash值的漢明距離;將各個字段的漢明距離進(jìn)行線性插值求和算相似度。
[0129]另容易想到的是,該實(shí)施例僅以網(wǎng)絡(luò)資源為視頻影片為例進(jìn)行描述,所述網(wǎng)絡(luò)資源還可以具體為網(wǎng)絡(luò)圖像、或者網(wǎng)絡(luò)商品、或者網(wǎng)頁等,此處舉例不構(gòu)成對本發(fā)明的限定。
[0130]更進(jìn)一步的,所述網(wǎng)絡(luò)資源的排重裝置還可以包括比較模塊507、確定模塊508以及第二排除模塊509,用于離線排重,得到初步排重后的網(wǎng)絡(luò)資源;
[0131]其中所述比較模塊507,用于將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較;所述確定模塊508,用于若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象;所述第二排除模塊509,用于從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源。
[0132]將相似值與第一預(yù)設(shè)閾值進(jìn)行初步比較,根據(jù)比較結(jié)果對網(wǎng)絡(luò)資源中被認(rèn)為重復(fù)的資源對象進(jìn)行排除,從而得到初步排重后的網(wǎng)絡(luò)資源,即得到離線排重后的網(wǎng)絡(luò)資源;該實(shí)施例中,相似值大于或者等于所述第一預(yù)設(shè)閾值對應(yīng)的兩個資源對象,可被認(rèn)為是重復(fù)的資源對象。
[0133]可以理解的是,所述第一預(yù)設(shè)閾值預(yù)先設(shè)置于服務(wù)器中,用于對網(wǎng)絡(luò)資源的初步排重,可適當(dāng)?shù)脑O(shè)置為較大一點(diǎn),其具體取值根據(jù)具體的場景進(jìn)行確定,此處不作具體限定。
[0134]優(yōu)選的,該實(shí)施例中所述網(wǎng)絡(luò)資源可具體為視頻影片,將預(yù)先設(shè)置的第一預(yù)設(shè)閾值與視頻影片的相似值進(jìn)行比較,若視頻影片的相似值大于第一預(yù)設(shè)閾值,則將該相似值對應(yīng)的兩個視頻影片認(rèn)為重復(fù)視頻對,進(jìn)而,從重復(fù)視頻對中排除其中一個視頻影片,從而得到離線排重后的視頻影片,以供用戶查詢召回。
[0135]進(jìn)一步的,從所述重復(fù)的資源對象中排除其中一個資源對象,可預(yù)先設(shè)定一排除條件,例如,根據(jù)視頻影片的出處、出片時間、點(diǎn)擊播放率、熱門搜索統(tǒng)計等信息進(jìn)行打分和排序,保留打分相對較高的視頻源,其中,打分較高可被認(rèn)為相對權(quán)威較高。
[0136]在該實(shí)施方式中,則所述生成模塊502,具體用于:根據(jù)所述搜索請求,基于所述初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。
[0137]可以理解的是,所述資源列表中包含兩個以上相應(yīng)的資源對象,即在離線排重后,根據(jù)用戶的搜索請求,服務(wù)器基于離線排重后的網(wǎng)絡(luò)資源生成資源列表,其中,所述資源列表中指示的是上述資源對象的信息,如對應(yīng)的鏈接信息等。
[0138]在獲取資源列表中每兩個資源對象之間的相似值的過程中,在一種可能的實(shí)施方式中,所述網(wǎng)絡(luò)資源的排重裝置還可以包括存儲模塊510,用于將所述相似值保存在數(shù)據(jù)庫;在該實(shí)施方式中,則所述相似值獲取模塊503,具體用于從所述數(shù)據(jù)庫中獲取所述資源列表中每兩個資源對象之間的相似值。
[0139]在另一種可能的實(shí)施方式中,所述相似值獲取模塊503,具體用于獲取所述資源列表中各個資源對象的屬性特征信息,根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。
[0140]其中,所述預(yù)設(shè)條件可預(yù)先設(shè)置于服務(wù)器中,所述預(yù)設(shè)條件可以具體指示根據(jù)相似值的大小,對資源對象執(zhí)行的相應(yīng)操作,如是否需要排重或需要進(jìn)一步判斷等,即可以根據(jù)相似值的大小,在線控制對應(yīng)的排重條件。
[0141]可以理解的是,相似值的計算過程可對應(yīng)上述第二實(shí)施例和第三實(shí)施例的方法步驟的描述進(jìn)行具體實(shí)現(xiàn),此處不再贅述。
[0142]在某些實(shí)施方式中,基于在線排重的過程,所述第一排除模塊504還可以包括第一比較單元、第一集合單元、第二比較單元以及第一提取單元,用于根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象。
[0143]其中所述第一比較單元,用于將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較;所述第一集合單元,用于若所述相似值小于所述第一預(yù)設(shè)閾值,則將相應(yīng)的資源對象組成第一候選集合;
[0144]所述第二比較單元,用于若確定在所述第一候選集合中存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將每兩個資源對象的相似值與第二預(yù)設(shè)閾值進(jìn)行比較;所述第一提取單元,用于當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
[0145]即在確定出該第一候選集合已滿足用戶需求的情形下,設(shè)定第二預(yù)設(shè)閾值,且所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值,將相似值與所述第二預(yù)設(shè)閾值進(jìn)行比較,并對滿足相似值大于或等于所述第二預(yù)設(shè)閾值的資源對象集合進(jìn)行排重,也就是說,在所述第一候選集合中,進(jìn)一步確定重復(fù)可能性較高的資源對象集合。
[0146]進(jìn)一步的,所述第一排除模塊504用于根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象時,還可以包括第二集合單元、第三比較單元以及第二提取單元:
[0147]其中所述第二集合單元,用于若確定在所述候選集合中不存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將所述相似值小于所述第二預(yù)設(shè)閾值相應(yīng)的資源對象組成第二候選集合;所述第三比較單元,用于在所述第二候選集合中,將每兩個資源對象的相似值與第三預(yù)設(shè)閾值進(jìn)行比較;
[0148]所述第二提取單元,用于當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值。
[0149]其中,若確定出該第一候選集合不滿足用戶需求的情形下,柔性的多保留一些相似率較小的資源對象,先設(shè)定第二預(yù)設(shè)閾值,將相似值與所述第二預(yù)設(shè)閾值進(jìn)行比較,并對滿足相似值小于所述第二預(yù)設(shè)閾值的資源對象集合進(jìn)行排重,在排重過程中,在設(shè)定第三預(yù)設(shè)閾值,且所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值,將相似值與所述第三預(yù)設(shè)閾值進(jìn)行比較,并對滿足相似值大于或等于所述第三預(yù)設(shè)閾值的資源對象集合進(jìn)行排重。
[0150]在某些實(shí)施方式中,在提取了滿足預(yù)設(shè)條件的情形下,所述第一排除模塊504,還可以包括組合單元和排除單元,用于排除提取的資源對象,其中所述組合單元,用于將提取的滿足預(yù)設(shè)條件的資源對象組成排重組合;所述排除單元,用于基于所述排重組合排除提取的資源對象。
[0151]由上述可知,本實(shí)施例提供的網(wǎng)絡(luò)資源的排重裝置中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。并且,在在線排重之前先進(jìn)行離線排重,可進(jìn)一步提高排重的準(zhǔn)確率。
[0152]第六實(shí)施例
[0153]本發(fā)明實(shí)施例還提供一種服務(wù)器,其中可以集成本發(fā)明實(shí)施例的網(wǎng)絡(luò)資源的排重裝置,所述服務(wù)器可基于一接收終端服務(wù)器上運(yùn)行,如圖6所示,其示出了本發(fā)明實(shí)施例所涉及的服務(wù)器的結(jié)構(gòu)示意圖,具體來講:
[0154]該服務(wù)器可以包括一個或者一個以上處理核心的處理器601、一個或一個以上計算機(jī)可讀存儲介質(zhì)的存儲器602、射頻(Rad1 Frequency,RF)電路603、電源604、輸入單元605、以及顯示單元606等部件。本領(lǐng)域技術(shù)人員可以理解,圖6中示出的服務(wù)器結(jié)構(gòu)并不構(gòu)成對服務(wù)器的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
[0155]處理器601是該服務(wù)器的控制中心,利用各種接口和線路連接整個服務(wù)器的各個部分,通過運(yùn)行或執(zhí)行存儲在存儲器602內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器602內(nèi)的數(shù)據(jù),執(zhí)行服務(wù)器的各種功能和處理數(shù)據(jù),從而對服務(wù)器進(jìn)行整體監(jiān)控??蛇x的,處理器601可包括一個或多個處理核心;優(yōu)選的,處理器601可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖?,上述調(diào)制解調(diào)處理器也可以不集成到處理器601中。
[0156]存儲器602可用于存儲軟件程序以及模塊,處理器601通過運(yùn)行存儲在存儲器602的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器602可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)服務(wù)器的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器602可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地,存儲器602還可以包括存儲器控制器,以提供處理器601對存儲器602的訪問。
[0157]RF電路603可用于收發(fā)信息過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器601處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路603包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(SM)卡、收發(fā)信機(jī)、耦合器、低噪聲放大器(LNA,Low Noise Amplifier)、雙工器等。此外,RF電路603還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。所述無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(GSM,Global System of Mobilecommunicat1n)、通用分組無線服務(wù)(GPRS,General Packet Rad1 Service)、碼分多址(CDMA, Code Divis1n Multiple Access)、寬帶碼分多址(WCDMA,Wideband Code Divis1nMultiple Access)、長期演進(jìn)(LTE,Long Term Evolut1n)、電子郵件、短消息服務(wù)(SMS,Short Messaging Service)等。
[0158]服務(wù)器還包括給各個部件供電的電源604 (比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器601邏輯相連,從而通過電源管理系統(tǒng)實(shí)現(xiàn)管理充電、放電、以及功耗管理等功能。電源604還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
[0159]該服務(wù)器還可包括輸入單元605,該輸入單元605可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。
[0160]該服務(wù)器還可包括顯示單元606,該顯示單元606可用于顯示由用戶輸入的信息或提供給用戶的信息以及服務(wù)器的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元608可包括顯示面板,可選的,可以采用液晶顯不器(LCD,Liquid Crystal Display)、有機(jī)發(fā)光二極管(OLED,Organic Light-EmittingD1de)等形式來配置顯示面板。
[0161]具體在本實(shí)施例中,服務(wù)器中的處理器601會按照如下的指令,將一個或一個以上的應(yīng)用程序的進(jìn)程對應(yīng)的可執(zhí)行文件加載到存儲器602中,并由處理器601來運(yùn)行存儲在存儲器602中的應(yīng)用程序,從而實(shí)現(xiàn)各種功能,如下:
[0162]獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求;根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象;獲取所述資源列表中每兩個資源對象之間的相似值;根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。
[0163]優(yōu)選的,所述處理器601還可以用于:將提取的滿足預(yù)設(shè)條件的資源對象組成排重組合;基于所述排重組合排除提取的資源對象,以排除提取的資源對象。
[0164]優(yōu)選的,所述處理器601還可以用于:獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求之前,獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息;根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。
[0165]優(yōu)選的,所述處理器601還可以用于,在根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值之后,將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較;若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象;從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源;
[0166]基于此,所述處理器601還可以用于根據(jù)所述搜索請求,基于所述初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。
[0167]優(yōu)選的,所述處理器601還可以用于,在根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值之后,將所述相似值保存在數(shù)據(jù)庫;
[0168]基于此,所述處理器601還可以用于從所述數(shù)據(jù)庫中獲取所述資源列表中每兩個資源對象之間的相似值。
[0169]優(yōu)選的,所述處理器601還可以用于,獲取所述資源列表中各個資源對象的屬性特征信息;根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值,以獲取所述資源列表中每兩個資源對象之間的相似值。
[0170]優(yōu)選的,所述處理器601還可以用于,將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較;若所述相似值小于所述第一預(yù)設(shè)閾值,則將相應(yīng)的資源對象組成第一候選集合;若確定在所述第一候選集合中存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將每兩個資源對象的相似值與第二預(yù)設(shè)閾值進(jìn)行比較;當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值,以根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象。
[0171]優(yōu)選的,所述處理器601還可以用于,若確定在所述候選集合中不存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將所述相似值小于所述第二預(yù)設(shè)閾值相應(yīng)的資源對象組成第二候選集合;在所述第二候選集合中,將每兩個資源對象的相似值與第三預(yù)設(shè)閾值進(jìn)行比較;當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值,以根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象。
[0172]由上述可知,本實(shí)施例提供的服務(wù)器中,根據(jù)在線獲取的搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,其后根據(jù)該資源列表中每兩個資源對象之間的相似值,提取滿足預(yù)設(shè)條件的資源對象并排除;本發(fā)明實(shí)施例根據(jù)網(wǎng)絡(luò)資源對象兩兩之間的相似值以及預(yù)設(shè)條件進(jìn)行判斷分析,根據(jù)分析結(jié)果在線排除重復(fù)的資源對象,并根據(jù)在線當(dāng)前查詢召回的資源對象情況,在線控制對應(yīng)的排重策略,相對于基于簡單信息作完全字符串匹配進(jìn)行排重的方式,提高了排重準(zhǔn)確率以及召回率。并且,在在線排重之前先進(jìn)行離線排重,可進(jìn)一步提高排重的準(zhǔn)確率。
[0173]在上述實(shí)施例中,對各個實(shí)施例的描述都各有側(cè)重,某個實(shí)施例中沒有詳述的部分,可以參見上文針對網(wǎng)絡(luò)資源的排重方法的詳細(xì)描述,此處不再贅述。
[0174]本發(fā)明實(shí)施例提供的所述網(wǎng)絡(luò)資源的排重裝置,譬如為計算機(jī)、平板電腦、具有觸摸功能的手機(jī)等等,所述網(wǎng)絡(luò)資源的排重裝置與上文實(shí)施例中的網(wǎng)絡(luò)資源的排重方法屬于同一構(gòu)思,在所述網(wǎng)絡(luò)資源的排重裝置上可以運(yùn)行所述網(wǎng)絡(luò)資源的排重方法實(shí)施例中提供的任一方法,其具體實(shí)現(xiàn)過程詳見所述網(wǎng)絡(luò)資源的排重方法實(shí)施例,此處不再贅述。
[0175]需要說明的是,對本發(fā)明所述網(wǎng)絡(luò)資源的排重方法而言,本領(lǐng)域普通測試人員可以理解實(shí)現(xiàn)本發(fā)明實(shí)施例所述網(wǎng)絡(luò)資源的排重方法的全部或部分流程,是可以通過計算機(jī)程序來控制相關(guān)的硬件來完成,所述計算機(jī)程序可存儲于一計算機(jī)可讀取存儲介質(zhì)中,如存儲在終端的存儲器中,并被該終端內(nèi)的至少一個處理器執(zhí)行,在執(zhí)行過程中可包括如所述網(wǎng)絡(luò)資源的排重方法的實(shí)施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲器(ROM,Read Only Memory)、隨機(jī)存取記憶體(RAM,Random Access Memory)等。
[0176]對本發(fā)明實(shí)施例的所述網(wǎng)絡(luò)資源的排重裝置而言,其各功能模塊可以集成在一個處理芯片中,也可以是各個模塊單獨(dú)物理存在,也可以兩個或兩個以上模塊集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中,所述存儲介質(zhì)譬如為只讀存儲器,磁盤或光盤等。
[0177]以上對本發(fā)明實(shí)施例所提供的一種網(wǎng)絡(luò)資源的排重方法及裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
【主權(quán)項】
1.一種網(wǎng)絡(luò)資源的排重方法,其特征在于,包括: 獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求; 根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象; 獲取所述資源列表中每兩個資源對象之間的相似值; 根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述排除提取的資源對象,包括: 將提取的滿足預(yù)設(shè)條件的資源對象組成排重組合; 基于所述排重組合排除提取的資源對象。3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求之前,還包括: 獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息; 根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。4.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值之后,還包括: 將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較; 若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象; 從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源; 所述根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,具體為:根據(jù)所述搜索請求,基于所述初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。5.根據(jù)權(quán)利要求3所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值之后,還包括: 將所述相似值保存在數(shù)據(jù)庫; 所述獲取所述資源列表中每兩個資源對象之間的相似值,具體為:從所述數(shù)據(jù)庫中獲取所述資源列表中每兩個資源對象之間的相似值。6.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述獲取所述資源列表中每兩個資源對象之間的相似值,具體為: 獲取所述資源列表中各個資源對象的屬性特征信息; 根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。7.根據(jù)權(quán)利要求1至6任一項所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,包括: 將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較; 若所述相似值小于所述第一預(yù)設(shè)閾值,則將相應(yīng)的資源對象組成第一候選集合; 若確定在所述第一候選集合中存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將每兩個資源對象的相似值與第二預(yù)設(shè)閾值進(jìn)行比較; 當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。8.根據(jù)權(quán)利要求7所述的網(wǎng)絡(luò)資源的排重方法,其特征在于,所述根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,還包括: 若確定在所述候選集合中不存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將所述相似值小于所述第二預(yù)設(shè)閾值相應(yīng)的資源對象組成第二候選集合; 在所述第二候選集合中,將每兩個資源對象的相似值與第三預(yù)設(shè)閾值進(jìn)行比較; 當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值。9.一種網(wǎng)絡(luò)資源的排重裝置,其特征在于,包括: 請求獲取模塊,用于獲取關(guān)于網(wǎng)絡(luò)資源的搜索請求; 生成模塊,用于根據(jù)所述搜索請求,基于網(wǎng)絡(luò)資源生成對應(yīng)的資源列表,所述資源列表中包含兩個以上相應(yīng)的資源對象; 相似值獲取模塊,用于獲取所述資源列表中每兩個資源對象之間的相似值; 第一排除模塊,用于根據(jù)所述相似值,提取滿足預(yù)設(shè)條件的資源對象,排除提取的資源對象。10.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述第一排除模塊,包括: 組合單元,用于將提取的滿足預(yù)設(shè)條件的資源對象組成排重組合; 排除單元,用于基于所述排重組合排除提取的資源對象。11.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述裝置還包括: 特征獲取模塊,用于獲取網(wǎng)絡(luò)資源中各個資源對象的屬性特征信息; 計算模塊,用于根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。12.根據(jù)權(quán)利要求11所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述裝置還包括: 比較模塊,用于將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較; 確定模塊,用于若所述相似值大于或者等于所述第一預(yù)設(shè)閾值,則確定相應(yīng)的兩個資源對象為重復(fù)的資源對象; 第二排除模塊,用于從所述重復(fù)的資源對象中排除其中一個資源對象,得到初步排重后的網(wǎng)絡(luò)資源; 則所述生成模塊,具體用于:根據(jù)所述搜索請求,基于所述初步排重后的網(wǎng)絡(luò)資源生成對應(yīng)的資源列表。13.根據(jù)權(quán)利要求11所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述裝置還包括: 存儲模塊,用于將所述相似值保存在數(shù)據(jù)庫; 則所述相似值獲取模塊,具體用于從所述數(shù)據(jù)庫中獲取所述資源列表中每兩個資源對象之間的相似值。14.根據(jù)權(quán)利要求9所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述相似值獲取模塊,具體用于獲取所述資源列表中各個資源對象的屬性特征信息,根據(jù)所述屬性特征信息,計算每兩個資源對象之間的相似值。15.根據(jù)權(quán)利要求9至14任一項所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述第一排除模塊還包括: 第一比較單元,用于將所述相似值與第一預(yù)設(shè)閾值進(jìn)行比較; 第一集合單元,用于若所述相似值小于所述第一預(yù)設(shè)閾值,則將相應(yīng)的資源對象組成第一候選集合; 第二比較單元,用于若確定在所述第一候選集合中存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將每兩個資源對象的相似值與第二預(yù)設(shè)閾值進(jìn)行比較;第一提取單元,用于當(dāng)所述相似值大于或等于所述第二預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。16.根據(jù)權(quán)利要求15所述的網(wǎng)絡(luò)資源的排重裝置,其特征在于,所述第一排除模塊還包括: 第二集合單元,用于若確定在所述候選集合中不存在與所述搜索請求完全匹配的資源對象,則在第一候選集合中,將所述相似值小于所述第二預(yù)設(shè)閾值相應(yīng)的資源對象組成第二候選集合; 第三比較單元,用于在所述第二候選集合中,將每兩個資源對象的相似值與第三預(yù)設(shè)閾值進(jìn)行比較; 第二提取單元,用于當(dāng)所述相似值大于或等于所述第三預(yù)設(shè)閾值時,確定相應(yīng)的兩個資源對象為重復(fù)的資源對象,且將重復(fù)的資源對象中的一個資源對象作為滿足預(yù)設(shè)條件的資源對象并提取,所述第三預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值。
【文檔編號】H04L29/08GK105991312SQ201510054849
【公開日】2016年10月5日
【申請日】2015年1月30日
【發(fā)明人】康戰(zhàn)輝
【申請人】深圳市騰訊計算機(jī)系統(tǒng)有限公司