本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種數(shù)據(jù)處理的方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量數(shù)據(jù)的載體,如何有效地提取并利用這些數(shù)據(jù)成為一個(gè)巨大的挑戰(zhàn)。在海量數(shù)據(jù)中篩選出有效數(shù)據(jù)是有效利用互聯(lián)網(wǎng)數(shù)據(jù)的其中一種實(shí)現(xiàn)方式。
通常,在篩選數(shù)據(jù)時(shí),根據(jù)對(duì)數(shù)據(jù)的實(shí)際需求鎖定數(shù)據(jù)源,該數(shù)據(jù)源通常為網(wǎng)站中的網(wǎng)頁(yè),再通過(guò)爬蟲(chóng)程序?qū)?shù)據(jù)源中的數(shù)據(jù)進(jìn)行爬取,將爬取到的數(shù)據(jù)按照一定的方式存儲(chǔ)在數(shù)據(jù)庫(kù)中備用,當(dāng)需要篩選數(shù)據(jù)時(shí),調(diào)用該數(shù)據(jù)庫(kù)中的數(shù)據(jù)并進(jìn)行篩選,將篩選出的數(shù)據(jù)整理為數(shù)據(jù)報(bào)告的形式,以實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的有效利用。
發(fā)明人在通過(guò)上述方式篩選數(shù)據(jù)時(shí),發(fā)現(xiàn)其存在如下問(wèn)題:在對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行篩選時(shí),需要對(duì)數(shù)據(jù)庫(kù)中的全部數(shù)據(jù)依次進(jìn)行篩選,若該數(shù)據(jù)庫(kù)中的數(shù)據(jù)量較大,則在篩選數(shù)據(jù)過(guò)程中會(huì)占用大量篩選數(shù)據(jù)的時(shí)間,且篩選數(shù)據(jù)的準(zhǔn)確性較低;同時(shí),若基于數(shù)據(jù)庫(kù)在篩選數(shù)據(jù)的過(guò)程中篩選過(guò)程中斷,則需要對(duì)數(shù)據(jù)庫(kù)中的全部數(shù)據(jù)進(jìn)行重新篩選,中斷之前篩選的數(shù)據(jù)無(wú)法保留,導(dǎo)致篩選數(shù)據(jù)時(shí)消耗的時(shí)間過(guò)多。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供的一種數(shù)據(jù)處理的方法及裝置,主要目的在于減少篩選數(shù)據(jù)的占用時(shí)間及提高篩選數(shù)據(jù)的準(zhǔn)確性。
為了解決上述問(wèn)題,本發(fā)明主要提供如下技術(shù)方案:
一方面,本發(fā)明提供了一種數(shù)據(jù)處理的方法,該方法包括:
從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù);其中,所述目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值;
將所述目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi);
響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,以得到篩選后的目標(biāo)數(shù)據(jù);
對(duì)所述篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
另一方面,本發(fā)明還提供一種數(shù)據(jù)的處理裝置,該裝置包括:
提取單元,用于從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù);其中,所述目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值;
緩存單元,用于將所述提取單元提取的所述目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi);
篩選單元,用于響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)所述數(shù)據(jù)屬性值對(duì)所述緩存單元緩存在所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,以得到篩選后的目標(biāo)數(shù)據(jù);
展示單元,用于對(duì)所述篩選單元篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
借由上述技術(shù)方案,本發(fā)明提供的技術(shù)方案至少具有下列優(yōu)點(diǎn):
本發(fā)明提供的數(shù)據(jù)處理的方法及裝置,首先從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),其中該目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值,將提取的目標(biāo)數(shù)據(jù)緩存與預(yù)設(shè)收藏夾內(nèi),響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)目標(biāo)數(shù)據(jù)的數(shù)據(jù)屬性值對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,得到篩選后的目標(biāo)數(shù)據(jù)后,對(duì)篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示;與現(xiàn)有技術(shù)直接從預(yù)置數(shù)據(jù)庫(kù)中對(duì)待篩選數(shù)據(jù)進(jìn)行篩選相比,本發(fā)明能夠?qū)拇幚頂?shù)據(jù)中提取的目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi),以縮小待篩選數(shù)據(jù)的數(shù)據(jù)量,從而減少了篩選目標(biāo)數(shù)據(jù)的占用時(shí)間;同時(shí),由于目標(biāo)數(shù)據(jù)的數(shù)據(jù)量與篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度成反比,即目標(biāo)數(shù)據(jù)的數(shù)據(jù)量越小,篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度越高,而預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)的數(shù)據(jù)量較小,因此,提高了篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說(shuō)明
通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1示出了本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理的方法的流程圖;
圖2示出了本發(fā)明實(shí)施例提供的一種數(shù)據(jù)處理的裝置的組成框圖;
圖3示出了本發(fā)明實(shí)施例提供的另一種數(shù)據(jù)處理的裝置的組成框圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
本發(fā)明實(shí)施例提供一種數(shù)據(jù)處理的方法,如圖1所示,該方法包括:
101、從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)。
本發(fā)明實(shí)施例中,在對(duì)篩選目標(biāo)數(shù)據(jù)之前,首先,獲取互聯(lián)網(wǎng)目標(biāo)網(wǎng)站中對(duì)應(yīng)網(wǎng)頁(yè)的數(shù)據(jù),并將獲取的待處理數(shù)據(jù)存儲(chǔ)到預(yù)置數(shù)據(jù)庫(kù)中,以便從該預(yù)置數(shù)據(jù)庫(kù)中提取目標(biāo)數(shù)據(jù);在獲取互聯(lián)網(wǎng)目標(biāo)網(wǎng)站中對(duì)應(yīng)網(wǎng)頁(yè)的數(shù)據(jù)時(shí),要根據(jù)待處理數(shù)據(jù)的不同類型確定需要獲取哪些網(wǎng)站中對(duì)應(yīng)網(wǎng)頁(yè)的內(nèi)容,待處理數(shù)據(jù)的數(shù)據(jù)類型可以為:經(jīng)濟(jì)類數(shù)據(jù)、視頻類數(shù)據(jù)、科技類數(shù)據(jù)等等。本發(fā)明實(shí)施例對(duì)篩選的數(shù)據(jù)類型、具體的目標(biāo)網(wǎng)站等內(nèi)容不進(jìn)行限定。
通常,待處理數(shù)據(jù)存儲(chǔ)于預(yù)置數(shù)據(jù)庫(kù)中,當(dāng)需要對(duì)預(yù)置數(shù)據(jù)庫(kù)中的待處理數(shù)據(jù)進(jìn)行篩選時(shí),首先從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),其中,所述目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值;所述數(shù)據(jù)屬性值為目標(biāo)數(shù)據(jù)的數(shù)據(jù)種類,例如,目標(biāo)數(shù)據(jù)為汽車類數(shù)據(jù)、軍事類數(shù)據(jù)、科技類數(shù)據(jù)均能夠通過(guò)數(shù)據(jù)屬性信息進(jìn)行區(qū)分。
作為本發(fā)明實(shí)施例的另一種實(shí)現(xiàn)方式,目標(biāo)數(shù)據(jù)中還包含數(shù)據(jù)狀態(tài)標(biāo)識(shí),該數(shù)據(jù)狀態(tài)標(biāo)識(shí)為從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)過(guò)程中出現(xiàn)中斷時(shí),在待處理數(shù)據(jù)對(duì)應(yīng)的中斷節(jié)點(diǎn)處添加的數(shù)據(jù)狀態(tài)標(biāo)識(shí),以便從數(shù)據(jù)狀態(tài)標(biāo)識(shí)出繼續(xù)對(duì)待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),節(jié)省了從待處理中提取目標(biāo)數(shù)據(jù)的時(shí)間,進(jìn)而提高了篩選目標(biāo)數(shù)據(jù)的占用時(shí)間。
在具體實(shí)施本發(fā)明實(shí)施例中,從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)時(shí),基于 預(yù)設(shè)篩選條件從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),所述預(yù)設(shè)篩選條件為人為設(shè)置的篩選條件,在設(shè)置預(yù)設(shè)篩選條件時(shí),需與從目標(biāo)網(wǎng)站獲取待處理數(shù)據(jù)的篩選條件相對(duì)應(yīng),可以設(shè)置預(yù)設(shè)篩選條件與從目標(biāo)網(wǎng)站獲取待處理數(shù)據(jù)篩選條件一致;或者,也可以設(shè)置預(yù)設(shè)篩選條件的篩選范圍小于從目標(biāo)網(wǎng)站獲取待處理數(shù)據(jù)篩選條件對(duì)應(yīng)的篩選范圍。
示例性的,若從目標(biāo)網(wǎng)站獲取待處理數(shù)據(jù)的篩選條件為經(jīng)濟(jì)類數(shù)據(jù),則預(yù)設(shè)篩選條件可以設(shè)置為股票、證券、金融等等;本發(fā)明實(shí)施例對(duì)預(yù)設(shè)篩選條件的設(shè)置不進(jìn)行限定,而是要根據(jù)提取目標(biāo)數(shù)據(jù)的實(shí)際需求對(duì)預(yù)設(shè)篩選條件進(jìn)行設(shè)置。
102、將所述目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi)。
步驟101中的預(yù)置數(shù)據(jù)庫(kù)用于存儲(chǔ)待處理數(shù)據(jù),但是該預(yù)置數(shù)據(jù)庫(kù)中存儲(chǔ)的待處理數(shù)據(jù)的類型較多,覆蓋范圍較廣,因此,為了能夠減小預(yù)置數(shù)據(jù)庫(kù)中的待處理數(shù)據(jù)的覆蓋范圍,提供篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確性,將提取后的目標(biāo)數(shù)據(jù)緩存到預(yù)設(shè)收藏夾內(nèi),其中,該預(yù)設(shè)收藏夾用于存儲(chǔ)目標(biāo)數(shù)據(jù),且所述預(yù)置數(shù)據(jù)庫(kù)的待處理數(shù)據(jù)的數(shù)據(jù)量少于所述預(yù)設(shè)收藏夾內(nèi)目標(biāo)數(shù)據(jù)的數(shù)據(jù)量。
103、響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選。
篩選數(shù)據(jù)指令用于從預(yù)設(shè)收藏夾內(nèi)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選,在對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選時(shí)根據(jù)數(shù)據(jù)屬性值對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選。根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選其目的在于,預(yù)設(shè)收藏夾內(nèi)目標(biāo)數(shù)據(jù)的數(shù)據(jù)量比預(yù)置數(shù)據(jù)庫(kù)中待處理數(shù)據(jù)的數(shù)據(jù)量小,能夠節(jié)省篩選目標(biāo)數(shù)據(jù)的占用時(shí)間;其次,當(dāng)對(duì)篩選目標(biāo)數(shù)據(jù)的結(jié)果不滿意時(shí),可以從預(yù)設(shè)收藏夾內(nèi)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選,其預(yù)設(shè)收藏夾內(nèi)的數(shù)據(jù)量小,能夠提升篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
104、對(duì)所述篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
將篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示,以便對(duì)篩選后的目標(biāo)數(shù)據(jù)進(jìn)行查看、使用。
作為本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式,在展示篩選后的目標(biāo)數(shù)據(jù)時(shí),將篩選后的目標(biāo)數(shù)據(jù)進(jìn)行分類,以類別的形式輸出顯示目標(biāo)數(shù)據(jù);作為本發(fā) 明實(shí)施例的另一種實(shí)現(xiàn)方式,將篩選后的目標(biāo)數(shù)據(jù)進(jìn)行歸總,輸出顯示歸總后的目標(biāo)數(shù)據(jù)。本發(fā)明實(shí)施例對(duì)展示篩選后的目標(biāo)數(shù)據(jù)的具體形式不進(jìn)行限定。
本發(fā)明實(shí)施例提供的數(shù)據(jù)處理的方法,首先從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),其中該目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值,將提取的目標(biāo)數(shù)據(jù)緩存與預(yù)設(shè)收藏夾內(nèi),響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)目標(biāo)數(shù)據(jù)的數(shù)據(jù)屬性值對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,得到篩選后的目標(biāo)數(shù)據(jù)后,對(duì)篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
具體地,與現(xiàn)有技術(shù)直接從預(yù)置數(shù)據(jù)庫(kù)中對(duì)待篩選數(shù)據(jù)進(jìn)行篩選相比,本發(fā)明實(shí)施例能夠?qū)拇幚頂?shù)據(jù)中提取的目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi),以縮小待篩選數(shù)據(jù)的數(shù)據(jù)量,從而減少了篩選目標(biāo)數(shù)據(jù)的占用時(shí)間;同時(shí),由于目標(biāo)數(shù)據(jù)的數(shù)據(jù)量與篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度成反比,即目標(biāo)數(shù)據(jù)的數(shù)據(jù)量越小,篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度越高,而預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)的數(shù)據(jù)量較小,因此,提高了篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
需要說(shuō)明的是,本發(fā)明所提供的步驟103可以直接利用目標(biāo)數(shù)據(jù)中的數(shù)據(jù)屬性值進(jìn)行第一次篩選;也可以在該第一次篩選之后,再利用該目標(biāo)數(shù)據(jù)的屬性值確定目標(biāo)網(wǎng)站的影響力,進(jìn)而再根據(jù)該目標(biāo)網(wǎng)站的影響力對(duì)該目標(biāo)數(shù)據(jù)進(jìn)行第二次篩選;顯然本方案也可以先通過(guò)目標(biāo)數(shù)據(jù)的屬性值確定目標(biāo)網(wǎng)站影響力,然后再利用所確定出的目標(biāo)網(wǎng)站的影響力來(lái)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選,對(duì)此本發(fā)明不做任何限定。
進(jìn)一步的,作為對(duì)上述實(shí)施例的細(xì)化和擴(kuò)展,在執(zhí)行上述步驟103根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選時(shí),可以采用如下方式:
首先,根據(jù)目標(biāo)數(shù)據(jù)的數(shù)據(jù)屬性值獲取目標(biāo)網(wǎng)站的網(wǎng)站影響力;然后,利用該網(wǎng)站影響力對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí);最后,根據(jù)該分類標(biāo)識(shí)對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選;其中,目標(biāo)網(wǎng)站為本發(fā)明實(shí)施例中所述目標(biāo)數(shù)據(jù)的數(shù)據(jù)源;即該目標(biāo)數(shù)據(jù)從該目標(biāo)網(wǎng)站中獲得,網(wǎng)站影響力根據(jù)目標(biāo)網(wǎng)站歸屬地標(biāo)識(shí)、目標(biāo)網(wǎng)站排名及對(duì)目標(biāo)網(wǎng)站的關(guān)注度構(gòu)成,所述主流媒體預(yù)設(shè)關(guān)注度由預(yù)設(shè)網(wǎng)站訪問(wèn)量與預(yù)設(shè)網(wǎng)站訪問(wèn)排名確定。
作為本發(fā)明實(shí)施例的一種實(shí)現(xiàn)方式,將預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)按照 分類標(biāo)識(shí)進(jìn)行存儲(chǔ);或者,作為本發(fā)明實(shí)施例的另一種實(shí)現(xiàn)方式,僅根據(jù)網(wǎng)站影響力對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí),而不以分類標(biāo)識(shí)進(jìn)行存儲(chǔ),但是在輸出顯示待篩選數(shù)據(jù)時(shí),按照分類標(biāo)識(shí)進(jìn)行顯示。
為了更加清楚的說(shuō)明根據(jù)目標(biāo)網(wǎng)站的網(wǎng)站影響力對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí),以下將以示例的形式進(jìn)行說(shuō)明。
示例性的,如表1所示,表1示出了本發(fā)明實(shí)施例提供的預(yù)設(shè)收藏夾存儲(chǔ)目標(biāo)數(shù)據(jù)的示意圖。表1中所示的數(shù)據(jù)源為目標(biāo)網(wǎng)站的網(wǎng)址,其對(duì)應(yīng)的網(wǎng)站影響力依次減弱,因此,在輸出顯示目標(biāo)數(shù)據(jù)時(shí),可以基于網(wǎng)站影響力的大小進(jìn)行顯示。表1僅為示例性的舉例,本發(fā)明實(shí)施例對(duì)預(yù)設(shè)收藏夾存儲(chǔ)目標(biāo)數(shù)據(jù)的具體形式不進(jìn)行限定。
表1
需要說(shuō)明的是,在根據(jù)網(wǎng)站影響力對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí)時(shí),網(wǎng)站影響力越大,其權(quán)威性越高,說(shuō)明從該網(wǎng)站內(nèi)獲取的目標(biāo)數(shù)據(jù)越具有代表性,該目標(biāo)數(shù)據(jù)的利用價(jià)值越大;網(wǎng)站影響力越小的,其權(quán)威性越低,說(shuō)明從網(wǎng)站內(nèi)獲取的目標(biāo)數(shù)據(jù)的利用價(jià)值越小。
本發(fā)明實(shí)施例中,對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí),其目的在于能夠更加準(zhǔn)確的對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選,基于分類標(biāo)識(shí)對(duì)目標(biāo)數(shù)據(jù)進(jìn)行標(biāo)識(shí),標(biāo)識(shí)目標(biāo)數(shù)據(jù)的重要程度、標(biāo)識(shí)目標(biāo)數(shù)據(jù)的數(shù)據(jù)類別等等。以便在輸出顯示篩選后的目標(biāo)數(shù)據(jù)時(shí)根據(jù)分類標(biāo)識(shí)顯示。
在實(shí)際應(yīng)用中,在對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí)時(shí),也可以基于用戶的經(jīng)驗(yàn),對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí),分類標(biāo)識(shí)時(shí)可以包含但不局限于以下內(nèi)容,例如:重要、較重要、可刪除等等,但是基于該種方式對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí)時(shí),依賴于用戶的經(jīng)驗(yàn),由于,用戶的經(jīng)驗(yàn)存在差異,造成在對(duì)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行 分類標(biāo)識(shí)也出現(xiàn)差異;具體的,本發(fā)明實(shí)施例對(duì)此不進(jìn)行限定。
進(jìn)一步的,在預(yù)設(shè)收藏夾對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選的過(guò)程中,若出現(xiàn)中斷,則在該中斷對(duì)應(yīng)的中斷節(jié)點(diǎn)處添加數(shù)據(jù)狀態(tài)標(biāo)識(shí),以便根據(jù)數(shù)據(jù)狀態(tài)標(biāo)識(shí)繼續(xù)對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選。
例如,當(dāng)預(yù)設(shè)收藏夾內(nèi)存儲(chǔ)目標(biāo)數(shù)據(jù)通常為順序存儲(chǔ)時(shí),可以在中斷節(jié)點(diǎn)處添加數(shù)據(jù)狀態(tài)標(biāo)識(shí)之后,當(dāng)根據(jù)數(shù)據(jù)屬性值對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選之前,可以首先檢測(cè)該預(yù)設(shè)收藏夾內(nèi)是否存在數(shù)據(jù)狀態(tài)標(biāo)識(shí),若存在數(shù)據(jù)狀態(tài)標(biāo)識(shí),則從該數(shù)據(jù)狀態(tài)標(biāo)識(shí)開(kāi)始繼續(xù)對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,而不是從預(yù)設(shè)收藏夾的開(kāi)始位置對(duì)目標(biāo)數(shù)據(jù)重新篩選,節(jié)省了篩選目標(biāo)數(shù)據(jù)占用的時(shí)間;若預(yù)設(shè)收藏夾內(nèi)未存在數(shù)據(jù)狀態(tài)標(biāo)識(shí),則可以從預(yù)設(shè)收藏夾的開(kāi)始位置對(duì)目標(biāo)數(shù)據(jù)進(jìn)行篩選。
進(jìn)一步的,在對(duì)所述篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示時(shí),按照所述分類標(biāo)識(shí)展示篩選后的目標(biāo)數(shù)據(jù),以便用戶根據(jù)分類標(biāo)識(shí)對(duì)篩選后的目標(biāo)數(shù)據(jù)進(jìn)行有效利用。
進(jìn)一步的,在從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)之前,基于爬蟲(chóng)程序從目標(biāo)網(wǎng)站獲取待處理數(shù)據(jù),并將獲取的待處理數(shù)據(jù)存儲(chǔ)于預(yù)置數(shù)據(jù)庫(kù)中,以備從預(yù)置數(shù)據(jù)庫(kù)中的待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)。本發(fā)明實(shí)施例中,在基于爬蟲(chóng)程序從目標(biāo)網(wǎng)站中獲取待處理數(shù)據(jù)時(shí),可以通過(guò)但不局限于以下的方式實(shí)現(xiàn),例如:爬蟲(chóng)程序按照深度優(yōu)先的方式從目標(biāo)網(wǎng)站中獲取待處理數(shù)據(jù);或者,爬蟲(chóng)程序按照廣度優(yōu)先或者最佳優(yōu)先的方式從目標(biāo)網(wǎng)站中獲取待處理數(shù)據(jù)。本發(fā)明實(shí)施例對(duì)爬蟲(chóng)程序從目標(biāo)網(wǎng)站中獲取待處理數(shù)據(jù)的具體實(shí)現(xiàn)方式不進(jìn)行限定。
進(jìn)一步的,作為對(duì)上述圖1所示方法的實(shí)現(xiàn),本發(fā)明另一實(shí)施例還提供了一種數(shù)據(jù)處理的,該裝置實(shí)施例與前述方法實(shí)施例對(duì)應(yīng),為便于閱讀,本裝置實(shí)施例不再對(duì)前述方法實(shí)施例中的細(xì)節(jié)內(nèi)容進(jìn)行逐一贅述,但應(yīng)當(dāng)明確,本實(shí)施例中的裝置能夠?qū)?yīng)實(shí)現(xiàn)前述方法實(shí)施例中的全部?jī)?nèi)容。本發(fā)明實(shí)施例提供一種數(shù)據(jù)處理的裝置,如圖2所示,該裝置包括:
提取單元21,用于從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù);其中,所述目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值;
緩存單元22,用于將所述提取單元21提取的所述目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè) 收藏夾內(nèi);
篩選單元23,用于響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)所述數(shù)據(jù)屬性值對(duì)所述緩存單元22緩存在所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,以得到篩選后的目標(biāo)數(shù)據(jù);
展示單元24,用于對(duì)所述篩選單元23篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
進(jìn)一步的,如圖3所示,所述篩選單元23,包括:
獲取模塊231,用于根據(jù)所述數(shù)據(jù)屬性值,獲取目標(biāo)網(wǎng)站的網(wǎng)站影響力;其中,所述目標(biāo)網(wǎng)站為所述目標(biāo)數(shù)據(jù)的源網(wǎng)站,所述網(wǎng)站影響力根據(jù)目標(biāo)網(wǎng)站歸屬地標(biāo)識(shí)、目標(biāo)網(wǎng)站排名及對(duì)目標(biāo)網(wǎng)站的關(guān)注度確定;
分類模塊232,用于利用所述獲取模塊231獲取的所述網(wǎng)站影響力,對(duì)所述預(yù)設(shè)收藏夾內(nèi)的所述目標(biāo)數(shù)據(jù)進(jìn)行分類標(biāo)識(shí);
篩選模塊233,用于根據(jù)所述分類模塊232的所述分類標(biāo)識(shí)對(duì)所述預(yù)設(shè)收藏夾內(nèi)的所述目標(biāo)數(shù)據(jù)進(jìn)行篩選。
進(jìn)一步的,如圖3所示,所述篩選單元23還包括:
添加模塊234,用于當(dāng)在根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選過(guò)程中出現(xiàn)中斷時(shí),在所述中斷對(duì)應(yīng)的中斷節(jié)點(diǎn)處添加數(shù)據(jù)狀態(tài)標(biāo)識(shí),以便根據(jù)所述數(shù)據(jù)狀態(tài)標(biāo)識(shí)繼續(xù)對(duì)所述預(yù)設(shè)收藏夾內(nèi)所述目標(biāo)數(shù)據(jù)進(jìn)行篩選。
進(jìn)一步的,如圖3所示,所述展示單元24,還用于按照所述篩選單元23中的目標(biāo)數(shù)據(jù)的分類標(biāo)識(shí)展示所述篩選后的目標(biāo)數(shù)據(jù)。
進(jìn)一步的,如圖3所示,所述裝置還包括:
獲取單元25,用于在所述提取單元21從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù)之前,基于爬蟲(chóng)程序獲取所述待處理數(shù)據(jù);
存儲(chǔ)單元26,用于在所述獲取單元25獲取所述待處理數(shù)據(jù)之后,將所述待處理數(shù)據(jù)存儲(chǔ)于預(yù)置數(shù)據(jù)庫(kù)中。
本發(fā)明實(shí)施例提供的數(shù)據(jù)處理的裝置,首先從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù),其中該目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值,將提取的目標(biāo)數(shù)據(jù)緩存與預(yù)設(shè)收 藏夾內(nèi),響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)目標(biāo)數(shù)據(jù)的數(shù)據(jù)屬性值對(duì)預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,得到篩選后的目標(biāo)數(shù)據(jù)后,對(duì)篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示;與現(xiàn)有技術(shù)直接從預(yù)置數(shù)據(jù)庫(kù)中對(duì)待篩選數(shù)據(jù)進(jìn)行篩選相比,本發(fā)明實(shí)施例能夠?qū)拇幚頂?shù)據(jù)中提取的目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi),以縮小待篩選數(shù)據(jù)的數(shù)據(jù)量,從而減少了篩選目標(biāo)數(shù)據(jù)的占用時(shí)間;同時(shí),由于目標(biāo)數(shù)據(jù)的數(shù)據(jù)量與篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度成反比,即目標(biāo)數(shù)據(jù)的數(shù)據(jù)量越小,篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確度越高,而預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)的數(shù)據(jù)量較小,因此,提高了篩選目標(biāo)數(shù)據(jù)的準(zhǔn)確性。
所述數(shù)據(jù)處理的裝置包括處理器和存儲(chǔ)器,上述提取單元、緩存單元、篩選單元和展示單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)減少篩選數(shù)據(jù)的占用時(shí)間及提高篩選數(shù)據(jù)的準(zhǔn)確性。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:從待處理數(shù)據(jù)中提取目標(biāo)數(shù)據(jù);其中,所述目標(biāo)數(shù)據(jù)包含數(shù)據(jù)屬性值;將所述目標(biāo)數(shù)據(jù)緩存于預(yù)設(shè)收藏夾內(nèi);響應(yīng)于篩選數(shù)據(jù)指令,根據(jù)所述數(shù)據(jù)屬性值對(duì)所述預(yù)設(shè)收藏夾內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行篩選,以得到篩選后的目標(biāo)數(shù)據(jù);對(duì)所述篩選后的目標(biāo)數(shù)據(jù)進(jìn)行展示。
在本發(fā)明的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施 例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(ROM)或閃存(flash RAM)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。
計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、其他類型的隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤(pán)只讀存儲(chǔ)器(CD-ROM)、數(shù)字多功能光盤(pán)(DVD)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤(pán)存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號(hào)和載波。
還需要說(shuō)明的是,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、商品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括要素的過(guò)程、方法、商品或者設(shè)備中還存在另外的相同要素。
本領(lǐng)域技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。